Please use this identifier to cite or link to this item:
doi:10.22028/D291-43380
Title: | Machine learning solutions for high dynamic range video processing and image quality evaluation |
Author(s): | Çoğalan, Uğur |
Language: | English |
Year of Publication: | 2024 |
DDC notations: | 500 Science |
Publikation type: | Dissertation |
Abstract: | Conventional imaging sensors notoriously fall short in capturing real-world scenes by clamping image details in dark and bright scene regions. Longer exposures improve dark region depiction but often result in excessive blur for hand-held cameras, which is further aggravated for highly dynamic scenes. Conversely, shorter exposures reduce blur but at the expense of noisy images. In practice, it is often impossible to strike a balance between all those factors, and even for advanced computational photography techniques that today employ machine learning image enhancement techniques, it is difficult to obtain satisfactory, most importantly, veridical, non-hallucinated depiction.
Multi-exposure sensors enable different exposures for neighboring pixels, where such exposures can be freely adapted to the dynamic range of the captured scene. In this thesis, we observe that multi-exposure sensors enable the development of more robust learning-based techniques for denoising and motion blur removal because less noisy and less blurred neighboring reference pixels are readily available due to their different exposure. At the same time, filling gaps in the spatial domain for such differently exposed neighboring pixels is a trivial super-resolution task so that full-resolution differently exposed images can be reconstructed from a single multi-exposure shot. This, in turn, enables merging such exposures into a high-dynamic range (HDR) image. In the context of video, we demonstrate that motion blur in longer exposed pixels provides important information to improve the quality of optical flow computation, where even complex non-linear motion between two captured frames can be reconstructed. This enables high-quality video frame interpolation (VFI) to produce high-framerate videos that can be played in slow-motion mode, where HDR scenes can also be handled for the first time. Overall, our work demonstrates that alternative sensor designs, such as multi-exposure sensors, can often be better aligned with the strengths of machine-learning solutions, where additional information provided by such sensors simplifies more complex tasks such as HDR image reconstruction and VFI. In contrast, deficits of such sensors in terms of spatial resolution are easy to compensate for. Perceptually meaningful image quality evaluation is an important aspect of computational imaging that warrants continuous progress. In this thesis, rather than devising a novel image quality metric, we seek to develop a coherent methodology to improve traditional metrics like PSNR and SSIM, as well as more recent learning-based LPIPS and DISTS. We achieve this by considering visual masking, an important characteristic of the human visual system that changes its sensitivity to distortions as a function of local image content. Our approach results in enhanced metrics that are more in line with human prediction both visually and quantitatively. Herkömmliche Bildsensoren sind bei der Erfassung realer Szenen bekanntermaßen unzureichend, da sie Bilddetails in dunklen und hellen Szenenbereichen festhalten. Längere Belichtungszeiten verbessern die Darstellung dunkler Bereiche, führen jedoch bei Handkameras häufig zu übermäßiger Unschärfe, die sich bei hochdynamischen Szenen noch verschlimmert. Umgekehrt reduzieren kürzere Belichtungszeiten die Unschärfe, allerdings auf Kosten verrauschter Bilder. In der Praxis ist es oft unmöglich, ein Gleichgewicht zwischen all diesen Faktoren zu finden, und selbst für fortgeschrittene Computerfotografietechniken, die heute Bildverbesserungstechniken des maschinellen Lernens nutzen, ist es schwierig, eine zufriedenstellende, vor allem wahrheitsgetreue, nicht halluzinierte Darstellung zu erhalten. Mehrfachbelichtungssensoren ermöglichen unterschiedliche Belichtungen für benachbarte Pixel, wobei diese Belichtungen frei an den Dynamikbereich der aufgenommenen Szene angepasst werden können. In dieser Arbeit beobachten wir, dass Mehrfachbelichtungssensoren die Entwicklung robusterer lernbasierter Techniken zur Rauschunterdrückung und Entfernung von Bewegungsunschärfe ermöglichen, da weniger verrauschte und weniger unscharfe benachbarte Referenzpixel aufgrund ihrer unterschiedlichen Belichtung leicht verfügbar sind. Gleichzeitig ist das Füllen von Lücken im räumlichen Bereich für solche unterschiedlich belichteten benachbarten Pixel eine triviale Superauflösungsaufgabe, sodass unterschiedlich belichtete Bilder in voller Auflösung aus einer einzigen Mehrfachbelichtungsaufnahme rekonstruiert werden können. Dies wiederum ermöglicht die Zusammenführung solcher Aufnahmen zu einem High-Dynamic-Range-Bild (HDR). Im Zusammenhang mit Videos zeigen wir, dass Bewegungsunschärfe in länger belichteten Pixeln wichtige Informationen zur Verbesserung der Qualität der Berechnung des optischen Flusses liefert, bei der sogar komplexe nichtlineare Bewegungen zwischen zwei erfassten Bildern rekonstruiert werden können. Dies ermöglicht die hochwertige Video-Frame-Interpolation (VFI), um Videos mit hoher Bildrate zu produzieren, die im Zeitlupenmodus abgespielt werden können, wobei erstmals auch HDR-Szenen verarbeitet werden können. Insgesamt zeigt unsere Arbeit, dass alternative Sensordesigns, wie z. B. Mehrfachbelichtungssensoren, oft besser auf die Stärken von Lösungen für maschinelles Lernen abgestimmt werden können, bei denen zusätzliche Informationen, die von solchen Sensoren bereitgestellt werden, komplexere Aufgaben wie HDR-Bildrekonstruktion und VFI vereinfachen. Defizite solcher Sensoren in der Ortsauflösung lassen sich dagegen leicht ausgleichen. Die wahrnehmungsbezogen aussagekräftige Bewertung der Bildqualität ist ein wichtiger Aspekt der computergestützten Bildgebung, der kontinuierliche Fortschritte erfordert. In dieser Dissertation wollen wir keine neuartige Bildqualitätsmetrik entwickeln, sondern eine kohärente Methodik entwickeln, um traditionelle Metriken wie PSNR und SSIM sowie neuere lernbasierte LPIPS und DISTS zu verbessern. Dies erreichen wir durch die Berücksichtigung der visuellen Maskierung, einer wichtigen Eigenschaft des menschlichen visuellen Systems, die ihre Empfindlichkeit gegenüber Verzerrungen in Abhängigkeit vom lokalen Bildinhalt ändert. Unser Ansatz führt zu verbesserten Metriken, die sowohl visuell als auch quantitativ besser mit den menschlichen Vorhersagen übereinstimmen. |
Link to this record: | urn:nbn:de:bsz:291--ds-433804 hdl:20.500.11880/39031 http://dx.doi.org/10.22028/D291-43380 |
Advisor: | Myszkowski, Karol |
Date of oral examination: | 21-Oct-2024 |
Date of registration: | 26-Nov-2024 |
Faculty: | MI - Fakultät für Mathematik und Informatik |
Department: | MI - Informatik |
Professorship: | MI - Keiner Professur zugeordnet |
Collections: | SciDok - Der Wissenschaftsserver der Universität des Saarlandes |
Files for this record:
File | Description | Size | Format | |
---|---|---|---|---|
thesis.pdf | Thesis | 171,26 MB | Adobe PDF | View/Open |
This item is licensed under a Creative Commons License