Please use this identifier to cite or link to this item: doi:10.22028/D291-41850
Title: Physically plausible 3D human motion capture and synthesis with interactions
Author(s): Shimada, Soshi
Language: English
Year of Publication: 2024
DDC notations: 004 Computer science, internet
600 Technology
Publikation type: Dissertation
Abstract: Modelling 3D human motion is highly important in numerous applications, including AR/VR, human-robot interaction, gaming, and character animations. To develop such applications, plausible 3D human motions need to be captured from sensing devices or synthesised based on the motion model definition. Obtaining 3D human motion from a single RGB camera is one of the ideal setups for motion capture due to its flexibility in the recording locations and the subject's clothes, and cost-effectiveness, unlike heavy setups such as marker-based or marker-less multi-view motion capture systems. However, capturing the 3D motions only from a monocular camera is a highly ill-posed problem, which can result in the implausible reconstruction of the motions (\eg\ jitter, foot-skating, unnatural body leaning and inaccurate 3D localisations). The problem becomes more challenging when considering interactions with environments and surface deformations; The human body's occlusions and the lack of modelling for the interactions and deformations often lead to physically implausible collisions. Therefore, the captured motions often require costly and time-consuming manual post-processing by experts before integration into industry products. Another major approach for obtaining 3D human motions is through the use of motion synthesis methods. While many learning-based 3D motion synthesis works have been proposed — including those that can consider hand-hand and/or hand-object interactions — they often lack realism. Many synthesis methods consider the shape and semantics of the interacting object/environment. However, one crucial aspect missing from current methods is the consideration of physical quantities. For example, in our daily lives, our behaviour can be significantly influenced by the physical properties of objects, such as their mass. No prior works have explicitly addressed this factor when synthesising 3D motions. This thesis addresses the aforementioned problems for motion capture with a monocular RGB camera and motion synthesis considering a physics quantity. First, a monocular video-based MoCap method with the explicit integration of rigid body dynamics modelling is proposed, mitigating the artefacts typically observable in the existing kinematics-based MoCap methods. To introduce the power of learned physics prior, the fully learning physics-based MoCap method is proposed next. It highly improves the 3D accuracies while suppressing the artefacts in the reconstructed motions thanks to the network components trained with explicit physics modelling. Third, MoCap with interactions in a complex scene such as indoors with occluding objects is addressed. By modelling the whole-body contact with the environment and introducing a novel collision handling component, the plausibility of interactions in the captured motion is greatly improved compared with the prior works. Moreover, this thesis presents the first method that captures not only the hand and face motions but also the deformations arising from their interactions, which is of high importance for various Graphics applications that require immersive experiences. Furthermore, a novel 3D motion synthesis method is proposed next. This method generates 3D object manipulations with hands that exhibit realistic motions and interactions, plausibly adapting to the conditioning object's mass. Additionally, the method can optionally take a user-provided object trajectory as input and synthesise natural object manipulations influenced by the object's mass, offering a potential for substantial contributions to computer graphics applications. Lastly, the insights collected in this thesis and the outlook of the human motion capture and synthesis research are discussed. The introduced methods in this thesis serve as milestones toward democratising the realistic low-cost human motion capture that replaces the aforementioned heavy motion capture setups and toward the widespread use of learning-based motion synthesis methods in industrial applications that require high motion realism.
Die Modellierung menschlicher 3D-Bewegungen ist für zahlreiche Anwendungen von großer Bedeutung, darunter AR/VR, Mensch-Roboter-Interaktion, Spiele und Charakteranimationen. Um solche Anwendungen zu entwickeln, müssen plausible menschliche 3D-Bewegungen von Erfassungsgeräten erfasst oder auf der Grundlage der Definition des Bewegungsmodells synthetisiert werden. Die Erfassung menschlicher 3D-Bewegungen mit einer einzigen RGB-Kamera ist eines der idealen Setups für die Bewegungserfassung, da es flexibel in Bezug auf die Aufnahmeorte und die Kleidung des Probanden ist und kostengünstig, im Gegensatz zu schweren Setups wie markerbasierten oder markerlosen Multi-View-Bewegungserfassungssystemen. Die Erfassung der 3D-Bewegungen nur mit einer monokularen Kamera ist jedoch ein äußerst ungünstiges Problem, das zu einer unplausiblen Rekonstruktion der Bewegungen führen kann (Zittern, Fußbewegungen, unnatürliche Körperneigung und ungenaue 3D-Lokalisierung). Das Problem wird noch schwieriger, wenn Interaktionen mit der Umgebung und Oberflächenverformungen berücksichtigt werden. Die Verdeckung des menschlichen Körpers und die fehlende Modellierung der Interaktionen und Verformungen führen oft zu physikalisch unplausiblen Kollisionen. Aus diesem Grund müssen die erfassten Bewegungen vor der Integration in Industrieprodukte oft kosten- und zeitaufwändig manuell von Experten nachbearbeitet werden. Ein weiterer wichtiger Ansatz zur Gewinnung menschlicher 3D Bewegungen ist die Verwendung von Bewegungssynthesemethoden. Obwohl viele lernbasierte 3D-Bewegungssynthesemethoden vorgeschlagen wurden - einschließlich solcher, die Hand-Hand- und/oder Hand-Objekt-Interaktionen berücksichtigen können - mangelt es ihnen oft an Realismus. Viele Synthesemethoden berücksichtigen die Form und die Semantik des interagierenden Objekts/Umfelds. Ein entscheidender Aspekt, der bei den derzeitigen Methoden fehlt, ist jedoch die Berücksichtigung physikalischer Größen. In unserem täglichen Leben kann unser Verhalten beispielsweise erheblich von den physikalischen Eigenschaften von Objekten, wie ihrer Masse, beeinflusst werden. Bisherige Arbeiten haben diesen Faktor bei der Synthese von 3D-Bewegungen nicht explizit berücksichtigt. Diese Arbeit befasst sich mit den oben genannten Problemen bei der Bewegungserfassung mit einer monokularen RGB-Kamera und der Bewegungssynthese unter Berücksichtigung eines physikalischen Bewegungsmodells. Zunächst wird eine monokulare videobasierte MoCap-Methode mit der expliziten Integration der Starrkörperdynamikmodellierung vorgeschlagen, die die Artefakte, die typischerweise bei den bestehenden kinematikbasierten MoCap-Methoden zu beobachten sind, abmildert. Um die Leistungsfähigkeit der erlernten Physikpriorität einzuführen, wird als nächstes die vollständig lernende, physikbasierte MoCap-Methode vorgeschlagen. Sie verbessert die 3D-Genauigkeit erheblich und unterdrückt gleichzeitig die Artefakte in den rekonstruierten Bewegungen dank der mit expliziter Physikmodellierung trainierten Netzwerkkomponenten. Drittens wird MoCap mit Interaktionen in einer komplexen Szene, z. B. in Innenräumen mit verdeckten Objekten, behandelt. Durch die Modellierung des Kontakts des Koerpers mit der Umgebung und die Einführung einer neuartigen Komponente zur Kollisionsbehandlung wird die Plausibilität der Interaktionen in der erfassten Bewegung im Vergleich zu früheren Arbeiten erheblich verbessert. Darüber hinaus wird in dieser Arbeit die erste Methode vorgestellt, die nicht nur die Hand- und Gesichtsbewegungen, sondern auch die aus ihren Interaktionen resultierenden Verformungen erfasst, was für verschiedene Grafikanwendungen, die immersive Erfahrungen erfordern, von großer Bedeutung ist. Außerdem wird eine neuartige 3D-Bewegungssynthesemethode vorgeschlagen. Diese Methode erzeugt 3D-Objektmanipulationen mit Händen, die realistische Bewegungen und Interaktionen aufweisen und sich plausibel an die Masse des konditionierten Objekts anpassen. Darüber hinaus kann die Methode optional eine vom Benutzer bereitgestellte Objekttrajektorie als Eingabe verwenden und natürliche Objektmanipulationen synthetisieren, die von der Masse des Objekts beeinflusst werden, was einen wesentlichen Beitrag zu Computergrafikanwendungen leisten könnte. Abschließend werden die in dieser Arbeit gewonnenen Erkenntnisse und der Ausblick eventuell weitere offene Forschungsfragen im Bereich der menschlichen Bewegungserfassung und -synthese diskutiert. Die in dieser Arbeit vorgestellten Methoden dienen als Meilensteine auf dem Weg zur Demokratisierung der realistischen und kostengünstigen Erfassung menschlicher Bewegungen, die die oben erwähnten schwerfälligen Bewegungserfassungssysteme ersetzen, und auf dem Weg zum weit verbreiteten Einsatz von lernbasierten Bewegungssynthesemethoden in industriellen Anwendungen, die einen hohen Bewegungsrealismus erfordern.
Link to this record: urn:nbn:de:bsz:291--ds-418503
hdl:20.500.11880/37475
http://dx.doi.org/10.22028/D291-41850
Advisor: Theobalt, Christian
Date of oral examination: 4-Apr-2024
Date of registration: 12-Apr-2024
Faculty: MI - Fakultät für Mathematik und Informatik
Department: MI - Informatik
Professorship: MI - Prof. Dr. Christian Theobalt
Collections:SciDok - Der Wissenschaftsserver der Universität des Saarlandes

Files for this record:
File Description SizeFormat 
Dissertation.pdf48,37 MBAdobe PDFView/Open


Items in SciDok are protected by copyright, with all rights reserved, unless otherwise indicated.