• search hit 1 of 1
Back to Result List

Toward context-based text-to-3D scene generation

  • People can describe spatial scenes with language and, vice versa, create images based on linguistic descriptions. However, current systems do not even come close to matching the complexity of humans when it comes to reconstructing a scene from a given text. Even the ever-advancing development of better and better Transformer-based models has not been able to achieve this so far. This task, the automatic generation of a 3D scene based on an input text, is called text-to-3D scene generation. The key challenge, and focus of this dissertation, now relate to the following topics: (a) Analyses of how well current language models understand spatial information, how static embeddings compare, and whether they can be improved by anaphora resolution. (b) Automated resource generation for context expansion and grounding that can help in the creation of realistic scenes. (c) Creation of a VR-based text-to-3D scene system that can be used as an annotation and active-learning environment, but can also be easily extended in a modular way with additional features to solve more contexts in the future. (d) Analyze existing practices and tools for digital and virtual teaching, learning, and collaboration, as well as the conditions and strategies in the context of VR. In the first part of this work, we could show that static word embeddings do not benefit significantly from pronoun substitution. We explain this result by the loss of contextual information, the reduction in the relative occurrence of rare words, and the absence of pronouns to be substituted. But we were able to we have shown that both static and contextualizing language models appear to encode object knowledge, but require a sophisticated apparatus to retrieve it. The models themselves in combination with the measures differ greatly in terms of the amount of knowledge they allow to extract. Classifier-based variants perform significantly better than the unsupervised methods from bias research, but this is also due to overfitting. The resources generated for this evaluation are later also an important component of point three. In the second part, we present AffordanceUPT, a modularization of UPT trained on the HICO-DET dataset, which we have extended with Gibsonien/telic annotations. We then show that AffordanceUPT can effectively make the Gibsonian/telic distinction and that the model learns other correlations in the data to make such distinctions (e.g., the presence of hands in the image) that have important implications for grounding images to language. The third part first presents a VR project to support spatial annotation respectively IsoSpace. The direct spatial visualization and the immediate interaction with the 3D objects should make the labeling more intuitive and thus easier. The project will later be incorporated as part of the Semantic Scene Builder (SeSB). The project itself in turn relies on the Text2SceneVR presented here for generating spatial hypertext, which in turn is based on the VAnnotatoR. Finally, we introduce Semantic Scene Builder (SeSB), a VR-based text-to-3D scene framework using Semantic Annotation Framework (SemAF) as a scheme for annotating semantic relations. It integrates a wide range of tools and resources by utilizing SemAF and UIMA as a unified data structure to generate 3D scenes from textual descriptions and also supports annotations. When evaluating SeSB against another state-of-the-art tool, it was found that our approach not only performed better, but also allowed us to model a wider variety of scenes. The final part reviews existing practices and tools for digital and virtual teaching, learning, and collaboration, as well as the conditions and strategies needed to make the most of technological opportunities in the future.
  • Menschen können räumliche Szenen mit Sprache beschreiben und umgekehrt Bilder auf der Grundlage von sprachlichen Beschreibungen erzeugen. Aktuelle Systeme kommen jedoch nicht einmal annähernd an die Komplexität von Menschen heran, wenn es darum geht, eine Szene aus einem gegebenen Text zu rekonstruieren. Auch die immer weiter fortschreitende Entwicklung immer besserer Transformator-basierter Modelle konnte dies bisher nicht leisten. Diese Aufgabe, die automatische Generierung einer 3D-Szene auf der Grundlage eines Eingabetextes, wird text-to-3D scene-Generierung genannt. Die zentrale Herausforderung und der Schwerpunkt dieser Dissertation beziehen sich nun auf die folgenden Themen: (a) Analysen, wie gut aktuelle Sprachmodelle räumliche Informationen verstehen, wie statische Einbettungen im Vergleich dazu abschneiden und ob sie durch Anaphora-Auflösung verbessert werden können. (b) Automatisierte Ressourcengenerierung für Kontexterweiterung und Erdung, die bei der Erstellung realistischer Szenen helfen können. (c) Schaffung eines VR-basierten text-to-3D scene-Systems, das als Annotations- und Active-Learning-Umgebung verwendet werden kann, aber auch leicht auf modulare Weise mit zusätzlichen Funktionen erweitert werden kann, um in Zukunft weitere Kontexte zu lösen. (d) Analysieren Sie bestehende Praktiken und Werkzeuge für digitales und virtuelles Lehren, Lernen und Kollaboration sowie die Bedingungen und Strategien im Kontext von VR. Im ersten Teil dieser Arbeit konnten wir zeigen, dass statische Worteinbettungen nicht wesentlich von der Pronomenersetzung profitieren. Wir erklären dieses Ergebnis durch den Verlust von Kontextinformationen, die Verringerung des relativen Vorkommens seltener Wörter und das Fehlen von Pronomen, die ersetzt werden müssen. Wir konnten jedoch zeigen, dass sowohl statische als auch kontextualisierende Sprachmodelle Objektwissen zu kodieren scheinen, aber einen ausgeklügelten Apparat benötigen, um es abzurufen. Die Modelle selbst in Kombination mit den Maßnahmen unterscheiden sich stark in Bezug auf die Menge des Wissens, das sie zu extrahieren erlauben. Klassifikatorbasierte Varianten schneiden deutlich besser ab als die unüberwachten Methoden aus der Bias-Forschung, was aber auch auf Overfitting zurückzuführen ist. Die für diese Bewertung generierten Ressourcen sind später auch ein wichtiger Bestandteil von Punkt drei. Im zweiten Teil stellen wir AffordanceUPT vor, eine Modularisierung von UPT, die auf dem HICO-DET-Datensatz trainiert wurde, den wir mit Gibsonien/telischen Annotationen erweitert haben. Wir zeigen dann, dass AffordanceUPT effektiv die Gibsonian/telic-Unterscheidung treffen kann und dass das Modell andere Korrelationen in den Daten erlernt, um solche Unterscheidungen zu treffen (z.B. das Vorhandensein von Händen im Bild), die wichtige Implikationen für die Erdung von Bildern mit Sprache haben. Im dritten Teil wird zunächst ein VR-Projekt zur Unterstützung der räumlichen Annotation bzw. IsoSpace vorgestellt. Durch die direkte räumliche Visualisierung und die unmittelbare Interaktion mit den 3D-Objekten soll die Beschriftung intuitiver und damit einfacher werden. Das Projekt wird später als Teil des Semantic Scene Builders (SeSB) integriert. Das Projekt selbst stützt sich wiederum auf die hier vorgestellte Text2SceneVR zur Erzeugung von räumlichem Hypertext, die wiederum auf der VAnnotatoR basiert. Schließlich stellen wir den Semantic Scene Builder (SeSB) vor, ein VR-basiertes text-to-3D scene-Framework, das das Semantic Annotation Framework (SemAF) als Schema für die Annotation semantischer Beziehungen verwendet. Es integriert eine Vielzahl von Werkzeugen und Ressourcen, indem es SemAF und UIMA als einheitliche Datenstruktur nutzt, um 3D-Szenen aus textuellen Beschreibungen zu generieren und auch Annotationen zu unterstützen. Bei der Bewertung von SeSB im Vergleich zu einem anderen hochmodernen Tool zeigte sich, dass unser Ansatz nicht nur besser abschnitt, sondern auch eine größere Vielfalt von Szenen modellieren konnte. Der letzte Teil gibt einen Überblick über bestehende Praktiken und Werkzeuge für digitales und virtuelles Lehren, Lernen und Zusammenarbeiten sowie über die Bedingungen und Strategien, die erforderlich sind, um die technologischen Möglichkeiten in Zukunft optimal zu nutzen.

Download full text files

Export metadata

Additional Services

Share in Twitter Search Google Scholar
Metadaten
Author:Alexander HenleinORCiDGND
URN:urn:nbn:de:hebis:30:3-734481
DOI:https://doi.org/10.21248/gups.73448
Place of publication:Frankfurt am Main
Referee:Alexander MehlerORCiDGND, Visvanathan RameshORCiD
Advisor:Alexander Mehler
Document Type:Doctoral Thesis
Language:English
Date of Publication (online):2023/04/04
Year of first Publication:2022
Publishing Institution:Universitätsbibliothek Johann Christian Senckenberg
Granting Institution:Johann Wolfgang Goethe-Universität
Date of final exam:2023/03/24
Release Date:2023/03/30
Page Number:199
HeBIS-PPN:506555534
Institutes:Informatik und Mathematik
Dewey Decimal Classification:0 Informatik, Informationswissenschaft, allgemeine Werke / 00 Informatik, Wissen, Systeme / 004 Datenverarbeitung; Informatik
Sammlungen:Universitätspublikationen
Licence (German):License LogoCreative Commons - CC BY-NC - Namensnennung - Nicht kommerziell 4.0 International