Refine
Document Type
- Bachelor Thesis (2)
- Part of a Book (2)
- Conference Proceeding (2)
- Article (1)
- Review (1)
- Working Paper (1)
Has Fulltext
- yes (9)
Is part of the Bibliography
- no (9)
Keywords
- Annotation (9) (remove)
Institute
Ein aktuelles Forschungsthema ist die automatische Generierung von 3D-Szenen ausgehend von Beschreibungen in natürlicher Sprache. S.g. Text2Scene-Anwendungen sollen Objekte und räumliche Relationen in einer Texteingabe identifizieren und mit 3D-Modellen eine visuelle Repräsentation der Beschreibung konstruieren. Bisherige Ansätze kombinieren eine
stichwortbasierte Erkennung von explizit gemachten Angaben mit vorher gelerntem Allgemeinwissen über die sinnvolle Anordnung von Objekten. Den Anwendungen fehlt jedoch ein tiefergehendes Verständnis von räumlicher Sprache.
Mit dem Annotationsschema ISOSpace können Texte mit detaillierten räumlichen Informationen angereichert und so für NLP-Anwendungen verständlicher gemacht werden. Bereits in einer früheren Arbeit wurde der SemAF-Annotator zum Erstellen von ISOSpaceAnnotationen als Modul für den TextAnnotator entwickelt. In dieser Arbeit wurde der SemAF-Annotator zusätzlich um eine Funktionalität zur Szenenerstellung erweitert: Benutzer können einzelnen Wörtern in der Weboberfläche des TextAnnotators Objekte aus dem ShapeNet Datensatz zuordnen und diese in einer zweidimensionalen Darstellung einer Szene räumlich anordnen. Trotz einiger Einschränkungen durch die fehlende dritte Dimension lassen sich in vielen Fällen gute Ergebnisse erzielen. Die auf diese Weise erzeugten Szenen sollen später in Kombination mit den ISOSpace-Annotionen verwendet werden, um Text2SceneAnwendungen zu entwickeln, die ein umfassenderes räumliches Verständnis aufweisen.
Kleinere Nebenaufgaben dieser Arbeit waren die Erweiterung des SemAF-Annotators um zusätzliche Annotationstypen sowie diverse Nachbesserungen der bereits bestehenden Funktionalität zur ISOSpace Annotation.
Biodiversity information is contained in countless digitized and unprocessed scholarly texts. Although automated extraction of these data has been gaining momentum for years, there are still innumerable text sources that are poorly accessible and require a more advanced range of methods to extract relevant information. To improve the access to semantic biodiversity information, we have launched the BIOfid project (www.biofid.de) and have developed a portal to access the semantics of German language biodiversity texts, mainly from the 19th and 20th century. However, to make such a portal work, a couple of methods had to be developed or adapted first. In particular, text-technological information extraction methods were needed, which extract the required information from the texts. Such methods draw on machine learning techniques, which in turn are trained by learning data. To this end, among others, we gathered the BIOfid text corpus, which is a cooperatively built resource, developed by biologists, text technologists, and linguists. A special feature of BIOfid is its multiple annotation approach, which takes into account both general and biology-specific classifications, and by this means goes beyond previous, typically taxon- or ontology-driven proper name detection. We describe the design decisions and the genuine Annotation Hub Framework underlying the BIOfid annotations and present agreement results. The tools used to create the annotations are introduced, and the use of the data in the semantic portal is described. Finally, some general lessons, in particular with multiple annotation projects, are drawn.
Der Inhalt dieser Arbeit ist die Entwicklung und Evaluation einer mobilen Webanwendung für die Annotation von Texten. Dem Benutzer ist es durch diese Webanwendung, im folgenden auch MobileAnnotator genannt, möglich Wörter und Textausschnitte zu kategorisieren oder auch mit Wissensquellen, zum Beispiel Wikipedia, zu verknüpfen. Der MobileAnnotator ist dabei für mobile Endgeräte ausgelegt und insbesondere für Smartphones optimiert worden.
Für die Funktionalität verwendet der MobileAnnotator die Architektur des bereits existierenden und etablierten TextAnnotators. Dieser stellt bereits eine Vielzahl von Annotations Werkzeugen bereit, von denen zwei auf den MobileAnnotator übertragen wurden. Da der TextAnnotator vollständig für einen Desktopbetrieb ausgelegt wurde, ist es jedoch nicht möglich diese Werkzeuge ohne Anpassungen für ein mobiles Gerät umzubauen. Der MobileAnnotator beschränkt sich somit auf ein Mindestmaß an Funktionen dieser Werkzeuge um sie dem Benutzer in geeigneter Art und Weise verfügbar zu machen.
Für die Evaluation der Benutzerfreundlichkeit des MobileAnnotator und dessen Werkzeuge wurde anschließend eine Studie durchgeführt. Den Probanten war es innerhalb der Studie möglich Aussagen über die Bedienbarkeit des MobileAnnotators zu treffen und einen Vergleich zwischen dem Mobile- und TextAnnotator zu ziehen.
Der Terminus „Annotation“ gewinnt mit der fortschreitenden Verankerung der Digital Humanities innerhalb der akademischen Landschaft immer stärker an Bedeutung. Gleichzeitig steht er in den Geistes- und Informationswissenschaften für jeweils unterschiedliche Konzepte, welche zwar in Umfang, Einsatz und Zielausrichtung variieren, aber auch konzeptuelle Parallelen aufweisen. Vor dem Hintergrund der Zusammenarbeit der verschiedenen Wissenschaftsdisziplinen scheint es daher geboten, verschiedene Annotationspraxen und die mit ihnen verbundenen Konzepte von Annotationen zu reflektieren und diskutieren, ins Verhältnis zueinander zu setzen sowie Gemeinsamkeiten und Unterschiedlichkeiten zu systematisieren. Hierfür luden Julia Nantke und Frederik Schlupkothen (beide Bergische Universität Wuppertal) vom Graduiertenkolleg "Dokument – Text – Edition. Bedingungen und Formen ihrer Transformation und Modellierung in transdisziplinärer Perspektive" zur interdisziplinär angelegte Tagung "Annotationen in Edition und Forschung. Funktionsbestimmung, Differenzierung und Systematisierung" vom 20. bis zum 22. Februar 2019 an die Bergische Universität Wuppertal ein. Wissenschaftler*innen aus verschiedenen Ländern und Fachbereichen berichteten in fünf Sektionen über ihre Forschungsprojekte und –ergebnisse zu Annotationen, deren unterschiedlichen Erscheinungsformen und Funktionsweisen sowie zu verschiedenen terminologischen, methodischen und technischen Fragestellungen. Der Annotationsbegriff wurde hierbei bewusst weit gefasst und sowohl auf digitale und analoge sowie manuelle und automatisierte Annotationsprozesse in unterschiedlichen Medien bezogen.
This paper deals with spelling normalization of historical texts with regard to further processing with modern part-of-speech taggers. Different methods for this task are presented and evaluated on a set of historical German texts from the 15th–18th century, and specific problems inherent to the processing of historical data are discussed. A chain combination using word-based and character-based techniques is shown to be best for normalization, while POS tagging of normalized data is shown to benefit from ignoring punctuation marks. Using these techniques, when 500 manually normalized tokens are used as training data for the normalization, the tagging accuracy of a manuscript from the 15th century can be raised from 28.65% to 76.27%.