• search hit 5 of 13
Back to Result List

Data driven enrichment of historical low-resource languages for foundational NLP tasks and their neural network models

  • In the recent past, we are making huge progress in the field of Artificial Intelligence. Since the rise of neural networks, astonishing new frontiers are continuously being discovered. The development is so fast that overall no major technical limits are in sight. Hence, digitization has expanded from the base of academia and industry to such an extent that it is prevalent in the politics, mass media and even popular arts. The DFG-funded project Specialized Information Service for Biodiversity Research and the BMBF-funded project Linked Open Tafsir can be placed exactly in that overall development. Both projects aim to build an intelligent, up-to-date, modern research infrastructure on biodiversity and theological studies for scholars researching in these respective fields of historical science. Starting from digitized German and Arabic historical literature containing so far unavailable valuable knowledge on biodiversity and theological studies, at its core, our dissertation targets to incorporate state-of-the-art Machine Learning methods for analyzing natural language texts of low-resource languages and enabling foundational Natural Language Processing tasks on them, such as Sentence Boundary Detection, Named Entity Recognition, and Topic Modeling. This ultimately leads to paving the way for new scientific discoveries in the historical disciplines of natural science and humanities. By enriching the landscape of historical low-resource languages with valuable annotation data, our work becomes part of the greater movement of digitizing the society, thus allowing people to focus on things which really matter in science and industry.
  • In unserer heutigen Zeit machen wir großen Fortschritt im Bereich der künstlichen Intelligenz (KI). Seit dem Erfolg von neuronalen Netzwerken werden kontinuierlich neue Grenzen entdeckt. Die Entwicklung ist so rasant, dass keine Obergrenzen ersichtlich sind. Im Bereich Natural Language Processing (NLP) wird die Mehrheit der Arbeiten für Englisch durchgeführt, eine sogenannte ressourcenreiche (high-resource) Sprache, für welche eine große Anzahl an Vorarbeiten und digitale Ressourcen existieren. Dies beschleunigt gewiss den Vorgang der laufenden Big-Data-getriebenen Forschung, so wie es aktuell an zahlreichen NLP-Benchmarks (Vergleichsmaßstaben) ersichtlich ist (z.B. SNLI [Bow+15] für Natural Language Inference, IIRC [Fer+20] für Machine Reading Comprehension, SQUAD [RJL18] für Question Answering). Aus Sicht der KI-Forschung ist es in der Tat förderlich, die Forschung anhand einer Sprache fortzusetzen, welche bereits ein hohes Maß an Digitalisierung erfahren hat. Das wird uns sicherlich näher an das (große) Ziel bringen, eine menschenähnliche starke KI zu entwickeln. Aus einem sozial-ethischen Betrachtungswinkel ist jedoch dieser vollständige Fokus auf einer Sprache für den Nachteil anderer existierender Sprachen nicht gerecht, angesichts der steigenden Nachfrage an NLP-Modellen für Sprachen nicht-englischem Ursprungs. Folglich ist eine Lücke zwischen modernen, ressourcenreichen und historischen, ressourcenarmen (low-resource) Sprachen entstanden. In vergangenen Zeiten existierten unzählige historische Sprachen, welche für zahlreiche Teile der menschlichen Gesellschaft und ihrer Aktivitäten wichtig waren. Jene Sprachen waren Verkehrssprachen (Lingua Franca) für Wissenschaft, Kunst, Handel, und dem alltäglichen Leben. Sprachen wie Altägyptisch, Altgriechisch, klassisches Arabisch, oder vormodernes Deutsch (mit seiner Fraktur Schrift), welche große Mengen an historischer Literatur besitzen, waren und sind auch bis dato relevant für viele (wissenschaftliche) Gemeinschaften und (religiöse) Gesellschaften und beeinflussen sogar jetzt noch maßgebend deren weitere Entwicklungen. Mit dem Untergang jener Zivilisationen (samt ihrer Sprachen) und ihrer Ersetzung durch nachfolgende moderne Zivilisationen wurden nur Teile ihres kulturellen Erbguts fortgetragen. Die Mehrheit des Erbguts wurde in handgeschriebenen Manuskripten und gedruckten Büchern begraben, von denen nur ein gewisser Anteil unsere heutige Zeit überdauert hat. Diese wichtigen historischen Sprachen mit ihrem immens großen Reichtum verdienen die Aufmerksamkeit der aktuellen, stets wachsenden NLP-Forschung. Um historische Analysen zu ermöglichen, die relevant für unsere moderne Zeit sind, müssen wir diese vergessenen Sprachen von der Erfolgswelle des Maschinellen Lernens (ML) profitieren lassen, damit historische Texte modernen wissenschaftlichen Studien zugänglich machen und aus ethischer Sicht einem Gleichgewichtszustand in der NLP-Forschung annähern. In unserer kumulativen Dissertation erforschen wir den Bereich der historischen NLP-Forschung. Wir schließen schrittweise die wachsende Ressourcen- und Leistungslücke durch das Analysieren von zwei ziemlich verschiedenen, ressourcenarmen Sprachen, nämlich vormodernes Deutsch in dem Anwendungsbereich der iodiversitätsforschung und klassisches Arabisch in dem Anwendungsbereich der theologischen Studien. Wir führen dies anhand der Beispiele von grundlegenden NLP-Aufgaben wie Sentence Boundary Detection (SBD) [SA19], Named Entity Recognition (NER) [ASM18; Ahm+19; Ahm+22] und Topic Modeling (TM) [Ahm+22] durch und legen dabei unseren Fokus insbesondere auf das NER. Indem wir unsere Forschungsarbeit mit dem deutschen NER beginnen und diese mit dem arabischen Pendant abschließen, zeigen wir für unsere ausgewählten Sprachen, dass ein kostenintensiver Annotationsprozess für die Digitalisierung von historischer Literatur und ihrer weiterführenden Analyse mithilfe moderner Methoden des NLP notwendig ist. Wir demonstrieren, dass eine Generierung von Annotationsdaten für die Überwindung des ressourcenarmen Zustandes einer Sprache essentiell ist, und bieten allgemeine Richtlinien für Forscher mit ähnlichen Unternehmungen. Auf diese Weise ermöglicht unsere Forschungsarbeit eine automatische Extraktion von historischen Informationen, die bisher tief in den Papiermanuskripten und Bücherhaufen verschiedener Bibliotheken versteckt sind. Durch die Generierung der notwendigen Trainingsdaten für die Analyse von grundlegenden NLP-Aufgaben mit modernen Verfahren des MLs stellen wir einen frei zugänglichen (open-source) Goldstandard für die NLP-Fachcommunity bereit und legen damit die Grundbausteine weiterführender zukünftiger Forschungsarbeiten für die Digitalisierung historischer Studien.

Download full text files

Export metadata

Metadaten
Author:Sajawel AhmedGND
URN:urn:nbn:de:hebis:30:3-743950
DOI:https://doi.org/10.21248/gups.74395
Place of publication:Frankfurt am Main
Referee:Gemma Roig NogueraORCiDGND, Alexander MehlerORCiDGND
Advisor:Gemma Roig Noguera
Document Type:Doctoral Thesis
Language:English
Date of Publication (online):2023/06/27
Year of first Publication:2023
Publishing Institution:Universitätsbibliothek Johann Christian Senckenberg
Granting Institution:Johann Wolfgang Goethe-Universität
Date of final exam:2023/06/15
Release Date:2023/06/27
Tag:Historical Document Analysis; Information Retrieval; Machine Learning; Natural Language Processing; Neural Networks; Script Compression
Page Number:104
Note:
Kumulative Dissertation – enthält die Verlagsversionen (Versions of Record) der folgenden Artikel:

Ahmed, Sajawel; Stoeckel, Manuel; Mehler, Alexander (2018): Resource-Size matters:
Improving Neural Named Entity Recognition with Optimized Large Corpora. Proceedings of the 17th IEEE International Conference on Machine Learning and Applications (ICMLA). 

Schweter, Stefan; Ahmed, Sajawel (2019): Deep-EOS: General-Purpose Neural Networks for Sentence Boundary Detection. Proceedings of the 15th Conference on Natural Language Processing (KONVENS), S. 251-255.

Ahmed, Sajawel; Stoeckel, Manuel; Driller, Christine; Pachzelt, Adrian; Mehler, Alexander (2019): BIOfid Dataset: Publishing a German Gold Standard for Named Entity Recognition in Historical Biodiversity Literature. Proceedings of the 23rd Conference on Computational Natural Language Learning (CoNLL), S. 871-880.

Ahmed, Sajawel; van der Goot, Rob; Rehman, Misbahur; Kruse, Carl; Özsoy, Ömer; Mehler, Alexander; Roig, Gemma (2022): A Novel Multi-Task Benchmark for Named Entity Recognition and Topic Modeling in Classical Arabic Literature. Proceedings of the 29th International Conference on Computational Linguistics (COLING), S. 3753-3768.
HeBIS-PPN:509069711
Institutes:Informatik und Mathematik
Dewey Decimal Classification:0 Informatik, Informationswissenschaft, allgemeine Werke / 00 Informatik, Wissen, Systeme / 004 Datenverarbeitung; Informatik
Sammlungen:Universitätspublikationen
Licence (German):License LogoDeutsches Urheberrecht