Das Suchergebnis hat sich seit Ihrer Suchanfrage verändert. Eventuell werden Dokumente in anderer Reihenfolge angezeigt.
  • Treffer 2 von 3
Zurück zur Trefferliste

BIOfid dataset: publishing a German gold standard for named entity recognition in historical biodiversity literature

  • The Specialized Information Service Biodiversity Research (BIOfid) has been launched to mobilize valuable biological data from printed literature hidden in German libraries for over the past 250 years. In this project, we annotate German texts converted by OCR from historical scientific literature on the biodiversity of plants, birds, moths and butterflies. Our work enables the automatic extraction of biological information previously buried in the mass of papers and volumes. For this purpose, we generated training data for the tasks of Named Entity Recognition (NER) and Taxa Recognition (TR) in biological documents. We use this data to train a number of leading machine learning tools and create a gold standard for TR in biodiversity literature. More specifically, we perform a practical analysis of our newly generated BIOfid dataset through various downstream-task evaluations and establish a new state of the art for TR with 80.23% F-score. In this sense, our paper lays the foundations for future work in the field of information extraction in biology texts.

Volltext Dateien herunterladen

Metadaten exportieren

Metadaten
Verfasserangaben:Sajawel AhmedGND, Manuel Stoeckel, Christine DrillerORCiDGND, Adrian PachzeltORCiDGND, Alexander MehlerORCiDGND
URN:urn:nbn:de:hebis:30:3-577208
DOI:https://doi.org/10.18653/v1/K19-1081
Titel des übergeordneten Werkes (Deutsch):Proceedings of the 23rd Conference on Computational Natural Language Learning (CoNLL), Hong Kong, November 3-4, 2019
Verlag:Association for Computational Linguistics
Verlagsort:[Erscheinungsort nicht ermittelbar]
Dokumentart:Konferenzveröffentlichung
Sprache:Englisch
Jahr der Fertigstellung:2019
Jahr der Erstveröffentlichung:2019
Veröffentlichende Institution:Universitätsbibliothek Johann Christian Senckenberg
Datum der Freischaltung:06.05.2022
Seitenzahl:10
Erste Seite:871
Letzte Seite:880
HeBIS-PPN:49551439X
Institute:Informatik und Mathematik / Informatik
Zentrale Einrichtung / Universitätsbibliothek
Angeschlossene und kooperierende Institutionen / Senckenbergische Naturforschende Gesellschaft
DDC-Klassifikation:0 Informatik, Informationswissenschaft, allgemeine Werke / 02 Bibliotheks- und Informationswissenschaften / 020 Bibliotheks- und Informationswissenschaften
5 Naturwissenschaften und Mathematik / 57 Biowissenschaften; Biologie / 570 Biowissenschaften; Biologie
Sammlungen:Universitätspublikationen
Sammlung Biologie / Sondersammelgebiets-Volltexte
Lizenz (Deutsch):License LogoCreative Commons - Namensnennung 4.0