• Treffer 1 von 1
Zurück zur Trefferliste

Corpora and evaluation tools for multilingual named entity grammar development

  • We present an effort for the development of multilingual named entity grammars in a unification-based finite-state formalism (SProUT). Following an extended version of the MUC7 standard, we have developed Named Entity Recognition grammars for German, Chinese, Japanese, French, Spanish, English, and Czech. The grammars recognize person names, organizations, geographical locations, currency, time and date expressions. Subgrammars and gazetteers are shared as much as possible for the grammars of the different languages. Multilingual corpora from the business domain are used for grammar development and evaluation. The annotation format (named entity and other linguistic information) is described. We present an evaluation tool which provides detailed statistics and diagnostics, allows for partial matching of annotations, and supports user-defined mappings between different annotation and grammar output formats.

Volltext Dateien herunterladen

Metadaten exportieren

Weitere Dienste

Teilen auf Twitter Suche bei Google Scholar
Metadaten
Verfasserangaben:Christian Bering, Witold Droźdźyński, Gregor Erbach, Clara Guasch, Petr Homola, Sabine Lehmann, Hong Li, Hans-Ulrich Krieger, Jakub Piskorski, Ulrich Schäfer, Atsuko Shimada, Melanie SiegelORCiDGND, Feiyu Xu, Dorothee Ziegler-Eisele
URN:urn:nbn:de:hebis:30:3-235707
URL:http://www.melaniesiegel.de/publications/Bering-et-al-2003.pdf
Dokumentart:Konferenzveröffentlichung
Sprache:Englisch
Datum der Veröffentlichung (online):14.12.2011
Jahr der Erstveröffentlichung:2003
Veröffentlichende Institution:Universitätsbibliothek Johann Christian Senckenberg
Datum der Freischaltung:14.12.2011
Freies Schlagwort / Tag:Computerlinguistik; Korpus <Linguistik>
Seitenzahl:10
Bemerkung:
Zuerst erschienen in: Archer et al. (ed.): Proceedings of the 2003 Corpus Linguistics Conference. - Lancaster, Lancaster University, S. 42-52
HeBIS-PPN:42452418X
Institute:Extern
DDC-Klassifikation:4 Sprache / 41 Linguistik / 410 Linguistik
4 Sprache / 41 Linguistik / 418 Standardsprache; Angewandte Linguistik
Sammlungen:Linguistik
Linguistik-Klassifikation:Linguistik-Klassifikation: Computerlinguistik / Computational linguistics
Lizenz (Deutsch):License LogoDeutsches Urheberrecht