Die thematische Erschließung von Sprachkorpora

  • Ziel des Teilprojekts ist die thematische Erschließung der Korpora, um sowohl themenspezifische virtuelle Subkorpora zusammenstellen zu können als auch aufgrund der Analyse sachgebietsbezogener Häufigkeitsverteilungen z.B. Lesarten disambiguieren zu können. Ausgangspunkt ist die Erstellung einer Taxonomie von Sachgebietsthemen. Dies erfolgt in einem semiautomatischen Verfahren, welches die Anwendung von Textmining (Dokumentclustering) und die manuelle Zuordnung von Clustern in eine externen Ontologie beinhaltet. Es wird argumentiert, dass die so gewonnene Taxonomie sowohl intuitiver als auch objektiver ist als bestehende, rein manuelle Ansätze. Sie eignet sich zudem gleichermaßen für manuelle als auch für maschinelle Klassifikation. Für letzteres wird der Naive Bayes'sche Textklassifikator motiviert und für ein klassifiziertes Korpus von knapp zwei Milliarden Wörtern evaluiert.

Volltext Dateien herunterladen

Metadaten exportieren

Metadaten
Verfasserangaben:Christian Weiß
URN:urn:nbn:de:hebis:30-1127112
URL:https://pub.ids-mannheim.de//laufend/opal/pdf/opal2005-1.pdf
ISBN:1860-9422
Titel des übergeordneten Werkes (Deutsch):OPAL - Online publizierte Arbeiten zur Linguistik ; 2005,1
Verlag:Institut für Deutsche Sprache, Bibliothek
Verlagsort:Mannheim
Sonstige beteiligte Person(en):Norbert Volz
Dokumentart:Buch (Monographie)
Sprache:Deutsch
Jahr der Fertigstellung:2005
Jahr der Erstveröffentlichung:2005
Veröffentlichende Institution:Universitätsbibliothek Johann Christian Senckenberg
Urhebende Körperschaft:Institut für Deutsche Sprache <Mannheim>
Datum der Freischaltung:28.04.2009
Freies Schlagwort / Tag:Sprachkorpora
GND-Schlagwort:Internet; Taxonomie; Deutsch
Seitenzahl:15
Quelle:OPAL - Online publizierte Arbeiten zur Linguistik, 1, 2005
HeBIS-PPN:215021851
DDC-Klassifikation:0 Informatik, Informationswissenschaft, allgemeine Werke / 00 Informatik, Wissen, Systeme / 004 Datenverarbeitung; Informatik
4 Sprache / 40 Sprache / 400 Sprache
4 Sprache / 43 Deutsch, germanische Sprachen allgemein / 430 Germanische Sprachen; Deutsch
Sammlungen:Linguistik
Lizenz (Deutsch):License LogoDeutsches Urheberrecht