Refine
Year of publication
- 2005 (2) (remove)
Language
- German (2)
Has Fulltext
- yes (2)
Is part of the Bibliography
- no (2)
Keywords
- Internet (2) (remove)
Ziel des Teilprojekts ist die thematische Erschließung der Korpora, um sowohl themenspezifische virtuelle Subkorpora zusammenstellen zu können als auch aufgrund der Analyse sachgebietsbezogener Häufigkeitsverteilungen z.B. Lesarten disambiguieren zu können. Ausgangspunkt ist die Erstellung einer Taxonomie von Sachgebietsthemen. Dies erfolgt in einem semiautomatischen Verfahren, welches die Anwendung von Textmining (Dokumentclustering) und die manuelle Zuordnung von Clustern in eine externen Ontologie beinhaltet. Es wird argumentiert, dass die so gewonnene Taxonomie sowohl intuitiver als auch objektiver ist als bestehende, rein manuelle Ansätze. Sie eignet sich zudem gleichermaßen für manuelle als auch für maschinelle Klassifikation. Für letzteres wird der Naive Bayes'sche Textklassifikator motiviert und für ein klassifiziertes Korpus von knapp zwei Milliarden Wörtern evaluiert.
Volltextsuche
(2005)
[...] Und nun die Komparatistik? Sie mutiert zu einer Volltextwissenschaft. Die Weltliteratur, egal ob im summarischen oder qualitativen Sinn, ist noch nicht homogen digital erschlossen. Dadurch wird es noch lange bei der Bevorzugung großer Namen bleiben. Zugleich aber wird sich allmählich eine Nivellierung einstellen, die die Prioritäten der literaturwissenschaftlichen Suche synchronisiert mit denen der gängigen Suchmaschinen. Netzsuche und Volltextsuche auf begrenzten Datenträgern werden einander überlagern und den Resultaten eine egalitäre Struktur verleihen. Und dies wird auf längere Sicht zweierlei befördern: 1. Die Emanzipation der Trivialliteratur seit den 1960er Jahren, die Ausweitung des Textbegriffs und die kulturwissenschaftliche Orientierung werden in komparatistischen Arbeiten daran ablesbar sein, daß jegliches Kulturzeugnis, das beispielsweise einen bestimmten Mythos berührt, als potentiell zur Sache gehörig betrachtet wird. Alles kommt erst einmal in Frage. 2. Die Anonymität des weltweiten digitalen Korpus führt dazu, daß gerade die Volltextsuche die diskursanalytische These verwirklichen wird.