Linguistik-Klassifikation
Refine
Year of publication
Document Type
- Conference Proceeding (7)
- Article (5)
- Preprint (4)
- Book (3)
- diplomthesis (1)
- Review (1)
Language
- German (21) (remove)
Has Fulltext
- yes (21)
Is part of the Bibliography
- no (21)
Keywords
- Computerlinguistik (5)
- Maschinelle Übersetzung (4)
- Deutsch (3)
- Japanisch (3)
- Standardisierung (3)
- Technische Unterlage (3)
- Korpus <Linguistik> (2)
- Wörterbuch (2)
- Acquisition (1)
- Automatische Sprachanalyse (1)
Institute
- Extern (9)
- Universitätsbibliothek (1)
Part-of-Speech tagging is generally performed by Markov models, based on bigram or trigram models. While Markov models have a strong concentration on the left context of a word, many languages require the inclusion of right context for correct disambiguation. We show for German that the best results are reached by a combination of left and right context. If only left context is available, then changing the direction of analysis and going from right to left improves the results. In a version of MBT (Daelemans et al., 1996) with default parameter settings, the inclusion of the right context improved POS tagging accuracy from 94.00% to 96.08%, thus corroborating our hypothesis. The version with optimized parameters reaches 96.73%.
Im folgenden Beitrag handelt es sich um die Entwicklung eines semantischen Wörterbuches der deutschen Sprache für maschinelle Sprachverarbeitungssysteme im Rahmen des Projektes "Compreno" bei dem russischen IT-Unternehmen ABBYY. Es wird eine kurze Übersicht über andere elektronische Quellen zur deutschen Sprache gegeben, ferner werden ihre Unterschiede im Vergleich zum Projektwörterbuch analysiert. An einigen Beispielen werden aktuelle Probleme der Computerlexikografie (Bedeutungsunterscheidung, Komposita-Analyse u.a.) und ihre mögliche Lösung in Bezug auf das Projektwörterbuch betrachtet.
In dieser Arbeit soll erst ein kurzer Überblick über die Gebiete der Wortklassifizierung und des maschinellen Lernens gegeben werden (Kap. 1). Dann wird der Ansatz der transformationsbasierten fehlergesteuerten Wortklassifizierung (Transformation-Based Error-Driven Tagging) von Brill (1992, 1993, 1994) vorgestellt und für die Verwendung für deutschsprachige Korpora angepaßt (Kap. 2). Hierbei handelt es sich um ein regelbasiertes System, bei dem die Regeln im Gegensatz zu den bisher vorhandenen Systemen nicht manuell erarbeitet und dem System vorgegeben werden; das System erwirbt die Regeln vielmehr selbst anhand von wenigen Regelschemata aus einem kleinen bereits getaggten Lernkorpus. In Kapitel 3 werden die Ergebnisse aus der Anwendung des Systems auf Teile eines deutschsprachigen Korpus dargestellt. In Kapitel 4 schließlich werden andere Taggingsysteme vorgestellt und mit dem System von Brill (1993) anhand von acht Kriterien verglichen.
Das Chunkparsing bietet einen besonders vielversprechenden Ansatz zum robusten, partiellen Parsing mit dem Ziel einer breiten Datenabdeckung. Ziel beim Chunkparsing ist eine partielle, nicht-rekursive syntaktische Struktur. Dieser extrem effiziente Parsing-Ansatz läßt sich als Kaskade endlicher Transducer realisieren. In diesem Beitrag wird TüSBL vorgestellt, ein System, bei dem die Eingabe aus spontaner, gesprochener Spache besteht, die dem Parser in Form eines Worthypothesengraphen aus einem Spracherkenner zur Verfügung gestellt wird. Chunkparsing ist für eine solche Anwendung besonders geeignet, da es fragmentarische oder nicht wohlgeformte Äußerungen robust behandeln kann. Des weiteren wird eine Baumkonstruktionskomponente vorgestellt, die die partiellen Chunkstrukturen zu vollständigen Bäumen mit grammatischen Funktionen erweitert. Das System wird anhand manuell überprüfter Systemeingaben evaluiert, da sich die üblichen Evaluationsparameter hierfür nicht eignen.
Seit einiger Zeit ist zu beobachten, dass zu dem Handwerkszeug eines DaF-Lerners […] nicht mehr Grammatiken und Wörterbücher im klassischen Sinne gehören. Das Nachschlagen in Printwerken wird auf allen Stufen und für alle Benutzersituationen durch die Konsultation in den unterschiedlichsten über Internet frei zugänglichen Materialien ersetzt. […] So scheint es, dass gerade im DaF-Bereich die Printnachschlagewerke bald schon zu einem Relikt anderer Zeiten angehören werden. Aber genauso wie für die Benutzung von Printwörterbüchern, benötigt der DaF-Lerner durch die ganz neu entstehenden online-Nachschlagetechniken (Engelberg/Lemnitzer 2009, 111) genügend Information und Schulung, um für seine jeweilige Benutzersituation in dem dafür am besten geeigneten Konsultationssystem die jeweils adäquateste Rechercheoption auszuwählen. […] Das gilt gleichermaßen für Print- wie für Onlineressourcen, wobei allerdings gerade bei Internetwörterbüchern bei der Suchanfrage das Risiko des Orientierungsverlustes („lost in hyperspace“) verstärkt auftreten kann (cfr. Haß/Schmitz 2010, 4). Es ist daher Aufgabe der Lehrenden, die entsprechende Orientierung und Hilfestellung zu leisten. Leider ist zu bemerken, dass im DaF-Bereich die nötige lexikographische Kompetenz nicht genügend vermittelt wird, was nicht zuletzt oft an der mangelnden lexikographischen Vorbildung der DaF-Lehrer liegt. Ziel des Beitrages ist es daher, einige Internetwörterbücher (IWB) mit freiem Zugang für die Deutsche Sprache in groben Zügen vorzustellen und für ihren Nutzen in unterschiedliche Benutzersituationen im Bereich DaF zu kommentieren, um dem DaF-Lerner und Lehrer die Auswahl aus dem inzwischen recht unübersichtlichen Angebot für seine jeweiligen Bedürfnisse zu erleichtern. In Anlehnung an die vorgeschlagenen Kriterien von Engelberg/Lemnitzer (42009, 220ff.), Storrer (2010) und das Evaluationsraster zur Beurteilung von online-WB von Kemmer (2010) sollen verschiedene aktuelle IWB der deutschen Gegenwartssprache beurteilt werden. Zur Wörterbuch-Typologisierung orientiere ich mich an den Vorschlägen von Engelberg/Lemnitzer (42009), beschränke aber in diesem Rahmen den Gegenstandsbereich auf zweisprachige IWB, spezifische einsprachige DaF-IWB und einige modularisierte allgemeinsprachige Wörterbuchportale, in denen verschiedene IWB miteinander verlinkt sind.
Der Beitrag behandelt zunächst die Frage, welche Vorteile elektronische Wörterbücher gegenüber traditionell gedruckten Wörterbüchern besitzen. Danach werden drei Online-Programme zur automatischen Übersetzung (Babelfish, Google Übersetzer, Bing Translator) vorgestellt. Beispieltexte werden mit diesen Programmen übersetzt, danach wird die jeweilige Qualität der Übersetzungen beurteilt. Schließlich diskutiert der Beitrag noch die Folgen, die durch die Möglichkeiten automatischen Übersetzens für die Auslandsgermanistik zu erwarten sind. Dabei zeigt sich, dass Programme für das automatische Übersetzen künftig durchaus ernstzunehmende Auswirkungen auf die philologischen Wissenschaften haben können.
Die Prosodie der Mundarten wurde schon früh als auffälliges und distinktes Merkmal wahrgenommen und in mehreren Arbeiten zur Grammatik des Schweizerdeutschen mittels Musiknoten festgehalten (u. a. J. Vetsch 1910, E. Wipf 1910, K. Schmid 1915, W. Clauss 1927, A. Weber 1948), wobei schon A. Weber (1948, S. 53) anmerkt, "dass sich der musikalische Gang der Rede nicht ohne Gewaltsamkeit mit der üblichen Notenschrift darstellen lässt". Da also eine adäquate Kodierung, eine theoretische Grundlage und die notwendigen phonetischen Instrumente zur Intonationsforschung fehlten, wurden diese ersten Ansätze nicht aus- und weitergeführt. Erst in der Mitte des 20. Jahrhunderts brachte die technische Entwicklung Instrumente zur Messung der Prosodie hervor, die nun durch die Popularisierung der entsprechenden Computerprogramme im Übergang zum 21. Jahrhundert für die linguistische Forschung intensiv und breit genutzt werden können.
Der Übersetzungsprozess der Technischen Dokumentation wird zunehmend mit Maschineller Übersetzung (MÜ) unterstützt. Wir blicken zunächst auf die Ausgangstexte und erstellen automatisch prüfbare Regeln, mit denen diese Texte so editiert werden können, dass sie optimale Ergebnisse in der MÜ liefern. Diese Regeln basieren auf Forschungsergebnissen zur Übersetzbarkeit, auf Forschungsergebnissen zu Translation Mismatches in der MÜ und auf Experimenten.
Die Domäne in VERBMOBIL sind Terminaushandlungsdialoge. Für die Syntax bedeutet das zunächst, daß die Sytnax sich an gesprochener Sprache orientieren muß. Das beinhaltet Nullanaphern, Phrasen, die auf die Kommunikationssituation bezogen sind und Phrasen, die für geschriebene Sprache als nicht wohlgeformt bezeichnet werden. Weitergehend gibt es einige domänenspezifische syntaktische besonderheiten, wie zum Biepsiel die Realisierung von Zeitangaben.