Linguistik-Klassifikation
Refine
Year of publication
Document Type
- Conference Proceeding (7)
- Article (5)
- Preprint (4)
- Book (3)
- diplomthesis (1)
- Review (1)
Language
- German (21) (remove)
Has Fulltext
- yes (21)
Is part of the Bibliography
- no (21)
Keywords
- Computerlinguistik (5)
- Maschinelle Übersetzung (4)
- Deutsch (3)
- Japanisch (3)
- Standardisierung (3)
- Technische Unterlage (3)
- Korpus <Linguistik> (2)
- Wörterbuch (2)
- Acquisition (1)
- Automatische Sprachanalyse (1)
Institute
- Extern (9)
Dieser Beitrag basiert auf dem Forschungsprojekt DICONALE, das sich die Erstellung eines konzeptuell orientierten, zweisprachigen Wörterbuchs mit Online-Zugang für Verballexeme des Deutschen und Spanischen zum Ziel gesetzt hat. Das Anliegen dieses Beitrags ist es, die relevantesten Eigenschaften des geplanten Wörterbuchs exemplarisch anhand von zwei Verblexemen aus dem konzeptuellen Feld der KOGNITION vorzustellen. Neben der Beschreibung der paradigmatischen Sinnrelationen der Feldelemente zueinander wird besonderer Wert auf die syntagmatischen Inhalts- und Ausdrucksstrukturen und auf die kontrastive Analyse gelegt. Es wird versucht, einerseits einen Überblick über die wichtigsten Besonderheiten des Wörterbuchs anzubieten und andererseits die Relevanz solcher Kriterien für die heutige kontrastive Lexikographie Deutsch-Spanisch nachzuweisen.
Tagging kausaler Relationen
(2005)
In dieser Diplomarbeit geht es um kausale Beziehungen zwischen Ereignissen und Erklärungsbeziehungen zwischen Ereignissen, bei denen kausale Relationen eine wichtige Rolle spielen. Nachdem zeitliche Relationen einerseits ihrer einfacheren Formalisierbarkeit und andererseits ihrer gut sichtbaren Rolle in der Grammatik (Tempus und Aspekt, zeitliche Konjunktionen) wegen in jüngerer Zeit stärker im Mittelpunkt des Interesses standen, soll hier argumentiert werden, dass kausale Beziehungen und die Erklärungen, die sie ermöglichen, eine wichtigere Rolle im Kohärenzgefüge des Textes spielen. Im Gegensatz zu “tiefen” Verfahren, die auf einer detaillierten semantischen Repr¨asentation des Textes aufsetzen und infolgedessen für unrestringierten Text m. E. nicht geeignet sind, wird hier untersucht, wie man dieses Ziel erreichen kann, ohne sich auf eine aufwändig konstruierte Wissensbasis verlassen zu müssen.
Sprachtechnologie für übersetzungsgerechtes Schreiben am Beispiel Deutsch, Englisch, Japanisch
(2009)
Wir [...] haben uns zur Aufgabe gesetzt, Wege zu finden, wie linguistisch basierte Software den Prozess des Schreibens technischer Dokumentation unterstützen kann. Dabei haben wir einerseits die Schwierigkeiten im Blick, die japanische und deutsche Autoren (und andere Nicht-Muttersprachler des Englischen) beim Schreiben englischer Texte haben. Besonders japanische Autoren haben mit Schwierigkeiten zu kämpfen, weil sie hochkomplexe Ideen in einer Sprache ausdrücken müssen, die von Informationsstandpunkt her sehr unterschiedlich zu ihrer Muttersprache ist. Andererseits untersuchen wir technische Dokumentation, die von Autoren in ihrer Muttersprache geschrieben wird. Obwohl hier die fremdsprachliche Komponente entfällt, ist doch auch erhebliches Verbesserungspotential vorhanden. Das Ziel ist hier, Dokumente verständlich, konsistent und übersetzungsgerecht zu schreiben. Der fundamentale Ansatz in der Entwicklung linguistisch-basierter Software ist, dass gute linguistische Software auf Datenmaterial basiert und sich an den konkreten Zielen der besseren Dokumentation orientiert.
Im folgenden Beitrag handelt es sich um die Entwicklung eines semantischen Wörterbuches der deutschen Sprache für maschinelle Sprachverarbeitungssysteme im Rahmen des Projektes "Compreno" bei dem russischen IT-Unternehmen ABBYY. Es wird eine kurze Übersicht über andere elektronische Quellen zur deutschen Sprache gegeben, ferner werden ihre Unterschiede im Vergleich zum Projektwörterbuch analysiert. An einigen Beispielen werden aktuelle Probleme der Computerlexikografie (Bedeutungsunterscheidung, Komposita-Analyse u.a.) und ihre mögliche Lösung in Bezug auf das Projektwörterbuch betrachtet.
Das Chunkparsing bietet einen besonders vielversprechenden Ansatz zum robusten, partiellen Parsing mit dem Ziel einer breiten Datenabdeckung. Ziel beim Chunkparsing ist eine partielle, nicht-rekursive syntaktische Struktur. Dieser extrem effiziente Parsing-Ansatz läßt sich als Kaskade endlicher Transducer realisieren. In diesem Beitrag wird TüSBL vorgestellt, ein System, bei dem die Eingabe aus spontaner, gesprochener Spache besteht, die dem Parser in Form eines Worthypothesengraphen aus einem Spracherkenner zur Verfügung gestellt wird. Chunkparsing ist für eine solche Anwendung besonders geeignet, da es fragmentarische oder nicht wohlgeformte Äußerungen robust behandeln kann. Des weiteren wird eine Baumkonstruktionskomponente vorgestellt, die die partiellen Chunkstrukturen zu vollständigen Bäumen mit grammatischen Funktionen erweitert. Das System wird anhand manuell überprüfter Systemeingaben evaluiert, da sich die üblichen Evaluationsparameter hierfür nicht eignen.
Standardisierung ist der bedeutendste Ansatz zu Qualitätssteigerung und Kostensenkung in der Technischen Dokumentation. Es gibt eine Reihe von Standardisierungsansätzen: Modularisierung, Informationsstrukturen, Terminologie, Sprachstrukturen. Dennoch werden diese Ebenen meist getrennt voneinander beschrieben. Wir untersuchen, wie Standardisierungen im Informationsmodell, in der Terminologie und in den sprachlichen Strukturen verknüpft werden und miteinander interagieren.
Die Entwicklung eines individuellen Standards „vom grünen Tisch“ führt selten zu zufriedenstellenden Ergebnissen. Bei der automatischen Prüfung stellt man schnell fest, dass die „ausgedachten“ Regeln einer systematischen Anwendung nicht standhalten. Bei der Implementierung solcher Richtlinien stellt man fest, dass sie oft zu wenig konkret formuliert sind, wie z.B. „formulieren Sie Handlungsanweisungen knapp und präzise“. Wie jedoch kann ein Standard entwickelt werden, der zu einem Unternehmen, seiner Branche und Zielgruppen passt und für die automatische Prüfung implementiert werden kann? Sprachtechnologie hilft effizient bei der Entwicklung individueller Richtlinien. Durch Datenanalyse, Satzcluster und Parametrisierung entsteht ein textspezifischer individueller Standard. Ist damit aber der Gegensatz von Kreativität und Standardisierung aufgehoben?
Part-of-Speech tagging is generally performed by Markov models, based on bigram or trigram models. While Markov models have a strong concentration on the left context of a word, many languages require the inclusion of right context for correct disambiguation. We show for German that the best results are reached by a combination of left and right context. If only left context is available, then changing the direction of analysis and going from right to left improves the results. In a version of MBT (Daelemans et al., 1996) with default parameter settings, the inclusion of the right context improved POS tagging accuracy from 94.00% to 96.08%, thus corroborating our hypothesis. The version with optimized parameters reaches 96.73%.
Seit einiger Zeit ist zu beobachten, dass zu dem Handwerkszeug eines DaF-Lerners […] nicht mehr Grammatiken und Wörterbücher im klassischen Sinne gehören. Das Nachschlagen in Printwerken wird auf allen Stufen und für alle Benutzersituationen durch die Konsultation in den unterschiedlichsten über Internet frei zugänglichen Materialien ersetzt. […] So scheint es, dass gerade im DaF-Bereich die Printnachschlagewerke bald schon zu einem Relikt anderer Zeiten angehören werden. Aber genauso wie für die Benutzung von Printwörterbüchern, benötigt der DaF-Lerner durch die ganz neu entstehenden online-Nachschlagetechniken (Engelberg/Lemnitzer 2009, 111) genügend Information und Schulung, um für seine jeweilige Benutzersituation in dem dafür am besten geeigneten Konsultationssystem die jeweils adäquateste Rechercheoption auszuwählen. […] Das gilt gleichermaßen für Print- wie für Onlineressourcen, wobei allerdings gerade bei Internetwörterbüchern bei der Suchanfrage das Risiko des Orientierungsverlustes („lost in hyperspace“) verstärkt auftreten kann (cfr. Haß/Schmitz 2010, 4). Es ist daher Aufgabe der Lehrenden, die entsprechende Orientierung und Hilfestellung zu leisten. Leider ist zu bemerken, dass im DaF-Bereich die nötige lexikographische Kompetenz nicht genügend vermittelt wird, was nicht zuletzt oft an der mangelnden lexikographischen Vorbildung der DaF-Lehrer liegt. Ziel des Beitrages ist es daher, einige Internetwörterbücher (IWB) mit freiem Zugang für die Deutsche Sprache in groben Zügen vorzustellen und für ihren Nutzen in unterschiedliche Benutzersituationen im Bereich DaF zu kommentieren, um dem DaF-Lerner und Lehrer die Auswahl aus dem inzwischen recht unübersichtlichen Angebot für seine jeweiligen Bedürfnisse zu erleichtern. In Anlehnung an die vorgeschlagenen Kriterien von Engelberg/Lemnitzer (42009, 220ff.), Storrer (2010) und das Evaluationsraster zur Beurteilung von online-WB von Kemmer (2010) sollen verschiedene aktuelle IWB der deutschen Gegenwartssprache beurteilt werden. Zur Wörterbuch-Typologisierung orientiere ich mich an den Vorschlägen von Engelberg/Lemnitzer (42009), beschränke aber in diesem Rahmen den Gegenstandsbereich auf zweisprachige IWB, spezifische einsprachige DaF-IWB und einige modularisierte allgemeinsprachige Wörterbuchportale, in denen verschiedene IWB miteinander verlinkt sind.