Linguistik
Refine
Year of publication
Document Type
- Article (451)
- Part of a Book (184)
- Working Paper (132)
- Review (84)
- Book (60)
- Conference Proceeding (52)
- Part of Periodical (26)
- Preprint (22)
- Report (22)
- Doctoral Thesis (7)
- Periodical (7)
- Magister's Thesis (3)
- magisterthesis (3)
- Other (3)
- Contribution to a Periodical (2)
- diplomthesis (1)
- Habilitation (1)
- Lecture (1)
Language
- German (1061) (remove)
Keywords
- Deutsch (290)
- Deutsch als Fremdsprache (46)
- Phraseologie (42)
- Tschechisch (42)
- Deutschunterricht (41)
- Linguistik (41)
- Fremdsprachenunterricht (40)
- Fremdsprachenlernen (36)
- Semantik (35)
- Lexikologie (30)
Institute
Im Fokus dieser Magisterarbeit stehen Präpositionalphrasen (PP), deren Komplement eine unikale Komponente ist. Es handelt sich bei diesen Komplementen um Nomen, die außerhalb einer PP nicht vorkommen bzw. in anderen Umgebungen nicht die selbe Bedeutung haben. Um dieses Phänomen zu beschreiben wird eine Analyse innerhalb der Head-Driven Phrase Structure Grammar (HPSG) entwickelt. Grundkenntnisse über Struktur und Begrifflichkeiten der HPSG werden in dieser Arbeit vorausgesetzt, als Referenz siehe [PS94]. Die Gliederung gestaltet sich wie folgt: Zunächst werden die zu untersuchenden Daten im Detail dargestellt. Anschließend werden verschiedene Analysemöglichkeiten innerhalb der Theorie der HPSG in Betracht gezogen, nämlich Selektion, Konstruktion und Kollokation. Dabei muss festgestellt werden, dass die existierenden Ansätze den Daten nicht oder nur unbefriedigend gerecht werden können. Der Ansatz, der letztendlich verfolgt wird, besteht darin, den bereits existierenden Selektionsmechanismus über SPEC zu generalisieren. Dieses Vorgehen erlaubt dann der unikalen NP, die Präposition, mit welcher sie einhergeht, zu selegieren. Hierzu werden einige, jedoch vertretbare Änderungen in der HPSG-Architektur vorgenommen und es wird gezeigt, wie mit dem generalisierten Mechanismus die Daten behandelt werden können. Daran anschließend folgt eine Erweiterung des Phänomenbereichs auf Paarformeln. Ferner wird ein Einwand im Zusammenhang mit der Analyse des Komplements als NP bzw. DP diskutiert und zur weiteren Motivation des Ansatzes wird noch ein weiteres lokales Phänomen,die Distribution der Spur, mit der hier vorgestellten Herangehensweise modelliert. Darüberhinaus wird die Frage untersucht, ob man nicht auch PPs mit festen Verben geschickt analysieren kann. Dazu wird ein Weg, Lexeme zu selegieren, eingeführt und der entwickelte Mechanismus erweitert. Diese Erweiterung findet Anwendung bei der Modellierung der lokalen Distribution einer Partikel. Eine Zusammenfassung, sowie ein Ausblick auf weiterführende Fragestellungen schließen die Arbeit ab.
Das Zustandspassiv : grammatische Einordnung – Bildungsbeschränkungen – Interpretationsspielraum
(2005)
Das Chunkparsing bietet einen besonders vielversprechenden Ansatz zum robusten, partiellen Parsing mit dem Ziel einer breiten Datenabdeckung. Ziel beim Chunkparsing ist eine partielle, nicht-rekursive syntaktische Struktur. Dieser extrem effiziente Parsing-Ansatz läßt sich als Kaskade endlicher Transducer realisieren. In diesem Beitrag wird TüSBL vorgestellt, ein System, bei dem die Eingabe aus spontaner, gesprochener Spache besteht, die dem Parser in Form eines Worthypothesengraphen aus einem Spracherkenner zur Verfügung gestellt wird. Chunkparsing ist für eine solche Anwendung besonders geeignet, da es fragmentarische oder nicht wohlgeformte Äußerungen robust behandeln kann. Des weiteren wird eine Baumkonstruktionskomponente vorgestellt, die die partiellen Chunkstrukturen zu vollständigen Bäumen mit grammatischen Funktionen erweitert. Das System wird anhand manuell überprüfter Systemeingaben evaluiert, da sich die üblichen Evaluationsparameter hierfür nicht eignen.
Part-of-Speech tagging is generally performed by Markov models, based on bigram or trigram models. While Markov models have a strong concentration on the left context of a word, many languages require the inclusion of right context for correct disambiguation. We show for German that the best results are reached by a combination of left and right context. If only left context is available, then changing the direction of analysis and going from right to left improves the results. In a version of MBT (Daelemans et al., 1996) with default parameter settings, the inclusion of the right context improved POS tagging accuracy from 94.00% to 96.08%, thus corroborating our hypothesis. The version with optimized parameters reaches 96.73%.
In dieser Arbeit soll erst ein kurzer Überblick über die Gebiete der Wortklassifizierung und des maschinellen Lernens gegeben werden (Kap. 1). Dann wird der Ansatz der transformationsbasierten fehlergesteuerten Wortklassifizierung (Transformation-Based Error-Driven Tagging) von Brill (1992, 1993, 1994) vorgestellt und für die Verwendung für deutschsprachige Korpora angepaßt (Kap. 2). Hierbei handelt es sich um ein regelbasiertes System, bei dem die Regeln im Gegensatz zu den bisher vorhandenen Systemen nicht manuell erarbeitet und dem System vorgegeben werden; das System erwirbt die Regeln vielmehr selbst anhand von wenigen Regelschemata aus einem kleinen bereits getaggten Lernkorpus. In Kapitel 3 werden die Ergebnisse aus der Anwendung des Systems auf Teile eines deutschsprachigen Korpus dargestellt. In Kapitel 4 schließlich werden andere Taggingsysteme vorgestellt und mit dem System von Brill (1993) anhand von acht Kriterien verglichen.
Maschinelles Lernen wird häufig zur effzienten Annotation großer Datenmengen eingesetzt. Die Forschung zu maschinellen Lernverfahren beschränkt sich i.a. darauf unterschiedliche Lernverfahren zu vergelichen oder die optimale größe der Trainingsdaten zu bestimmen. Bisher wurde jedoch nicht untersucht, in wie weit sich linguistisches Wissen bei der Aufgabendefinition positiv auswirken kann. Dies soll hier anhand des Lernens von Base-Nominalphrasen mit drei unterschiedlichen Definitionen untersucht werden. Die Definitionen unterscheiden sich im Grad der linguistisch motivierten Erweiterungen, die zu einer eher praktisch motivierten ersten Definition hinzu kamen. Die Untersuchungen ergaben, dass sich die Anzahl der falsch klasssifizierten Wörter um ein Drittel reduzieren lässt.
Der TUSNELDA-Standard : ein Korpusannotierungsstandard zur Unterstützung linguistischer Forschung
(2001)
Die Verwendung von Standards für die Annotierung größerer Sammlungen elektronischer Texte (Korpora) ist eine Voraussetzung für eine mögliche Wiederverwendung dieser Korpora. Dieser Artikel stellt einen Korpusannotierungsstandard vor, der die Anforderungen der Untersuchung unterschiedlichster linguistischer Phänomene berücksichtigt. Der Standard wurde im SFB 441 an der Universität Tübingen entwickelt. Er geht von bestehenden Standards, insbesondere CES und TEI, aus, die sich als teilweise zu ausführlich und zu wenig restriktiv,teilweise auch als nicht ausdrucksstark genug erweisen, um den Bedürfnissen korpusbasierter linguistischer Forschung gerecht zu werden.
Die Theorie des sprachlichen Lernens und Lehrens ist bis in die siebziger Jahre des 20. Jahrhunderts hinein eine "Meisterlehre" (Müller-Michaels 1980) gewesen. Große Vorbilder eines Volkes (z.B. Mose), Leiter philosophischer Schulen (z.B. Platon) oder Äbte von Klöstern (z.B. Augustinus) und schließlich staatlich geprüfte Oberstudiendirektoren (z.B. Ulshöfer) beschrieben den jüngeren Kollegen, was sich beim Lehren der Sprache über Jahrzehnte bewährt habe: wie man am besten den Sprachunterricht erteile (Müller 1922, Seidemann 1973, Ulshöfer 1968, Essen 1968). Mit der Etablierung der Sprachdidaktiken an den Universitäten ist das Konzept der "norm-setzenden Handlungswissenschaften" Müller-Michaels 1980, Ivo 1975) entwickelt worden. Der Forscher (nicht mehr als Meister der Praxis ausgewiesen) untersucht die Prozesse des sprachlichen Lehrens und Lernens, indem er im "Feld" des Praktikers Erhebungen anstellt, um anschließend die erhobenen Daten einer Hypothesenprüfung zu unterziehen. Als Handlungsfeld wird besonders die Schule berücksichtigt. Die Methoden der Forschung sind vorwiegend "quasi-experimentell". In der Nachfolge der Sprachtheorie Chomsky´s (Chomsky 1965) sind die experimentellen Ansätze zur Untersuchung des Spracherwerbs, der Spracherwerbsstörung und der betreffenden Interventionen entwickelt worden (de Villiers/ de Villiers 1970, Hörmann 1978). Ort der Untersuchung ist das Labor. Das Design dieser Sprachdidaktik (bzw. Psycholinguistik, Kognitionswissenschaften etc.) ist experimentell (z.B. Herrmann 2004). Alle drei Konzepte stehen sich in vielerlei Hinsicht antagonistisch gegenüber. Sie auseinander zu halten - und andererseits mit Gewinn aufeinander zu beziehen -, gehört zu den Basis-Fähigkeiten der linguosomatischen Berufe und ihrer zugrundeliegenden Theorie (Beispiel Sprachlehrberufe, Phoniatrie, Sprachheil-Sonderpädagogik, psychosomatische Sprachtherapien). Daher sind die signifikanten Gegensätze der drei Konzepte herauszuarbeiten und ihre widerstrebenden Konsequenzen aufeinander zu beziehen.
Seitdem die Junggrammatiker den Begriff des Lautgesetzes geprägt haben, sind deren fast ebenso viele aufgestellt wie in der Folge hinterfragt, widerlegt und vielleicht am Ende sogar doch wieder erfolgreich verteidigt worden. Jedes Lautgesetz wirkt in einem unterschiedlichen Zeitraum. Ist aus dem Zeitraum des Wirkens mehrerer zeitlich benachbarter oder gar einander zeitlich überlappender Lautgesetze ein ausreichend großes Textkorpus erhalten, so ist es ein Leichtes, die Reihenfolge des Wirkens der Gesetze zu ermitteln, oder, im günstigsten Fall, den Zeitraum ihres Wirkens sogar mit gewisser Präzision datieren zu können. Anders verhält es sich hingegen, wenn schriftliche Überlieferungen der untersuchten Sprache in der entscheidenden Epoche nur spärlich oder gar nicht vorliegen. Hier muss daher traditionell darauf zurückgegriffen werden, die Reihenfolge anhand der allein möglichen Entwicklung einzelner Wörter, auf die besonders viele der betreffenden Lautgesetze gewirkt haben, zu bestimmen. Diese Methode birgt jedoch die Gefahr menschlicher Fehler, insbesondere in Fällen, in denen eine klare Reihenfolge nur unter Betrachtung mehrerer Wörter zu ermitteln ist. Die Forscher vergangener Jahrzehnte und Jahrhunderte hatten hier allerdings keine andere Wahl. Mit den heute verfügbaren Computern eröffnen sich jedoch ungeahnte Möglichkeiten. Zuvor in Programmiersprache umgeschriebene Lautgesetze können in Sekundenschnelle auf immense Textkorpora angewandt werden. Um aber – ohne jegliche Zuhilfenahme außersprachlichen Wissens – die eine oder mehrere mögliche Reihenfolgen verschiedener Lautgesetze zu bestimmen, ist es nötig, sämtliche Möglichkeiten anhand eines Wortkorpus durchzuspielen und die jeweiligen Ergebnisse mit den tatsächlichen, vorliegenden Ergebnissen zu vergleichen. Dieser Versuch soll im Folgenden unternommen werden. Auf diese Weise könnten dann relative Chronologien von Lautgesetzen, die als längst etabliert gelten, noch einmal auf den Prüfstand gestellt und möglicherweise sogar noch präzisiert werden. Nach einer kurzen Begriffsgeschichte des Lautgesetzes soll zunächst auf sprachliche Problemstellungen eingegangen werden, die das Vorhaben erschweren, bevor die Auswahl zweier den Untersuchungszeitraum begrenzender Sprachstufen sowie eine Beschreibung des Datenmaterials – Wortkorpus und Lautgesetze – folgen. Nun soll das Computerprogramm, von den Anforderungen bis hin zur Umsetzung, erläutert werden. Anschließen soll sich hieran eine Darstellung der Erkenntnisse, die die Ergebnisse des Programms gewähren. Im Schlussteil sollen die offen gebliebenen und die neu entstandenen Fragen noch einmal zusammengefasst und Möglichkeiten zur hierauf basierenden weitergehenden Forschung erörtert werden.