Linguistik
Refine
Year of publication
- 2001 (8) (remove)
Document Type
- Preprint (8) (remove)
Has Fulltext
- yes (8)
Is part of the Bibliography
- no (8)
Keywords
- Deutsch (2)
- Englisch (2)
- Satzanalyse (2)
- Drung (1)
- Isländisch (1)
- Kongress (1)
- Kontrastive Linguistik (1)
- Korpusannotation (1)
- Maschinelles Lernen (1)
- Nominalphrase (1)
Institute
- Extern (4)
Maschinelles Lernen wird häufig zur effzienten Annotation großer Datenmengen eingesetzt. Die Forschung zu maschinellen Lernverfahren beschränkt sich i.a. darauf unterschiedliche Lernverfahren zu vergelichen oder die optimale größe der Trainingsdaten zu bestimmen. Bisher wurde jedoch nicht untersucht, in wie weit sich linguistisches Wissen bei der Aufgabendefinition positiv auswirken kann. Dies soll hier anhand des Lernens von Base-Nominalphrasen mit drei unterschiedlichen Definitionen untersucht werden. Die Definitionen unterscheiden sich im Grad der linguistisch motivierten Erweiterungen, die zu einer eher praktisch motivierten ersten Definition hinzu kamen. Die Untersuchungen ergaben, dass sich die Anzahl der falsch klasssifizierten Wörter um ein Drittel reduzieren lässt.
Chunk parsing has focused on the recognition of partial constituent structures at the level of individual chunks. Little attention has been paid to the question of how such partial analyses can be combined into larger structures for complete utterances. Such larger structures are not only desirable for a deeper syntactic analysis. They also constitute a necessary prerequisite for assigning function-argument structure. The present paper offers a similaritybased algorithm for assigning functional labels such as subject, object, head, complement, etc. to complete syntactic structures on the basis of prechunked input. The evaluation of the algorithm has concentrated on measuring the quality of functional labels. It was performed on a German and an English treebank using two different annotation schemes at the level of function argument structure. The results of 89.73% correct functional labels for German and 90.40%for English validate the general approach.
Chunk parsing has focused on the recognition of partial constituent structures at the level of individual chunks. Little attention has been paid to the question of how such partial analyses can be combined into larger structures for complete utterances. The TüSBL parser extends current chunk parsing techniques by a tree-construction component that extends partial chunk parses to complete tree structures including recursive phrase structure as well as function-argument structure. TüSBLs tree construction algorithm relies on techniques from memory-based learning that allow similarity-based classification of a given input structure relative to a pre-stored set of tree instances from a fully annotated treebank. A quantitative evaluation of TüSBL has been conducted using a semi-automatically constructed treebank of German that consists of appr. 67,000 fully annotated sentences. The basic PARSEVAL measures were used although they were developed for parsers that have as their main goal a complete analysis that spans the entire input.This runs counter to the basic philosophy underlying TüSBL, which has as its main goal robustness of partially analyzed structures.
This paper is part of a research project on OT Syntax and the typology of the free relative (FR) construction. It concentrates on the details of an OT analysis and some of its consequences for OT syntax. I will not present a general discussion of the phenomenon and the many controversial issues it is famous for in generative syntax.
Der TUSNELDA-Standard : ein Korpusannotierungsstandard zur Unterstützung linguistischer Forschung
(2001)
Die Verwendung von Standards für die Annotierung größerer Sammlungen elektronischer Texte (Korpora) ist eine Voraussetzung für eine mögliche Wiederverwendung dieser Korpora. Dieser Artikel stellt einen Korpusannotierungsstandard vor, der die Anforderungen der Untersuchung unterschiedlichster linguistischer Phänomene berücksichtigt. Der Standard wurde im SFB 441 an der Universität Tübingen entwickelt. Er geht von bestehenden Standards, insbesondere CES und TEI, aus, die sich als teilweise zu ausführlich und zu wenig restriktiv,teilweise auch als nicht ausdrucksstark genug erweisen, um den Bedürfnissen korpusbasierter linguistischer Forschung gerecht zu werden.
In der Abteilung Grammatik des Instituts für Deutsche Sprache, Mannheim, wird derzeit ein neues Projekt entwickelt, und zwar das einer Grammatik des Deutschen im europäischen Vergleich (GDE). Dieses Projekt fügt sich ein in die kontrastive Tradition des IDS, ist jedoch andererseits auch in vieler Hinsicht innovativ. Bevor ich das Projekt im Einzelnen vorstelle, versuche ich den Bogen zurück zu den kontrastiven Grammatiken zu schlagen. Gerade die Leserschaft polnischer Germanisten braucht an die Tradition kontrastiver Grammatikschreibung sicher nicht eigens erinnert zu werden. Denn diese Tradition, die untrennbar mit dem Namen Ulrich Engel verknüpft ist, ist gerade erst in der neu erschienenen deutsch-polnischen kontrastiven Grammatik kulminiert. Im Bereich der kontrastiven Grammatiken zu Sprachenpaaren, von denen das Deutsche ein Element ist, verfügt das IDS also über eine vergleichsweise reiche Tradition. Am IDS oder in Kooperation mit dem IDS wurden kontrastive Grammatiken zu den Sprachenpaaren Deutsch – Französisch (Zemb 1978), Deutsch – Serbokroatisch , Deutsch – Spanisch (Cartegena/Gauger 1989), Deutsch – Rumänisch (Engel u.a. 1993) erarbeitet. Zum Sprachenpaar Englisch – Deutsch liegt mit Hawkins 1986 eine typologisch-vergleichende Grammatik vor. Die deutsch-polnische kontrastive Grammatik, die unter der Leitung von Ulrich Engel erarbeitet wurde, ist 1999 erscheinen. Abraham 1994 und Glinz 1994 konfrontieren das Deutsche, mit durchaus unterschiedlicher Akzentsetzung, mit mehreren anderen europäischen Sprachen. An der Berliner Humboldt-Universität laufen derzeit die Vorarbeiten zu einer deutsch-russischen kontrastiven Grammatik (Initiative Wolfgang Gladrow und Michail Kotin). Die Aufgabe einer 'Grammatik des Deutschen im europäischen Kontext' ist also hinlänglich vorbereitet.