Linguistik
Refine
Year of publication
- 2005 (24) (remove)
Document Type
- Article (10)
- Part of a Book (6)
- Preprint (5)
- Conference Proceeding (3)
Has Fulltext
- yes (24)
Is part of the Bibliography
- no (24)
Keywords
- Computerlinguistik (3)
- Japanisch (3)
- Deutsch (2)
- Englisch (2)
- Familienname (2)
- Fremdsprachenunterricht (2)
- Lexikologie (2)
- Morphologie (2)
- Namenkunde (2)
- Reflexivität <Linguistik> (2)
Institute
- Extern (24) (remove)
This paper describes the creation and preparation of TUSNELDA, a collection of corpus data built for linguistic research. This collection contains a number of linguistically annotated corpora which differ in various aspects such as language, text sorts / data types, encoded annotation levels, and linguistic theories underlying the annotation. The paper focuses on this variation on the one hand and the way how these heterogeneous data are integrated into one resource on the other hand.
When a statistical parser is trained on one treebank, one usually tests it on another portion of the same treebank, partly due to the fact that a comparable annotation format is needed for testing. But the user of a parser may not be interested in parsing sentences from the same newspaper all over, or even wants syntactic annotations for a slightly different text type. Gildea (2001) for instance found that a parser trained on the WSJ portion of the Penn Treebank performs less well on the Brown corpus (the subset that is available in the PTB bracketing format) than a parser that has been trained only on the Brown corpus, although the latter one has only half as many sentences as the former. Additionally, a parser trained on both the WSJ and Brown corpora performs less well on the Brown corpus than on the WSJ one. This leads us to the following questions that we would like to address in this paper: - Is there a difference in usefulness of techniques that are used to improve parser performance between the same-corpus and the different-corpus case? - Are different types of parsers (rule-based and statistical) equally sensitive to corpus variation? To achieve this, we compared the quality of the parses of a hand-crafted constraint-based parser and a statistical PCFG-based parser that was trained on a treebank of German newspaper text.
[D]ie polnischen Familiennamen [unterlagen] bis ins 19. Jahrhundert hinein nur geringer amtlicher Kontrolle [...]. Diese Situation begünstigte den sukzessiven Aufbau onymischer Allomorphik aus den […] Flexions- und Derivationsmorphemen, die ursprünglich zur Bildung von Herkunftsbezeichnungen, Patronymika und Übernamen angewendet wurden. Die sekundäre Nutzung dieser Flexions- und Wortbildungsmorpheme als onymische Suffixe trieb den […] Dissoziationsprozess der Familiennamen voran. Die wachsende Produktivität dieser onymischen Morphe, die bis heute andauert, sicherte ihnen die Spitzenposition unter den Proprialitätsmarkern im polnischen Familiennamensystem. Heute sind die onymischen Allomorphe -ska, -ski, -icz, -ak das wichtigste Mittel, mit dem die Zugehörigkeit eines Wortes zum Onomastikon gekennzeichnet wird. […] In diesem Beitrag werden die Entstehungswege und die Ausbreitungspfade der drei produktivsten Gruppen der polnischen onymischen Suffixe präsentiert. Es werden auch die außersprachlichen Faktoren berücksichtigt, die die Erhöhung der Produktivität durch sukzessive Erweiterung der Kombinationsmöglichkeiten der einzelnen Suffixe ermöglicht haben. Es wird gezeigt, dass die ursprünglichen Selektionsbeschränkungen der Basen mit den Suffixen (Toponyme + -ska-Suffixe, Appellative und Adjektive + k-haltige Suffixe, Vornamen + -icz-Suffixe) im Zuge ihrer Ausbreitung und Festigung aufgegeben wurden. Die onymischen Allomorphe sind heute frei kombinierbar und können im Falle des Namenwechsels zur Bildung eines neuen Namens herangezogen werden.
Woher kommt das neuerwachte Interesse an Sprachrichtigkeit? Woher kommt die ausgeprägte sprachliche Unsicherheit, die auch bei vielen hochgebildeten Menschen den Wunsch entstehen lässt, von Sprachpflegern über ihr Ureigenstes, nämlich ihre Muttersprache, belehrt zu werden? Obwohl Antworten auf diese Fragen letztlich spekulativ bleiben, wage ich doch die These, dass eine Ursache hierfür die Rechtschreibreform ist, die von einem Großteil der Bevölkerung nach wie vor nicht angenommen wird, die insgesamt weder zur Vereinfachung noch zu einer höheren Einheitlichkeit geführt hat; die aber andererseits ein öffentliches Nachdenken und Diskutieren über Sprachrichtigkeit in Gang setzte. – Jedenfalls ist die Verunsicherung ein Faktum, das von Linguisten nicht ignoriert werden sollte.
Ausgangspunkt: Die Kritik am "Zwei-Welten-Modell": Die grundlegende linguistische Unterscheidung zwischen "Sprache" und "Sprechen" ist im Rahmen der neueren Debatten um Sprachmedialität wieder verstärkt thematisiert und kritisiert worden. Lässt sich dieses schulbildende, in der Linguistik geradezu eherne Begriffspaar überhaupt noch sinnvollerweise aufrechterhalten? Oder muss es mindestens umdefiniert, vielleicht sogar gänzlich verworfen werden? Hat sich insbesondere die auf Chomsky zurückgehende Unterscheidung von Sprachkompetenz und -performanz nicht von selbst ad absurdum geführt, nachdem der linguistische Kognitivismus chomskyscher Provenienz Sprache als lebendiges Phänomen, als Medium menschlicher Kommunikation, vollständig aus dem Blick verloren hat? Führt nicht schon die scheinbar harmlose linguistische Differenzierung zwischen einer Sprachregel und ihrer Anwendung zu einer irreführenden und unangemessenen Verdinglichung von Sprache? ...
This paper develops a framework for TAG (Tree Adjoining Grammar) semantics that brings together ideas from different recent approaches.Then, within this framework, an analysis of scope is proposed that accounts for the different scopal properties of quantifiers, adverbs, raising verbs and attitude verbs. Finally, including situation variables in the semantics, different situation binding possibilities are derived for different types of quantificational elements.
Trubetzkoy's recognition of a delimitative function of phonology, serving to signal boundaries between morphological units, is expressed in terms of alignment constraints in Optimality Theory, where the relevant constraints require specific morphological boundaries to coincide with phonological structure (Trubetzkoy 1936, 1939, McCarthy & Prince 1993). The approach pursued in the present article is to investigate the distribution of phonological boundary signals to gain insight into the criteria underlying morphological analysis. The evidence from English and Swedish suggests that necessary and sufficient conditions for word-internal morphological analysis concern the recognizability of head constituents, which include the rightmost members of compounds and head affixes. The claim is that the stability of word-internal boundary effects in historical perspective cannot in general be sufficiently explained in terms of memorization and imitation of phonological word form. Rather, these effects indicate a morphological parsing mechanism based on the recognition of word-internal head constituents. Head affixes can be shown to contrast systematically with modifying affixes with respect to syntactic function, semantic content, and prosodic properties. That is, head affixes, which cannot be omitted, often lack inherent meaning and have relatively unmarked boundaries, which can be obscured entirely under specific phonological conditions. By contrast, modifying affixes, which can be omitted, consistently have inherent meaning and have stronger boundaries, which resist prosodic fusion in all phonological contexts. While these correlations are hardly specific to English and Swedish it remains to be investigated to which extent they hold cross-linguistically. The observation that some of the constituents identified on the basis of prosodic evidence lack inherent meaning raises the issue of compositionality. I will argue that certain systematic aspects of word meaning cannot be captured with reference to the syntagmatic level, but require reference to the paradigmatic level instead. The assumption is then that there are two dimensions of morphological analysis: syntagmatic analysis, which centers on the criteria for decomposing words in terms of labelled constituents, and paradigmatic analysis, which centers on the criteria for establishing relations among (whole) words in the mental lexicon. While meaning is intrinsically connected with paradigmatic analysis (e.g. base relations, oppositeness) it is not essential to syntagmatic analysis.
Wiederholt ist auf das onomastische Dokumentations- und Forschungspotential digital gespeicherter Telefonanschlüsse hingewiesen worden. Auch sind auf dieser Basis bereits Untersuchungen zum Inventar und zur Verbreitung deutscher Familiennamen entstanden. Durch neue Software zur Auswertung digitaler Telefonanschlüsse ergeben sich inzwischen fast unbegrenzte Möglichkeiten, das Familiennamensystem Deutschlands erstmals überhaupt zuverlässig zu erfassen, zu dokumentieren und auf bestimmte Phänomene hin zu befragen. In Minutenschnelle ist es nun beispielsweise möglich, alle Komposita auf -müller in Listen zusammenzustellen und in Karten deutschlandweit in ihrer Verbreitung sichtbar zu machen.