Linguistik
Refine
Year of publication
- 2005 (152) (remove)
Document Type
- Part of a Book (54)
- Article (51)
- Conference Proceeding (17)
- Preprint (13)
- Book (7)
- Working Paper (5)
- Report (3)
- diplomthesis (1)
- Other (1)
Language
Has Fulltext
- yes (152)
Is part of the Bibliography
- no (152)
Keywords
- Deutsch (14)
- Artikulation (13)
- Artikulatorische Phonetik (13)
- Phonetik (13)
- Englisch (11)
- Artikulator (9)
- Bedeutungswandel (6)
- Computerlinguistik (6)
- Akustische Phonetik (5)
- Fremdsprachenlernen (5)
Institute
This paper describes the creation and preparation of TUSNELDA, a collection of corpus data built for linguistic research. This collection contains a number of linguistically annotated corpora which differ in various aspects such as language, text sorts / data types, encoded annotation levels, and linguistic theories underlying the annotation. The paper focuses on this variation on the one hand and the way how these heterogeneous data are integrated into one resource on the other hand.
When a statistical parser is trained on one treebank, one usually tests it on another portion of the same treebank, partly due to the fact that a comparable annotation format is needed for testing. But the user of a parser may not be interested in parsing sentences from the same newspaper all over, or even wants syntactic annotations for a slightly different text type. Gildea (2001) for instance found that a parser trained on the WSJ portion of the Penn Treebank performs less well on the Brown corpus (the subset that is available in the PTB bracketing format) than a parser that has been trained only on the Brown corpus, although the latter one has only half as many sentences as the former. Additionally, a parser trained on both the WSJ and Brown corpora performs less well on the Brown corpus than on the WSJ one. This leads us to the following questions that we would like to address in this paper: - Is there a difference in usefulness of techniques that are used to improve parser performance between the same-corpus and the different-corpus case? - Are different types of parsers (rule-based and statistical) equally sensitive to corpus variation? To achieve this, we compared the quality of the parses of a hand-crafted constraint-based parser and a statistical PCFG-based parser that was trained on a treebank of German newspaper text.
Tagging kausaler Relationen
(2005)
In dieser Diplomarbeit geht es um kausale Beziehungen zwischen Ereignissen und Erklärungsbeziehungen zwischen Ereignissen, bei denen kausale Relationen eine wichtige Rolle spielen. Nachdem zeitliche Relationen einerseits ihrer einfacheren Formalisierbarkeit und andererseits ihrer gut sichtbaren Rolle in der Grammatik (Tempus und Aspekt, zeitliche Konjunktionen) wegen in jüngerer Zeit stärker im Mittelpunkt des Interesses standen, soll hier argumentiert werden, dass kausale Beziehungen und die Erklärungen, die sie ermöglichen, eine wichtigere Rolle im Kohärenzgefüge des Textes spielen. Im Gegensatz zu “tiefen” Verfahren, die auf einer detaillierten semantischen Repr¨asentation des Textes aufsetzen und infolgedessen für unrestringierten Text m. E. nicht geeignet sind, wird hier untersucht, wie man dieses Ziel erreichen kann, ohne sich auf eine aufwändig konstruierte Wissensbasis verlassen zu müssen.
Theories of cognition that are based on information processing and representation are reactive (Rosen, 1985) or backwards looking, not anticipatory. In a previous article (Thibault, 2005a), I looked at the reasons why humans and bonobos do not need an innate language faculty in order to be minded, languaging beings. The present article takes up some of the questions explored there, but, it asks, on the other hand, what sort of a minded agent has language and what kind of account of language and more broadly meaning do we need to explain minded, languaged agents and the activities they participate in? Following Rosen (1985), I also take up and further develop a point first raised in Thibault (2004a: 187) on language as an anticipatory system, rather than a reactively ‘representational’ one (see also Bickhard, 2005).
The purpose of this article is to report on the work carried out during the research project "O trabalho de tradutor como fonte para a constituição de base de dados" (The translator´s work as a source for the constitution of a database). Through the restoration, organization and digitalization of the personal glossary and part of the books containing the translations made by the deceased public translator Gustavo Lohnefink, this research project intends to construct a digital database of German – Portuguese technical terms (for the language pair), which could then be used by other translators. In order to achieve this purpose, a specific methodology had to be developed, which could be used as a starting-point for the treatment and recovery of other similarly organized data-collections.
We present a system for the linguistic exploration and analysis of lexical cohesion in English texts. Using an electronic thesaurus-like resource, Princeton WordNet, and the Brown Corpus of English, we have implemented a process of annotating text with lexical chains and a graphical user interface for inspection of the annotated text. We describe the system and report on some sample linguistic analyses carried out using the combined thesaurus-corpus resource.
[D]ie polnischen Familiennamen [unterlagen] bis ins 19. Jahrhundert hinein nur geringer amtlicher Kontrolle [...]. Diese Situation begünstigte den sukzessiven Aufbau onymischer Allomorphik aus den […] Flexions- und Derivationsmorphemen, die ursprünglich zur Bildung von Herkunftsbezeichnungen, Patronymika und Übernamen angewendet wurden. Die sekundäre Nutzung dieser Flexions- und Wortbildungsmorpheme als onymische Suffixe trieb den […] Dissoziationsprozess der Familiennamen voran. Die wachsende Produktivität dieser onymischen Morphe, die bis heute andauert, sicherte ihnen die Spitzenposition unter den Proprialitätsmarkern im polnischen Familiennamensystem. Heute sind die onymischen Allomorphe -ska, -ski, -icz, -ak das wichtigste Mittel, mit dem die Zugehörigkeit eines Wortes zum Onomastikon gekennzeichnet wird. […] In diesem Beitrag werden die Entstehungswege und die Ausbreitungspfade der drei produktivsten Gruppen der polnischen onymischen Suffixe präsentiert. Es werden auch die außersprachlichen Faktoren berücksichtigt, die die Erhöhung der Produktivität durch sukzessive Erweiterung der Kombinationsmöglichkeiten der einzelnen Suffixe ermöglicht haben. Es wird gezeigt, dass die ursprünglichen Selektionsbeschränkungen der Basen mit den Suffixen (Toponyme + -ska-Suffixe, Appellative und Adjektive + k-haltige Suffixe, Vornamen + -icz-Suffixe) im Zuge ihrer Ausbreitung und Festigung aufgegeben wurden. Die onymischen Allomorphe sind heute frei kombinierbar und können im Falle des Namenwechsels zur Bildung eines neuen Namens herangezogen werden.
This paper discusses the use of XSLT stylesheets as a filtering mechanism for refining the results of user queries on treebanks. The discussion is within the context of the TIGER treebank, the associated search engine and query language, but the general ideas can apply to any search engine for XML-encoded treebanks. It will be shown that important classes of linguistic phenomena can be accessed by applying relatively simple XSLT templates to the output of a query, effectively simulating the universal quantifier for a subset of the query language.
Wer sich einmal in Deutschschweizer IRC-Chatkanälen herumgesehen hat, hat sofort bemerkt, dass neben der Standardsprache häufig Mundart verwendet wird. Eine Analyse der Varietätenverwendung bietet sich an. Es stellt sich die Frage: was bedeutet sprachliche Norm in einem Kommunikationsraum, in dem die Vorgabe, Deutsch zu schreiben, nur heißt nicht Französisch, Italienisch, Türkisch, Serbisch, Portugiesisch usw. zu schreiben, wo also die Standardsprache nur eine der akzeptierten Varietäten ist? Was bedeutet sprachliche Norm, wo Berndeutsch mit /l/-Vokalisierung neben Walliserdeutsch mit archaischen Volltonvokalen in Nebensilben vorkommt, wo für ein standardsprachliches [a:] ‹a, ah, aa, o, oh› oder ‹oo› stehen kann? Der Frage nach einer deskriptiven Norm wird hier nachgegangen, indem Möglichkeiten der Verschriftung einzelner Aspekte aufgezeigt werden und deren Nutzung in regionalen und überregionalen Chaträumen verglichen werden. Aus dem aktuellen Gebrauch wird dann versucht implizite Normen abzuleiten.
In der deutschsprachigen Schweiz stehen sich gesprochene Mundarten und geschriebene Standardsprache gegenüber. Außer in formellen Situationen wird Mundart gesprochen, und bis vor kurzem wurde nur selten Mundart geschrieben, sondern die hochdeutsche Schriftsprache. Die Chat-Kommunikation zeigt einerseits durch die nicht-zeitversetzte quasi-direkte Kommunikation wesentliche Züge von Mündlichkeit, die zusammen mit der Informalität im Chat den Mundartgebrauch fördert. Andererseits ist das Medium immer noch die Schrift, welche die Domäne der Standardsprache darstellt. Mundart und Standardsprache stehen sich also in Chaträumen in direkter Konkurrenz gegenüber. Der folgende Beitrag analysiert quantitativ und qualitativ das Neben- und Miteinander der beiden Varietäten in Schweizer Chaträumen und untersucht das Vorkommen und die Bedingungen von Code-Alternation und Code-Switches.