Linguistik
Refine
Year of publication
Document Type
- Article (186)
- Preprint (69)
- Part of a Book (65)
- Working Paper (40)
- Conference Proceeding (33)
- Book (24)
- Review (12)
- Part of Periodical (7)
- Course Material (1)
- Report (1)
Language
- Croatian (150)
- English (141)
- German (120)
- Portuguese (9)
- Turkish (7)
- mis (4)
- French (3)
- Italian (2)
- Multiple languages (1)
- Spanish (1)
Has Fulltext
- yes (438) (remove)
Is part of the Bibliography
- no (438)
Keywords
- Kroatisch (50)
- Linguistik (50)
- Rezension (48)
- Deutsch (35)
- Computerlinguistik (32)
- Syntax (19)
- Japanisch (18)
- Grammatik (17)
- Namenkunde (17)
- Rezensionen (17)
Institute
- Extern (438) (remove)
This article presents linguistic features of and educational approaches to a new variety of German that has emerged in multi-ethnic urban areas in Germany: Kiezdeutsch (‘Hood German’). From a linguistic point of view, Kiezdeutsch is very interesting, as it is a multi-ethnolect that combines features of a youth language with those of a contact language. We will present examples that illustrate the grammatical productivity and innovative potential of this variety. From an educational perspective, Kiezdeutsch has also a high potential in many respects: school projects can help enrich intercultural communication and weaken derogatory attitudes. In grammar lessons, Kiezdeutsch can be a means to enhance linguistic competence by having the adolescents analyse their own language. Keywords: German, Kiezdeutsch, multi-ethnolect, migrants’ language, language change, educational proposals
Während Anglizismen in deutscher Jugend- und Standardsprache bereits gut untersucht sind, stellt der Einfluss des Englischen auf multiethnolektale Varietäten des Deutschen noch ein unbestelltes Feld dar. Mit diesem Beitrag möchten wir einen Anstoß für künftige Forschungsarbeit in diesem Gebiet geben und zugleich einige erste Schritte unternehmen
Als Reaktion auf das Unidirektionalitätspostulat in der Grammatikalisierungsforschung sind in jüngerer Zeit einige Beiträge entstanden, die sich mit gegenläufigen Prozessen befassen (in diesem Band etwa die Beiträge von Trost, Simon und Wischer). Solche gegenläufige Entwicklungen ("De-Grammatikalisierungen") finden sich in Harnisch (2004) zusammengestellt. Quer zu dieser Achse verläuft die zwischen Lexikalisierung (als Prozess der Demotivierung und Desegmentierung einstiger Wortbildungsprodukte) und Delexikalisierung (als Prozess der Resegmentierung und Remotivierung), die unter dem Stichwort "Volksetymologie" oder "sekundäre Motivation" bekannter sein dürfte (vgl. ungar. talpas - nhd. Toll-patsch; hierzu s. Abb. 1 in Harnisch 2004: 211, die sich hier als Abb. 3 wiederfindet). In diesem Bereich sind auch die uns interessierenden Erweiterungen von Familiennamen auf -er zu -ert anzusiedeln (Schreiner zu Schreinert). Dabei wird der morphologische Status von -ert zu klären sein.
Es handelt sich fast um einen sprachhistorischen Topos, wenn davon die Rede ist, dass sich das Deutsche von einer synthetischen zu einer analytischen Sprache entwickelt habe, oder zumindest zu einer analytischeren - oft hat man das Englische im Blick, das den isolierenden Sprachen nahestehen soll. Die Darstellungen zur deutschen Sprachgeschichte sind voll von diesem Topos, und anscheinend ist dieses Konzept intuitiv so eingängig, dass kaum hinterfragt wird, was man denn genau unter synthetischen bzw. analytischen Strukturen zu verstehen habe.
Der Begriff des doing gender als interaktive Inszenierung des sozialen Geschlechts (gender) hat sich auch in der Linguistik etabliert und ist vor allem für die Sprachverwendung bzw.- Gesprächslinguistik fruchtbar gemacht worden. Doch selbst etwas so biologisch determiniert Erscheinendes wie weibliche und männliche Stimmen, ihre Höhe, ihre Verlaufsmuster, sind konstruierter, als man dies bisher für möglich gehalten hatte. Der am stärksten und radikalsten segregierte sprachliche Bereich, die Rufnamen, wurde für das Deutsche erst 2003 mit der Arbeit "Naming Gender" von Susanne Oelkers empirisch auf die Kodierung von Geschlecht hin untersucht. Erstmals wird systematisch nachgewiesen, dass und worin sich Frauen- und Männernamen phonologisch-strukturell voneinander unterscheiden, außerdem, dass wir diese Geschlechtszuordnungen auch bei uns unbekannten Namen vornehmen. Das heißt, es besteht ein kollektives Wissen darüber, wie weibliche und männliche Rufnamen beschaffen sind.
Die deutschen Präteritoprasentia sind, indem alte Perfektformen das heutige Präsens stellen, aus mehreren Griinden als hochgradig irregular zu betrachten; hinzu kommt ein bisher nicht geklärter Umlaut bei vier (von heute sieben) dieser Verben: müssen, dürfen, können und mögen. Bisherige Erklärungsversuche werden diesem Problem nicht gerecht: Zwar versuchen sie durchaus, den Umlaut im Präsens zu motivieren, doch vermögen sie es nicht, sein ausschließliches Vorkommen im Plural des Präsens zu erklären. Hier wird für die These argumentiert, dass es sich um einen (verbalen) Pluralumlaut handelt, der insbesondere auch im Nominalbereich gang und gäbe ist und dort zur gleichen Zeit einen massiven Ausbau (Morphologisierung) erfährt. Damit handelt es sich um einen sog. transkategorialen Marker.
Die Familiennamen sind als einziger Bereich der europäischen Sprachen in ihrer ausgeprägten räumlichen Vielfalt noch höchst unzureichend erfasst. Noch sind die geschichtlich gewachsenen Namenlandschaften in erstaunlicher Stabilität erhalten. Sie werden im Bereich der Bundesrepublik Deutschland durch den seit 2005 in Kooperation der Universitäten Freiburg und Mainz in Angriff genommenen und durch die DFG geförderten 'Deutschen Familiennamenatlas' (OFA) auf der Basis von Telefonanschlüssen (Stand 2005) dokumentiert. Im vorliegenden Beitrag werden Vorarbeiten, Ziele, Gesamtanlage des Projekts, Systematik und Repräsentativität der Themenauswahl in den beiden Hauptteilen (grammatischer und lexikalischer Teil) sowie Kriterien und Methoden der inhaltlichen Konzipierung und formalen Gestaltung der Karten und Kommentare vorgestellt und begründet. Aus den genannten Vorarbeiten werden auch schon Perspektiven künftiger Auswertung der in den Datenbanken archivierten Materialien und der im Atlas exemplarisch dokumentierten Strukturen der Namenlandschaften ersichtlich.
In this article we examine and "exapt" Wurzel's concept of superstable markers in an innovative manner. We develop an extended view of superstability through a critical discussion of Wurzel's original definition and the status of marker-superstability versus allomorphy in Natural Morphology: As we understand it, superstability is - above and beyond a step towards uniformity - mainly a symptom for the weakening of the category affected (cf. 1.,2. and 4.). This view is exemplified in four short case studies on superstability in different grammatical categories of four Germanic languages: genitive case in Mainland Scandinavian and English (3.1), plural formation in Dutch (3.2), second person singular ending -st in German (3.3), and ablaut generalisation in Luxembourgish (3.4).
In order to understand the specific structures and features of the German surnames the most important facts about their emergence and history should be outlined and, at the same time, be compared with the Swedish surnames because there are considerable differences (for further details cf. Nubling 1997 a, b). First of all, surnames in Germany emerged rather early, with the first instances occurring in the 11th century in southern Germany; by the 16th century surnames were common all over Germany. Differences are related to geography (from south to north), social class (from the upper to the lower classes) und urban versus rural areas.
Die Idee, das Isländische - eine archaische, am Nordwestrand des germanischen Sprachgebiets gelegene skandinavische Inselsprache - auf die Möglichkeiten des Sexusausdrucks hin zu untersuchen, entstand imZusammenhang einer kontrastiven Arbeit zum Sexusausdruck im Deutschen und Schwedischen (siehe Nübling 2000). Das Schwedische verfügt nur noch über zwei Genera, das sog. Utrum (das aus dem Zusammenfall von Femininum und Maskulinum hervorgeht) und das Neutrum.
Auto - bil, Reha - rehab, Mikro - mick, Alki - alkis : Kurzwörter im Deutschen und Schwedischen
(2001)
Das Kurzwort wird nach BELLMANN 1980 und KOBLER-TRILL 1994 definiert als eine sowohl graphisch als auch phonisch realisierte gekürzte Form, die aus einem längeren sog. Basislexem (einschließlich eines Wortgruppenlexems) hervorgeht (im Folgenden auch Vollform genannt). Dabei besteht zwischen Kurzwort und Basislexem, die weiterhin nebeneinander bestehen, eine Synonymie-Beziehung, d.h. beide referieren auf das gleiche Objekt (vgl. Limo und Limonade, Kripo und Kriminalpolizei).
This article examines the expression of natural gender in Icelandic nouns denoting human beings. Particular attention will be paid to the system's symmetry with regards to nouns denoting women and men. Our society consists more or less exactly of half women and half men. One would therefore assume that systems for terms denoting persons would also be symmetrically organised. Yet this assumption could not be further from the truth, and not just in single isolated cases, but in many languages: I will attempt to show that Icelandic has numerous methods for referring to women, but also many barriers and idiosyncrasies.
Der Präteritumschwund dürfte eine der markantesten morphologischen Entwicklungen des Alemannischen (bzw. Oberdeutschen) bilden. Sein Verlauf in schweizerdeutschen Dialekten ist mit der Arbeit von JÖRG (1976) dokumentiert und ungefiibr ins 16. Jahrhundert zu datieren. Konsequenz der Aufgabe dieses synthetischen Verfahrens war die Verlegung der Vergangenheitskategorie in die Syntax. Dies hat zu einer starken typologischen Drift des Alemannischen in Richtung eines analytischen und zusätzlich klammernden Sprachtyps geführt: Das Perfekt ist zweigliedrig (finites Auxiliar + infinites Vollverb), das Plusquamperfekt sogar dreigliedrig (sogenanntes doppeltes Perfekt). Finites und infinites Verb können durch ganze Satzglieder, Adverbien etc. voneinander getrennt sein, sind also unter Umständen weit voneinander entfernt, was das Ausdrucksverfahren nicht gerade vereinfacht. Der Präteritumschwuud kontrastiert in eigentümlicher Weise mit dem Erhalt, ja sogar dem sekundären Ausbau synthetischer Konjunktivformen (sowohl Konjunktiv I als auch II), die weiteres morphologisches Charakteristikum des Alemannischen sind, doch nicht Thema dieses Beitrags (hierzu s. NÜBLING 1997).
In schwedischen Krankenhäusern ist es selbstverständlich, einen Krankenpfleger mit Syster 'Schwester' anzusprechen (also z.B. Syster Nils 'Schwester Nils'). Auch die Berufsbezeichnung von Schwester Nils ist weiblich: Er ist sjuksköterska, wörtlich 'Krankenpflegerin' (-ska ist schwedisches Movierungssuffix), also 'Krankenschwester'. Der im Schwedischen ganz geläufige Satz han är sjuksköterska 'er ist Krankenschwester' klingt für deutsche Ohren ungrammatisch. Vor etwa 30 Jahren war dies in Schweden nicht anders, doch hat man dieses Problem auf andere Weise gelöst als in Deutschland: Im Schwedischen ist die Sexusneutralisierung weiblicher Personen bezeichnungen möglich, genauer: möglich gemacht worden, während dies in Deutschland als unzulässiger Eingriff ins Sprachsystem betrachtet wird.
Eigennamen stehen in einem vielfältigen Spannungsverhältnis zu Appellativen: Auf der einen Seite entwickeln sie sich fast immer aus - meist konkreten - Gattungsbezeichnungen (Eichstätt, Lindenstraße, Schneider), auf der anderen Seite besteht ihre Hauptfunktion - ganz im Gegensatz zu den Appellativen - in ihrer Monoreferentialität, d.h. in einem 1: 1- Bezug zu nur einem einzigen außersprachlichen Objekt (meist Örtlichkeiten im weitesten Sinn und Personen).
Extremely short verbs can be found in various Genn::.,nic languages and dialects; the sterns of these verbs do not have a fInal consonant «C-)C-V), and they always have a monosyllabic infinitive and usually monosyllabic fInite forms as weIl. Examples for these 'kinds of short verbs are Swiss Gennan hä 'to have', gö 'to go', g~ 'to give', n~ 'to take' which correspond to the Swedish verbs ha, gä, ge and tao The last example shows that such short verb formations also occur with verbs having (nearly) identical meanings but which do not share the same etymology. Apart from their shortness, these verbs are characterized by a high degree of irregularity, often even by suppletion, which sometimes develops contrary to regular sound laws. Furthermore they are among the most-used verbs and often tend towards grammaticalization. The present paper compares the short verbs of seven Germanic languages; in addition, it describes their various ways of development and strategies of differentiation. Moreover, it examines the question of why some languages and dialects (e.g. Swiss German, Frisian, Swedish, Norwegian) have many short verbs while others (New High German, Icelandic, Faroese) only have few, the paper discusses the contribution of short verbs to questions concerning linguistic change and the morphological organization of languages.
Extremely short verbs can be found in various Germanic languages and dialects; the roots of these verbs do not have a final consonant «C)-C-V), and they always have a monosyllabic infinitive and usually monosyllabic finite forms as well. Examples for these kinds of short verbs are Swiss German hä'to have', gä 'to go', gifii 'to give', nifif 'to take' which correspond to the Swedish verbs ha, ga, ge and ta. The last example shows that such shore verb formations also occur with verbs which do not share the same etymology. Apart from shortness, short verbs are characterized by a high degree of irregularity, often even by suppletion, which sometimes develops against sound laws. Furthermore they are among the most used verbs and often tend to grammaticalization. The present paper compares the short verbs of seven Germanic languages; in addition, it describes their various ways of development and strategies of differentiation. Moreover, it exarnines the question of why some languages and dialects (e.g., Swiss German, Frisian, Swedish, Norwegian) have many shore verbs while others (New High German, Icelandic, Faroese) do not. Finally, the paper discusses the contribution of shore verbs to questions concerning linguistic change and the morphological organization of languages.
Wenn man eine Schweizer Bäckerei besucht, erwirbt man nicht nur Spezialitäten kulinarischer, sondern auch sprachlicher Art. Auf der Papiertüte, die man dort bekommt, befindet sich eine Aufforderung, die zwei typisch schweizerdeutsche Erscheinungen enthält: "Chum doch cho schnuppere!" steht auf der Verpackung unten rechts. Wörtlich übersetzt: "Komm doch kommen schnuppern!". Zum einen taucht hier das Verb choo ,kommen' doppelt auf, einmal im Imperativ (chum) und einmal in einem kurzen Infinitiv (cho) vor dem Vollverb schnuppere. Zum anderen gehört choo einer besonderen Verbgruppe an, den sog. Kurzverben. Diese Kurzverben kennt das Nhd. nicht (mehr), wohl aber die geographisch und sprachlich entfernteren nordgermanischen Sprachen. In der folgenden Liste der Kurzverben werden zum Vergleich die entsprechenden schwedischen Kurzverben danebengesetzt, ohne daß hier ausführlicher auf sie eingegangen werden kann.
Mit der Möglichkeit, anhand digitaler Telefonanschlüsse Familiennamen nach Bestand, Trägerzahl und räumlicher Verbreitung mit großer Genauigkeit zu erfassen, hat eine neue Epoche der Anthroponomastik begonnen. Der Schatz von 850661 verschiedenen Familiennamen, die im Jahre 2005 in 28205713 privaten Festnetzanschlüssen registriert waren, ist immens, und die Fragestellungen zu seiner Erforschung sind in ihrer Ausrichtung und in ihrer Anzahl unerschöpflich. In dieser Situation ergaben sich vordringlich zwei Aufgaben: Erstens musste angesichts der von Jahr zu Jahr wachsenden Bevölkerungsmobilität, angesichts der Auswirkung neuerer Namengesetzgebung und angesichts der schnell zunehmenden Ablösung lokalisierter Festnetzanschlüsse durch Mobiltelefone der Namenbestand spätestens jetzt aufgrund der zuverlässigsten Quelle und in legitim nutzbarer Weise gesichert und archiviert werden. Die geschichtlich gewachsenen Namenlandschaften sind gerade noch, und zwar in erstaunlicher Stabilität, erhalten. Die Daten wurden nach Klärung der Datenschutzfragen von der Deutschen Telekom auf Stand Juni 2005 dem Deutschen Familiennamenatlas zur Verfügung gestellt und ihre Nutzung zur namenkundlichen Forschung mit Vertrag vom 28.06.2005 geregelt.
Eigennamen vereinen viele Besonderheiten auf sich. Dazu gehört, dass wir im Fall der Rufnamen (= Vornamen) direkten und freien Zugriff auf ein riesiges Nameninventar haben, d. h. Eltern können ihr Kind, linguistisch betrachtet ein neues Referenzobjekt, mit einem (oder mehreren) Namen eigener Wahl versehen. Darin sind sie heute vollkommen frei, d. h. die Namen werden fast nur noch nach Geschmack (Wohlklang/Euphonie, Harmonie zum Familiennamen etc.) ausgesucht. Diese sog. freie Namenwahl ist noch nicht sehr alt, etwa gut 100 Jahre. Bis ins 19. Jh. hinein galt (mehr oder weniger) die sog. gebundene Namenwahl, d.h. die Nachbenennung der Kinder nach Familienangehörigen, nach Paten, nach Heiligen, nach Herrschern und anderen Personen.
In diesem Artikel wird erstmals der Wandel der phonologischen und prosodischen Strukturen der deutschen Rufnamen seit 1945 bis heute (2008) bezüglich der Kennzeichnung von Sexus beziehungsweise Gender untersucht. Auf der Grundlage der 20 häufigsten Rufnamen wird gezeigt, wie weibliche und männliche Namen sich diachron im Hinblick auf ihre Sonorität, die verwendeten Vokale (besonders im Nebenton), Hiate, Konsonantencluster, die Silbenzahl und das Akzentmuster verändern. Das wichtigste Ergebnis ist, dass heute die Rufnamen beider Geschlechter strukturell so ähnlich sind wie nie zuvor. Damit hat sich seit dem 2. Weltkrieg eine Androgynisierung vollzogen.
German linking elements are sometimes classified as inflectional affixes, sometimes as derivational affixes, and in any case as morphological units with at least seven realisations (e.g. -s-, -es-, -(e)n-, -e-). This article seeks to show that linking elements are hybrid elements situated between morphology and phonology. On the one hand, they have a clear morphological status since they occur only within compounds (and before a very small set of suffixes) and support the listener in decoding them. On the other hand, they also have to be analysed on the phonological level, as will be shown in this article. Thus, they are marginal morphological units on the pathway to phonology (including prosodics). Although some alloforms can sometimes be considered former inflectional endings and in some cases even continue to demonstrate some inflectional behaviour (such as relatedness to gender and inflection class), they are on their way to becoming markers of ill-formed phonological words. In fact, linking elements, above all the linking -s-, which is extremely productive, help the listener decode compounds containing a bad phonological word as their first constituent, such as Geburt+s+tag ‘birthday’ or Religion+s+unterricht ‘religious education’. By marking the end of a first constituent that differs from an unmarked monopedal phonological word, the linking element aids the listener in correctly decoding and analysing the compound. German compounds are known for their length and complexity, both of which have increased over time—along with the occurrence of linking elements, especially -s-. Thus, a profound instance of language change can be observed in contemporary German, one indicating its typological shift from syllable language to word language.
Was tun mit Flexionsklassen? : Deklinationsklassen und ihr Wandel im Deutschen und seinen Dialekten
(2008)
"Warum Flexionsklassen?" lautet ein synchron ausgerichteter Aufsatz von BERND WIESE (2000), an den dieser Beitrag aus diachroner und dialektaler Perspektive anschließt. Das hier zur Diskussion stehende Phänomen, nämlich die notorische Persistenz von Flexionsklasse (im Folgenden "FK") über Jahrhunderte, ja sogar Jahrtausende hinweg, dürfte noch eines der größten linguistischen Rätsel darstellen, die ihrer Lösung harren. HASPELMATH (2002, 115) eröffnet in seinem Band "Understanding Morphology" das Kapitel über "Inflectional paradigms" mit folgenden Worten: "Perhaps the most important challenge for an insightful description of inflection is the widespread existence of allomorphy in many languages."
Die synchrone wie diachrone Untersuchung von vier Passivauxiliaren in der deutschen Standardsprache und in deutschen Dialekten, im Schwedischen und im Luxemburgischen liefert deutliche Evidenz dafür, dass Vollverben nicht direkt zu Passivauxiliaren grammatikalisieren, sondern dass dieser Pfad über die Inchoativkopula verläuft. Inchoativkopulas sind soweit grammatikalisiert (und damit reduziert), dass sie über den Weg einer Reanalyse zu Vorgangspassivauxiliaren mutieren können: Erst verbinden sie sich mit (prädikativen) Substantiven, dann mit Adjektiven und schließlich partizipialen Verben. Bereits im Kopulastadium haben sie sich (sofern vorhanden gewesen) ihres Dativ- und Akkusativobjekts entledigt (Intransitivierung). Das Subjekt ist nach seiner Entkoppelung mit dem Agens eine neue Koppelung mit dem Patiens eingegangen. Damit hat die einstige Handlungsperspektive eine Umkehr zur Geschehensperspektive erfahren. Diese Schritte dokumentiert die folgende Figur: .... Als weniger problematisch hat sich, bedingt durch die Ausgangssemantik, der Grammatikalisierungspfad bei nhd. werden, bair.lalem. kommen und schwed. bli erwiesen im Gegensatz zu lux. ginn 'geben', das in jeder Hinsicht die stärksten Reduktionen erfahren hat und einen besonders langen, verschlungenen und "steinigen" Weg absolviert hat. Mit Sicherheit kann geben nicht als Idealkandidat für Passivgrarnmatikalisierungen gelten. Nur so lässt sich erklären, weshalb diese Grarnmatikalisierung in anderen Sprachen der Welt bisher nicht beobachtet wurde.
Zur Entstehung und Struktur ungebändigter Allomorphie : Pluralbildungsverfahren im Luxemburgischen
(2006)
Aus gesamtgermanistischer Perspektive verfügt das Luxemburgische über ein außergewöhnliches Maß an Pluralallomorphie bzw., nach H. GIRNTH (2000), an Heterograffimie. Oberstes Prinzip dabei scheint die deutliche Markierung der Kategorie 'Plural' direkt ani bzw. im Substantiv zu sein. Die morphologische Komplexität betrifft mehrere Dimensionen: Zum einen ist es die Vielzahl an Pluralisierungsprinzipien, die von additiven über modulatorische und Nullprozesse bis hin zu subtraktiven Techniken reichen, zum zweiten die Vielzahl an konkret sich manifestierender Allomorphie. Schließlich ist der maximale . Ausbau des reinen Umlauttyps auch bei Einsilblern hervorzuheben. Selbst Fremdwörter können noch heute ihren Plural mit reinem Vokalwechsel bilden, und dies auch auf nebenbetonten Silben. Aus diachroner Perspektive bildet. der reine Vokalwechsel einen wichtigen Endpunkt einer sich seit Jahrhunderten in diese Richtung vollziehenden Entwicklung. Aus synchroner Perspektive ist es mittlerweile verfehlt, noch - wie etwa beim deutschen Pluralsystem - von Umlaut zu sprechen, da längst eine Arbitrarisierung .des Vokalwechsels stattgefunden hat, die fast ablautähnliche Züge erreicht hat. Zusammenfassend gelangt man zu dem Eindruck, dass sich das Luxemburgische - etwa im Hinblick auf die subtraktive Pluralbildung - fast jedweden phonologischen Wandel zu Nutze macht bzw. - im Hinblick auf den Umlaut über die Morphologisierung sogar produktiv werden lässt. Aus der vorliegenden Untersuchung ergeben sich mehrere Fragestellungen, die Gegenstand weiterer Untersuchungen sein sollten. Zuerst wären genaue quantitative Erhebungen vorzunehmen, um die Nutzung und Verteilung der einzelnen Verfahren zu ermitteln. Auch die Produktivität der Regeln müsste untersucht werden. Des Weiteren ist noch ungeklärt, welche Regeln es genau sind, die die Distribution der Allomorphe steuern. Nimmt man z.B. das Englische mit seinen drei Pluralallomorphen [IZ], [z] und [s], so ist deren Verteilung rein phonologisch - nach dem Auslaut des Substantivs - gesteuert: Endet es auf einen Sibilanten, folgt silbisches [IZ] (horse-s ['horsIz]), endet es auf einen stimmhaften Laut, folgt stimmhaftes [z] (dog-s), und auf einen stimmlosen folgt stimmloses [s] (cat-s). Das Deutsche, das insgesamt neun konkrete Pluralallomorphe "besitzt, erlaubt auf grund der Singularform kaum Erschließbarkeit des Plurals, wie die folgenden drei einsilbigen Reimwörter gleichen Genus demonstrieren: der Hund - die Hunde, der Grund - die Gründe, der Mund - die Münder. Prosodische Kriterien wie die AkzentsteIle, syllabische (Silbenzahl), phonologische (Auslaut) und morphologische Kriterien " einschließlich der Genuszugehörigkeit fuhren nicht immer zum Ziel: Bei vielen Substantiven muss der Plural - siehe oben - mitgelernt werden, d.h. er ist Bestandteil des Lexikons. Was das Luxemburgische betrifft, so scheint das Steuerungsinstrumentarium komplexer zu sein, doch ist dies nur eine durch Stichproben gewonnene Vermutung, die zu fundieren wäre.
Wiederholt ist auf das onomastische Dokumentations- und Forschungspotential digital gespeicherter Telefonanschlüsse hingewiesen worden. Auch sind auf dieser Basis bereits Untersuchungen zum Inventar und zur Verbreitung deutscher Familiennamen entstanden. Durch neue Software zur Auswertung digitaler Telefonanschlüsse ergeben sich inzwischen fast unbegrenzte Möglichkeiten, das Familiennamensystem Deutschlands erstmals überhaupt zuverlässig zu erfassen, zu dokumentieren und auf bestimmte Phänomene hin zu befragen. In Minutenschnelle ist es nun beispielsweise möglich, alle Komposita auf -müller in Listen zusammenzustellen und in Karten deutschlandweit in ihrer Verbreitung sichtbar zu machen.
Die deutsche Präposition-Artikel-Enklise bietet wie kaum eine andere Grammatikalisierung Einblicke in den Mikrobereich von Grammatikalisierungsprozessen: Klare, "zielorientierte" Verhältnisse sind hier nicht zu beschreiben, was der Grund für ihre bisher so geringe Beachtung durch die Grammatikalisierungsforschung sein dürfte. Es wurde deutlich, dass bezüglich der hier als zentral bewerteten Morphologisierung des Artikels das gesamte Spektrum von Nichtverschmelzbarkeit bis hin zu (kurz vor Flexiven stehenden) obligatorisch verschmelzenden speziellen Klitika abgedeckt ist. Diachron hat sich zwar insgesamt eine deutliche Rechtsdrift auf der Grammatikalisierungsskala vollzogen; bezüglich des Genitivartikels hat jedoch eine Degrammatikalisierung in Form von sog. retraction (gemäß Hapelmath 2004) stattgefunden, die hier in einer Demorphologisierung (Resyntaktisierung) eines Klitikons besteht. Dabei findet keine "Relexikalisierung" im Sinne einer lexikalischen Anreicherung eines bereits grammatikalisierten Elements statt (siehe hierzu Haspelmath 1999). Mittel- und frühneuhochdeutsche Verschriftungen deuten auf reichere Inventare an Verschmelzungs formen hin, doch sind hierzu diachrone Untersuchungen erforderlich. Ebenso ist der Übergangsbereich zwIschen einfachen und speziellen Klitika in sich abgestuft und weitaus komplexer gestaltet als hier dargestellt. Auch dazu besteht Bedarf an Detailanalysen unter der Fragestellung, welche der unter Abschnitt 2.2 aufgeführten Artikelfunkttonen am ehesten eine Präposition-Artikel-Verschmelzung erfordern. Einiges deutet auf den am stärksten desemantisierten (expletiven) Artikel z.B. vor Eigennamen hin. Um den Einfluss von Schriftlichkeit und Standardisierung auf Grammatikalisierungsprozesse ermitteln zu können, wurden zwei Dialekte in den Blick genommen: das Ruhrdeutsche, das die Erwartung nach deutlich fortgeschritteneren Verhältnissen erfüllt, und das Alemannische, das andere Phänomene ausgebildet hat wie etwa die Proklise des Artikels an das Substantiv, die Nullrealisierung klitischer Artikelformen und den kategorialen Umbau der vier Nominalkategorien am Artikel. Die Einbeziehung weiterer Dialekte und vor allem auch der gesprochenen "Umgangssprache" könnte weiteren Aufschluss über die Ratio dieser Grammatikalisierung liefern. Sollten flektierende Präpositionen Ziel dieses Wandels sein, so hätte dies tiefgreifende Konsequenzen für die Grammatikschreibung.
Bis heute bildet die Morphologie keinen Schwerpunkt der Dialektlinguistik. Dies wird immer wieder moniert. H. Tatzreiter (1994) kommt nach seinem Streifzug durch die "Bibliographie zur Grammatik der deutschen Dialekte" von P. Wiesinger / E. Raffin (1982) zu dem Ergebnis, "daß die Leistungskurve im grammatischen Bereich ,von der Lautlehre über die Formen- und Wortbildungslehre bis zur Satzlehre' steil abfällt" (S. 30 bzw. P. Wiesinger / E. Raffin 1982, S. XXIX). Ein weiteres Problem sieht er in der besonders durch die angelsächsische Tradition motivierten Vernachlässigung der Morphologie die zwischen der phonologischen, lexikalischen und syntaktischen Ebene ein gefährdetes Dasein fristet" (S. 30): "So lange die Morphologie sich nicht aus der 'Umklammerung' der Phonologie und Syntax lösen kann, um eigenständig als Forschungsobjekt zu gelten, wird es um die umfassende Erforschung und Darstellung schlecht bestellt sein" (S. 34).
Namenskunde
(2004)
Eigennamen (auch Propria, Onyme) werden unter die Substantive subsumiert und erfüllen spezifische referentielle Funktionen. Im Gegensatz zu den Appellativen (Gattungsbezeichnungen) wie z. B. Mensch oder Stadt, die eine ganze Klasse von Gegenständen bezeichnen, referieren Eigennamen prototypischerweise nur auf ein einziges Denotat (Monoreferentialität), z. B. Goethe oder Frankfurt.
Vom Name-n-forscher zum Name-ns-forscher : unbefugte oder befugte ns-Fuge in Namen(s)-Komposita?
(2004)
Um die nun im Titel gestellte Frage zu beantworten: Es ist befugt, Komposita mit Name als Erstglied mit -ns- zu verfugen. Die Korpusbefimde weisen überdeutlich aus, daß "ns- hier hochproduktiv ist. Als Grund fiir diese starke Bevorzugung der ns-Fuge wurde der "Rückzug" der n-Fuge auf die Klasse der belebten, schwachen Maskulina und damit die Funktionalisierung ebendieser Fuge als Klassen- und Belebtheitszeichen ermittelt. Der Name als Simplex hat sich zwar bereits mit dem starken Genitiv Singular Namens aus der Klasse der schwachen Maskulina entfernt, doch verharrt er weiterhin in einer kleinen Mischklasse, deren Mitglieder zum größten Teil bereits in die starke (sog. "Balken-") Klasse abgewandert sind oder dabei sind, dies zu tun. Daß der Name sich diesem Wandel entzieht, geschieht jedoch unbefugter- und unerklärtermaßen. Die Beschäftigung mit den Namen/s-Schwankungen hat ferner erbracht, daß gerade die ältere Schicht an Namens-Komposita lexikalisiert ist (Namenstag, Namensvetter) und daß die n-Fuge nur noch in fachsprachlicher Verwendung dominiert (Namenaktie, Namenkunde, Namenforschung). Als förderlich für die ns-Verfugung haben sich gerade die (ansonsten fugenhemmend wrrkenden) deverbalen Zweitglieder erweisen (Namensgebung), als hinderlich dagegen die Komplexität der 1. Konstitutente (Familiennamenforschung) - wenngleich diese Tendenzen nur fiir die s-Fuge ermittelt wurden. Die ns-Fuge erweist sich ilrrerseits als bessere Binnengrenzmarkierung, da [s] positionsbeschränkt, d.h. im Wortanlaut blockiert ist. Sowohl bei -n- als auch bei -ns- handelt es sich um paradigmische Fugen. Der Zufall bzw. das Alphabet will es, daß der Eintrag Name zwischen Naivling und Nandu (< span.-südam. nandu [njan'du]), dem südamerikanischen Kollegen des afrikanischen Straußenvogels, angesiedelt ist. Was den Nandu betrifft, so hat sich dieser Beitrag zumindest darum bemüht, den Kopf nicht in den Sand zu stecken. Was jedoch den Naivling anbelangt, so befinden wir uns bei dem faszinierenden Thema der Fugenelemente immer noch in diesem Stadium, auch wenn mittlerweile bei der Frage nach Funktion und Grammatik dieser "Grenzfälle morphologischer Einheiten" (so der Titel von Fuhrhop 1998) große Durchbrüche erzielt worden sind. Wenn es aber, wie in diesem Beitrag, um Schwankungs- und damit um Grenzfälle solcher Grenzfälle geht, so tut sich, um die Sache positiv zu wenden, ein ganzer Strauß (oder Nandu) an Desideraten, Herausforderungen und Forschungsperspektiven auf.
Zeitnamen
(2004)
Der menschliche Alltag, das gesamte gesellschaftliche und individuelle Leben, unser Denken, Planen und Handeln basiert auf der Unterscheidung und Benennung von Zeitpunkten (im Sinne punktuell wahrgenommener Zeit) und Zeitabschnitten (im Sinne von sich über einen Zeitraum erstreckender Zeit). Damit ist eine von mindestens drei Bedingungen, onymisch bezeichnet zu werden, hochgradig erfülllt: die Relevanz des Objekts (beziehungsweise der Entität) in seiner Singularität und Individualität für den Menschen.
Those principles of Naturalness as postulated by Mayerthaler (1981) claim to make predtictions about the direction of language change possible. It is true that the majority of morphological changes can be accounted for by these principles. However, systematic violations of these rules can be found in of all things, some of most frequent, elementary verbs such as HAVE, BE, BECOME, COME, GO, GIVE, TAKE, etc. Their irregularities cannot be accounted for solely - as Naturalness Theory would have it - by conflicts between phonological and morphological Naturalness. Rather, they have been systematically built up through other efficient strategies. This "regularity of irregularity" is the focus of this paper, which demonstrates several particularly well-beaten paths to irregularization through contrastive diachronic investigations of frequent verbs in different Germanic languages. lrregularity, a term laden with negative connotations, is substituted by the term differentiation, which names the actual function directly. Because differentiation typically correlates with word brevity, this constellation should be considered an ideal compromise between hearer and speaker interests. A further question to be addressed is which individual categories are expressed through irregularization. It is concluded that this process is guided by token frequency and degree of relevance.
Je nach regionaler Herkunft realisieren Sprecher des Deutschen die beiden Wörter "Verein" und "überall" unterschiedlich. [...] Der Grundgedanke dieser sprachtypologischen Unterscheidung, bei der wir uns hauptsächlich auf die Arbeiten von P. Auer (1993, 1994, 2001) sowie P. Auer / S. Uhmann (1988) beziehen, besteht darin, dass alle Sprachen eine Form von Isochronie anstreben.
Als Jürgen Udolph am 1. Oktober 2003 das Symposion "Völkernamen, Ländernamen, Landschaftsnamen" in Leipzig eröffnete, sagte er unter anderem: "Ich freue mich, daß Sie alle den Weg in die neuen Bundesländer gefunden haben". Genau dieser Satz leitete unbeabsichtigt die Fragestellung meines damaligen Vortrags bzw. des hier vorliegenden Beitrags ein: Ist das Syntagma die neuen Bundesländer bereits ein Eigenname, ist es noch eine definite Beschreibung, oder ist es etwas dazwischen? Wäre es auch möglich gewesen, zu sagen: "Ich freue mich, daß Sie den Weg in ein neues Bundesland ... " oder" ... in das neue Bundesland Sachsen gefunden haben"? Die muttersprachliche Kompetenz verneint diese Alternativen eher, und dies deutet daraufhin, daß dieses Syntagma bereits stark proprialisiert (oder onymisiert) sein muß.
Fluch- und Schimpfwortschätze sind aus kontrastiver Perspektive bisher kaum analysiert worden, sieht man von einer Vielzahl populärwissenschaftlicher Publikationen ab. Wissenschaftliche Publikationen beziehen sich meist auf eine Einzelsprache und greifen bei der Erklärung der Motive oft zu kurz, weil sie gerade benachbarte Kulturen und Sprachen (auch Dialektgebiete) zu wenig im Blick haben (Dundes 1983). Der vorliegende Beitrag leistet eine vergleichende Zusammenstellung der Fluch- und Schimpfwortschätze dreier mehr oder weniger benachbarter Sprachen, des (nördlichen) Niederländischen, des Deutschen und des Schwedischen, also zweier eng verwandter westgermanischer und einer nordgermanischen Sprache.
Prinzipien der Proprialitätsmarkierung : Familiennamenindikatoren in den nordeuropäischen Sprachen
(2004)
In dem grundlegenden Beitrag "Svenska släktnamn i gar, i dag - i morgon?" liefert Thorsten Andersson einen kompakten Überblick über ein bewegtes Jahrhundert schwedischer Familiennamengeschichte. Dabei handelt es sich zur Überraschung deutscher Leser/innen um das 20. Jahrhundert. In Deutschland wüsste man mit dem Titel ,,Deutsche Familiennamen gestern, heute -morgen?" nicht viel anzufangen, zumindest nicht mit der Frage nach dem Heute und dem Morgen: Die deutschen Familiennamen sind seit Jahrhunderten fixiert; von seltenen und wohlbegründeten Ausnahmen abgesehen kann niemand seinen Familiennamen wechseln geschweige denn frei kreieren. Und die Frage nach dem Morgen hat sich vermutlich noch nie jemand gestellt.
Die Flexionsmorphologie befasst sich mit der "Beugung" von Wörtern, d. h. mit der systematischen Kombination von (meist) Lexemen mit bestimmten sog. grammatischen Informationen (auch: Flexionskategorien). So wird die Wortart der Substantive im Deutschen mit den Informationen Kasus und vor allem Numerus (Singular und Plural) versehen.
The argument that I tried to elaborate on in this paper is that the conceptual problem behind the traditional competence/performance distinction does not go away, even if we abandon its original Chomskyan formulation. It returns as the question about the relation between the model of the grammar and the results of empirical investigations – the question of empirical verification The theoretical concept of markedness is argued to be an ideal correlate of gradience. Optimality Theory, being based on markedness, is a promising framework for the task of bridging the gap between model and empirical world. However, this task not only requires a model of grammar, but also a theory of the methods that are chosen in empirical investigations and how their results are interpreted, and a theory of how to derive predictions for these particular empirical investigations from the model. Stochastic Optimality Theory is one possible formulation of a proposal that derives empirical predictions from an OT model. However, I hope to have shown that it is not enough to take frequency distributions and relative acceptabilities at face value, and simply construe some Stochastic OT model that fits the facts. These facts first of all need to be interpreted, and those factors that the grammar has to account for must be sorted out from those about which grammar should have nothing to say. This task, to my mind, is more complicated than the picture that a simplistic application of (not only) Stochastic OT might draw.
The aim of this paper is the exploration of an optimality theoretic architecture for syntax that is guided by the concept of "correspondence": syntax is understood as the mechanism of "translating" underlying representations into a surface form. In minimalism, this surface form is called "Phonological Form" (PF). Both semantic and abstract syntactic information are reflected by the surface form. The empirical domain where this architecture is tested are minimal link effects, especially in the case of "wh"-movement. The OT constraints require the surface form to reflect the underlying semantic and syntactic representations as maximally as possible. The means by which underlying relations and properties are encoded are precedence, adjacency, surface morphology and prosodic structure. Information that is not encoded in one of these ways remains unexpressed, and gets lost unless it is recoverable via the context. Different kinds of information are often expressed by the same means. The resulting conflicts are resolved by the relative ranking of the relevant correspondence constraints.
This paper argues for a particular architecture of OT syntax. This architecture hasthree core features: i) it is bidirectional, the usual production-oriented optimisation (called ‘first optimisation’ here) is accompanied by a second step that checks the recoverability of an underlying form; ii) this underlying form already contains a full-fledged syntactic specification; iii) especially the procedure checking for recoverability makes crucial use of semantic and pragmatic factors. The first section motivates the basic architecture. The second section shows with two examples, how contextual factors are integrated. The third section examines its implications for learning theory, and the fourth section concludes with a broader discussion of the advantages and disadvantages of the proposed model.
Weak function word shift
(2004)
The fact that object shift only affects weak pronouns in mainland Scandinavian is seen as an instance of a more general observation that can be made in all Germanic languages: weak function words tend to avoid the edges of larger prosodic domains. This generalisation has been formulated within Optimality Theory in terms of alignment constraints on prosodic structure by Selkirk (1996) in explaining thedistribution of prosodically strong and weak forms of English functionwords, especially modal verbs, prepositions and pronouns. But a purely phonological account fails to integrate the syntactic licensing conditions for object shift in an appropriate way. The standard semantico-syntactic accounts of object shift, onthe other hand, fail to explain why it is only weak pronouns that undergo object shift. This paper develops an Optimality theoretic model of the syntax-phonology interface which is based on the interaction of syntactic and prosodic factors. The account can successfully be applied to further related phenomena in English and German.
This paper is part of a research project on OT Syntax and the typology of the free relative (FR) construction. It concentrates on the details of an OT analysis and some of its consequences for OT syntax. I will not present a general discussion of the phenomenon and the many controversial issues it is famous for in generative syntax.
In der folgenden Darstellung geht es einerseits darum, an Beispielen aufzuzeigen, inwiefern die schweizerdeutschen Mundarten und die deutsche Standardsprache in Lautung, Formenbildung, Satzbau und Wortschatz auseinandergehen können, andererseits aber immer auch um das Aufweisen von Gemeinsamkeiten. Oft werden nämlich bestimmte Erscheinungen des dialektalen Sprachbaus vorschnell als Eigenarten der Mundart verstanden, obwohl dieselben Erscheinungen auch im gesprochenen Hochdeutschen anzutreffen sind. Somit liegen also häufig nicht Unterschiede zwischen Mundart und Standardsprache vor, sondern Unterschiede zwischen gesprochener Sprache und geschriebener Sprache. [vollständige Überarbeitung für eine zweite Auflage]
In linguistics and the philosophy of language, the mass/count distinction has traditionally been regarded as a bi-partition on the nominal domain, where typical instances are nouns like "beef" (mass) vs."cow" (count). In the present paper, we argue that this partition reveals a system that is based on both syntactic features and conceptual features, and present experimental evidence suggesting that the discrimination of the two kinds of features has a psychological reality.
Articulatory token-to-token variability not only depends on linguistic aspects like the phoneme inventory of a given language but also on speaker specific morphological and motor constraints. As has been noted previously (Perkell (1997), Mooshammer et al. (2004)) , speakers with coronally high "domeshaped" palates exhibit more articulatory variability than speakers with coronally low "flat" palates. One explanation for that is based on perception oriented control by the speaker. The influence of articulatory variation on the cross sectional area and consequently on the acoustics should be greater for flat palates than for domeshaped ones. This should force speakers with flat palates to place their tongue very precisely whereas speakers with domeshaped palates might tolerate a greater variability. A second explanation could be a greater amount of lateral linguo-palatal contact for flat palates holding the tongue in position. In this study both hypotheses were tested.
This paper investigates the class of Tree-Tuple MCTAG with Shared Nodes, TT-MCTAG for short, an extension of Tree Adjoining Grammars that has been proposed for natural language processing, in particular for dealing with discontinuities and word order variation in languages such as German. It has been shown that the universal recognition problem for this formalism is NP-hard, but so far it was not known whether the class of languages generated by TT-MCTAG is included in PTIME. We provide a positive answer to this question, using a new characterization of TT-MCTAG.
We present a CYK and an Earley-style algorithm for parsing Range Concatenation Grammar (RCG), using the deductive parsing framework. The characteristic property of the Earley parser is that we use a technique of range boundary constraint propagation to compute the yields of non-terminals as late as possible. Experiments show that, compared to previous approaches, the constraint propagation helps to considerably decrease the number of items in the chart.
Multicomponent Tree Adjoining Grammars (MCTAGs) are a formalism that has been shown to be useful for many natural language applications. The definition of non-local MCTAG however is problematic since it refers to the process of the derivation itself: a simultaneity constraint must be respected concerning the way the members of the elementary tree sets are added. Looking only at the result of a derivation (i.e., the derived tree and the derivation tree), this simultaneity is no longer visible and therefore cannot be checked. I.e., this way of characterizing MCTAG does not allow to abstract away from the concrete order of derivation. In this paper, we propose an alternative definition of MCTAG that characterizes the trees in the tree language of an MCTAG via the properties of the derivation trees (in the underlying TAG) the MCTAG licences. We provide similar characterizations for various types of MCTAG. These characterizations give a better understanding of the formalisms, they allow a more systematic comparison of different types of MCTAG, and, furthermore, they can be exploited for parsing.
Unter Syntaktikern besteht generell die Tendenz, im Deutschen die Freiheit bezüglich der Positionierung der Adverbiale sogar für noch größer zu halten als die Freiheit der Positionierung der Argumente. Wie die Stellungsfreiheit der Argumente im Mittelfeld eines deutschen Satzes theoretisch zu erfassen sei, wird seit langer Zeit kontrovers diskutiert. Die Hauptfrage dreht sich darum, ob alle Serialisierungen der Argumente basisgeneriert sind oder ob es eine ausgezeichnete Serialisierung der Argumente, eine sogenannte Grundabfolge, gibt, aus der sämtliche anderen Aktantenserialisierungen durch eine Ableitungsoperation bzw. Bewegung zu gewinnen sind. Diese grundsätzlichen Fragen stellen sich auch bezüglich der Positionierungsmöglichkeiten der Adverbiale, auch wenn sie hierfür bei weitem nicht so häufig gestellt und diskutiert wurden.
Buli is an Oti-Volta tone language spoken in Northern Ghana. This paper outlines the basic features of its tonal system and explores whether and in which way pitch respectively phonemic tone is approached as a means to indicate the pragmatic category of focus. Pursued are cases with focus-related surface tone changes as well as cases where pitch could help to disambiguate between broad and narrow foci. It is argued that focus is not consistently encoded by pitch or tone. Parallel findings for the closely related languages Kopen o (phonetic symbol)nni and Dagbani suggest that the apparent lack of significant prosodic focus signals in Buli might pertain to a larger group of tonal languages of the Gur family.
The present article illustrates that the specific articulatory and aerodynamic requirements for voiced but not voiceless alveolar or dental stops can cause tongue tip retraction and tongue mid lowering and thus retroflexion of front coronals. This retroflexion is shown to have occurred diachronically in the three typologically unrelated languages Dhao (Malayo-Polynesian), Thulung (Sino-Tibetan), and Afar (East-Cushitic). In addition to the diachronic cases, we provide synchronic data for retroflexion from an articulatory study with four speakers of German, a language usually described as having alveolar stops. With these combined data we supply evidence that voiced retroflex stops (as the only retroflex segments in a language) did not necessarily emerge from implosives, as argued by Haudricourt (1950), Greenberg (1970), Bhat (1973), and Ohala (1983). Instead, we propose that the voiced front coronal plosive /d/ is generally articulated in a way that favours retroflexion, that is, with a smaller and more retracted place of articulation and a lower tongue and jaw position than /t/.
Woher kommt das neuerwachte Interesse an Sprachrichtigkeit? Woher kommt die ausgeprägte sprachliche Unsicherheit, die auch bei vielen hochgebildeten Menschen den Wunsch entstehen lässt, von Sprachpflegern über ihr Ureigenstes, nämlich ihre Muttersprache, belehrt zu werden? Obwohl Antworten auf diese Fragen letztlich spekulativ bleiben, wage ich doch die These, dass eine Ursache hierfür die Rechtschreibreform ist, die von einem Großteil der Bevölkerung nach wie vor nicht angenommen wird, die insgesamt weder zur Vereinfachung noch zu einer höheren Einheitlichkeit geführt hat; die aber andererseits ein öffentliches Nachdenken und Diskutieren über Sprachrichtigkeit in Gang setzte. – Jedenfalls ist die Verunsicherung ein Faktum, das von Linguisten nicht ignoriert werden sollte.
Ausgangspunkt: Die Kritik am "Zwei-Welten-Modell": Die grundlegende linguistische Unterscheidung zwischen "Sprache" und "Sprechen" ist im Rahmen der neueren Debatten um Sprachmedialität wieder verstärkt thematisiert und kritisiert worden. Lässt sich dieses schulbildende, in der Linguistik geradezu eherne Begriffspaar überhaupt noch sinnvollerweise aufrechterhalten? Oder muss es mindestens umdefiniert, vielleicht sogar gänzlich verworfen werden? Hat sich insbesondere die auf Chomsky zurückgehende Unterscheidung von Sprachkompetenz und -performanz nicht von selbst ad absurdum geführt, nachdem der linguistische Kognitivismus chomskyscher Provenienz Sprache als lebendiges Phänomen, als Medium menschlicher Kommunikation, vollständig aus dem Blick verloren hat? Führt nicht schon die scheinbar harmlose linguistische Differenzierung zwischen einer Sprachregel und ihrer Anwendung zu einer irreführenden und unangemessenen Verdinglichung von Sprache? ...
The medium of (oral) language is mostly disregarded (or overlooked) in contemporary media theories. This "ignoring of language" in media studies is often accompanied by an inadequate transport model of communication, and it converges with an "ignoring of mediality" in mentalistic theories of language. In the present article it will be argued that this misleading opposition of language and media can only be overcome if one already regards oral language, not just written language, as a medium of the human mind. In my argumentation I fall back on Wittgenstein’s conception of language games to try to show how Wittgenstein’s ideas can help us to clear up the problem of the mediality of language and also to show to what extent the mentalistic conception of Chomskyan provenance cannot be adequate to the phenomenon of language.
In this paper, we argue that difficulties in the definition of coreference itself contribute to lower inter-annotator agreement in certain cases. Data from a large referentially annotated corpus serves to corroborate this point, using a quantitative investigation to assess which effects or problems are likely to be the most prominent. Several examples where such problems occur are discussed in more detail, and we then propose a generalisation of Poesio, Reyle and Stevenson’s Justified Sloppiness Hypothesis to provide a unified model for these cases of disagreement and argue that a deeper understanding of the phenomena involved allows to tackle problematic cases in a more principled fashion than would be possible using only pre-theoretic intuitions.
Traditionally, parsers are evaluated against gold standard test data. This can cause problems if there is a mismatch between the data structures and representations used by the parser and the gold standard. A particular case in point is German, for which two treebanks (TiGer and TüBa-D/Z) are available with highly different annotation schemes for the acquisition of (e.g.) PCFG parsers. The differences between the TiGer and TüBa-D/Z annotation schemes make fair and unbiased parser evaluation difficult [7, 9, 12]. The resource (TEPACOC) presented in this paper takes a different approach to parser evaluation: instead of providing evaluation data in a single annotation scheme, TEPACOC uses comparable sentences and their annotations for 5 selected key grammatical phenomena (with 20 sentences each per phenomena) from both TiGer and TüBa-D/Z resources. This provides a 2 times 100 sentence comparable testsuite which allows us to evaluate TiGer-trained parsers against the TiGer part of TEPACOC, and TüBa-D/Z-trained parsers against the TüBa-D/Z part of TEPACOC for key phenomena, instead of comparing them against a single (and potentially biased) gold standard. To overcome the problem of inconsistency in human evaluation and to bridge the gap between the two different annotation schemes, we provide an extensive error classification, which enables us to compare parser output across the two different treebanks. In the remaining part of the paper we present the testsuite and describe the grammatical phenomena covered in the data. We discuss the different annotation strategies used in the two treebanks to encode these phenomena and present our error classification of potential parser errors.
Nous présentons ici différents algorithmes d’analyse pour grammaires à concaténation d’intervalles (Range Concatenation Grammar, RCG), dont un nouvel algorithme de type Earley, dans le paradigme de l’analyse déductive. Notre travail est motivé par l’intérêt porté récemment à ce type de grammaire, et comble un manque dans la littérature existante.
Die Ressource "Wissen" rückte in den letzten Jahrzehnten als Quelle wissenschaftlicher Innovation immer stärker ins Zentrum des Interesses. Diese Fokussierung mündete in eine Selbstreflexion der Wissenschaft und der wissenschaftlichen Disziplinen: Thematisiert werden vor allem die Art und Weise, wie Wissen gewonnen wird, sowie die damit zusammenhängende Frage nach der Konstruktion von Wissenschaftlichkeit, womit das Bewusstsein gleichzeitig auf die mehr und mehr sich auflösende Abgrenzung zwischen den Disziplinen beziehungsweise zwischen den drei hauptsächlichen Wissenschaftskulturen, von Natur-, Geistes- und Kultur- sowie Sozialwissenschaften gelenkt wird. Innerhalb und außerhalb der Universitäten bildeten und bilden sich nicht immer klar verortbare "trading zones" (Gallison 1997), in denen neue Formen und Techniken der Wissensproduktion und Wissensvermittlung geprüft, geübt und teilweise auch institutionalisiert werden. ...
Distributional approximations to lexical semantics are very useful not only in helping the creation of lexical semantic resources (Kilgariff et al., 2004; Snow et al., 2006), but also when directly applied in tasks that can benefit from large-coverage semantic knowledge such as coreference resolution (Poesio et al., 1998; Gasperin and Vieira, 2004; Versley, 2007), word sense disambiguation (Mc- Carthy et al., 2004) or semantical role labeling (Gordon and Swanson, 2007). We present a model that is built from Webbased corpora using both shallow patterns for grammatical and semantic relations and a window-based approach, using singular value decomposition to decorrelate the feature space which is otherwise too heavily influenced by the skewed topic distribution of Web corpora.
Parsing coordinations
(2009)
The present paper is concerned with statistical parsing of constituent structures in German. The paper presents four experiments that aim at improving parsing performance of coordinate structure: 1) reranking the n-best parses of a PCFG parser, 2) enriching the input to a PCFG parser by gold scopes for any conjunct, 3) reranking the parser output for all possible scopes for conjuncts that are permissible with regard to clause structure. Experiment 4 reranks a combination of parses from experiments 1 and 3. The experiments presented show that n- best parsing combined with reranking improves results by a large margin. Providing the parser with different scope possibilities and reranking the resulting parses results in an increase in F-score from 69.76 for the baseline to 74.69. While the F-score is similar to the one of the first experiment (n-best parsing and reranking), the first experiment results in higher recall (75.48% vs. 73.69%) and the third one in higher precision (75.43% vs. 73.26%). Combining the two methods results in the best result with an F-score of 76.69.
Trubetzkoy's recognition of a delimitative function of phonology, serving to signal boundaries between morphological units, is expressed in terms of alignment constraints in Optimality Theory, where the relevant constraints require specific morphological boundaries to coincide with phonological structure (Trubetzkoy 1936, 1939, McCarthy & Prince 1993). The approach pursued in the present article is to investigate the distribution of phonological boundary signals to gain insight into the criteria underlying morphological analysis. The evidence from English and Swedish suggests that necessary and sufficient conditions for word-internal morphological analysis concern the recognizability of head constituents, which include the rightmost members of compounds and head affixes. The claim is that the stability of word-internal boundary effects in historical perspective cannot in general be sufficiently explained in terms of memorization and imitation of phonological word form. Rather, these effects indicate a morphological parsing mechanism based on the recognition of word-internal head constituents. Head affixes can be shown to contrast systematically with modifying affixes with respect to syntactic function, semantic content, and prosodic properties. That is, head affixes, which cannot be omitted, often lack inherent meaning and have relatively unmarked boundaries, which can be obscured entirely under specific phonological conditions. By contrast, modifying affixes, which can be omitted, consistently have inherent meaning and have stronger boundaries, which resist prosodic fusion in all phonological contexts. While these correlations are hardly specific to English and Swedish it remains to be investigated to which extent they hold cross-linguistically. The observation that some of the constituents identified on the basis of prosodic evidence lack inherent meaning raises the issue of compositionality. I will argue that certain systematic aspects of word meaning cannot be captured with reference to the syntagmatic level, but require reference to the paradigmatic level instead. The assumption is then that there are two dimensions of morphological analysis: syntagmatic analysis, which centers on the criteria for decomposing words in terms of labelled constituents, and paradigmatic analysis, which centers on the criteria for establishing relations among (whole) words in the mental lexicon. While meaning is intrinsically connected with paradigmatic analysis (e.g. base relations, oppositeness) it is not essential to syntagmatic analysis.
Mit Erstaunen stellen LinguistInnen aus Deutschland, Österreich und der Schweiz immer wieder fest, dass sich in der "kleinen" Schweiz der geschlechtergerechte Sprachgebrauch in Öffentlichkeit und Alltag weit stärker durchgesetzt hat als in den anderen deutschsprachigen Ländern. Diese Einschätzung gilt es hier zu überprüfen und, falls sie zutrifft, zu belegen. Ausserdem werden - als erster Schritt fur weitere Untersuchungen - Thesen formuliert, die Erklärungen liefern, worauf diese Entwicklung zurückgeführt werden kann. Mit diesem Artikel geben wir anband von ausgewählten, konkreten Beispielen einen Einblick in die Situation, wie sie sich zur Zeit in der Schweiz präsentiert. Wir konzentrieren uns - unter sprachsoziologischer Perspektive - auf eine erste Bestandesaufnahme mit dem Blick auf die Diskussion in den Medien, die Institutionalisierung und die Einstellungen, die die spezifische sprachliche Situation in der Deutschschweiz prägen. Einen Rahmen fur unsere Untersuchung bilden die Überlegungen von Schräpel (SCHRÄPEL 1986), die die Auseinandersetzung um nichtsexistische Sprache als ein besonderes Sprachwandelphänomen untersucht. Sprachwandel im Vollzug ist einerseits einfacher zu erfassen als einer, der weiter zurückliegt, andererseits erschwert die Fülle des greifbaren Materials auch den Durchblick und das klare Erkennen von Tendenzen. Aus diesem Grund werten wir unser Datenmaterial nicht quantitativ aus, sondern konzentrieren uns darauf, für verschiedene Aspekte typische Beispiele zu geben und so den Stand der öffentlichen Diskussion und die Breite der vertretenen Meinungen darzustellen. Es wäre verlockend, das hier vorliegende Material auch allgemeinerer Form unter der Thematik "Sprachkritik" oder "Einstellungen" zu analysieren. Dies ist jedoch nicht im Zentrum unserer Fragestellung, weshalb wir bei einigen Beispielen auf entsprechende Untersuchungen (z.B. BLAUBERGS 1980, SCHOENTHAL 1989) verweisen.
Intimität und Geschlecht : zur Syntax und Pragmatik der Anrede im Liebesbrief des 20. Jahrhunderts
(2000)
Die Trennung der Lebenswelt in Privatsphäre und Öffentlichkeit käme der Verortung von Intimität entgegen. Es scheint aber, als ob Intimität nicht einem klar abgegrenzten Bereich zugeordnet werden kann, sondern nunmehr als relationale Kategorie zu fassen ist. Gerade der historische Vergleich (Vgl. CORBIN 1992) erlaubt weder einheitlich räumliche oder körperliche noch ästhetische Kriterien zur Abgrenzung von Intimität. ...
Das ausgehende 19. und beginnende 20. Jahrhundert setzt sich von den erkenntnistheoretischen Konzepten der vorangegangenen Zeit deutlich ab:Während – stark vereinfacht – die Philosophie bis dahin die Möglichkeit der Erkenntnis entweder in der subjektiven oder objektiven Dimension zu finden glaubte,wobei die Funktion der Sprache im Erkenntnisprozess kaum hinterfragt wurde, wird zur Jahrhundertwende eine Tendenz deutlich, die einerseits die Adäquatheit der sprachlichen Vermittlung entweder in Frage stellt oder zumindest thematisiert, andererseits die tradierten Erkenntnismodi neu reflektiert oder ihnen sogar den Rücken kehrt.
This paper describes the creation and preparation of TUSNELDA, a collection of corpus data built for linguistic research. This collection contains a number of linguistically annotated corpora which differ in various aspects such as language, text sorts / data types, encoded annotation levels, and linguistic theories underlying the annotation. The paper focuses on this variation on the one hand and the way how these heterogeneous data are integrated into one resource on the other hand.
We adopt Markert and Nissim (2005)’s approach of using the World Wide Web to resolve cases of coreferent bridging for German and discuss the strength and weaknesses of this approach. As the general approach of using surface patterns to get information on ontological relations between lexical items has only been tried on English, it is also interesting to see whether the approach works for German as well as it does for English and what differences between these languages need to be accounted for. We also present a novel approach for combining several patterns that yields an ensemble that outperforms the best-performing single patterns in terms of both precision and recall.
When a statistical parser is trained on one treebank, one usually tests it on another portion of the same treebank, partly due to the fact that a comparable annotation format is needed for testing. But the user of a parser may not be interested in parsing sentences from the same newspaper all over, or even wants syntactic annotations for a slightly different text type. Gildea (2001) for instance found that a parser trained on the WSJ portion of the Penn Treebank performs less well on the Brown corpus (the subset that is available in the PTB bracketing format) than a parser that has been trained only on the Brown corpus, although the latter one has only half as many sentences as the former. Additionally, a parser trained on both the WSJ and Brown corpora performs less well on the Brown corpus than on the WSJ one. This leads us to the following questions that we would like to address in this paper: - Is there a difference in usefulness of techniques that are used to improve parser performance between the same-corpus and the different-corpus case? - Are different types of parsers (rule-based and statistical) equally sensitive to corpus variation? To achieve this, we compared the quality of the parses of a hand-crafted constraint-based parser and a statistical PCFG-based parser that was trained on a treebank of German newspaper text.
In the past, a divide could be seen between ’deep’ parsers on the one hand, which construct a semantic representation out of their input, but usually have significant coverage problems, and more robust parsers on the other hand, which are usually based on a (statistical) model derived from a treebank and have larger coverage, but leave the problem of semantic interpretation to the user. More recently, approaches have emerged that combine the robustness of datadriven (statistical) models with more detailed linguistic interpretation such that the output could be used for deeper semantic analysis. Cahill et al. (2002) use a PCFG-based parsing model in combination with a set of principles and heuristics to derive functional (f-)structures of Lexical-Functional Grammar (LFG). They show that the derived functional structures have a better quality than those generated by a parser based on a state-of-the-art hand-crafted LFG grammar. Advocates of Dependency Grammar usually point out that dependencies already are a semantically meaningful representation (cf. Menzel, 2003). However, parsers based on dependency grammar normally create underspecified representations with respect to certain phenomena such as coordination, apposition and control structures. In these areas they are too "shallow" to be directly used for semantic interpretation. In this paper, we adopt a similar approach to Cahill et al. (2002) using a dependency-based analysis to derive functional structure, and demonstrate the feasibility of this approach using German data. A major focus of our discussion is on the treatment of coordination and other potentially underspecified structures of the dependency data input. F-structure is one of the two core levels of syntactic representation in LFG (Bresnan, 2001). Independently of surface order, it encodes abstract syntactic functions that constitute predicate argument structure and other dependency relations such as subject, predicate, adjunct, but also further semantic information such as the semantic type of an adjunct (e.g. directional). Normally f-structure is captured as a recursive attribute value matrix, which is isomorphic to a directed graph representation. Figure 5 depicts an example target f-structure. As mentioned earlier, these deeper-level dependency relations can be used to construct logical forms as in the approaches of van Genabith and Crouch (1996), who construct underspecified discourse representations (UDRSs), and Spreyer and Frank (2005), who have robust minimal recursion semantics (RMRS) as their target representation. We therefore think that f-structures are a suitable target representation for automatic syntactic analysis in a larger pipeline of mapping text to interpretation. In this paper, we report on the conversion from dependency structures to fstructure. Firstly, we evaluate the f-structure conversion in isolation, starting from hand-corrected dependencies based on the TüBa-D/Z treebank and Versley (2005)´s conversion. Secondly, we start from tokenized text to evaluate the combined process of automatic parsing (using Foth and Menzel (2006)´s parser) and f-structure conversion. As a test set, we randomly selected 100 sentences from TüBa-D/Z which we annotated using a scheme very close to that of the TiGer Dependency Bank (Forst et al., 2004). In the next section, we sketch dependency analysis, the underlying theory of our input representations, and introduce four different representations of coordination. We also describe Weighted Constraint Dependency Grammar (WCDG), the dependency parsing formalism that we use in our experiments. Section 3 characterises the conversion of dependencies to f-structures. Our evaluation is presented in section 4, and finally, section 5 summarises our results and gives an overview of problems remaining to be solved.
This paper is concerned with the tagging of spatial expressions in German newspaper articles, assigning a meaning to the expression and classifying the usages of the spatial expression and linking the derived referent to an event description. In our system, we implemented the activation of concepts in a very simple fashion, a concept is activated once (with a cost depending on the item that activated it) and is left activated thereafter. As an example, a city also activates the nodes for the region and the country it is part of, so that cities from one country are chosen over cities from different countries. A test corpus of 12 German newspaper articles was tested regarding several disambiguation strategies. Disambiguation was carried out via a beam search to find an approximately cost-optimal solution for the conflict set of potential grounding candidates for the tagged spatial expression. Test showed that the disambiguation strategies improved accuracy significantly.
Using a qualitative analysis of disagreements from a referentially annotated newspaper corpus, we show that, in coreference annotation, vague referents are prone to greater disagreement. We show how potentially problematic cases can be dealt with in a way that is practical even for larger-scale annotation, considering a real-world example from newspaper text.
We investigate methods to improve the recall in coreference resolution by also trying to resolve those definite descriptions where no earlier mention of the referent shares the same lexical head (coreferent bridging). The problem, which is notably harder than identifying coreference relations among mentions which have the same lexical head, has been tackled with several rather different approaches, and we attempt to provide a meaningful classification along with a quantitative comparison. Based on the different merits of the methods, we discuss possibilities to improve them and show how they can be effectively combined.
In this paper, we investigate the usefulness of a wide range of features for their usefulness in the resolution of nominal coreference, both as hard constraints (i.e. completely removing elements from the list of possible candidates) as well as soft constraints (where a cumulation of violations of soft constraints will make it less likely that a candidate is chosen as the antecedent). We present a state of the art system based on such constraints and weights estimated with a maximum entropy model, using lexical information to resolve cases of coreferent bridging.
In recent years, research in parsing has extended in several new directions. One of these directions is concerned with parsing languages other than English. Treebanks have become available for many European languages, but also for Arabic, Chinese, or Japanese. However, it was shown that parsing results on these treebanks depend on the types of treebank annotations used. Another direction in parsing research is the development of dependency parsers. Dependency parsing profits from the non-hierarchical nature of dependency relations, thus lexical information can be included in the parsing process in a much more natural way. Especially machine learning based approaches are very successful (cf. e.g.). The results achieved by these dependency parsers are very competitive although comparisons are difficult because of the differences in annotation. For English, the Penn Treebank has been converted to dependencies. For this version, Nivre et al. report an accuracy rate of 86.3%, as compared to an F-score of 92.1 for Charniaks parser. The Penn Chinese Treebank is also available in a constituent and a dependency representations. The best results reported for parsing experiments with this treebank give an F-score of 81.8 for the constituent version and 79.8% accuracy for the dependency version. The general trend in comparisons between constituent and dependency parsers is that the dependency parser performs slightly worse than the constituent parser. The only exception occurs for German, where F-scores for constituent plus grammatical function parses range between 51.4 and 75.3, depending on the treebank, NEGRA or TüBa-D/Z. The dependency parser based on a converted version of Tüba-D/Z, in contrast, reached an accuracy of 83.4%, i.e. 12 percent points better than the best constituent analysis including grammatical functions.
This paper profiles significant differences in syntactic distribution and differences in word class frequencies for two treebanks of spoken and written German: the TüBa-D/S, a treebank of transliterated spontaneous dialogues, and the TüBa-D/Z treebank of newspaper articles published in the German daily newspaper die tageszeitung´(taz). The approach can be used more generally as a means of distinguishing and classifying language corpora of different genres.
This paper profiles significant differences in syntactic distribution and differences in word class frequencies for two treebanks of spoken and written German: the TüBa-D/S, a treebank of transliterated spontaneous dialogs, and the TüBa-D/Z treebank of newspaper articles published in the German daily newspaper ´die tageszeitung´(taz). The approach can be used more generally as a means of distinguishing and classifying language corpora of different genres.
This paper presents an approach to the question whether it is possible to construct a parser based on ideas from case-based reasoning. Such a parser would employ a partial analysis of the input sentence to select a (nearly) complete syntax tree and then adapt this tree to the input sentence. The experiments performed on German data from the Tüba-D/Z treebank and the KaRoPars partial parser show that a wide range of levels of generality can be reached, depending on which types of information are used to determine the similarity between input sentence and training sentences. The results are such that it is possible to construct a case-based parser. The optimal setting out of those presented here need to be determined empirically.
Quantitative evaluation of parsers has traditionally centered around the PARSEVAL measures of crossing brackets, (labeled) precision, and (labeled) recall. However, it is well known that these measures do not give an accurate picture of the quality of the parsers output. Furthermore, we will show that they are especially unsuited for partial parsers. In recent years, research has concentrated on dependencybased evaluation measures. We will show in this paper that such a dependency-based evaluation scheme is particularly suitable for partial parsers. TüBa-D, the treebank used here for evaluation, contains all the necessary dependency information so that the conversion of trees into a dependency structure does not have to rely on heuristics. Therefore, the dependency representations are not only reliable, they are also linguistically motivated and can be used for linguistic purposes.
The purpose of this paper is to describe the TüBa-D/Z treebank of written German and to compare it to the independently developed TIGER treebank (Brants et al., 2002). Both treebanks, TIGER and TüBa-D/Z, use an annotation framework that is based on phrase structure grammar and that is enhanced by a level of predicate-argument structure. The comparison between the annotation schemes of the two treebanks focuses on the different treatments of free word order and discontinuous constituents in German as well as on differences in phrase-internal annotation.
The ACL 2008 Workshop on Parsing German features a shared task on parsing German. The goal of the shared task was to find reasons for the radically different behavior of parsers on the different treebanks and between constituent and dependency representations. In this paper, we describe the task and the data sets. In addition, we provide an overview of the test results and a first analysis.
The Conference on Computational Natural Language Learning features a shared task, in which participants train and test their learning systems on the same data sets. In 2007, as in 2006, the shared task has been devoted to dependency parsing, this year with both a multilingual track and a domain adaptation track. In this paper, we define the tasks of the different tracks and describe how the data sets were created from existing treebanks for ten languages. In addition, we characterize the different approaches of the participating systems, report the test results, and provide a first analysis of these results.
Recent approaches to Word Sense Disambiguation (WSD) generally fall into two classes: (1) information-intensive approaches and (2) information-poor approaches. Our hypothesis is that for memory-based learning (MBL), a reduced amount of data is more beneficial than the full range of features used in the past. Our experiments show that MBL combined with a restricted set of features and a feature selection method that minimizes the feature set leads to competitive results, outperforming all systems that participated in the SENSEVAL-3 competition on the Romanian data. Thus, with this specific method, a tightly controlled feature set improves the accuracy of the classifier, reaching 74.0% in the fine-grained and 78.7% in the coarse-grained evaluation.
Das Chunkparsing bietet einen besonders vielversprechenden Ansatz zum robusten, partiellen Parsing mit dem Ziel einer breiten Datenabdeckung. Ziel beim Chunkparsing ist eine partielle, nicht-rekursive syntaktische Struktur. Dieser extrem effiziente Parsing-Ansatz läßt sich als Kaskade endlicher Transducer realisieren. In diesem Beitrag wird TüSBL vorgestellt, ein System, bei dem die Eingabe aus spontaner, gesprochener Spache besteht, die dem Parser in Form eines Worthypothesengraphen aus einem Spracherkenner zur Verfügung gestellt wird. Chunkparsing ist für eine solche Anwendung besonders geeignet, da es fragmentarische oder nicht wohlgeformte Äußerungen robust behandeln kann. Des weiteren wird eine Baumkonstruktionskomponente vorgestellt, die die partiellen Chunkstrukturen zu vollständigen Bäumen mit grammatischen Funktionen erweitert. Das System wird anhand manuell überprüfter Systemeingaben evaluiert, da sich die üblichen Evaluationsparameter hierfür nicht eignen.
The purpose of this paper is to describe recent developments in the morphological, syntactic, and semantic annotation of the TüBa-D/Z treebank of German. The TüBa-D/Z annotation scheme is derived from the Verbmobil treebank of spoken German [4, 10], but has been extended along various dimensions to accommodate the characteristics of written texts. TüBa-D/Z uses as its data source the "die tageszeitung" (taz) newspaper corpus. The Verbmobil treebank annotation scheme distinguishes four levels of syntactic constituency: the lexical level, the phrasal level, the level of topological fields, and the clausal level. The primary ordering principle of a clause is the inventory of topological fields, which characterize the word order regularities among different clause types of German, and which are widely accepted among descriptive linguists of German [3, 6]. The TüBa-D/Z annotation relies on a context-free backbone (i.e. proper trees without crossing branches) of phrase structure combined with edge labels that specify the grammatical function of the phrase in question. The syntactic annotation scheme of the TüBa-D/Z is described in more detail in [12, 11]. TüBa-D/Z currently comprises approximately 15 000 sentences, with approximately 7 000 sentences being in the correction phase. The latter will be released along with an updated version of the existing treebank before the end of this year. The treebank is available in an XML format, in the NEGRA export format [1] and in the Penn treebank bracketing format. The XML format contains all types of information as described above, the NEGRA export format contains all sentenceinternal information while the Penn treebank format includes only those layers of information that can be expressed as pure tree structures. Over the course of the last year, more fine grained linguistic annotations have been added along the following dimensions: 1. the basic Stuttgart-Tübingen tagset, STTS, [9] labels have been enriched by relevant features of inflectional morphology, 2. named entity information has been encoded as part of the syntactic annotation, and 3. a set of anaphoric and coreference relations has been added to link referentially dependent noun phrases. In the following sections, we will describe each of these innovations in turn and will demonstrate how the additional annotations can be incorporated into one comprehensive annotation scheme.
Part-of-Speech tagging is generally performed by Markov models, based on bigram or trigram models. While Markov models have a strong concentration on the left context of a word, many languages require the inclusion of right context for correct disambiguation. We show for German that the best results are reached by a combination of left and right context. If only left context is available, then changing the direction of analysis and going from right to left improves the results. In a version of MBT (Daelemans et al., 1996) with default parameter settings, the inclusion of the right context improved POS tagging accuracy from 94.00% to 96.08%, thus corroborating our hypothesis. The version with optimized parameters reaches 96.73%.
The definition of similarity between sentences is formulated on the levels of words, POS tags, and chunks (Abney 91; Abney 96). The evaluation of this approach shows that while precision and recall based on the PARSEVAL measures (Black et al. 91) do not reach state of the art Parsers yet (F1=87.19 on syntactic constituents, F1=77.78 including functionargument structure), the parser shows a very reliable performance where function-argument structure is concerned (F1=96.52). The lower F-scores are very often due to unattached constituents.
The problem of vocalization, or diacritization, is essential to many tasks in Arabic NLP. Arabic is generally written without the short vowels, which leads to one written form having several pronunciations with each pronunciation carrying its own meaning(s). In the experiments reported here, we define vocalization as a classification problem in which we decide for each character in the unvocalized word whether it is followed by a short vowel. We investigate the importance of different types of context. Our results show that the combination of using memory-based learning with only a word internal context leads to a word error rate of 6.64%. If a lexical context is added, the results deteriorate slowly.
In syntax, the trend nowadays is towards lexicalized grammar formalisms. It is now widely accepted that dividing words into wordclasses may serve as a laborsaving mechanism - but at the same time, it discards all detailed information on the idiosyncratic behavior of words. And that is exactly the type of information that may be necessary in order to parse a sentence. For learning approaches, however, lexicalized grammars represent a challenge for the very reason that they include so much detailed and specific information, which is difficult to learn. This paper will present an algorithm for learning a link grammar of German. The problem of data sparseness is tackled by using all the available information from partial parses as well as from an existing grammar fragment and a tagger. This is a report about work in progress so there are no representative results available yet.
This paper presents a comparative study of probabilistic treebank parsing of German, using the Negra and TüBa-D/Z treebanks. Experiments with the Stanford parser, which uses a factored PCFG and dependency model, show that, contrary to previous claims for other parsers, lexicalization of PCFG models boosts parsing performance for both treebanks. The experiments also show that there is a big difference in parsing performance, when trained on the Negra and on the TüBa-D/Z treebanks. Parser performance for the models trained on TüBa-D/Z are comparable to parsing results for English with the Stanford parser, when trained on the Penn treebank. This comparison at least suggests that German is not harder to parse than its West-Germanic neighbor language English.
How to compare treebanks
(2008)
Recent years have seen an increasing interest in developing standards for linguistic annotation, with a focus on the interoperability of the resources. This effort, however, requires a profound knowledge of the advantages and disadvantages of linguistic annotation schemes in order to avoid importing the flaws and weaknesses of existing encoding schemes into the new standards. This paper addresses the question how to compare syntactically annotated corpora and gain insights into the usefulness of specific design decisions. We present an exhaustive evaluation of two German treebanks with crucially different encoding schemes. We evaluate three different parsers trained on the two treebanks and compare results using EVALB, the Leaf-Ancestor metric, and a dependency-based evaluation. Furthermore, we present TePaCoC, a new testsuite for the evaluation of parsers on complex German grammatical constructions. The testsuite provides a well thought-out error classification, which enables us to compare parser output for parsers trained on treebanks with different encoding schemes and provides interesting insights into the impact of treebank annotation schemes on specific constructions like PP attachment or non-constituent coordination.
In the last decade, the Penn treebank has become the standard data set for evaluating parsers. The fact that most parsers are solely evaluated on this specific data set leaves the question unanswered how much these results depend on the annotation scheme of the treebank. In this paper, we will investigate the influence which different decisions in the annotation schemes of treebanks have on parsing. The investigation uses the comparison of similar treebanks of German, NEGRA and TüBa-D/Z, which are subsequently modified to allow a comparison of the differences. The results show that deleted unary nodes and a flat phrase structure have a negative influence on parsing quality while a flat clause structure has a positive influence.
Transforming constituent-based annotation into dependency-based annotation has been shown to work for different treebanks and annotation schemes (e.g. Lin (1995) has transformed the Penn treebank, and Kübler and Telljohann (2002) the Tübinger Baumbank des Deutschen (TüBa-D/Z)). These ventures are usually triggered by the conflict between theory-neutral annotation, that targets most needs of a wider audience, and theory-specific annotation, that provides more fine-grained information for a smaller audience. As a compromise, it has been pointed out that treebanks can be designed to support more than one theory from the start (Nivre, 2003). We argue that information can also be added to an existing annotation scheme so that it supports additional theory-specific annotations. We also argue that such a transformation is useful for improving and extending the original annotation scheme with respect to both ambiguous annotation and annotation errors. We show this by analysing problems that arise when generating dependency information from the constituent-based TüBa-D/Z.
Chunk parsing has focused on the recognition of partial constituent structures at the level of individual chunks. Little attention has been paid to the question of how such partial analyses can be combined into larger structures for complete utterances. Such larger structures are not only desirable for a deeper syntactic analysis. They also constitute a necessary prerequisite for assigning function-argument structure. The present paper offers a similaritybased algorithm for assigning functional labels such as subject, object, head, complement, etc. to complete syntactic structures on the basis of prechunked input. The evaluation of the algorithm has concentrated on measuring the quality of functional labels. It was performed on a German and an English treebank using two different annotation schemes at the level of function argument structure. The results of 89.73% correct functional labels for German and 90.40%for English validate the general approach.
In this paper, we investigate the role of sub-optimality in training data for part-of-speech tagging. In particular, we examine to what extent the size of the training corpus and certain types of errors in it affect the performance of the tagger. We distinguish four types of errors: If a word is assigned a wrong tag, this tag can belong to the ambiguity class of the word (i.e. to the set of possible tags for that word) or not; furthermore, the major syntactic category (e.g. "N" or "V") can be correctly assigned (e.g. if a finite verb is classified as an infinitive) or not (e.g. if a verb is classified as a noun). We empirically explore the decrease of performance that each of these error types causes for different sizes of the training set. Our results show that those types of errors that are easier to eliminate have a particularly negative effect on the performance. Thus, it is worthwhile concentrating on the elimination of these types of errors, especially if the training corpus is large.
Prepositional phrase (PP) attachment is one of the major sources for errors in traditional statistical parsers. The reason for that lies in the type of information necessary for resolving structural ambiguities. For parsing, it is assumed that distributional information of parts-of-speech and phrases is sufficient for disambiguation. For PP attachment, in contrast, lexical information is needed. The problem of PP attachment has sparked much interest ever since Hindle and Rooth (1993) formulated the problem in a way that can be easily handled by machine learning approaches: In their approach, PP attachment is reduced to the decision between noun and verb attachment; and the relevant information is reduced to the two possible attachment sites (the noun and the verb) and the preposition of the PP. Brill and Resnik (1994) extended the feature set to the now standard 4-tupel also containing the noun inside the PP. Among many publications on the problem of PP attachment, Volk (2001; 2002) describes the only system for German. He uses a combination of supervised and unsupervised methods. The supervised method is based on the back-off model by Collins and Brooks (1995), the unsupervised part consists of heuristics such as ”If there is a support verb construction present, choose verb attachment”. Volk trains his back-off model on the Negra treebank (Skut et al., 1998) and extracts frequencies for the heuristics from the ”Computerzeitung”. The latter also serves as test data set. Consequently, it is difficult to compare Volk’s results to other results for German, including the results presented here, since not only he uses a combination of supervised and unsupervised learning, but he also performs domain adaptation. Most of the researchers working on PP attachment seem to be satisfied with a PP attachment system; we have found hardly any work on integrating the results of such approaches into actual parsers. The only exceptions are Mehl et al. (1998) and Foth and Menzel (2006), both working with German data. Mehl et al. report a slight improvement of PP attachment from 475 correct PPs out of 681 PPs for the original parser to 481 PPs. Foth and Menzel report an improvement of overall accuracy from 90.7% to 92.2%. Both integrate statistical attachment preferences into a parser. First, we will investigate whether dependency parsing, which generally uses lexical information, shows the same performance on PP attachment as an independent PP attachment classifier does. Then we will investigate an approach that allows the integration of PP attachment information into the output of a parser without having to modify the parser: The results of an independent PP attachment classifier are integrated into the parse of a dependency parser for German in a postprocessing step.
Maschinelles Lernen wird häufig zur effzienten Annotation großer Datenmengen eingesetzt. Die Forschung zu maschinellen Lernverfahren beschränkt sich i.a. darauf unterschiedliche Lernverfahren zu vergelichen oder die optimale größe der Trainingsdaten zu bestimmen. Bisher wurde jedoch nicht untersucht, in wie weit sich linguistisches Wissen bei der Aufgabendefinition positiv auswirken kann. Dies soll hier anhand des Lernens von Base-Nominalphrasen mit drei unterschiedlichen Definitionen untersucht werden. Die Definitionen unterscheiden sich im Grad der linguistisch motivierten Erweiterungen, die zu einer eher praktisch motivierten ersten Definition hinzu kamen. Die Untersuchungen ergaben, dass sich die Anzahl der falsch klasssifizierten Wörter um ein Drittel reduzieren lässt.
This report explores the question of compatibility between annotation projects including translating annotation formalisms to each other or to common forms. Compatibility issues are crucial for systems that use the results of multiple annotation projects. We hope that this report will begin a concerted effort in the field to track the compatibility of annotation schemes for part of speech tagging, time annotation, treebanking, role labeling and other phenomena.
This paper reports on the SYN-RA (SYNtax-based Reference Annotation) project, an on-going project of annotating German newspaper texts with referential relations. The project has developed an inventory of anaphoric and coreference relations for German in the context of a unified, XML-based annotation scheme for combining morphological, syntactic, semantic, and anaphoric information. The paper discusses how this unified annotation scheme relates to other formats currently discussed in the literature, in particular the annotation graph model of Bird and Liberman (2001) and the pie-in-thesky scheme for semantic annotation.
Chunk parsing has focused on the recognition of partial constituent structures at the level of individual chunks. Little attention has been paid to the question of how such partial analyses can be combined into larger structures for complete utterances. The TüSBL parser extends current chunk parsing techniques by a tree-construction component that extends partial chunk parses to complete tree structures including recursive phrase structure as well as function-argument structure. TüSBLs tree construction algorithm relies on techniques from memory-based learning that allow similarity-based classification of a given input structure relative to a pre-stored set of tree instances from a fully annotated treebank. A quantitative evaluation of TüSBL has been conducted using a semi-automatically constructed treebank of German that consists of appr. 67,000 fully annotated sentences. The basic PARSEVAL measures were used although they were developed for parsers that have as their main goal a complete analysis that spans the entire input.This runs counter to the basic philosophy underlying TüSBL, which has as its main goal robustness of partially analyzed structures.