Linguistik
Refine
Year of publication
Document Type
- Article (1213)
- Part of a Book (784)
- Working Paper (254)
- Review (181)
- Conference Proceeding (166)
- Preprint (122)
- Book (108)
- Part of Periodical (64)
- Report (58)
- Doctoral Thesis (23)
Language
- English (1397)
- German (1061)
- Croatian (298)
- Portuguese (120)
- Turkish (43)
- Multiple languages (25)
- French (21)
- mis (16)
- Spanish (7)
- Polish (4)
Keywords
- Deutsch (437)
- Syntax (151)
- Linguistik (129)
- Englisch (123)
- Semantik (112)
- Spracherwerb (96)
- Phonologie (85)
- Rezension (77)
- Kroatisch (68)
- Fremdsprachenlernen (67)
Institute
- Extern (438)
- Institut für Deutsche Sprache (IDS) Mannheim (113)
- Neuere Philologien (43)
- Sprachwissenschaften (43)
- Universitätsbibliothek (4)
- Sprach- und Kulturwissenschaften (3)
- Gesellschaftswissenschaften (2)
- Medizin (2)
- Präsidium (2)
- SFB 268 (2)
The material reported on in this paper is part of a set of experiments in which the role of Information Structure on L2 processing of words is tested. Pitch and duration of 4 sets of experimental material in German and English are measured and analyzed in this paper. The well-known finding that accent boosts duration and pitch is confirmed. Syntactic and lexical means of marking focus, however, do not give the duration and the pitch of a word an extra boost.
In this paper, we discuss the design and implementation of our first version of the database "ANNIS" (ANNotation of Information Structure). For research based on empirical data, ANNIS provides a uniform environment for storing this data together with its linguistic annotations. A central database promotes standardized annotation, which facilitates interpretation and comparison of the data. ANNIS is used through a standard web browser and offers tier-based visualization of data and annotations, as well as search facilities that allow for cross-level and cross-sentential queries. The paper motivates the design of the system, characterizes its user interface, and provides an initial technical evaluation of ANNIS with respect to data size and query processing.
The paper presents a novel approach to explaining word order variation in the early Germanic languages. Initial observations about verb placement as a device marking types of rhetorical relations made on data from Old High German (cf. Hinterhölzl & Petrova 2005) are now reconsidered on a larger scale and compared with evidence from other early Germanic languages. The paper claims that the identification of information-structural domains in a sentence is best achieved by taking into account the interaction between the pragmatic features of discourse referents and properties of discourse organization.
Die Erstellung eines Großwörterbuchs ist ein umfagreiches Vorhaben – nicht nur in quantitativem Sinne. So ist es mir eine Ehre, dass ich – als Mitherausgeber der kürzlich erschienenen Großwörterbücher Deutsch-Ungarisch und Ungarisch-Deutsch – im Rahmen dieser Tagung die derzeit laufende lexikographische Arbeit an einem deutsch-finnischen Großwörterbuch unter der Leitung von Professor Jarmo Korhonen näher kennen lernen kann. Über dieses Projekt schreibt Lenk (1998: 87) in einem Tagungsbericht: „Das [...] geplante neue Großwörterbuch begnügt sich mit einer voraussichtlichen Stichwortzahl von 100.000.“ Nun erhebt sich die Frage, was hier wohl mit der Formulierung „begnügt sich“ gemeint war: Wie „groß“ muss eigentlich ein „Großwörterbuch“ sein, um diesen Namen führen zu dürfen? Unter diesem Aspekt möchte sich der vorliegende Beitrag mit der Problematik der Größenklassen bzw. -bezeichnungen von Wörterbüchern auseinander setzen, da diese Fragestellung in mehrfacher Hinsicht aktuell ist, sowohl für die metalexikographische Theorie als auch für die Praxis der Wörterbucharbeit. Zur Verdeutlichung sei zunächst exemplarisch auf die ungarische Wörterbuchwirklichkeit hingewiesen: Es sind vor kurzem fast zeitgleich – allerdings für unterschiedliche Sprachenpaare – so genannte „Großwörterbücher“ einerseits mit lediglich 30.000 (z.B. Radácsy 1997) und andererseits mit mehr als 200.000 Lemmata (z.B. Halász/Földes/Uzonyi 1998a) herausgegeben worden. Ebenfalls in Ungarn erscheinen jetzt – sogar für dieselbe Sprachrichtung – zwei Wörterbücher mit im Wesentlichen gleicher Lemmaanzahl, wobei sich das eine „Kleinwörterbuch“ (Halász/Földes/Uzonyi 2000a), das andere aber schon „Handwörterbuch“ (Hessky 2000) nennt. Mit anderen Worten: Sprachlexika mit etwas über 30.000 Lemmata nennt man mal Klein-, mal Hand-, mal Großwörterbuch. Von dieser empirischen Beobachtung ausgehend soll im Weiteren an einer größeren Zahl zweisprachiger Wörterbücher, in denen eine der beteiligten Sprachen das Deutsche ist, untersucht werden, ob die Bezeichnungen als einigermaßen verlässliche Indikatoren für die Größe des lexikographisch erfassten Sprachmaterials angesehen werden können. Ebenfalls soll der Frage nachgegangen werden, ob die immer zahlreicher werdenden Attribuierungen und Bestimmungswörter wie großes Wörterbuch oder Global-, Universal-, Kompaktwörterbücher etc. mit dem tatsächlichen Umfang der Wörterbücher korrelieren und ob bzw. inwieweit die diesbezüglich verwendeten Terminologien der einzelnen lexikographischen Werkstätten bzw. der Verlage miteinander kompatibel sind. Hier besteht erheblicher Klärungsbedarf. Vor diesem Hintergrund sollen generell die Probleme der Größenbezeichnungen bzw. -klassen – oder wie der Heidelberger Metalexikograph Wiegand (1990: 2127) besonders fachkundig formuliert: „die Zahlen zur Mächtigkeit der Trägermenge der Makrostruktur“ – angesprochen werden. Dabei muss man sich natürlich klar vor Augen halten, dass die Lemmaanzahl nur eines der Kriterien zur Bestimmung des Volumens, d.h. der Größenklasse ist (vgl. Wiegand 1990: 2129). Bei der Lemmaselektion ergeben sich daher für die Lexikographen gleich zwei grundsätzliche Dilemmas: (a) in quantitativer Hinsicht wie viel und (b) in qualitativer Hinsicht welche Lemmata Aufnahme finden sollen. Denn nur bei einem geschlossenen Korpus – wie etwa bei einem historischen Wörterbuch – liegt eine idealtypische Lemmaselektion vor, indem die Quellen vollständig ausgewertet werden können: Beispielsweise war es Hannig (1995: VII) möglich, in seinem „Handwörterbuch Ägyptisch- Deutsch. Die Sprache der Pharaonen (2800-950 v.Chr.)“ relativ ruhigen Gewissens zu äußern: „Das Handwörterbuch ist eine möglichst vollständige Sammlung aller bekannten Wörter der zweiten/dritten bis inklusive einundzwanzigsten Dynastie“. Die Probleme der Größenklassen scheinen in den einschlägigen Fachdiskursen kaum eine Rolle zu spielen. In einer Monographie erwähnt zwar Schaeder (1987: 84) im Zusammenhang mit einsprachigen Spezialwörterbüchern am Rande: „Geteilt dürften die Ansichten darüber sein, was ein großes und was ein kleines Wörterbuch ist“. Gleichwohl finden sich in den sonst erschöpfenden HSK-Bänden „Wörterbücher“ von Hausmann/Reichmann/Wiegand/Zgusta (1990/1991) recht sporadisch und zugleich ziemlich rudimentäre Hinweise auf eine Phänomenologie der Größenordnung von Wörterbüchern.
In der sog. Edo-Zeit (1603–1867) durften sich in Japan von den Europäern nur Niederländer (Holländer) aufhalten und Handel treiben. Folglich mussten Deutsche manchmal als „Bergholländer“ ausgegeben werden und ihre Sprache dementsprechend als „Bergholländisch“ (vgl. GAD 1996: 3). Vor dem Hintergrund dieses nicht unspektakulären Beispiels erhält nun die als Überschrift des vorliegenden Beitrags dienende Fragestellung auch eine historisch-interkulturelle Legitimation. CIRKO (2004: 131 ff.) ging kürzlich dem Fundamentalproblem nach, was überhaupt Sprache sei; mein Aufsatz will spezifizierend die Vielschichtigkeit des Begriffs "deutsche Sprache" reflektieren, genauer: wie ihr Konzept und ihre Architektur sind, insbesondere angesichts ihrer weitgehenden Regionalität, Variation und Heterogenität. So soll der vorliegende Beitrag das Phänomenfeld der arealen Varianz im Ensemble der deutschen Gegenwartssprache hinterfragen, differenzieren und interpretieren. Dabei geht es vorrangig darum, die Binnenverhältnisse des Deutschen in diesem Argumentationszusammenhang zu modellieren und eine Systematik der Regionalität am Beispiel des Deutschen zu erarbeiten.
Der Beitrag greift zwei recht kontaktsensitive und dennoch wenig erforschte sprachlichkommunikative Sonderbereiche auf, und zwar die Verwendung von (a) Eigennamen und von (b) Schelt- bzw. Schimpfausdrücken sowie Flüchen. All diese Phänomene sind offenbar universale Komponenten von Sprachen (vgl. auch Haspelmath 2002: 277; Geier-Leisch 1998: 7 f.). An diesem empirischen Material will der Beitrag im Einzelnen ermitteln, wie Kontaktund Interaktionsphänomene in gemischtsprachigen Diskursen unter Bedingungen einer transkulturellen Mehrsprachigkeit auftreten, wobei ihre Realisationsstrukturen, -typen und -klassen erschlossen sowie ihr Funktionieren hinterfragt werden. Letzten Endes soll anhand der Auseinandersetzung mit einer vitalen und hochkomplexen Kontaktsituation von Sprachen bzw. Varietäten der sprachkommunikative Umgang mit Eigennamen und Sonderlexik aus der Perspektive der deutschen Sprache im Kräftefeld zwischen typologischer Tradition und sukzessiver Innovation beschrieben werden, um damit gleichzeitig relevante Bausteine zur Modellierung des Kontaktprozesses zu erarbeiten.
Deutsche Rundfunksprache in mehrsprachiger Umwelt : am Beispiel der Verwendung von Phraseologismen
(1995)
Der Beitrag geht davon aus, dass es von den Anfängen bis heute eigentlich keine deutsche Einheitssprache gegeben hat, sondern nur regionale Varietäten. Auch wenn Regionalität bei den Sprachen eine universale Kategorie zu sein scheint, zählt das Deutsche aus einer Reihe soziokultureller und sprachhistorischer Gründe zu den Sprachen, in denen den Varietäten eine besondere Bedeutung zukommt: Deutsch ließe sich wohl als ein Prototyp für die Heterogenität innerhalb einer Sprache ansehen. Der Aufsatz spricht von einer „mehrfachen Regionalität“ der deutschen Gegenwartssprache, die sich zugleich in mehreren diatopischen Variationsdimensionen manifestiert. Gemäß der variationslinguistischen Dialektologie – die primär den Aufbau und den Wandel des gesamten Spektrums regionaler Sprachvariation zwischen den Extremen Standardsprache und Basisdialekt erforscht – handelt es sich im vorliegenden Beitrag nicht um Schichten bzw. Strata, sondern um Oppositionen, d.h. um eine Art „Skala“ mit den beiden Polen („Standardsprache“ vs. andere Varietät), in deren Spannungsfeld sich die Kulturrealität Variation abspielt. In diesem Sinne werden der Standardsprache folgende Oppositionsdimensionen gegenübergestellt: (a) (z.B. groß- und kleinräumige bzw. lokale) Basisdialekte, (b) regionale Umgangssprachen, (c) nationale Standardvarietäten des Deutschen im Rahmen des Konzepts „Deutsch als plurizentrische Sprache“ und (d) Deutsch als Minderheitensprache im Sinne einer dialektalen Kontaktvarietät.
Der Beitrag geht davon aus, dass Phraseologismen zum einen als prototypische Verkörperung des ,,kulturellen Gedächtnisses" einer Diskursgemeinschaft, zum anderen als ein universelles, jeder Sprachkultur immanentes Kulturphänomen angesehen werden können. In diesem Zusammenhang setzt er sieh zum Ziel, das Spannungsfeld der Verflochtenheit von ,Kultur" und "Sprache" mit ihren Ausprägungen und Konsequenzen am Material der Phraseologie im Hinblick auf das Deutsche und das Ungarische analytisch herauszuarbeiten und mehrperspektivisch zu hinterfragen. Denn die - im Titel der Tagung hervorgehobene - Kulturgeschichte und die Phraseologie stellen eine äußerst facettenreiche Thematik dar, die eine Reihe kulturphilosophischer, kultursemiotischer, interkultureller, kognitiv-linguistischer u. a. Fragen aufwirft und sowohl einen synchronen als auch einen diachronen Betrachtungsrahmen effordert. Der vorliegende Aufsatz kann sich jedoch auf lediglich einige aktuelle theoretische, methodologische und empirische Aspekte konzentrieren und möchte in disziplinärer Hinsicht kontrastiv und kontaktlinguistisch - dabei methodologisch phänomen- bzw. belegorientiert und problernbezogen - vorgehen.
Der vorliegende Aufsatz setzt sich mit einigen Aspekten der didaktisch-methodischen Umsetzung der am 1. August 1998 in Kraft getretenen Neuregelung der deutschen Rechtschreibung im DaF-Unterricht und in der sog. Auslandsgermanistik auseinander. Es wird vor allem auf Fragen der Umstellung unter dem Gesichtspunkt des Lehrens und Lernens von DaF fokussiert und für eine stärkere Berücksichtigung der Rechtschreibdidaktik plädiert.
Ein Gespenst geht um im deutschen Sprachraum - das Gespenst der Rechtschreibreform. In dieser Situation möchte dieser Aufsatz aus der speziellen Sicht des Lehrens und Lernens von DaF zur Reformdiskussion beitragen - vor allem mit Blick auf Grundkonzept, Werdegang und Rezeption der Reform sowie ganz besonders hinsichtlich der neuen Regeln und Einzelfestlegungen. Es ist erwiesen, dass DaF-Lernende mit bestimmten Schwerpunkten der deutschen Rechtschreibung (einschließlich der Zeichensetzung) weniger Schwierigkeiten als Muttersprachler haben, während sie in anderen Bereichen genauso anfällig für Fehler sind (vgl. BOHN/SCHREITER 1996: 176).1 Deshalb ist m.E. der folgende Standpunkt von SITTA (1992: 115) etwas zu relativieren: "Die Schreibung (Orthographie, Interpunktion) muß natürlich gelernt werden, dies bereitet aber im Normalfall denen kaum Schwierigkeiten, die in ihrer Muttersprache keine Schwierigkeit auf diesem Gebiet haben." Dementsprechend soll die Lehr-, Lern- und Benutzbarkeit der reformierten Orthographie für Nicht-Deutschsprachige - und zwar im Vergleich zur bisherigen Rechtschreibung - im Mittelpunkt dieses Beitrags stehen.
Der Aufsatz setzt sich mit Möglichkeiten und Grenzen der sog. neuen Medien (mit besonderer Berücksichtigung von Hypermedia) im Hinblick auf ihren Einsatz bei der universitären Linguistik-Vermittlung auseinander. Es werden sowohl allgemeine Überlegungen zur sinnvollen Anwendung der neueren technischen Errungenschaften in der linguistischen Lehre angestellt als auch spezielle Erfahrungen und Einsichten anhand der Konzipierung und Erstellung einer 1999 erschienenen CD-ROM zum Thema "Linguistik und Gesellschaft" - die erste hypermediale ausgesprochen linguistische CD-ROM in Ungarn - dargelegt. Zudem erörtert der Beitrag Arbeitsaspekte für die demnächst erscheinende CD-ROM "Sprachwissenschaftliche Grundfragen".
Die Problematik des sprachkommunikativen Umgangs mit dem Kulturphänomen "Phraseologie" ist im Falle zwei- bzw. mehrsprachiger Diskursgemeinschaften bisher kaum ins Blickfeld der Forschung geraten. Daher konzentriert sich der vorliegende Aufsatz auf Aspekte phraseologischer Sprachverwendung in einem komplexen Konrakt-, Konvergenz- und Integrationsraum von mehreren Sprachen und Kulturen und möchte zur Modelierung bi- bzw. multilingualen Diskursverhaltens im Hinblick auf die Phraseologie beitragen, indem er ein breites Spektrum von enmpirischen Manifestationsklassen bzw. -typen kommunikativen Synkretismus und sprachlicher Hybridität erfasst, systematisiert, beschreibt und evaluiert. Diese Forschungsfrage erlangt auch insofern eine besondere Bedeutung, als sich die Mehrschichtigkeit bilingualer Variationsdimensionen gerade anhand der Phraseologieverwendung aspektreich eruieren Iässt.
Die vorliegende Arbeit setzt sich mit einer spezifischen Sprach- und Sprachensituation auseinander, die besondere Ausformungen sowie Strukturierungen des Deutschen aufweist und für die ein umfassender und durchdringender soziokultureller sowie sprachlicher Austausch – und als deren Folge Mehrsprachigkeit und Inter- bzw. Transkulturalität – den Bezugsrahmen darstellen. In dieser inter- bzw. transkulturellen „Fugen-Position“ ist das Deutsche weder Mutter- noch Fremdsprache im herkömmlichen Sinne des Wortes. Es handelt sich um Deutsch als Minderheitensprache (nach einer anderen Terminologie: Nationalitätensprache) in Ungarn. Die Sprach(en)verhältnisse der Ungarndeutschen werden seit über 250 Jahren grundlegend durch immer intensiver werdende „Außenkontakte“ mit dem Ungarischen und mit anderen Umgebungssprachen bzw. -varietäten gekennzeichnet: Ungarisch übt seit der zweiten Hälfte des 19. Jahrhunderts einen sukzessiv erstarkenden Einfluss auf das kommunikative Handeln und dadurch auf das Sprachrepertoire der Ungarndeutschen aus, wohingegen nach 1945 die Einwirkung des Ungarischen besonders massiv wurde. Im Hinblick auf den sog. „geschlossenen“ (m.E. besser: zusammenhängenden) deutschen Sprachraum hat Mattheier (1980: 160) ausgeführt, dass Veränderungen in den Sprachgebrauchsstrukturen eng mit Veränderungen in den sprachlichen Strukturen verbunden sind und dass beide Prozesse gewöhnlich gleichzeitig vor sich gehen. Unter Bedingungen der Mehrsprachigkeit und der Inter- bzw. Transkulturalität gilt dies, wie mir scheint, verstärkt. Denn die Sprachgebrauchsstrukturen der Ungarndeutschen haben sich zugleich aus zweierlei Hauptgründen mehrfach geändert: (a) Zum einen haben die erwähnten lange andauernden und tief greifenden (alle sozialen Domänen erfassenden) sozio- bzw. interkulturellen und sprachlichen Kontakte und die sich aus ihnen ergebenden kommunikativen Muster erhebliche Konsequenzen für die Sprache. Denn Sprachenkontakte lösen „von Haus aus“ nicht unwichtige Veränderungen in den interagierenden Sprachvarietäten aus. Dies betrifft sowohl die sprachlichen Formen, Strukturen und Modelle als auch die Sprach- bzw. Diskursgewohnheiten und darüber hinaus – wie ich meine – sogar das Weltmodell der miteinander in Berührung befindlichen ethnischen Gruppen bzw. Kommunikationsgemeinschaften. (b) Zum anderen erfolgte die sprachliche Bewältigung der Umwelt – auch abgesehen von der Mehrsprachigkeitssituation – auf andere Art und Weise als im zusammenhängenden deutschen Sprachraum, unterscheidet sich doch der soziokulturelle Referenzrahmen für die deutsche Minderheit in Ungarn fundamental im auf dem deutschen Sprachgebiet. Diese beiden Aspekte (a und b) üben ihre sprachgestaltende Wirkung auf das Deutsche als Minderheitensprache im Kulturraum Ungarn auch heute aus. Somit werden im vorliegenden Beitrag Elemente, Strukturen, Modelle und Gesetzmäßigkeiten im Mikrokosmos einer spezifischen Kontaktvarietät des Deutschen beschrieben und exemplifiziert, die sich von der binnendeutschen Standardsprache, aber auch von den binnendeutschen regionalen Varietäten grundlegend unterscheidet. Anhand ausgewerteter oraler Sprachproben, die ich im Rahmen eines kontaktlinguistischen Feldforschungsprojekts in der ungarndeutschen („donauschwäbischen“) Ortschaft Hajosch (auf Ungarisch: Hajós) in der nördlichen Batschka erhoben habe, sollen Aspekte der Varianz und Kontaktlinguistik der Sprachinnovation ermittelt und dokumentiert werden.
Der Aufsatz diskutiert grammatische Aspekte von authentischen Sprachgebrauchsstrukturen in einem komplexen Kontakt- und Integrationsraum von mehreren Sprachen und Kulturen. Als empirisches Illustrationsmaterial dient ein umfangreiches kontaktlinguistisches Feldforschungsprojekt im ungarndeutschen Ort Hajosch/Hajós (Komitat Batsch-Kleinkumanien / Bács-Kiskun). Anhand von dort ermittelten Sprechprodukten zwei- bzw. mehrsprachiger Sprecher werden vielgestaltige sprachlich-kommunikative Kontakt-, Konvergenz- und Interaktionsphänomene grammatischer Natur identifiziert. Ihre Analyse ergab, dass die exemplarisch untersuchte Diskursgemeinschaft beim Umgang mit morphosyntaktischen Phänomenen zahlreiche und vor allem mannigfaltige Formen von Hybridität hervorbringt. Die erschlossenen Phänomenklassen und -typen scheinen für transkulturelle Zusammenhänge generell verallgemeinerbar zu sein.
Mit dem vorliegenden Beitrag sollte gezeigt werden, dass Untersuchungen zur Sprache von Minderheitenblättern nicht nur die Forschungen zur Pressesprache bereichern können, sondern gleichermaßen den Erkenntnisstand über verschiedene andere Sondersprachen. Infolge des besonderen sprachlich-kommunikativen Kontextes der lebensweltlichen Mehrsprachigkeit und des spezifischen soziokulturellen Umfelds der erlebten Interkulturalität vermögen solche Forschungen - die künftig in größerer Zahl und auf breiterer Basis wünschenswert wären - Blickwinkel, Instrumentarien und Ergebnisse der traditionellen Forschungsaktivitäten im binnendeutschen Sprachraum durch qualitativ neue Aspekte zu ergänzen und dadurch auch in vielerlei Hinsicht zu relativieren.
Kaum hatte Finnland am 1. Juli 1999 den Vorsitz im EU-Ministerrat übernommen, waren für die informellen Treffen der EU-Minister - erstmalig beim Treffen der Industrieminister am 3. Juli in Oulu - neben der Gastgebersprache Finnisch nur noch Englisch und Französisch als Arbeitssprachen vorgesehen. Deutschland und daraufhin auch Österreich wollten jedoch auf ihre Sprache - die Muttersprache der größten Sprachgemeinschaft der EU - nicht verzichten und bestanden (unter Berufung auf das Gewohnheitsrecht unter den vorausgehenden EU-Präsidentschaften Frankreichs, Großbritanniens, Luxemburgs, der Niederlande und Irlands) auf der zusätzlichen Zulassung des Deutschen als Arbeitssprache. Da der finnische Ministerpräsident Lipponen auf frühere Usancen verwies, als nur Englisch und Französisch als Arbeitssprache fungierten und auf seiner restriktiven Entscheidung beharrte, verweigerten Deutschland und Österreich ihre Teilnahme und kündigten an, unter diesen Bedingungen alle informellen Ministertreffen unter finnischer Präsidentschaft zu boykottieren. So blieben sie am 18. Juli dem Treffen der Kultusminister fern. Finnland lenkte daraufhin ein und stellt nun auch für Deutsch Dolmetscherkabinen zur Verfügung (vgl. etwa FAZ vom 01.07.1999, S. 1; vom 03.07.1999, S. 1 und vom 09.07.1999, S. 12). Dieser auch in den Medien intensiv thematisierte Fall zeigt sehr deutlich, dass sich augenscheinlich hinsichtlich der Wertsetzung der deutschen Sprache in der letzten Zeit einiges geändert hat. Dennoch ist es um die Attraktivität und das Ansehen der deutschen Sprache weder bei den Deutschsprachigen selbst noch international im globalen Bereich der "Weltsprachen", der menschlichen Kulturformen und Mentalitäten gut bestellt. Es scheint daher von höchstem Interesse zu sein, einmal einen handlungsorientierten, zeitgemäßen und umfassenden Überblick über die Werthaltungen zur deutschen Sprache zu erarbeiten. Ziel der vorliegenden Ausführungen kann allerdings lediglich die Exponierung jener vom Verfasser als wichtig und aktuell erachteten Aspekte dieser hochbrisanten Thematik sein, die im Zusammenhang mit dem Nutz- bzw. Verkehrswert sowie mit dem Image und der Förderung der deutschen Sprache eine Rolle spielen könnten. Dabei lässt sich die "Güte" einer Sprache - in Anlehnung an ICKLER (1993: 202) - (a) im Hinblick auf ihren Status und (b) auf ihr System (bzw. Korpus) beurteilen. Mein Aufsatz strebt keine linguistische Systembewertung an, sondern konzentriert sich zum einen auf die Einschätzung des Systems der Sprache durch mutter- und fremdsprachliche Sprecher des Deutschen, zum anderen auf aktuelle Fragen ihres Status. Zunächst werden - als eine Art Problemübersicht - Elemente einer Bestandsaufnahme skizziert, um daraus anschließend mögliche Handlungskonsequenzen und -möglichkeiten abzuleiten und aufzuzeigen.
Die moderne Gesellschaft ist von Veränderungen epistemischer und institutioneller Strukturmerkmale der Wissenschaft geprägt, die ihrerseits einen Wandel in anderen Bereichen der Gesellschaft auslösen. In diesem Zusammenhang – wie auch in der neuzeitlichen Wissenschaftsentwicklung überhaupt – kommt der Sprachlichkeit, dem Kulturphänomen "Wissenschaftssprache", eine eminente Rolle zu, etablierte sich doch in den letzten Jahrzehnten eine „linguistische Teildisziplin der Wissenschaftssprachforschung“ (vgl. KRETZENBACHER 1992: 1; HESS-LÜTTICH 1998). "Wissenschaft" scheint mir jedoch ein (interkultureller) Problembegriff zu sein, beispielsweise auch schon deswegen, da dieses Wort (samt seinen Ableitungen wie Wissenschaftler, wissenschaftlich, Wissenschaftlichkeit) stark kulturbedingt ist (vgl. CLYNE/KREUTZ 2003: 60); so korreliert etwa der deutsche Terminus Wissenschaft nicht mit dem englischen science etc. Das Englische kann zweifellos auf eine konkurrenzlose Karriere als wissenschaftliche Universalsprache zurückblicken: Wissenschaftler – auch deutschsprachige – bedienen sich bei der Veröffentlichung wichtiger Forschungsergebnisse zunehmend der englischen Sprache. Der Anteil der wissenschaftlichen Publikationen auf Englisch beträgt heute weltweit über 90 Prozent, während nur noch wenige Prozent des wissenschaftlichen Publikationsaufkommens deutschsprachig sind. Auch die Zahl der wissenschaftlichen Tagungen (selbst im deutschen Sprach- und Kulturraum), die ausschließlich Englisch als Konferenzsprache zulassen, nimmt stetig zu. Außerdem werden immer mehr Vorlesungen bzw. ganze Studiengänge an sonst deutschsprachigen Universitäten in Englisch angeboten. „Die Spitzenforschung spricht englisch“ – stellte der spätere Präsident der Max-Planck-Gesellschaft, Hubert Markl, bereits vor zwanzig Jahren lapidar fest (Quelle: DUZ, 22/2002, S. 12). Gleichwohl wird immer wieder – oft etwas euphorisch – auf Ostmittel-, Ost- und Südosteuropa verwiesen, die traditionell als ein Refugium des Deutschen u.a. auch als Wissenschaftssprache galten bzw. auf weiten Strecken nach wie vor gelten. So kann exemplarisch die „Physikalische Zeitschrift der Sowjetunion“ erwähnt werden, die von 1932 bis 1937 auf Deutsch erschien. In diesem interessanten und zugleich äußerst komplexen Spannungsfeld soll es sich im vorliegenden Beitrag um das Thema ‘Sprachen in den Wissenschaften’ als Denk- und Darstellungsmedia handeln. Dabei soll zum einen die Problematik der Mehrsprachigkeit der Wissenschaften (mit besonderer Berücksichtigung des Deutschen) im mehrsprachigen, multikulturellen und kultursensiblen Kontaktraum Mittel- und Osteuropa angesprochen werden, zum anderen – weil ja auf unserer Tagung auch andere Teilareale, wie z.B. Rumänien, vertreten sind – soll der besondere Schwerpunkt auf Ungarn liegen. Hauptziel der Erörterungen besteht darin, die Entwicklung der in dieser Region wirksamen Wissenschaftssprachen diachron herauszuarbeiten, den derzeitigen Stand für die Bereiche Sprachen in der akademischen Lehre, Forschungssprachen (d.h. Sprachen der Forschungskommunikation) und Publikationssprachen – auch mit Hilfe empirischer Daten – mehrperspektivisch zu dokumentieren und aktuelle Tendenzen reflektorisch aufzuzeigen.
Der vorliegende Beitrag prüft, ob der „Sprachinsel“-Ansatz wirklich geeignet ist, das Problem „Realitätsbereich Deutsch als Minderheitensprache“ sachangemessen zu erkennen, zu erfassen, zu thematisieren, zu beschreiben, zu interpretieren und zu bewerten, indem er verdeutlicht, dass die Metapher der ‘Sprachinsel’ heute mindestens in zweifacher Hinsicht keinen optimalen Ordnungs- und Erklärungsansatz bereitstellen kann. Erstens, weil das derzeitige Kommunikationsprofil von Minderheitengemeinschaften und das aktuelle Gesicht dieser Sprachvarietäten nicht mehr durch eine insulare Abgeschiedenheit, sondern vielmehr durch Zwei- und Mehrsprachigkeit und Sprachen- bzw. Kulturenkontakte bestimmt werden. Zweitens, weil die sog. metaphorischen Konzepte bei der wissenschaftlichen Erkenntnis eine wesentliche Rolle spielen. Daher wäre ein Untersuchungsansatz produktiv, welcher der besonderen aktuellen Dynamik der für die Minderheiten meist charakteristischen mehrsprachigen bzw. mehrkulturigen Konfigurationen und den sprachlichen bzw. kulturellen Austauschprozessen explizit Rechnung trägt. In diesem Zusammenhang wird hier eine interkulturelle (oder transkulturelle) Linguistik als mögliches Paradigma vorgeschlagen.
Der vorliegende kurze Beitrag [hat] das Ziel, im diskutierten Problemrahmen konstitutive Aspekte der Horizonte, Konturen und Fluchtlinien einer dezidiert inter- bzw. transkulturellen Ausrichtung der Sprachwissenschaft anzudeuten und zu hinterfragen, ihre disziplinären Wege und Blickfelder anzulegen sowie über ein inter- bzw.transkulturelles ,,Paradigma" als "interkulturelle Linguistik" im Hinblick auf Profil, Tragfähigkeit und Reichweite zu reflektieren. All das soll dann zu einer extensionalen und intensionalen Bestimmung einer "interkulturellen Linguistik" hinführen.
"Kultur" und "Interkulturalität" sind von zunehmender wissenschaftlicher und politisch-gesellschaftlicher Bedeutung, sie verkörpern Kodeworte des Zeitgeistes. Ihre Thematik hat in der gegenwärtigen Forschung mindestens in fünffacher Hinsicht eine herausragende Rolle erworben: (1) als „kulturalistische Wende" in der Geschichtswissenschaft und in anderen Gesellschaftswissenschaften, (2) in der Hinwendung der Gennanistik zu kulturellen Fragestellungen (z.B. bei der Einbeziehung von Identitätsproblemen), (3) bei der Identifizierung von Unterschieden interkultureller Verflechtungen, (4) für die Forschungstendenzen im Bereich der Wechselbeziehungen zwischen Sprache und Kultur und (5) im Hinblick auf Sprache und Kommunikation. Allerdings handelt es sich bei der Begegnung, der Überlagerung oder der eventuellen Fusion von Kulturen und Sprachen, d.h. beim "interkulturellen" sprachlichen Austausch um eindeutig komplexere Vorgänge als es Termini bzw. Beschreibungskategorien wie z.B. ,,Begegnung" bisher anzudeuten vermögen. Im wissenschaftlichen Diskurs ist dementsprechend auch die Erkenntnis gereift, dass die Schlüsselkategorien selbst, mit denen auf diesem Feld üblicherweise gearbeitet wird, der Reflexion nicht weniger bedürfen als die Phänomene, die man mit ihnen zu erschließen sucht. Werden doch mit Leitbegriffen wie ,,Kultur", „Interkulturalität", ,,fremd" und ,,eigenartig" - um nur einige zu nennen - offenkundig keine festen Größen angegeben. Was sie bezeichnen, erscheint aus der Sicht neuerer Forschungen vielmehr weitgehend „konstruiert", d.h. afs prinzipiell variable Resultate fortwährender Abgrenzungs-, Vermittlungs-, Vermischungs- oder auch Überlagerungsprozesse. Daher wäre es ein vordringliches multi-, inter- oder eher: transdisziplinäres Forschungsdesiderat, diese Prozesse und ihre Veränderungsdynamik zu beschreiben und zu evaluieren. Auch Voraussetzungen, Rahmenbedingungen, Strukturen und Wirkungen müssten sowohl theoretisch als auch empirisch und mit dem nötigen historischen Tiefgang auf breiter Basis systematisch analysiert sowie problemorientiert aufgedeckt werden. Mein Beitrag will und kann diesem umfassenden Anspruch natürlich nicht voll gerecht werden. Statt einer kompletten - und abstrakten - Prograrnmbeschreibung nach dem Muster eines ,,Theorien-, Methoden- und Themenhandbuchs" geht es mir vielmehr darum, in diesem Problemrahmen konstitutive Aspekte des Horizonts, der Konturen und Abgrenzungen einer dezidiert inter- bzw. transkulturellen Ausrichtung der Sprachwissenschaft zu skizzieren und zu hinterfragen, ihre disziplinären Richtungen zu bestimmen sowie über ein inter- bzw. transkulturelles "Paradigma" der Linguistik im Hinblick auf Profil, Tragfähigkeit und Reichweite zu reflektieren.
Ein aktuelles Handbuch der empirischen Sozialforschung stellt fest: „Die meisten Theorien in den Sozialwissenschaften sind relativ ungenau formuliert und beziehen sich auf nicht exakt definierte Begriffe“ (SCHNELL/HILL/ESSER 2005: 11). Die Linguistik – so auch die Sprachgermanistik – sollte aus dieser Kritik produktive Konsequenzen ziehen und dezidierte Anstöße für eine theoretisch fundierte und empiriegestützte Begriffs- und Konzeptbildung von IKK erarbeiten. Nicht zuletzt mit der Intention, dass die IKK als Phänomentyp kein „weicher“ Forschungsgegenstand mehr bleiben darf und dementsprechend die IKK-Forschung nicht mehr als „weiche“ Wissenschaft gelten sollte.
Das im Jahre 1952 von Elöd Halász herausgegebene Deutsch-ungarische Großwörterbuch und sein 1957 erschienenes ungarisch-deutsches Pendant sind im Laufe der Jahrzehnte beinahe zu einer Legende geworden und fungierten bis vor kurzem als die einzigen Wörterbücher für dieses Sprachenpaar sowohl im ungarischen als auch im deutschen Sprachraum. Entsprechend verlangten diese mittlerweile mehr als 45 bzw. 40 Jahre alten Sprachlexika nach einer grundlegenden Modernisierung. Die beiden Nachfolgewörterbücher sind nun unter der Herausgeberschaft von Csaba Földes und Pál Uzonyi im Verlag der Ungarischen Akademie der Wissenschaften in Budapest erarbeitet worden. Die vorliegende Studie beschäftigt sich mit dem metalexikographischen Konzept der Neubearbeitung, geht dabei auf allgemein-theoretische Fragen der bilingualen Lexikographie ein und beschreibt die einzelnen Etappen des Projekts.
Der Balkan hält Europa - und andere Kontinente - seit einiger Zeit erneut in Atem. Diese politischen Erschütterungen und die Diskurse darüber haben auch sprachliche Ungereimtheiten und grammatische Zweifels- bzw. Problemfälle deutlich werden lassen, auf die man ohne diese Ereignisse wohl kaum aufmerksam geworden wäre. Der Kosovo-Konflikt scheint also offensichtlich auch im Kontext der deutschen Grammatik - und umfassender der Sprache schlechthin - ein vielschichtiges und subtiles Problem von einiger Brisanz darzustellen.
Die Untersuchung von Eigennamen (EN) im Kontext der Kontaktlinguistik stellt ein besonders aktuelles und informatives Forschungsfeld dar: Beispielsweise hat Eichler (1976: 128) bereits vor zweieinhalb Jahrzehnten erkannt, dass "gerade Sprachkontaktforschung heute ohne die onomastische Komponente nicht mehr gut denkbar ist". Beim gegenwärtigen Wissensstand kann auch von der anderen Seite her festgestellt werden, dass – insbesondere in Kulturräumen, in denen mehrere Sprachen miteinander in Berührung kommen – die Namenforschung eines kontaktlinguistischen Blickwinkels bedarf. Denn die EN verkörpern wohl den deutlichsten Nachweis für langfristige Vorgänge und Ergebnisse von Sprachenkontakten. So können diesbezüglich etwa hinsichtlich des "Namenstransfers" (Terminus nach Eichhoff 1991: 264) in mehr oder weniger multilinguale Regionen vor allem die Familien- und Ortsnamen lehrreiche linguistische wie auch interkulturelle Aufschlüsse liefern. Die onomastische Forschung verhält sich in diesem Problembereich unterschiedlich. Die kontaktlinguistischen Implikationen des direkten Transfers von Personennamen (mit phonematischer Anpassung) wurden in angelsächsischer Relation (norwegische, jiddische und ungarische Namen in den USA) bereits von einer Reihe bekannter Linguisten wie Kimmerle (1941: 1ff.; 1942: 158ff.), Haugen (1953: 201ff.), Mencken (1949: 474ff. sowie Supplement II, 1952: 396ff.), Weinreich (1968: 53), Bartha (1993: 41 ff.) und Kontra (1988: 58ff.) angesprochen. Hingegen würdigen nicht wenige Veröffentlichungen mit germanistischer Ausrichtung, auch wenn sie deutsche Nachnamen am Rande oder außerhalb des sog. "geschlossenen deutschen Sprachraums" ausführlich behandeln, diese Sprachenkontaktphänomene keines Hinweises (z. B. Breza 1986, Grünspanová 1975). Einige Arbeiten schneiden zwar die Einwirkung der Kontaktsprache(n) auf die deutschen Familiennamen (FaN) an, machen dies allerdings nicht zu ihrem primären Untersuchungsobjekt (z. B. Čučka/Melika 1979, Hellfritzsch 1990, Matejčík 1993[3] und Mori 1993). Lediglich in deutsch-tschechischer (Knappová 1990) und stärker in deutsch-angloamerikanischer sowie deutsch-costaricanischer Relation liegen einschlägig ertragreiche Beiträge vor, die verschiedene Integrationserscheinungen am Beispiel deutscher FaN in der englischsprachigen Umwelt der USA bzw. dem spanischsprachigen Milieu von Costa Rica thematisieren (Jones 1991 und besonders Eichhoff 1991 bzw. Boving 1986). Vor diesem Hintergrund zielt die vorliegende Studie darauf ab, deutschsprachige FaN in Südungarn einer kontaktlinguistischen Analyse zu unterziehen. Dies verspricht insofern ein besonders reizvolles Untersuchungsfeld, als in den Anthroponymen – dank lang anhaltender intensiver und mannigfacher Sprachen- und Kulturenkontakte trotz ihrer amtlich festgelegten Schreibformen – deutsche und ungarische Sprachelemente miteinander verschmelzen und in enger Symbiose existieren. Die Wechselwirkungen der flektierenden, indogermanischen deutschen Sprache und der agglutinierenden, finnisch-ugrischen ungarischen Sprache sind auch im Hinblick auf die Sprachtypologie besonders interessant.
This paper is concerned with the cultural reality characterised by the cmmunication within bi- or multilingual groups, in comparison to monolingual comniunication. In other words, such groups use their varieties of language differently. In this respect the paper deals with a culture of multilingualisrn, with a primary aim of highlighting subtly the characteristics end structure of the bi- or multilingual way of speaking. In particular, the predominant goal of this study is to emphasize respects of the "mixed" speech behaviour (the bilingual inode of discourse); and of innovations in speech and communication of transcultural bi- or multilingualism utilizing the example of the German as a minority language in Hungary. On the basis of the research it has become clear that linguistic variations and differentes should not be viewed automatically as individual mistakes but as a reaction to a new conununicative challenge. The conclusions for the discipline of "applird lingusitics" encompass that: all outcornes of communicative dynamic processes on the system of language concerning monolingual as well as bilingual language behaviour (inclusive of both "natural" and "artificial" bi- or multilingualism), should be considered more subtly both in theory and practice. In addition these outcomes must be analysed and heuristically described within an integrated frame.
Wo es auch immer um die Stellung der deutschen Sprache geht, kann ein Hinweis auf Ostmittel-, Ost- und Südosteuropa, einschließlich der GUS kaum fehlen. Zumeist wird dieses Areal (im Weiteren bediene ich mich des im deutschen Sprachraum zunehmend verwendeten Kürzels MOE) fast als Synonym für eine Hochburg des Deutschen apostrophiert. Deutsch als MOE-Sprache? - kann man sich fragen. Die Daten, die Wahrnehmungen und die Einstellungen sind allerdings nicht ganz einheitlich und nicht restlos eindeutig. Die Situation etwa der Hochschulgermanistik in der östlichen Hälfte Europas hat Kalmán in der Deutschen Universitäts-Zeitung wie folgt beschrieben: „Mangelnde Strukturierung des Fachbereiches, fehlende Differenzierung von Abschlüssen, Frontalunterricht und die Didaktik des kritiklosen Auswendiglernens - nach nun fast sechs Jahren hat sich an den ostmittel- und osteuropäischen Hochschulen nichts Grundlegendes geändert. […] Denn: ´Die Wandlungsunfähigkeit in diesen Ländern ist keine Frage des Systems mehr, sie ist eine Frage der Bequemlichkeit´“. Im Gegensatz zu diesem vernichtenden Verdikt meine ich als „betroffener“ Hochschulgermanist aus Ungarn, dass es bei uns doch nicht so schlecht aussieht. So möchte ich in diesem Beitrag die aktuelle Situation der deutschen Sprache in den Bereichen Schule und Universität vorstellen und einige Entwicklungstendenzen herausarbeiten. Dabei sei zwar der ganze MOE-Horizont im Blick behalten, es soll aber Ungarn besondere Aufmerksamkeit geschenkt werden.
Vorliegender Beitrag geht davon aus, dass das Kulturphänomen "Deutsche Sprache" in Form und Gebrauch eine weitgehend regionale (areale) Inhomogenität aufweist. Im Argumentationsrahmen einer variationslinguistischen Dialektologie wird versucht, die diatopische Variationsbreite der deutschen Sprache zu umreißen und vor diesem Hintergrund eine spezifische bilinguale dialektale Kontaktvarietät des Deutschen (nämlich das sog. ,,Kontaktdeutsch") in ihrer synchron wie auch diachron überaus dynamischen Ausprägungsstruktur zu beschreiben und in das gegenwärtige Varietätenspektrum des Deutschen - sowohl hinsichtlich seiner Vetonung als auch seiner Dignität - einzuordnen. Somit soll auch zur Erforschung der inneren Dynamik der Varietätenvielfalt beigetragent werden.
Trotz einer allmählichen Hinwendung zu mehrsprachigen und multikulturellen Kontexten in den letzten Jahren gilt nach wie vor, dass den Paradigmen, Terminologien, Beschreibungsansätzen und Instrumentarien der Linguistik der meist unreflektierte Blickwinkel einsprachig und monokulturell sozialisierter Sprecher zugrunde liegt. So wurden z.B. die Sprachnormen bislang allenfalls aus der Sicht der Einsprachigkeit definiert, beschrieben und interpretiert. Die Perspektive bi- bzw. multilingualer Sprecher – einschließlich aller kulturellen Implikationen – wird in der Regel von den sprachwissenschaftlichen Auseinandersetzungen mit der Normen-Thematik ausgeschlossen. So hat auch Juhász, der bekannte ungarische Sprachgermanist, den bilingualen Diskursmodus zweisprachiger Personen als „einen Sprachgebrauch“ bezeichnet, „der sich nicht klassifizieren und noch weniger bewerten lässt“ (1986: 200). Meine Untersuchung beabsichtigt jedoch, die „prototypische“ Sprechweise und den kommunikativen Habitus4 bi- bzw. multilingualer Sprecher unter den Bedingungen gesellschaftlicher Zwei- bzw. Mehrsprachigkeit – ausgehend von der der Ingroup-Kommunikation bei Spontangesprächen unter Gruppenmitgliedern in verschiedenen Alltagssituationen – unter dem Gesichtspunkt der (sprachlichen und kommunikativen) Normen-Problematik zu beschreiben und zu hinterfragen sowie Aspekte ihrer Bewertung zu diskutieren. Damit soll ein Beitrag zur Modellierung bi- bzw. multilingualer und bi- bzw. transkultureller Sprachverhaltenssysteme – im Hinblick auf ihre Struktur, Hierarchie und Dynamik – geleistet werden. Als Exemplifikationsbereich dienen Belege aus dem sprachkommunikativen Verhalten von Ungarndeutschen.
Als eine der markantesten Schwierigkeiten der Zwei- bzw. Mehrsprachigkeitsforschung und der Kontaktlinguistik dürfte m.E. die Uneinheitlichkeit der in der einschlägigen Literatur verwendeten Terminologie und Begrifflichkeit gelten. So hat z.B. BRADEAN-EBINGER (1991: 54) in seiner Dissertation aus dem Jahre 1985 die wichtigste Ursache für den "Mangel an theoretischen Grundlagen" in der Kontaktlinguistik im "Fehlen einer relativ einheitlichen Terminologie" erblickt. Daher möchte die vorliegende Arbeit durch eine systematisierende Zusammenschau und Bewertung einer Zahl unterschiedlicher theoretisch-terminologischer Positionen der internationalen Zwei- bzw. Mehrsprachigkeitsforschung zu einer transparenteren Sicht beitragen und darauf aufbauend einen von mir erarbeiteten terminologisch-begrifflichen Apparat vorstellen, der das Gerüst eines aktuellen einschlägigen empirisch ausgerichteten Forschungsprojekts bildet. Um bei Grundlegendem zu beginnen: Sogar steht - trotz langjähriger vielfältiger Beschäftigung mit diesem Komplex - eine adäquate und einhellig akzeptierte Definition des Bibzw. Multilingualismus noch aus. Allerdings sehen manche, darunter auch jüngere, Publikationen das Phänomen der Zwei- bzw. Mehrsprachigkeit etwas simplifiziert. So geht z.B. OHRT (1998: 5) davon aus, daß dieser Begriff völlig eindeutig sei, und zwar in diesem Sinne: "Ein Individuum soll mehr als eine Sprache beherrschen, also außer seiner Muttersprache mindestens noch eine Fremdsprache. […] [M]an kann auch feststellen, daß es weltweit kaum eine andere Meinung gibt […]." In Kenntnis des aktuellen Literaturstandes wäre meiner Meinung nach zu konstatieren, daß dies der Komplexität und dem Facettenreichtum der Problematik nicht gerecht wird. Es liegt noch nicht einmal eine adäquate und einhellig akzeptierte Definition des Bi- bzw. Multilingualismus vor. Bereits vor mehr als zweieinhalb Jahrzehnten führte OVERBEKE (1972: 112 ff.) bei seiner Auseinandersetzung mit dem Terminus nicht weniger als 21 Definitionen der Zweisprachigkeit an, die er aus der Fachliteratur unter drei Gesichtspunkten - normativ, beschreibend und methodologisch - ermittelt hat. Trotz der stürmischen Entwicklung und vieler beachtenswerter Leistungen auf dem Gebiet der Bi- und Multilingualismusforschung bleibt nach wie vor festzustellen, daß die Skala der zur Verfügung stehenden Arbeitsdefinitionen ziemlich breit ist: Auf der einen Seite befinden sich die Forscher, die nur die "muttersprachähnliche Kontrolle über zwei Sprachen" (BLOOMFIELD 1933: 56) als Zweisprachigkeit anerkennen. Diese Position hält sich teilweise bis in die Gegenwart. Entsprechend hat BRADEAN-EBINGER kürzlich die "allgemeine Definition" so formuliert: "Zwei- und Mehrsprachigkeit ist die muttersprachähnliche Beherrschung, der aktive und passive Gebrauch von zwei oder mehreren Sprache [sic!], die Fähigkeit, diese Sprachen je nach Sprechsituation und -partner zu wechseln" (1997: 42). Am anderen Endpol liegen Minimaldefinitionen, wie etwa die von HAUGEN (1953: 7), "Die Zweisprachigkeit beginnt dort, wo der Sprecher einer Sprache komplette, inhalttragende Äußerungen in der anderen Sprache erzeugen kann." Für Anliegen und Charakter meines im weiteren vorzustellenden Projekts dürfte sich wohl die funktionale Herangehensweise von OKSAAR (1992: 24) am ehesten eignen, derzufolge Mehrsprachigkeit die Fähigkeit einer Person ist, zwei oder mehr Sprachen als Kommunikationsmittel zu verwenden und von einer Sprache in die andere hinüberzuwechseln, wenn die Situation es erfordert.
Der traditionsreiche Kultur-, Kontakt- und Integrationsraum Schlesien stellt eine Region im Überlappungs- und Durchdringungsbereich von Kulturen, Religionen, Sprachen und Nationen dar, wo sich im historischen Verlauf eine spezielle Sensibilität für Probleme und Chancen kultureller und sprachlicher Pluralität sowie für die Geschichtlichkeit und Dynamik multikultureller Zusammenhänge entwickeln konnte. Daher verkörpert er ein besonders wertvolles Erinnerungsgut (vgl. zur Thematik Engel/Honsza 2001 und Lasatowicz 2004). Solche Regionen werden nun mit Blick auf ihre Ressourcen des multikulturellen Gedächtnisses im Zuge von gesamteuropäischen Prozessen – auch im Sinne einer neuen „mentalen Welt“ – zunehmend aufgewertet. Die kulturelle und sprachliche Situation, einschließlich der Sprach gebrauchsstrukturen, ist in derartigen multi-ethnischen Arealen im Spannungsfeld von mehreren Sprachen, Kulturen und Identitäten naturgemäß äußerst vielschichtig. Entsprechend dieser komplexen sprachkommunikativen Realität in Mehrsprachigkeits-Kulturen setzt ihre wissenschaftlich adäquate Erfassung, Beschreibung und Explizierung ein mehrperspektivisches multi-, inter- und transdisziplinäres Herangehen voraus. Denn die Bearbeitung der entsprechend weiten Fragestellungen erfordert einen relevanten Betrachtungsrahmen und eine angepasste Methodologie, die sowohl dem komplexen Gegenstand als auch den Erkenntnisinteressen der Praxis gerecht werden. Müssen doch die Linguisten mit der mannigfaltigen sprachkommunikativen Realität mindestens (a) systemorientiert, (b) soziologisch und (c) „technologisch“ umgehen und sie entsprechend reflektieren können. Da aber die Gesamtthematik – wie sie auch im Titel der Tagung zum Ausdruck kommt – einen etwas sperrigen Gegenstand bildet, konzentriert sich der vorliegende Beitrag lediglich auf einen besonders wichtigen Aspekt. Mithin lautet die erkenntnisleitende Forschungsfrage: Wie kann man inter- bzw. transkulturelle,4 bi- bzw. multilinguale Kommunikationsräume im Kontakt der Kulturen mit den für sie charakteristischen zweisprachigen Diskursmodi (die oft durch verschiedene Ausprägungen von Hybridität gekennzeichnet sind) in disziplinärer Hinsicht sinnvoll analysieren? Also in welchem generellen Verstehensrahmen bzw. unter welchem "Blickwinkel", im Kompetenzbereich welcher linguistischen Teildisziplin, mit welcher Methodologie lassen sich die im Blickpunkt stehenden sprachkommunikativen Konstellationen, bilingualen Sprechhandlungen und entsprechenden Kontakt-, Interaktions-, Überblendungs- und Konvergenzphänomene sachangemessen untersuchen und heuristisch interpretieren? Solche Fragen erlangen m.E. angesichts der aktuellen Fachentwicklung der Sprachwissenschaft zunehmend Relevanz. War doch im Rahmen der kartesischen Sicht noch eine Einheit von Rationalität und Wissenschaft gegeben, ist spätestens seit Thomas Kuhn (1996) klar geworden, dass man es heute mit einem Nach- und Nebeneinander verschiedener (z.T. sogar inkommensurabler) „Paradigmen“ (Kuhn 1996), „Denkstile“ (vgl. Fleck 2002), „disziplinärer Matrizes“ (Kuhn 1977, 392 f.) oder Wissenschaftskulturen als diskursive Terrains zu tun hat.
We adopt Markert and Nissim (2005)’s approach of using the World Wide Web to resolve cases of coreferent bridging for German and discuss the strength and weaknesses of this approach. As the general approach of using surface patterns to get information on ontological relations between lexical items has only been tried on English, it is also interesting to see whether the approach works for German as well as it does for English and what differences between these languages need to be accounted for. We also present a novel approach for combining several patterns that yields an ensemble that outperforms the best-performing single patterns in terms of both precision and recall.
Tagging kausaler Relationen
(2005)
In dieser Diplomarbeit geht es um kausale Beziehungen zwischen Ereignissen und Erklärungsbeziehungen zwischen Ereignissen, bei denen kausale Relationen eine wichtige Rolle spielen. Nachdem zeitliche Relationen einerseits ihrer einfacheren Formalisierbarkeit und andererseits ihrer gut sichtbaren Rolle in der Grammatik (Tempus und Aspekt, zeitliche Konjunktionen) wegen in jüngerer Zeit stärker im Mittelpunkt des Interesses standen, soll hier argumentiert werden, dass kausale Beziehungen und die Erklärungen, die sie ermöglichen, eine wichtigere Rolle im Kohärenzgefüge des Textes spielen. Im Gegensatz zu “tiefen” Verfahren, die auf einer detaillierten semantischen Repr¨asentation des Textes aufsetzen und infolgedessen für unrestringierten Text m. E. nicht geeignet sind, wird hier untersucht, wie man dieses Ziel erreichen kann, ohne sich auf eine aufwändig konstruierte Wissensbasis verlassen zu müssen.
When a statistical parser is trained on one treebank, one usually tests it on another portion of the same treebank, partly due to the fact that a comparable annotation format is needed for testing. But the user of a parser may not be interested in parsing sentences from the same newspaper all over, or even wants syntactic annotations for a slightly different text type. Gildea (2001) for instance found that a parser trained on the WSJ portion of the Penn Treebank performs less well on the Brown corpus (the subset that is available in the PTB bracketing format) than a parser that has been trained only on the Brown corpus, although the latter one has only half as many sentences as the former. Additionally, a parser trained on both the WSJ and Brown corpora performs less well on the Brown corpus than on the WSJ one. This leads us to the following questions that we would like to address in this paper: - Is there a difference in usefulness of techniques that are used to improve parser performance between the same-corpus and the different-corpus case? - Are different types of parsers (rule-based and statistical) equally sensitive to corpus variation? To achieve this, we compared the quality of the parses of a hand-crafted constraint-based parser and a statistical PCFG-based parser that was trained on a treebank of German newspaper text.
In the past, a divide could be seen between ’deep’ parsers on the one hand, which construct a semantic representation out of their input, but usually have significant coverage problems, and more robust parsers on the other hand, which are usually based on a (statistical) model derived from a treebank and have larger coverage, but leave the problem of semantic interpretation to the user. More recently, approaches have emerged that combine the robustness of datadriven (statistical) models with more detailed linguistic interpretation such that the output could be used for deeper semantic analysis. Cahill et al. (2002) use a PCFG-based parsing model in combination with a set of principles and heuristics to derive functional (f-)structures of Lexical-Functional Grammar (LFG). They show that the derived functional structures have a better quality than those generated by a parser based on a state-of-the-art hand-crafted LFG grammar. Advocates of Dependency Grammar usually point out that dependencies already are a semantically meaningful representation (cf. Menzel, 2003). However, parsers based on dependency grammar normally create underspecified representations with respect to certain phenomena such as coordination, apposition and control structures. In these areas they are too "shallow" to be directly used for semantic interpretation. In this paper, we adopt a similar approach to Cahill et al. (2002) using a dependency-based analysis to derive functional structure, and demonstrate the feasibility of this approach using German data. A major focus of our discussion is on the treatment of coordination and other potentially underspecified structures of the dependency data input. F-structure is one of the two core levels of syntactic representation in LFG (Bresnan, 2001). Independently of surface order, it encodes abstract syntactic functions that constitute predicate argument structure and other dependency relations such as subject, predicate, adjunct, but also further semantic information such as the semantic type of an adjunct (e.g. directional). Normally f-structure is captured as a recursive attribute value matrix, which is isomorphic to a directed graph representation. Figure 5 depicts an example target f-structure. As mentioned earlier, these deeper-level dependency relations can be used to construct logical forms as in the approaches of van Genabith and Crouch (1996), who construct underspecified discourse representations (UDRSs), and Spreyer and Frank (2005), who have robust minimal recursion semantics (RMRS) as their target representation. We therefore think that f-structures are a suitable target representation for automatic syntactic analysis in a larger pipeline of mapping text to interpretation. In this paper, we report on the conversion from dependency structures to fstructure. Firstly, we evaluate the f-structure conversion in isolation, starting from hand-corrected dependencies based on the TüBa-D/Z treebank and Versley (2005)´s conversion. Secondly, we start from tokenized text to evaluate the combined process of automatic parsing (using Foth and Menzel (2006)´s parser) and f-structure conversion. As a test set, we randomly selected 100 sentences from TüBa-D/Z which we annotated using a scheme very close to that of the TiGer Dependency Bank (Forst et al., 2004). In the next section, we sketch dependency analysis, the underlying theory of our input representations, and introduce four different representations of coordination. We also describe Weighted Constraint Dependency Grammar (WCDG), the dependency parsing formalism that we use in our experiments. Section 3 characterises the conversion of dependencies to f-structures. Our evaluation is presented in section 4, and finally, section 5 summarises our results and gives an overview of problems remaining to be solved.
This paper is concerned with the tagging of spatial expressions in German newspaper articles, assigning a meaning to the expression and classifying the usages of the spatial expression and linking the derived referent to an event description. In our system, we implemented the activation of concepts in a very simple fashion, a concept is activated once (with a cost depending on the item that activated it) and is left activated thereafter. As an example, a city also activates the nodes for the region and the country it is part of, so that cities from one country are chosen over cities from different countries. A test corpus of 12 German newspaper articles was tested regarding several disambiguation strategies. Disambiguation was carried out via a beam search to find an approximately cost-optimal solution for the conflict set of potential grounding candidates for the tagged spatial expression. Test showed that the disambiguation strategies improved accuracy significantly.
Using a qualitative analysis of disagreements from a referentially annotated newspaper corpus, we show that, in coreference annotation, vague referents are prone to greater disagreement. We show how potentially problematic cases can be dealt with in a way that is practical even for larger-scale annotation, considering a real-world example from newspaper text.
We investigate methods to improve the recall in coreference resolution by also trying to resolve those definite descriptions where no earlier mention of the referent shares the same lexical head (coreferent bridging). The problem, which is notably harder than identifying coreference relations among mentions which have the same lexical head, has been tackled with several rather different approaches, and we attempt to provide a meaningful classification along with a quantitative comparison. Based on the different merits of the methods, we discuss possibilities to improve them and show how they can be effectively combined.
In this paper, we investigate the usefulness of a wide range of features for their usefulness in the resolution of nominal coreference, both as hard constraints (i.e. completely removing elements from the list of possible candidates) as well as soft constraints (where a cumulation of violations of soft constraints will make it less likely that a candidate is chosen as the antecedent). We present a state of the art system based on such constraints and weights estimated with a maximum entropy model, using lexical information to resolve cases of coreferent bridging.
Im Fokus dieser Magisterarbeit stehen Präpositionalphrasen (PP), deren Komplement eine unikale Komponente ist. Es handelt sich bei diesen Komplementen um Nomen, die außerhalb einer PP nicht vorkommen bzw. in anderen Umgebungen nicht die selbe Bedeutung haben. Um dieses Phänomen zu beschreiben wird eine Analyse innerhalb der Head-Driven Phrase Structure Grammar (HPSG) entwickelt. Grundkenntnisse über Struktur und Begrifflichkeiten der HPSG werden in dieser Arbeit vorausgesetzt, als Referenz siehe [PS94]. Die Gliederung gestaltet sich wie folgt: Zunächst werden die zu untersuchenden Daten im Detail dargestellt. Anschließend werden verschiedene Analysemöglichkeiten innerhalb der Theorie der HPSG in Betracht gezogen, nämlich Selektion, Konstruktion und Kollokation. Dabei muss festgestellt werden, dass die existierenden Ansätze den Daten nicht oder nur unbefriedigend gerecht werden können. Der Ansatz, der letztendlich verfolgt wird, besteht darin, den bereits existierenden Selektionsmechanismus über SPEC zu generalisieren. Dieses Vorgehen erlaubt dann der unikalen NP, die Präposition, mit welcher sie einhergeht, zu selegieren. Hierzu werden einige, jedoch vertretbare Änderungen in der HPSG-Architektur vorgenommen und es wird gezeigt, wie mit dem generalisierten Mechanismus die Daten behandelt werden können. Daran anschließend folgt eine Erweiterung des Phänomenbereichs auf Paarformeln. Ferner wird ein Einwand im Zusammenhang mit der Analyse des Komplements als NP bzw. DP diskutiert und zur weiteren Motivation des Ansatzes wird noch ein weiteres lokales Phänomen,die Distribution der Spur, mit der hier vorgestellten Herangehensweise modelliert. Darüberhinaus wird die Frage untersucht, ob man nicht auch PPs mit festen Verben geschickt analysieren kann. Dazu wird ein Weg, Lexeme zu selegieren, eingeführt und der entwickelte Mechanismus erweitert. Diese Erweiterung findet Anwendung bei der Modellierung der lokalen Distribution einer Partikel. Eine Zusammenfassung, sowie ein Ausblick auf weiterführende Fragestellungen schließen die Arbeit ab.
Freeze (1992) argued on the basis of data from several different languages that there is a close relationship between existential sentences (stating the existence of an entity) and locative sentences (stating the location of an entity). Freeze (1992) proposes that they are both derived from the same base structure and that the surface differences are rather due to the distinct information structures.This paper argues against this position with the data from Serbian existentials, which show clear syntactic differences from the locatives. Thus, the close relationship between existential and locative sentences that Freeze (1992) observes is conceptual, but not (necessarily) part of the syntax of the language. In order to account for the data, we propose that existential sentences originate from a different syntactic predication structure than the locative ones. The existential meaning arises, as we will show, from the interaction of this predication structure with the structure and meaning of the noun phrase.
In this paper I will discuss the formation of different types of yes/no questions in Serbian (examples in (1)), focusing on the syntactically and semantically puzzling example (1d), which involves the negative auxiliary inversion. Although there is a negative marker on the fronted auxiliary, the construction does not involve sentential negation. This coincides with the fact that the negative quantifying NPIs cannot be licensed. The question formation and sentential negation have similar syntactic effects cross-linguistically. This has led to various attempts to formulate a unifying syntactic account of the phenomena (ever since Klima 1964). One striking fact about the two syntactic contexts is that both license weak NPIs (Negative Polarity Items). It has been suggested (cf. Laka 1990, Culicover 1991) that the derivation of both interrogatives and negatives involves the same type of functional projection PolP (polarity phrase). One such account of the formation of negative interrogatives in Serbo- Croatian is offered by Progovac (2005). She proposes that there are two PolPs optionally cooccurring in the same clause, in which both positive and negative polarity items check their positive or negative features (following Haegeman and Zanuttini (1991) feature-checking account of negative structures, and the insights of Brown(1999) on the negation in Russian). On her account, the negative auxiliary question in (1d), is the case when both polarity phrases are present. The higher has [-pos +neg] features, and the lower one (below TP) is [-pos -neg]. Although her account correctly predicts the ungrammaticality of (2a) in contrast with (1c), it wrongly predicts the (2b) to be grammatical. I will argue that Progovac’s theory regarding the nature of the PolP is wrong. It employs both the binary feature valuation on the polarity head and the hierarchical ordering of the two polarity phrases, which eventually leads to overgeneration. On the account presented here the nature of the question marker (li vs zar) is highly relevant. Notice that (1b) and (1d) express presuppositions regarding the truth value of the propositions. In this way they contrast with (1a) and (1c). In addition, the type (1b) (with the question particle zar) can introduce both the positive and negative presupposition as shown in (3), which, semantically, makes this construction compatible with negative auxiliary questions in English (4a). The polarity items licensed in the relevant structures are also of the same type in both languages. The fronted-negative-auxiliary questions (1d) in Serbian are only possible with the particle li. In this case the presupposition is exclusively positive. The peculiar question/focus marking function of li (in Bulgarian and Russian) is well known. However, it is always assumed that its focus marking role is not relevant for the formation of yes/no questions. This I believe is not correct. The syntactic explanation of the interpretational facts points to the following: A) The possibility of the separate lexical encoding (particle zar) of the ‘rhetorical’ yes/no questions in Serbian allows the embedding of both positive and negated sentences, in which case the (weak) NPIs can remain in local relation with the negated verb. B) Recall that Serbian is an NC language, which requires local/c-command relation between the verbal negative marker and the NPI. With the negative inverted auxiliary questions this condition is not met, and the licensing of an n-word is not possible. C) The impossibility of licensing a weak NPI (i-words in the examples below) is due to the nature of the question marker li. (1) a. Da li je Vera videla ikoga / nekoga / *nikoga? DA Q aux Vera see.part.F.Sg anyone someone noone “Did Vera see anyone/someone/noone?” b. Zar je Vera videla ikoga / nekoga / *nikoga? ZAR aux Vera see.part.F.Sg anyone someone noone “Is it really the fact that Vera saw anyone/someone?” c. Je li Vera videla ikoga / nekoga /*nikoga? aux Q Vera see.part.F.Sg anyone someone noone “Did Vera see anyone/someone/noone?” d. Nije li Vera videla *ikoga / nekoga / *nikoga? neg+aux Q Vera see.part.F.Sg anyone someone noone “Didn’t Vera see someone?”/ “Vera saw someone, didn’t she?” (2) a. *Nije li Vera videla nikoga? neg+aux Q Vera see.part.F.Sg noone b. *Nije li Vera videla ikoga? neg+aux Q Vera see.part.F.Sg anyone (3) a. Zar je Vera videla nekoga / ikoga? ZAR aux Vera see.part.F.Sg someone/anyone b. Zar Vera nije videla nekoga/nikoga? ZAR Vera neg+aux see.part.F.Sg someone/anyone (4) a. Didn’t Vera (NOT) see someone/anyone? b. Vera saw someone, didn’t she?
The renowned Grimm Dictionary (1854-1961) makes the statement that the German copula sein (to be) is “the most general and colourless of all verbal concepts” (der allgemeinste und farbloseste aller verbalbegriffe). A more concise summary of the linguistic issues surrounding the copula is hardly possible. These two properties (and the latent tension between them!) make copulas a particularly interesting and vexing subject of linguistic research. Copulas appear to be almost colourless, i.e., devoid of any concrete meaning, thus leading to the question of why such expressions exist at all, not only in German but in the majority of the world’s languages. And at the same time copulas presumably provide the best window into the core of verbal concepts thereby telling us what it actually means to be a verb – at least in a language like German or English. While there is a rather rich body of research on copulas in philosophical and formal semantics including several in-depth studies on the copular systems of individual languages, copulas have received comparably little attention from a typological perspective. The monograph of Regina Pustet sets out to fill this gap. She presents an extensive cross-linguistic study of copula usage based on a sample of 154 languages drawn from the language families of the world. The analysis is embedded in the theoretical framework of functional typology. The study aims at uncovering universal principles that govern the distribution of copulas in nominal, adjectival, and verbal predications. Its major objective is the development of a “semantically-based model of copula distribution” (p.62) by means of which the presence vs. absence of copulas can be motivated through the inherent meaning of the lexical items they potentially combine with. Drawing mainly on the work by Givón (1979, 1984) and Croft (1991, 2001), who provide a functional foundation of the traditional parts of speech, Pustet identifies four semantic parameters which, if taken together, are claimed to support substantial generalisations on copula distribution – within a given language as well as crosslinguistically. These parameters are DYNAMICITY, TRANSIENCE, TRANSITIVITY, and DEPENDENCY. Pustet goes on to argue – and this is in fact the driving force behind the overall monograph – that the distributional behaviour of copulas, in turn, yields a useful methodology for developing a general approach to lexical categorization. Thus, in the long run Pustet aims at contributing to a better understanding of the traditional parts of speech, noun, adjective, and verb by defining them in terms of “semantic feature bundles, which can be arranged in [a] coherent semantic similarity space” (p.193).
Since Donald Davidson’s seminal work “The Logical Form of Action Sentences” (1967) event arguments have become an integral component of virtually every semantic theory. Over the past years Davidson´s proposal has been continuously extended such that nowadays event(uality) arguments are generally associated not only with action verbs but with predicates of all sorts. The reasons for such an extension are seldom explicitly justified. Most problematical in this respect is the case of stative expressions. By taking a closer look at copula sentences the present study assesses the legitimacy of stretching the Davidsonian notion of events and discusses its consequences. A careful application of some standard eventuality diagnostics (perception reports, combination with locative modifiers and manner adverbials) as well as some new diagnostics (behavior of certain degree adverbials) reveals that copular expressions do not behave as expected under a Davidsonian perspective: they fail all eventuality tests, regardless of whether they represent stage-level or individual-level predicates. In this respect, copular expressions pattern with stative verbs like know, hate, and resemble, which in turn differ sharply from state verbs like stand, sit, and sleep. The latter pass all of the eventuality tests and therefore qualify as true “Davidsonian state” expressions. On the basis of these empirical observations and taking up ideas of Kim (1969, 1976) and Asher (1993, 2000), an alternative account of copular expressions (and stative verbs) is provided, according to which the copula introduces a referential argument for a temporally bound property exemplification (= “Kimian state”). Considerations on some logical properties, viz. closure conditions and the latent infinite regress of eventualities, suggest that supplementing Davidsonian eventualities with Kimian states may yield not only a more adequate analysis of copula sentences but also a better understanding of eventualities in general.
Davidsonian event semantics has an impressive track record as a framework for natural language analysis. In recent years it has become popular to assume that not only action verbs but predicates of all sorts have an additional event argument. Yet, this hypothesis is not without controversy in particular wrt the particularly challenging case of statives. Maienborn (2003a, 2004) argues that there is a need for distinguishing two kinds of states. While verbs such as sit, stand, sleep refer to eventualities in the sense of Davidson (= Davidsonian states), the states denoted by such stative verbs like know, weigh,and own, as well as any combination of copula plus predicate are of a different ontological type (= Kimian states). Against this background, the present study assesses the two main arguments that have been raised in favour of a Davidsonian approach for statives. These are the combination with certain manner adverbials and Parsons (2000) so-called time travel argument. It will be argued that the manner data which, at first sight, seem to provide evidence for a Davidsonian approach to statives are better analysed as non-compositional reinterpretations triggered by the lack of a regular Davidsonian event argument. As for Parsons´s time travel argument, it turns out that the original version does not supply the kind of support for the Davidsonian approach that Parsons supposed. However, properly adapted, the time travel argument may provide additional evidence for the need of reifying the denotatum of statives, as suggested by the assumption of Kimian states.
One aspect of the progress being made is that the focus of attention has widened. Adverbials, though still the heart of the matter, now form part of a much larger set of constituent types subsumed under the general syntactic label of adjunct; while modifier has become the semantic counterpart on the same level of generality. So one of the readings of Modifying Adjuncts stands for the focus on this intersection. Moreover, recent years have seen a number of studies which attest an increasing interest in adjunct issues. There is an impressive number of monographs, e.g. Alexiadou (1997), Laenzlinger (1998), Cinque (1999), Pittner (1999), Ernst (2002), which, by presenting in-depth analyses of the syntax of adjuncts, have sharpened the debate on syntactic theorizing. Serious attempts to gain a broader view on adjuncts are witnessed by several collections, see Alexiadou and Svenonius (2000), Austin, Engelberg and Rauh (in progress); of particular importance are the contributions to vol. 12.1 of the Italian Journal of Linguistics (2000), a special issue on adverbs, the Introductions to which by Corver and Delfitto (2000) and Delfitto (2000) may be seen as the best state-of-the-art article on adverbs and adverbial modification currently on the market. To try and test a fresh view on adjuncts was the leitmotif of the Oslo Conference “Approaching the Grammar of Adjuncts” (Sept 22–25, 1999), which provided the initial forum for the papers contained in this volume and initiated a period of discussion and continuing interaction among the contributors, from which the versions published here have greatly profited. The aim of the Oslo conference, and hence the focus of the present volume, was to encourage syntacticians and semanticists to open their minds to a more integrative approach to adjuncts, thereby paying attention to, and attempting to account for, the various interfaces that the grammar of adjuncts crucially embodies. From this perspective, the present volume is to be conceived of as an interim balance of current trends in modifying the views on adjuncts. In introducing the papers, we will refrain from rephrasing the abstracts, but will instead offer a guided tour through the major problem areas they are tackling. Assessed by thematic convergence and mutual reference, the contributions form four groups, which led us to arrange them into subparts of the book. Our commenting on these is intended (i) to provide a first glance at the contents, (ii) to reveal some of the reasons why adjuncts indeed are, and certainly will remain, a challenging issue, and thereby (iii) to show some facets of what we consider novel and promising approaches.
“Comments are very welcome!” This basic attitude and the many ways of implementing it contribute immensely to the fascination of engaging in scientific research. I am grateful to Theoretical Linguistics for providing a public platform for this kind of scholarly exchange and I thank all commentators for their thoughtful, stimulating, and often challenging contributions to my target article. My response will address two main issues that are raised by the commentaries. The first issue is shaped by a cluster of questions relating to ontology. The second issue concerns questions of methodology pertaining in particular to the problem of judging data.
The article offers evidence that there are two variants of adverbial modification that differ with respect to the way in which a modifier is linked to the verbs eventuality argument. So-called event-external modifiers relate to the full eventuality, whereas event-internal modifiers relate to some integral part of it. The choice between external and internal modification is shown to be dependent on the modifiers syntactic base position. Event-external modifiers are base-generated at the VP periphery, whereas event-internal modifiers are base-generated at the V periphery. These observations are accounted for by a refined version of the standard Davidsonian approach to adverbial modification according to which modification is mediated by a free variable. In the case of external modification, the grammar takes responsibility for identifying the free variable with the verbs eventuality argument, whereas in the case of internal modification, a value for the free variable is determined by the conceptual system on the basis of contextually salient world knowledge. For the intriguing problem that certain locative modifiers occasionally seem to have nonlocative (instrumental, positional, or manner) readings, the advocated approach can provide a rather simple solution.
Das Zustandspassiv : grammatische Einordnung – Bildungsbeschränkungen – Interpretationsspielraum
(2005)
Semantic research over the past three decades has provided impressive confirmation of Donald Davidsons famous claim that “there is a lot of language we can make systematic sense of if we suppose events exist” (Davidson 1980:137). Nowadays, Davidsonian event arguments are no longer reserved only for action verbs (as Davidson originally proposed) or even only for the category of verbs, but instead are widely assumed to be associated with any kind of predicate (e.g. Higginbotham 2000, Parsons 2000).1 The following quotation from Higginbotham and Ramchand (1997) illustrates the reasoning that motivates this move: "Once we assume that predicates (or their verbal, etc. heads) have a position for events, taking the many consequences that stem therefrom, as outlined in publications originating with Donald Davidson (1967), and further applied in Higginbotham (1985, 1989), and Terence Parsons (1990), we are not in a position to deny an event-position to any predicate; for the evidence for, and applications of, the assumption are the same for all predicates. (Higginbotham and Ramchand 1997:54)" In fact, since Davidson’s original proposal the burden of proof for postulating event arguments seems to have shifted completely, leading Raposo and Uriagereka (1995), for example, to the following verdict: "it is unclear what it means for a predicate not to have a Davidsonian argument (Raposo and Uriagereka 1995:182)" That is, Davidsonian eventuality arguments apparently have become something like a trademark for predicates in general. The goal of the present paper is to subject this view of the relationship between predicates and events to real scrutiny. By taking a closer look at the simplest independent predicational structure – viz. copula sentences – I will argue that current Davidsonian approaches tend to stretch the notion of events too far, thereby giving up much of its linguistic and ontological usefulness. More specifically, the paper will tackle the following three questions: 1. Do copula sentences support the current view of the inherent event-relatedness of predicates? 2. If not, what is a possible alternative to an event-based analysis of copula sentences? 3. What does this tell us about Davidsonian events? The paper is organized as follows: Section 2 first reviews current event-based analyses of copula sentences and then gives a brief summary of the Davidsonian notion of events. Section 3 examines the behavior of copula sentences with respect to some standard (as well as some new) eventuality diagnostics. Copula expressions will turn out to fail all eventuality tests. They differ sharply from state verbs like stand, sit, sleep in this respect. (The latter pass all eventuality tests and therefore qualify as true “Davidsonian state” expressions.) On the basis of these observations, section 4 provides an alternative account of copula sentences that combines Kim’s (1969, 1976) notion of property exemplifications with Ashers (1993, 2000) conception of abstract objects. Specifically, I will argue that the copula introduces a referential argument for a temporally bound property exemplification (= “Kimian state”). The proposal is implemented within a DRT framework. Finally, section 5 offers some concluding remarks and suggests that supplementing Davidsonian eventualities by Kimian states not only yields a more adequate analysis for copula expressions and the like but may also improve our treatment of events.
A pragmatic explanation of the stage level/individual level contrast in combination with locatives
(2004)
One important difference between stage level predicates (SLPs) and individual level predicates (ILPs) is their behavior with respect to locative modifiers. It is commonly assumed that SLPs but not ILPs combine with locatives. The present study argues against a semantic account for this behavior (as advanced by e.g. Kratzer 1995, Chierchia 1995) and proposes a genuinely pragmatic explanation of the observed stage level/individual level contrast instead. The proposal is spelled out using Blutners (1998, 2000) optimality theoretic version of the Gricean maxims. Building on the observation that the respective locatives are not event-related but frame-setting modifiers, the preference for main predicates that express temporary properties is explained as a side-effect of “synchronizing” the main predicate with the locative frame in the course of finding an optimal interpretation. By emphasizing the division of labor between grammar and pragmatics, the proposed solution takes a considerable load off of semantics.
The study offers a discourse-based account of the Spanish copula forms ser and estar, which are generally considered to be lexical exponents of the stage-level/individual-level contrast. It argues against the popular view that the distinction between SLPs and ILPs rests on a fundamental cognitive division of the world that is reflected in the grammar. As it happens, conceptual oppositions like “temporary vs. permanent” or “arbitrary vs. essential“ provide only a preference for the interpretation of estar and ser. In addition, the evidence for an SLP/ILP impact on the grammar turns out to be far less conclusive than is currently assumed. The study argues against event-based accounts of the ser/estar contrast in particular, showing that ser and estar pattern alike in failing all of the standard eventuality tests. The discourse-based account proposed instead assumes that ser and estar both display the same lexical semantics (which is identical to the semantics of English be, German sein, etc.); estar differs from ser only in presupposing a relation to a specific discourse situation. By using estar a speaker restricts his or her claim to a specific discourse situation, whereas by using ser, the speaker makes no such restriction. The preference for interpreting estar predications as denoting temporary properties and ser predications as denoting permanent properties follows from economy principles driving the pragmatic legitimation of estars discourse dependence. The analysis proposed in this paper can also account for the observation that ser predications do not give rise to thetic judgements. The proposal is couched in terms of the framework of DRT.
In recent years, research in parsing has extended in several new directions. One of these directions is concerned with parsing languages other than English. Treebanks have become available for many European languages, but also for Arabic, Chinese, or Japanese. However, it was shown that parsing results on these treebanks depend on the types of treebank annotations used. Another direction in parsing research is the development of dependency parsers. Dependency parsing profits from the non-hierarchical nature of dependency relations, thus lexical information can be included in the parsing process in a much more natural way. Especially machine learning based approaches are very successful (cf. e.g.). The results achieved by these dependency parsers are very competitive although comparisons are difficult because of the differences in annotation. For English, the Penn Treebank has been converted to dependencies. For this version, Nivre et al. report an accuracy rate of 86.3%, as compared to an F-score of 92.1 for Charniaks parser. The Penn Chinese Treebank is also available in a constituent and a dependency representations. The best results reported for parsing experiments with this treebank give an F-score of 81.8 for the constituent version and 79.8% accuracy for the dependency version. The general trend in comparisons between constituent and dependency parsers is that the dependency parser performs slightly worse than the constituent parser. The only exception occurs for German, where F-scores for constituent plus grammatical function parses range between 51.4 and 75.3, depending on the treebank, NEGRA or TüBa-D/Z. The dependency parser based on a converted version of Tüba-D/Z, in contrast, reached an accuracy of 83.4%, i.e. 12 percent points better than the best constituent analysis including grammatical functions.
This paper profiles significant differences in syntactic distribution and differences in word class frequencies for two treebanks of spoken and written German: the TüBa-D/S, a treebank of transliterated spontaneous dialogues, and the TüBa-D/Z treebank of newspaper articles published in the German daily newspaper die tageszeitung´(taz). The approach can be used more generally as a means of distinguishing and classifying language corpora of different genres.
This paper profiles significant differences in syntactic distribution and differences in word class frequencies for two treebanks of spoken and written German: the TüBa-D/S, a treebank of transliterated spontaneous dialogs, and the TüBa-D/Z treebank of newspaper articles published in the German daily newspaper ´die tageszeitung´(taz). The approach can be used more generally as a means of distinguishing and classifying language corpora of different genres.
This paper presents an approach to the question whether it is possible to construct a parser based on ideas from case-based reasoning. Such a parser would employ a partial analysis of the input sentence to select a (nearly) complete syntax tree and then adapt this tree to the input sentence. The experiments performed on German data from the Tüba-D/Z treebank and the KaRoPars partial parser show that a wide range of levels of generality can be reached, depending on which types of information are used to determine the similarity between input sentence and training sentences. The results are such that it is possible to construct a case-based parser. The optimal setting out of those presented here need to be determined empirically.
Quantitative evaluation of parsers has traditionally centered around the PARSEVAL measures of crossing brackets, (labeled) precision, and (labeled) recall. However, it is well known that these measures do not give an accurate picture of the quality of the parsers output. Furthermore, we will show that they are especially unsuited for partial parsers. In recent years, research has concentrated on dependencybased evaluation measures. We will show in this paper that such a dependency-based evaluation scheme is particularly suitable for partial parsers. TüBa-D, the treebank used here for evaluation, contains all the necessary dependency information so that the conversion of trees into a dependency structure does not have to rely on heuristics. Therefore, the dependency representations are not only reliable, they are also linguistically motivated and can be used for linguistic purposes.
The purpose of this paper is to describe the TüBa-D/Z treebank of written German and to compare it to the independently developed TIGER treebank (Brants et al., 2002). Both treebanks, TIGER and TüBa-D/Z, use an annotation framework that is based on phrase structure grammar and that is enhanced by a level of predicate-argument structure. The comparison between the annotation schemes of the two treebanks focuses on the different treatments of free word order and discontinuous constituents in German as well as on differences in phrase-internal annotation.
The earliest known extensive texts in Gullah (and perhaps African American Vernacular English as well) to appear in print were published in The Riverside Magazine for Young People in November, 1868, under the title "Negro Fables" (p. 505-507). These are four animal stories, which the editor of the magazine, Horace Elisha Scudder, described in his column only as having been "taken down from the lips of an old negro, in the vicinity of Charleston" (see Appendix for the editor´s comments and the full text of the stories).2 The Story-Teller was evidently a genuine "man of words" (Abrahams, 1983), a true raconteur who could artistically embellish a simple traditional account (perhaps further embellished by the transcriber) in a variety of ways. That he commanded a certain range of Gullah is evident from particular signature features in the texts, but the absence of other typical Gullah features and the presence of shared Gullah/African American Vernacular English usages, together with the periodic appearance of standard English forms, demonstrate that these texts provide perhaps the earliest actual documentation (apart from early tertiary comments, cited e.g. in Feagin, 1997, p. 128-129) of register variation or style/code-switching among Gullah speakers. ...
The ACL 2008 Workshop on Parsing German features a shared task on parsing German. The goal of the shared task was to find reasons for the radically different behavior of parsers on the different treebanks and between constituent and dependency representations. In this paper, we describe the task and the data sets. In addition, we provide an overview of the test results and a first analysis.
The Conference on Computational Natural Language Learning features a shared task, in which participants train and test their learning systems on the same data sets. In 2007, as in 2006, the shared task has been devoted to dependency parsing, this year with both a multilingual track and a domain adaptation track. In this paper, we define the tasks of the different tracks and describe how the data sets were created from existing treebanks for ten languages. In addition, we characterize the different approaches of the participating systems, report the test results, and provide a first analysis of these results.
Recent approaches to Word Sense Disambiguation (WSD) generally fall into two classes: (1) information-intensive approaches and (2) information-poor approaches. Our hypothesis is that for memory-based learning (MBL), a reduced amount of data is more beneficial than the full range of features used in the past. Our experiments show that MBL combined with a restricted set of features and a feature selection method that minimizes the feature set leads to competitive results, outperforming all systems that participated in the SENSEVAL-3 competition on the Romanian data. Thus, with this specific method, a tightly controlled feature set improves the accuracy of the classifier, reaching 74.0% in the fine-grained and 78.7% in the coarse-grained evaluation.
Das Chunkparsing bietet einen besonders vielversprechenden Ansatz zum robusten, partiellen Parsing mit dem Ziel einer breiten Datenabdeckung. Ziel beim Chunkparsing ist eine partielle, nicht-rekursive syntaktische Struktur. Dieser extrem effiziente Parsing-Ansatz läßt sich als Kaskade endlicher Transducer realisieren. In diesem Beitrag wird TüSBL vorgestellt, ein System, bei dem die Eingabe aus spontaner, gesprochener Spache besteht, die dem Parser in Form eines Worthypothesengraphen aus einem Spracherkenner zur Verfügung gestellt wird. Chunkparsing ist für eine solche Anwendung besonders geeignet, da es fragmentarische oder nicht wohlgeformte Äußerungen robust behandeln kann. Des weiteren wird eine Baumkonstruktionskomponente vorgestellt, die die partiellen Chunkstrukturen zu vollständigen Bäumen mit grammatischen Funktionen erweitert. Das System wird anhand manuell überprüfter Systemeingaben evaluiert, da sich die üblichen Evaluationsparameter hierfür nicht eignen.
The purpose of this paper is to describe recent developments in the morphological, syntactic, and semantic annotation of the TüBa-D/Z treebank of German. The TüBa-D/Z annotation scheme is derived from the Verbmobil treebank of spoken German [4, 10], but has been extended along various dimensions to accommodate the characteristics of written texts. TüBa-D/Z uses as its data source the "die tageszeitung" (taz) newspaper corpus. The Verbmobil treebank annotation scheme distinguishes four levels of syntactic constituency: the lexical level, the phrasal level, the level of topological fields, and the clausal level. The primary ordering principle of a clause is the inventory of topological fields, which characterize the word order regularities among different clause types of German, and which are widely accepted among descriptive linguists of German [3, 6]. The TüBa-D/Z annotation relies on a context-free backbone (i.e. proper trees without crossing branches) of phrase structure combined with edge labels that specify the grammatical function of the phrase in question. The syntactic annotation scheme of the TüBa-D/Z is described in more detail in [12, 11]. TüBa-D/Z currently comprises approximately 15 000 sentences, with approximately 7 000 sentences being in the correction phase. The latter will be released along with an updated version of the existing treebank before the end of this year. The treebank is available in an XML format, in the NEGRA export format [1] and in the Penn treebank bracketing format. The XML format contains all types of information as described above, the NEGRA export format contains all sentenceinternal information while the Penn treebank format includes only those layers of information that can be expressed as pure tree structures. Over the course of the last year, more fine grained linguistic annotations have been added along the following dimensions: 1. the basic Stuttgart-Tübingen tagset, STTS, [9] labels have been enriched by relevant features of inflectional morphology, 2. named entity information has been encoded as part of the syntactic annotation, and 3. a set of anaphoric and coreference relations has been added to link referentially dependent noun phrases. In the following sections, we will describe each of these innovations in turn and will demonstrate how the additional annotations can be incorporated into one comprehensive annotation scheme.
Part-of-Speech tagging is generally performed by Markov models, based on bigram or trigram models. While Markov models have a strong concentration on the left context of a word, many languages require the inclusion of right context for correct disambiguation. We show for German that the best results are reached by a combination of left and right context. If only left context is available, then changing the direction of analysis and going from right to left improves the results. In a version of MBT (Daelemans et al., 1996) with default parameter settings, the inclusion of the right context improved POS tagging accuracy from 94.00% to 96.08%, thus corroborating our hypothesis. The version with optimized parameters reaches 96.73%.
The definition of similarity between sentences is formulated on the levels of words, POS tags, and chunks (Abney 91; Abney 96). The evaluation of this approach shows that while precision and recall based on the PARSEVAL measures (Black et al. 91) do not reach state of the art Parsers yet (F1=87.19 on syntactic constituents, F1=77.78 including functionargument structure), the parser shows a very reliable performance where function-argument structure is concerned (F1=96.52). The lower F-scores are very often due to unattached constituents.
The problem of vocalization, or diacritization, is essential to many tasks in Arabic NLP. Arabic is generally written without the short vowels, which leads to one written form having several pronunciations with each pronunciation carrying its own meaning(s). In the experiments reported here, we define vocalization as a classification problem in which we decide for each character in the unvocalized word whether it is followed by a short vowel. We investigate the importance of different types of context. Our results show that the combination of using memory-based learning with only a word internal context leads to a word error rate of 6.64%. If a lexical context is added, the results deteriorate slowly.
In dieser Arbeit soll erst ein kurzer Überblick über die Gebiete der Wortklassifizierung und des maschinellen Lernens gegeben werden (Kap. 1). Dann wird der Ansatz der transformationsbasierten fehlergesteuerten Wortklassifizierung (Transformation-Based Error-Driven Tagging) von Brill (1992, 1993, 1994) vorgestellt und für die Verwendung für deutschsprachige Korpora angepaßt (Kap. 2). Hierbei handelt es sich um ein regelbasiertes System, bei dem die Regeln im Gegensatz zu den bisher vorhandenen Systemen nicht manuell erarbeitet und dem System vorgegeben werden; das System erwirbt die Regeln vielmehr selbst anhand von wenigen Regelschemata aus einem kleinen bereits getaggten Lernkorpus. In Kapitel 3 werden die Ergebnisse aus der Anwendung des Systems auf Teile eines deutschsprachigen Korpus dargestellt. In Kapitel 4 schließlich werden andere Taggingsysteme vorgestellt und mit dem System von Brill (1993) anhand von acht Kriterien verglichen.
In syntax, the trend nowadays is towards lexicalized grammar formalisms. It is now widely accepted that dividing words into wordclasses may serve as a laborsaving mechanism - but at the same time, it discards all detailed information on the idiosyncratic behavior of words. And that is exactly the type of information that may be necessary in order to parse a sentence. For learning approaches, however, lexicalized grammars represent a challenge for the very reason that they include so much detailed and specific information, which is difficult to learn. This paper will present an algorithm for learning a link grammar of German. The problem of data sparseness is tackled by using all the available information from partial parses as well as from an existing grammar fragment and a tagger. This is a report about work in progress so there are no representative results available yet.
This paper presents a comparative study of probabilistic treebank parsing of German, using the Negra and TüBa-D/Z treebanks. Experiments with the Stanford parser, which uses a factored PCFG and dependency model, show that, contrary to previous claims for other parsers, lexicalization of PCFG models boosts parsing performance for both treebanks. The experiments also show that there is a big difference in parsing performance, when trained on the Negra and on the TüBa-D/Z treebanks. Parser performance for the models trained on TüBa-D/Z are comparable to parsing results for English with the Stanford parser, when trained on the Penn treebank. This comparison at least suggests that German is not harder to parse than its West-Germanic neighbor language English.
How to compare treebanks
(2008)
Recent years have seen an increasing interest in developing standards for linguistic annotation, with a focus on the interoperability of the resources. This effort, however, requires a profound knowledge of the advantages and disadvantages of linguistic annotation schemes in order to avoid importing the flaws and weaknesses of existing encoding schemes into the new standards. This paper addresses the question how to compare syntactically annotated corpora and gain insights into the usefulness of specific design decisions. We present an exhaustive evaluation of two German treebanks with crucially different encoding schemes. We evaluate three different parsers trained on the two treebanks and compare results using EVALB, the Leaf-Ancestor metric, and a dependency-based evaluation. Furthermore, we present TePaCoC, a new testsuite for the evaluation of parsers on complex German grammatical constructions. The testsuite provides a well thought-out error classification, which enables us to compare parser output for parsers trained on treebanks with different encoding schemes and provides interesting insights into the impact of treebank annotation schemes on specific constructions like PP attachment or non-constituent coordination.
In the last decade, the Penn treebank has become the standard data set for evaluating parsers. The fact that most parsers are solely evaluated on this specific data set leaves the question unanswered how much these results depend on the annotation scheme of the treebank. In this paper, we will investigate the influence which different decisions in the annotation schemes of treebanks have on parsing. The investigation uses the comparison of similar treebanks of German, NEGRA and TüBa-D/Z, which are subsequently modified to allow a comparison of the differences. The results show that deleted unary nodes and a flat phrase structure have a negative influence on parsing quality while a flat clause structure has a positive influence.
Transforming constituent-based annotation into dependency-based annotation has been shown to work for different treebanks and annotation schemes (e.g. Lin (1995) has transformed the Penn treebank, and Kübler and Telljohann (2002) the Tübinger Baumbank des Deutschen (TüBa-D/Z)). These ventures are usually triggered by the conflict between theory-neutral annotation, that targets most needs of a wider audience, and theory-specific annotation, that provides more fine-grained information for a smaller audience. As a compromise, it has been pointed out that treebanks can be designed to support more than one theory from the start (Nivre, 2003). We argue that information can also be added to an existing annotation scheme so that it supports additional theory-specific annotations. We also argue that such a transformation is useful for improving and extending the original annotation scheme with respect to both ambiguous annotation and annotation errors. We show this by analysing problems that arise when generating dependency information from the constituent-based TüBa-D/Z.
Chunk parsing has focused on the recognition of partial constituent structures at the level of individual chunks. Little attention has been paid to the question of how such partial analyses can be combined into larger structures for complete utterances. Such larger structures are not only desirable for a deeper syntactic analysis. They also constitute a necessary prerequisite for assigning function-argument structure. The present paper offers a similaritybased algorithm for assigning functional labels such as subject, object, head, complement, etc. to complete syntactic structures on the basis of prechunked input. The evaluation of the algorithm has concentrated on measuring the quality of functional labels. It was performed on a German and an English treebank using two different annotation schemes at the level of function argument structure. The results of 89.73% correct functional labels for German and 90.40%for English validate the general approach.
In this paper, we investigate the role of sub-optimality in training data for part-of-speech tagging. In particular, we examine to what extent the size of the training corpus and certain types of errors in it affect the performance of the tagger. We distinguish four types of errors: If a word is assigned a wrong tag, this tag can belong to the ambiguity class of the word (i.e. to the set of possible tags for that word) or not; furthermore, the major syntactic category (e.g. "N" or "V") can be correctly assigned (e.g. if a finite verb is classified as an infinitive) or not (e.g. if a verb is classified as a noun). We empirically explore the decrease of performance that each of these error types causes for different sizes of the training set. Our results show that those types of errors that are easier to eliminate have a particularly negative effect on the performance. Thus, it is worthwhile concentrating on the elimination of these types of errors, especially if the training corpus is large.
Prepositional phrase (PP) attachment is one of the major sources for errors in traditional statistical parsers. The reason for that lies in the type of information necessary for resolving structural ambiguities. For parsing, it is assumed that distributional information of parts-of-speech and phrases is sufficient for disambiguation. For PP attachment, in contrast, lexical information is needed. The problem of PP attachment has sparked much interest ever since Hindle and Rooth (1993) formulated the problem in a way that can be easily handled by machine learning approaches: In their approach, PP attachment is reduced to the decision between noun and verb attachment; and the relevant information is reduced to the two possible attachment sites (the noun and the verb) and the preposition of the PP. Brill and Resnik (1994) extended the feature set to the now standard 4-tupel also containing the noun inside the PP. Among many publications on the problem of PP attachment, Volk (2001; 2002) describes the only system for German. He uses a combination of supervised and unsupervised methods. The supervised method is based on the back-off model by Collins and Brooks (1995), the unsupervised part consists of heuristics such as ”If there is a support verb construction present, choose verb attachment”. Volk trains his back-off model on the Negra treebank (Skut et al., 1998) and extracts frequencies for the heuristics from the ”Computerzeitung”. The latter also serves as test data set. Consequently, it is difficult to compare Volk’s results to other results for German, including the results presented here, since not only he uses a combination of supervised and unsupervised learning, but he also performs domain adaptation. Most of the researchers working on PP attachment seem to be satisfied with a PP attachment system; we have found hardly any work on integrating the results of such approaches into actual parsers. The only exceptions are Mehl et al. (1998) and Foth and Menzel (2006), both working with German data. Mehl et al. report a slight improvement of PP attachment from 475 correct PPs out of 681 PPs for the original parser to 481 PPs. Foth and Menzel report an improvement of overall accuracy from 90.7% to 92.2%. Both integrate statistical attachment preferences into a parser. First, we will investigate whether dependency parsing, which generally uses lexical information, shows the same performance on PP attachment as an independent PP attachment classifier does. Then we will investigate an approach that allows the integration of PP attachment information into the output of a parser without having to modify the parser: The results of an independent PP attachment classifier are integrated into the parse of a dependency parser for German in a postprocessing step.
Maschinelles Lernen wird häufig zur effzienten Annotation großer Datenmengen eingesetzt. Die Forschung zu maschinellen Lernverfahren beschränkt sich i.a. darauf unterschiedliche Lernverfahren zu vergelichen oder die optimale größe der Trainingsdaten zu bestimmen. Bisher wurde jedoch nicht untersucht, in wie weit sich linguistisches Wissen bei der Aufgabendefinition positiv auswirken kann. Dies soll hier anhand des Lernens von Base-Nominalphrasen mit drei unterschiedlichen Definitionen untersucht werden. Die Definitionen unterscheiden sich im Grad der linguistisch motivierten Erweiterungen, die zu einer eher praktisch motivierten ersten Definition hinzu kamen. Die Untersuchungen ergaben, dass sich die Anzahl der falsch klasssifizierten Wörter um ein Drittel reduzieren lässt.
This report explores the question of compatibility between annotation projects including translating annotation formalisms to each other or to common forms. Compatibility issues are crucial for systems that use the results of multiple annotation projects. We hope that this report will begin a concerted effort in the field to track the compatibility of annotation schemes for part of speech tagging, time annotation, treebanking, role labeling and other phenomena.
This paper reports on the SYN-RA (SYNtax-based Reference Annotation) project, an on-going project of annotating German newspaper texts with referential relations. The project has developed an inventory of anaphoric and coreference relations for German in the context of a unified, XML-based annotation scheme for combining morphological, syntactic, semantic, and anaphoric information. The paper discusses how this unified annotation scheme relates to other formats currently discussed in the literature, in particular the annotation graph model of Bird and Liberman (2001) and the pie-in-thesky scheme for semantic annotation.
Chunk parsing has focused on the recognition of partial constituent structures at the level of individual chunks. Little attention has been paid to the question of how such partial analyses can be combined into larger structures for complete utterances. The TüSBL parser extends current chunk parsing techniques by a tree-construction component that extends partial chunk parses to complete tree structures including recursive phrase structure as well as function-argument structure. TüSBLs tree construction algorithm relies on techniques from memory-based learning that allow similarity-based classification of a given input structure relative to a pre-stored set of tree instances from a fully annotated treebank. A quantitative evaluation of TüSBL has been conducted using a semi-automatically constructed treebank of German that consists of appr. 67,000 fully annotated sentences. The basic PARSEVAL measures were used although they were developed for parsers that have as their main goal a complete analysis that spans the entire input.This runs counter to the basic philosophy underlying TüSBL, which has as its main goal robustness of partially analyzed structures.
This paper provides an overview of current research on a hybrid and robust parsing architecture for the morphological, syntactic and semantic annotation of German text corpora. The novel contribution of this research lies not in the individual parsing modules, each of which relies on state-of-the-art algorithms and techniques. Rather what is new about the present approach is the combination of these modules into a single architecture. This combination provides a means to significantly optimize the performance of each component, resulting in an increased accuracy of annotation.
A lot of interest has recently been paid to constraint-based definitions and extensions of Tree Adjoining Grammars (TAG). Examples are the so-called quasi-trees, D-Tree Grammars and Tree Description Grammars. The latter are grammars consisting of a set of formulars denoting trees. TDGs are derivation based where in each derivation step a conjunction is built of the old formular, a formular of the grammar and additional equivalences between node names of the two formulars. This formalism is more powerfull than TAGs. TDGs offer the advantages of MC-TAG and D-Tree Grammars for natural languages and they allow underspecification. However the problem is that TDGs might be unnecessarily powerfull for natural languages. To solve this problem, in this paper, I will propose a local TDGs, a restricted version of TDGs. Local TDGs still have the advantages of TDGs but they are semilinear and therefore more appropriate for natural languages. First, the notion of the semilinearity is defined. Then local TDGs are introduced, and, finally, semilinearity of local Tree Description Languages is proven.
This paper proposes a compositional semantics for lexicalized tree adjoining grammars (LTAG). Tree-local multicompnent derivations allow seperation of semantiv contribution of a lexical item into one component contributing to the predicate argument structure and second a component contributing to scope semantics. Based on this idea a syntx-semantics interface is presented where the compositional semantics depends only on the derivation structure. It is shown that the derivation structure allows an appropriate amount of underspecification. This is illustrated by investigating underspecified representations for quantifier scpoe ambiguities and related phenomena such as adjunct scope and island constraints.
A hierarchy of local TDGs
(1998)
Many recent variants of Tree Adoining Grammars (TAG) allow an underspecifiaction of the parent relation between nodes in a tree, i.e. they do not deal with fully specified trees as it is the case with TAGs.Such TAG variants are for example Description Tree Grammars (DTG), Unordered Vector Grammars with Dominance Links (UVG-DL), a definition of TAGs via so-called quasi trees and Tree Description Grammars (TDG. The last TAg variant, local TDG, is an extension of TAG generating Tree Descriptions. Local TDGs even allow an underspecification of the dominance relation between node names and thereby provide the possibility to generate underspecified representations for structural ambiguities such as quantifier scope ambiguities. This abstract deals with formal properties of local TDGs. A hierarchiy of local TDGs is established together with a pumping lemma for local TDGs of a certain rank.
Tree-local MCTAG with shared nodes : an analysis of word order variation in German and Korean
(2004)
Tree Adjoining Grammars (TAG) are known not to be powerful enough to deal with scrambling in free word order languages. The TAG-variants proposed so far in order to account for scrambling are not entirely satisfying. Therefore, an alternative extension of TAG is introduced based on the notion of node sharing. Considering data from German and Korean, it is shown that this TAG-extension can adequately analyse scrambling data, also in combination with extraposition and topicalization.
In this paper, we present an open-source parsing environment (Tübingen Linguistic Parsing Architecture, TuLiPA) which uses Range Concatenation Grammar (RCG) as a pivot formalism, thus opening the way to the parsing of several mildly context-sensitive formalisms. This environment currently supports tree-based grammars (namely Tree-Adjoining Grammars (TAG) and Multi-Component Tree-Adjoining Grammars with Tree Tuples (TT-MCTAG)) and allows computation not only of syntactic structures, but also of the corresponding semantic representations. It is used for the development of a tree-based grammar for German.
This paper proposes a corpus encoding standard that meets the needs of linguistic research using a variety of linguistic data structures. The standard was developed in SFB 441, a research project at the University of Tuebingen. The principal concern of SFB 441 are the empirical data structures which feed into linguistic theory building. SFB 441 consists of several projects, most of which are building corpora to empirically investigate various linguistic phenomena in various languages (e.g. modal verbs in German, forms of address and politeness in Russian). These corpora will form the components of the "Tuebingen collection of reusable, empirical, linguistic data structures (TUSNELDA)". The TUSNELDA annotation standard aims at providing a uniform encoding scheme for all subcorpora and texts of TUSNELDA such that they can be processed with uniform standardized tools. To guarantee maximal reusability we use XML for encoding. Previous SGML standards for text encoding were provided by the Text Encoding Initiative (TEI) and the Expert Advisory Group on Language Engineering Standards (Corpus Encoding Standard, CES). The TUSNELDA standard is based on TEI and XCES (XML version of CES) but takes into account the specific needs of the SFB projects, i.e. the peculiarities of the examined languages and linguistic phenomena.
Existing analyses of German scrambling phenomena within TAG-related formalisms all use non-local variants of TAG. However, there are good reasons to prefer local grammars, in particular with respect to the use of the derivation structure for semantics. Therefore this paper proposes to use local TDGs, a TAG-variant generating tree descriptions that shows a local derivation structure. However the construction of minimal trees for the derived tree descriptions is not subject to any locality constraint. This provides just the amount of non-locality needed for an adequate analysis of scrambling. To illustrate this a local TDG for some German scrambling data is presented.
This paper develops a framework for TAG (Tree Adjoining Grammar) semantics that brings together ideas from different recent approaches.Then, within this framework, an analysis of scope is proposed that accounts for the different scopal properties of quantifiers, adverbs, raising verbs and attitude verbs. Finally, including situation variables in the semantics, different situation binding possibilities are derived for different types of quantificational elements.
This paper presents an LTAG analysis of reflexives like himself and reciprocals like each other. These items need to find a c-commanding antecedent from which they retrieve (part of) their own denotation and with which they syntactically agree. The relation between anaphoric item and antecendent must satisfy the following important locality conditions (Chomsky (1981)).
Relative quantifier scope in German depends, in contrast to English, very much on word order. The scope possibilities of a quantifier are determined by its surface position, its base position and the type of the quantifier. In this paper we propose a multicomponent analysis for German quantifiers computing the scope of the quantifier, in particular its minimal nuclear scope, depending on the syntactic configuration it occurs in.
This paper investigates the relation between TT-MCTAG, a formalism used in computational linguistics, and RCG. RCGs are known to describe exactly the class PTIME; simple RCG even have been shown to be equivalent to linear context-free rewriting systems, i.e., to be mildly context-sensitive. TT-MCTAG has been proposed to model free word order languages. In general, it is NP-complete. In this paper, we will put an additional limitation on the derivations licensed in TT-MCTAG. We show that TT-MCTAG with this additional limitation can be transformed into equivalent simple RCGs. This result is interesting for theoretical reasons (since it shows that TT-MCTAG in this limited form is mildly context-sensitive) and, furthermore, even for practical reasons: We use the proposed transformation from TT-MCTAG to RCG in an actual parser that we have implemented.
This paper sets up a framework for LTAG (Lexicalized Tree Adjoining Grammar) semantics that brings together ideas from different recent approaches addressing some shortcomings of TAG semantics based on the derivation tree. Within this framework, several sample analyses are proposed, and it is shown that the framework allows to analyze data that have been claimed to be problematic for derivation tree based LTAG semantics approaches.
LTAG semantics for questions
(2004)
This papers presents a compositional semantic analysis of interrogatives clauses in LTAG (Lexicalized Tree Adjoining Grammar) that captures the scopal properties of wh- and nonwh-quantificational elements. It is shown that the present approach derives the correct semantics for examples claimed to be problematic for LTAG semantic approaches based on the derivation tree. The paper further provides an LTAG semantics for embedded interrogatives.