Refine
Year of publication
Document Type
- Preprint (82) (remove)
Has Fulltext
- yes (82) (remove)
Is part of the Bibliography
- no (82)
Keywords
- Deutsch (16)
- Multicomponent Tree Adjoining Grammar (9)
- Syntaktische Analyse (8)
- Syntax (8)
- Semantik (6)
- Kongress (5)
- Optimalitätstheorie (5)
- Range Concatenation Grammar (5)
- Aufsatzsammlung (4)
- German (4)
Institute
- Extern (82) (remove)
This paper argues for a particular architecture of OT syntax. This architecture hasthree core features: i) it is bidirectional, the usual production-oriented optimisation (called ‘first optimisation’ here) is accompanied by a second step that checks the recoverability of an underlying form; ii) this underlying form already contains a full-fledged syntactic specification; iii) especially the procedure checking for recoverability makes crucial use of semantic and pragmatic factors. The first section motivates the basic architecture. The second section shows with two examples, how contextual factors are integrated. The third section examines its implications for learning theory, and the fourth section concludes with a broader discussion of the advantages and disadvantages of the proposed model.
Weak function word shift
(2004)
The fact that object shift only affects weak pronouns in mainland Scandinavian is seen as an instance of a more general observation that can be made in all Germanic languages: weak function words tend to avoid the edges of larger prosodic domains. This generalisation has been formulated within Optimality Theory in terms of alignment constraints on prosodic structure by Selkirk (1996) in explaining thedistribution of prosodically strong and weak forms of English functionwords, especially modal verbs, prepositions and pronouns. But a purely phonological account fails to integrate the syntactic licensing conditions for object shift in an appropriate way. The standard semantico-syntactic accounts of object shift, onthe other hand, fail to explain why it is only weak pronouns that undergo object shift. This paper develops an Optimality theoretic model of the syntax-phonology interface which is based on the interaction of syntactic and prosodic factors. The account can successfully be applied to further related phenomena in English and German.
This paper is part of a research project on OT Syntax and the typology of the free relative (FR) construction. It concentrates on the details of an OT analysis and some of its consequences for OT syntax. I will not present a general discussion of the phenomenon and the many controversial issues it is famous for in generative syntax.
In der folgenden Darstellung geht es einerseits darum, an Beispielen aufzuzeigen, inwiefern die schweizerdeutschen Mundarten und die deutsche Standardsprache in Lautung, Formenbildung, Satzbau und Wortschatz auseinandergehen können, andererseits aber immer auch um das Aufweisen von Gemeinsamkeiten. Oft werden nämlich bestimmte Erscheinungen des dialektalen Sprachbaus vorschnell als Eigenarten der Mundart verstanden, obwohl dieselben Erscheinungen auch im gesprochenen Hochdeutschen anzutreffen sind. Somit liegen also häufig nicht Unterschiede zwischen Mundart und Standardsprache vor, sondern Unterschiede zwischen gesprochener Sprache und geschriebener Sprache. [vollständige Überarbeitung für eine zweite Auflage]
Die unten folgende Stellungnahme wurde dem Herausgeber der Zeitschrift für deutsches Altertum und deutsche Literatur angeboten, um eine Reihe von gravierenden Missverständnissen eines Rezensenten (Jürgen Schulz-Grobert) auszuräumen, die dieser in seiner Besprechung des zweiten Bandes der Sämtlichen Werke Johann Fischarts der Fachwelt gegenüber erkennen ließ. Der Herausgeber der Zeitschrift verweigerte sich einer Diskussion und lehnte den Abdruck unserer Entgegnung ab. Dies ist umso bedauerlicher, als uns der Rezensent den Vorwurf gemacht hat, unsere "Diskussionsbereitschaft [...] [sei] auch in anderen entscheidenden Fragen ausgesprochen begrenzt", was immer er damit meint.
This paper investigates the class of Tree-Tuple MCTAG with Shared Nodes, TT-MCTAG for short, an extension of Tree Adjoining Grammars that has been proposed for natural language processing, in particular for dealing with discontinuities and word order variation in languages such as German. It has been shown that the universal recognition problem for this formalism is NP-hard, but so far it was not known whether the class of languages generated by TT-MCTAG is included in PTIME. We provide a positive answer to this question, using a new characterization of TT-MCTAG.
We present a CYK and an Earley-style algorithm for parsing Range Concatenation Grammar (RCG), using the deductive parsing framework. The characteristic property of the Earley parser is that we use a technique of range boundary constraint propagation to compute the yields of non-terminals as late as possible. Experiments show that, compared to previous approaches, the constraint propagation helps to considerably decrease the number of items in the chart.
Multicomponent Tree Adjoining Grammars (MCTAGs) are a formalism that has been shown to be useful for many natural language applications. The definition of non-local MCTAG however is problematic since it refers to the process of the derivation itself: a simultaneity constraint must be respected concerning the way the members of the elementary tree sets are added. Looking only at the result of a derivation (i.e., the derived tree and the derivation tree), this simultaneity is no longer visible and therefore cannot be checked. I.e., this way of characterizing MCTAG does not allow to abstract away from the concrete order of derivation. In this paper, we propose an alternative definition of MCTAG that characterizes the trees in the tree language of an MCTAG via the properties of the derivation trees (in the underlying TAG) the MCTAG licences. We provide similar characterizations for various types of MCTAG. These characterizations give a better understanding of the formalisms, they allow a more systematic comparison of different types of MCTAG, and, furthermore, they can be exploited for parsing.
In this paper, we argue that difficulties in the definition of coreference itself contribute to lower inter-annotator agreement in certain cases. Data from a large referentially annotated corpus serves to corroborate this point, using a quantitative investigation to assess which effects or problems are likely to be the most prominent. Several examples where such problems occur are discussed in more detail, and we then propose a generalisation of Poesio, Reyle and Stevenson’s Justified Sloppiness Hypothesis to provide a unified model for these cases of disagreement and argue that a deeper understanding of the phenomena involved allows to tackle problematic cases in a more principled fashion than would be possible using only pre-theoretic intuitions.
Traditionally, parsers are evaluated against gold standard test data. This can cause problems if there is a mismatch between the data structures and representations used by the parser and the gold standard. A particular case in point is German, for which two treebanks (TiGer and TüBa-D/Z) are available with highly different annotation schemes for the acquisition of (e.g.) PCFG parsers. The differences between the TiGer and TüBa-D/Z annotation schemes make fair and unbiased parser evaluation difficult [7, 9, 12]. The resource (TEPACOC) presented in this paper takes a different approach to parser evaluation: instead of providing evaluation data in a single annotation scheme, TEPACOC uses comparable sentences and their annotations for 5 selected key grammatical phenomena (with 20 sentences each per phenomena) from both TiGer and TüBa-D/Z resources. This provides a 2 times 100 sentence comparable testsuite which allows us to evaluate TiGer-trained parsers against the TiGer part of TEPACOC, and TüBa-D/Z-trained parsers against the TüBa-D/Z part of TEPACOC for key phenomena, instead of comparing them against a single (and potentially biased) gold standard. To overcome the problem of inconsistency in human evaluation and to bridge the gap between the two different annotation schemes, we provide an extensive error classification, which enables us to compare parser output across the two different treebanks. In the remaining part of the paper we present the testsuite and describe the grammatical phenomena covered in the data. We discuss the different annotation strategies used in the two treebanks to encode these phenomena and present our error classification of potential parser errors.
Nous présentons ici différents algorithmes d’analyse pour grammaires à concaténation d’intervalles (Range Concatenation Grammar, RCG), dont un nouvel algorithme de type Earley, dans le paradigme de l’analyse déductive. Notre travail est motivé par l’intérêt porté récemment à ce type de grammaire, et comble un manque dans la littérature existante.
Die Ressource "Wissen" rückte in den letzten Jahrzehnten als Quelle wissenschaftlicher Innovation immer stärker ins Zentrum des Interesses. Diese Fokussierung mündete in eine Selbstreflexion der Wissenschaft und der wissenschaftlichen Disziplinen: Thematisiert werden vor allem die Art und Weise, wie Wissen gewonnen wird, sowie die damit zusammenhängende Frage nach der Konstruktion von Wissenschaftlichkeit, womit das Bewusstsein gleichzeitig auf die mehr und mehr sich auflösende Abgrenzung zwischen den Disziplinen beziehungsweise zwischen den drei hauptsächlichen Wissenschaftskulturen, von Natur-, Geistes- und Kultur- sowie Sozialwissenschaften gelenkt wird. Innerhalb und außerhalb der Universitäten bildeten und bilden sich nicht immer klar verortbare "trading zones" (Gallison 1997), in denen neue Formen und Techniken der Wissensproduktion und Wissensvermittlung geprüft, geübt und teilweise auch institutionalisiert werden. ...
Distributional approximations to lexical semantics are very useful not only in helping the creation of lexical semantic resources (Kilgariff et al., 2004; Snow et al., 2006), but also when directly applied in tasks that can benefit from large-coverage semantic knowledge such as coreference resolution (Poesio et al., 1998; Gasperin and Vieira, 2004; Versley, 2007), word sense disambiguation (Mc- Carthy et al., 2004) or semantical role labeling (Gordon and Swanson, 2007). We present a model that is built from Webbased corpora using both shallow patterns for grammatical and semantic relations and a window-based approach, using singular value decomposition to decorrelate the feature space which is otherwise too heavily influenced by the skewed topic distribution of Web corpora.
Parsing coordinations
(2009)
The present paper is concerned with statistical parsing of constituent structures in German. The paper presents four experiments that aim at improving parsing performance of coordinate structure: 1) reranking the n-best parses of a PCFG parser, 2) enriching the input to a PCFG parser by gold scopes for any conjunct, 3) reranking the parser output for all possible scopes for conjuncts that are permissible with regard to clause structure. Experiment 4 reranks a combination of parses from experiments 1 and 3. The experiments presented show that n- best parsing combined with reranking improves results by a large margin. Providing the parser with different scope possibilities and reranking the resulting parses results in an increase in F-score from 69.76 for the baseline to 74.69. While the F-score is similar to the one of the first experiment (n-best parsing and reranking), the first experiment results in higher recall (75.48% vs. 73.69%) and the third one in higher precision (75.43% vs. 73.26%). Combining the two methods results in the best result with an F-score of 76.69.
Während der Brief in Zeiten von persönlichen Krisen und Konflikten mancherlei Unannehmlichkeiten aus dem Kommunikationsweg räumt, stellt der Kontext Krieg für das Briefeschreiben in vielerlei Hinsicht eine Herausforderung dar. Der Privatbrief (Epistula familiaris) ist in der ersten Hälfte des 20. Jahrhunderts in Westeuropa – das heisst auch zur Zeit des 2. Weltkriegs – das wichtigste Medium informeller Distanzkommunikation, welche im Allgemeinen durch Inoffizialität und Spontaneität, durch Individualität und Vertraulichkeit gekennzeichnet ist. In der Regel ist der Privatbrief im juristischen Sinne nicht verfügbar. Ein Kennzeichen ist somit auch seine Nichtreproduzierbarkeit. Neben der thematischen Offenheit macht sich meist eine stärkere stilistische Freiheit bemerkbar. Zeichen von Flüchtigkeit oder Sorgfalt sind ausser den Formalia des Datums, der Anrede, des Textkörpers und der Unterschrift, über das geschriebene Wort hinaus nonverbale Informationen wie die Lesbarkeit der Schrift, die Wahl des Papiers, Schreibwerkzeug sowie die Länge eines Briefes (vgl. Ermert 1979, Nickisch 1991, Beyer/ Täubrich 1996, Zott 2003). Der Privatbrief wird zwar im graphischen Medium der Schrift realisiert, steht aber stilistisch der konzeptionellen "Mündlichkeit" näher. (Koch/ Oesterreicher 1994, 587) Der private Briefwechsel wird spontan aufgenommen und kann in der Regel ohne Zwang abgebrochen werden (vgl. Zott 2003). ...
Liebesbriefe von Kindern, Jugendlichen und Erwachsenen : eine Textsorte im lebenszeitlichen Wandel
(2003)
Das Alter als soziolinguistische und – mit Bezug auf die Historizität des sozialen Alltags – als sozialhistorische Grösse ist in seiner Wirkung auf die Gestaltung des Liebesbriefs wenig offensichtlich. Unbestritten dürfte aber wohl sein, dass nicht alterslose Menschen einander Liebesbriefe schreiben. Und – Alter prägt, wie dies die hier vorliegende empirische Analyse zeigen wird, die Textsorte Liebesbrief vielleicht stärker als gemeinhin angenommen. Bereits die Briefstellerliteratur der Jahrhundertwende zeigt deutlich eine Altersspezifik der Sprache des Liebesbriefs. ...
Der Liebesbrief des 20. Jahrhunderts ist Ausdruck einer konkreten lebensweltlichen und historisch zu verortenden Praxis der Liebeskommunikation. Liebesbriefe sind Brautbriefe, Liebesbekenntnisse, Berichte aus dem Alltag, Soldatenbriefe, Vereinbarungen von Treffen, E-Mail-Korrespondenzen, Flirtbriefe und Zettelchen – es gibt eine reiche Palette an Funktionen und Typen. Im Hinblick auf eine Geschichte des Liebesbriefs im 20. Jahrhunderts zeigte sich, dass im Liebesbrief neben der Liebeserklärung auch „Beziehungsarbeit“ und besonders aber die Konstruktion von Intimität eine zentrale Rolle spielt. Die Kritik an der Sprache der Liebe und des Liebesbriefs (des 19. Jahrhunderts) kann bereits in den 1920er Jahren beobachtet werden. Zu einem Codewechsel kommt es in Briefen der 1960er Jahre. Die Schriftlichkeit des Liebesbriefs entfernt sich allmählich von einer ausschließlichen Schreibschriftlichkeit. Der Liebesbrief wird mehr und mehr zu einem Sprache-Bild-Text. Die neuen Medien der Liebesschriftlichkeit zeigen eine Mediatisierung auch im Bereich des Liebesdiskurses: neben neuen Liebesbrieftypen, wie dem Flirtbrief, bilden sich neue Liebesbeziehungstypen heraus. Darüber hinaus fungieren die neuen Medien immer schon selbstreflexiv als Metakommunikatoren der Modernität.
Klugheit wird gemeinhin als das Gegenteil von Torheit aufgefasst. Auf diese Weise erfährt sie eine sprachlich vorstrukturierte positive Bewertung und erhält einen ausgezeichneten gesellschaftlichen Status. "Positiv" bedeutet eine Verknüpfung mit spezifischen je gesellschaftlich richtigen Wertmassstäben, die aber in unterschiedlichen Milieus und Regionen durchaus verschieden ausfallen. Diese bilden den impliziten Subtext für die alltägliche Zuschreibung von "Klugheit". Klugheit fokussiert das Verhalten der Menschen, die Handlungen, die Performanz. Klugheit wird denjenigen Personen zugeschrieben, die "das Richtige" tun, und nachdem sie das Richtige getan haben, etabliert sich erst das Kriterium für die Richtigkeit dieser Beurteilung: der Ausgang der Geschichte. Klugheit wird zwar im vornhinein behauptet, stellt sich aber erst im Nachhinein heraus: denn sie misst sich nicht an der vorgeführten Handlung selbst, sondern am Ausgang der "Geschichte". Eine Bauerntochter handelt dann klug, wenn ihre Handlungen zu einem – im Sinne des Erzählers – guten Ende führen, zu einem Happy-End sozusagen. ...
Der Autor beschäftigt sich u. a. mit den Fragen: Welchen Stellenwert haben unsere literarischen Bildungsgüter in der Mediengesellschaft? Stehen Goethe und Schiller, das Dioskurenpaar der deutschen Klassik, noch fest auf dem Weimarer Sockel, oder zerbröselt dieser zum Sanierungsfall, en passant besucht auf Klassenfahrten, von denen nur das ins heimische Bücherregal wandert, was leicht faßlich ist?
We adopt Markert and Nissim (2005)’s approach of using the World Wide Web to resolve cases of coreferent bridging for German and discuss the strength and weaknesses of this approach. As the general approach of using surface patterns to get information on ontological relations between lexical items has only been tried on English, it is also interesting to see whether the approach works for German as well as it does for English and what differences between these languages need to be accounted for. We also present a novel approach for combining several patterns that yields an ensemble that outperforms the best-performing single patterns in terms of both precision and recall.