410 Linguistik
Refine
Year of publication
Document Type
- Article (322)
- Part of a Book (286)
- Working Paper (120)
- Review (54)
- Conference Proceeding (33)
- Part of Periodical (20)
- Doctoral Thesis (18)
- Book (16)
- Periodical (4)
- Report (3)
- Magister's Thesis (2)
- Diploma Thesis (1)
- magisterthesis (1)
- Master's Thesis (1)
Language
- English (486)
- German (328)
- Portuguese (24)
- Multiple languages (12)
- Croatian (11)
- Turkish (11)
- mis (4)
- French (3)
- Polish (1)
- Spanish (1)
Keywords
- Deutsch (108)
- Spracherwerb (62)
- Semantik (52)
- Linguistik (51)
- Syntax (49)
- Sprachtypologie (45)
- Kontrastive Linguistik (33)
- Sprachtest (33)
- Englisch (30)
- Computerlinguistik (27)
Institute
- Institut für Deutsche Sprache (IDS) Mannheim (52)
- Extern (40)
- Neuere Philologien (38)
- Sprachwissenschaften (5)
- Präsidium (3)
- Medizin (2)
- Sprach- und Kulturwissenschaften (2)
- Universitätsbibliothek (2)
- Erziehungswissenschaften (1)
- Geschichtswissenschaften (1)
This paper proposes an annotating scheme that encodes honorifics (respectful words). Honorifics are used extensively in Japanese, reflecting the social relationship (e.g. social ranks and age) of the referents. This referential information is vital for resolving zero
pronouns and improving machine translation outputs. Annotating honorifics is a complex task that involves identifying a predicate with honorifics, assigning ranks to referents of the
predicate, calibrating the ranks, and connecting referents with their predicates.
Some requirements for a VERBMOBIL system capable of processing Japanese dialogue input have been explored. Based on a pilot study in the VERBMOBIL domain, dialogues between 2 participants and a professional Japanese interpreter have been analyzed with respect to a very typical and frequent feature: zero pronouns. Zero pronouns in Japanese texts or dialogues as well as overt pronouns in English texts or dialogues are an important element of discourse coherence. As to translation, this difference in the use of pronouns is a case of translation mismatch: information not explicitly expressed in the source language is needed in the target language. (Verb argument positions, normally obligatory in English, are rather frequently omitted in Japanese. Furthermore, verbs in Japanese are not marked with respect to features necessary for pronoun selection in English.)
We present an architecture for the integration of shallow and deep NLP components which is aimed at flexible combination of different language technologies for a range of practical current and future applications. In particular, we describe the integration of a high-level HPSG parsing system with different high-performance shallow components, ranging from named entity recognition to chunk parsing and shallow clause recognition. The NLP components enrich a representation of natural language text with layers of new XML meta-information using a single shared data structure, called the text chart. We describe details of the integration methods, and show how information extraction and language checking applications for realworld German text benefit from a deep grammatical analysis.
Hybrid robust deep and shallow semantic processing for creativity support in document production
(2004)
The research performed in the DeepThought project (http://www.project-deepthought.net) aims at demonstrating the potential of deep linguistic processing if added to existing shallow methods that ensure robustness. Classical information retrieval is extended by high precision concept indexing and relation detection. We use this approach to demonstrate the feasibility of three ambitious applications, one of which is a tool for creativity support in document production and collective brainstorming. This application is described in detail in this paper. Common to all three applications, and the basis for their development is a platform for integrated linguistic processing. This platform is based on a generic software architecture that combines multiple NLP components and on robust minimal recursive semantics (RMRS) as a uniform representation language.
Particles fullfill several distinct central roles in the Japanese language. They can mark arguments as well as adjuncts, can be functional or have semantic functions. There is, however, no straightforward matching from particles to functions, as, e.g., 'ga' can mark the subject, the object or the adjunct of a sentence. Particles can cooccur. Verbal arguments that could be identified by particles can be eliminated in the Japanese sentence. And finally, in spoken language particles are often omitted. A proper treatment of particles is thus necessary to make an analysis of Japanese sentences possible. Our treatment is based on an empirical investigation of 800 dialogues. We set up a type hierarchy of particles motivated by their subcategorizational and modificational behaviour. This type hierarchy is part of the Japanese syntax in VERBMOBIL.
Sprachtechnologie für übersetzungsgerechtes Schreiben am Beispiel Deutsch, Englisch, Japanisch
(2009)
Wir [...] haben uns zur Aufgabe gesetzt, Wege zu finden, wie linguistisch basierte Software den Prozess des Schreibens technischer Dokumentation unterstützen kann. Dabei haben wir einerseits die Schwierigkeiten im Blick, die japanische und deutsche Autoren (und andere Nicht-Muttersprachler des Englischen) beim Schreiben englischer Texte haben. Besonders japanische Autoren haben mit Schwierigkeiten zu kämpfen, weil sie hochkomplexe Ideen in einer Sprache ausdrücken müssen, die von Informationsstandpunkt her sehr unterschiedlich zu ihrer Muttersprache ist. Andererseits untersuchen wir technische Dokumentation, die von Autoren in ihrer Muttersprache geschrieben wird. Obwohl hier die fremdsprachliche Komponente entfällt, ist doch auch erhebliches Verbesserungspotential vorhanden. Das Ziel ist hier, Dokumente verständlich, konsistent und übersetzungsgerecht zu schreiben. Der fundamentale Ansatz in der Entwicklung linguistisch-basierter Software ist, dass gute linguistische Software auf Datenmaterial basiert und sich an den konkreten Zielen der besseren Dokumentation orientiert.
Preferences and defaults for definiteness and number in japanese to german machine translation
(1996)
A significant problem when translating Japanese dialogues into German is the missing information on number and definiteness in the Japanese analysis output. The integration of the search for such information into the transfer process provides an efficient solution. General transfer includes conditions to make it possible to consider external knowledge. Thereby, grammatical and lexical knowledge of the source language, knowledge of lexical restrictions on the target language, domain knowledge and discourse knowledge are accessible.
Ein einer Äußerung können Nullpronomina aus mehreren [...] Gruppen vorkommen. Die [...] Gruppen können auf die Ebenen eines Schicht-Dialogmodells bezogen werden; andererseits können sie Hinweise geben, welche Informationen in einem Dialogmodell verfügbar sein sollten. Dies wird in der Folgezeit genauer zu untersuchen sein. Im folgenden werden die genannten Typen von Nullpronomina genauer dargestellt und Lösungsverfahren zum Auffinden der Referenten genannt.
Die Entwicklung eines individuellen Standards „vom grünen Tisch“ führt selten zu zufriedenstellenden Ergebnissen. Bei der automatischen Prüfung stellt man schnell fest, dass die „ausgedachten“ Regeln einer systematischen Anwendung nicht standhalten. Bei der Implementierung solcher Richtlinien stellt man fest, dass sie oft zu wenig konkret formuliert sind, wie z.B. „formulieren Sie Handlungsanweisungen knapp und präzise“. Wie jedoch kann ein Standard entwickelt werden, der zu einem Unternehmen, seiner Branche und Zielgruppen passt und für die automatische Prüfung implementiert werden kann? Sprachtechnologie hilft effizient bei der Entwicklung individueller Richtlinien. Durch Datenanalyse, Satzcluster und Parametrisierung entsteht ein textspezifischer individueller Standard. Ist damit aber der Gegensatz von Kreativität und Standardisierung aufgehoben?
Die Domäne in VERBMOBIL sind Terminaushandlungsdialoge. Für die Syntax bedeutet das zunächst, daß die Sytnax sich an gesprochener Sprache orientieren muß. Das beinhaltet Nullanaphern, Phrasen, die auf die Kommunikationssituation bezogen sind und Phrasen, die für geschriebene Sprache als nicht wohlgeformt bezeichnet werden. Weitergehend gibt es einige domänenspezifische syntaktische besonderheiten, wie zum Biepsiel die Realisierung von Zeitangaben.
A comprehensive investigation of Japanese particle was missing up to now. General implications were set up without the fact that a comprehensive analysis was carried out. [...] We offer a lexicalist treatment of the problem. Instead of assuming different phrase structure rules we state a type hierarchy of Japanese particles. This makes a uniform treatment of phrase structure as well as a differentiation of subcategorization patterns possible.
We present a solution for the representation of Japanese honorifical information in the HPSG framework. Basically, there are three dimensions of honorification. We show that a treatment is necessary that involves both the syntactic and the contextual level of information. The japanese grammar is part of a machine translation system.
The research performed in the DeepThought project aims at demonstrating the potential of deep linguistic processing if combined with shallow methods for robustness. Classical information retrieval is extended by high precision concept indexing and relation detection. On the basis of this approach, the feasibility of three ambitious applications will be demonstrated, namely: precise information extraction for business intelligence; email response management for customer relationship management; creativity support for document production and collective brainstorming. Common to these applications, and the basis for their development is the XML-based, RMRS-enabled core architecture framework that will be described in detail in this paper. The framework is not limited to the applications envisaged in the DeepThought project, but can also be employed e.g. to generate and make use of XML standoff annotation of documents and linguistic corpora, and in general for a wide range of NLP-based applications and research purposes.
In this paper we describe SOBA, a sub-component of the SmartWeb multi-modal dialog system. SOBA is a component for ontologybased information extraction from soccer web pages for automatic population of a knowledge base that can be used for domainspecific question answering. SOBA realizes a tight connection between the ontology, knowledge base and the information extraction component. The originality of SOBA is in the fact that it extracts information from heterogeneous sources such as tabular structures, text and image captions in a semantically integrated way. In particular, it stores extracted information in a knowledge base, and in turn uses the knowledge base to interpret and link newly extracted information with respect to already existing entities.
While the sortal constraints associated with Japanese numeral classifiers are well-studied, less attention has been paid to the details of their syntax. We describe an analysis implemented within a broad-coverage HPSG that handles an intricate set of numeral classifier construction types and compositionally relates each to an appropriate semantic representation, using Minimal Recursion Semantics.
While the sortal constraints associated with Japanese numeral classifiers are wellstudied, less attention has been paid to the details of their syntax. We describe an analysis implemented within a broadcoverage HPSG that handles an intricate set of numeral classifier construction types and compositionally relates each to an appropriate semantic representation, using Minimal Recursion Semantics.
Standardisierung ist der bedeutendste Ansatz zu Qualitätssteigerung und Kostensenkung in der Technischen Dokumentation. Es gibt eine Reihe von Standardisierungsansätzen: Modularisierung, Informationsstrukturen, Terminologie, Sprachstrukturen. Dennoch werden diese Ebenen meist getrennt voneinander beschrieben. Wir untersuchen, wie Standardisierungen im Informationsmodell, in der Terminologie und in den sprachlichen Strukturen verknüpft werden und miteinander interagieren.
Der Übersetzungsprozess der Technischen Dokumentation wird zunehmend mit Maschineller Übersetzung (MÜ) unterstützt. Wir blicken zunächst auf die Ausgangstexte und erstellen automatisch prüfbare Regeln, mit denen diese Texte so editiert werden können, dass sie optimale Ergebnisse in der MÜ liefern. Diese Regeln basieren auf Forschungsergebnissen zur Übersetzbarkeit, auf Forschungsergebnissen zu Translation Mismatches in der MÜ und auf Experimenten.
We present an effort for the development of multilingual named entity grammars in a unification-based finite-state formalism (SProUT). Following an extended version of the MUC7 standard, we have developed Named Entity Recognition grammars for German, Chinese, Japanese, French, Spanish, English, and Czech. The grammars recognize person names, organizations, geographical locations, currency, time and date expressions. Subgrammars and gazetteers are shared as much as possible for the grammars of the different languages. Multilingual corpora from the business domain are used for grammar development and evaluation. The annotation format (named entity and other linguistic information) is described. We present an evaluation tool which provides detailed statistics and diagnostics, allows for partial matching of annotations, and supports user-defined mappings between different annotation and grammar output formats.
The Acadian population of the Atlantic provinces is located in a number of geographically separate areas. Existing phonological descriptions of specific varieties have shown the existence of a great deal of diversity, but also much common ground. Little comparative work has been conducted to assess the extent to which the various regional varieties share the characteristics described for individual communities. New data are here brought to bear on these issues, drawn from the material collected in the course of a research project which has as its general objective the systematic charting of the linguistic differences and similarities among the Acadian communities of Nova Scotia. Features common to all these communities and to previously described varieties are distinguished from those which show interdialectal differences, and the nature of these differences is analyzed.
Zur Entstehung und Struktur ungebändigter Allomorphie : Pluralbildungsverfahren im Luxemburgischen
(2006)
Aus gesamtgermanistischer Perspektive verfügt das Luxemburgische über ein außergewöhnliches Maß an Pluralallomorphie bzw., nach H. GIRNTH (2000), an Heterograffimie. Oberstes Prinzip dabei scheint die deutliche Markierung der Kategorie 'Plural' direkt ani bzw. im Substantiv zu sein. Die morphologische Komplexität betrifft mehrere Dimensionen: Zum einen ist es die Vielzahl an Pluralisierungsprinzipien, die von additiven über modulatorische und Nullprozesse bis hin zu subtraktiven Techniken reichen, zum zweiten die Vielzahl an konkret sich manifestierender Allomorphie. Schließlich ist der maximale . Ausbau des reinen Umlauttyps auch bei Einsilblern hervorzuheben. Selbst Fremdwörter können noch heute ihren Plural mit reinem Vokalwechsel bilden, und dies auch auf nebenbetonten Silben. Aus diachroner Perspektive bildet. der reine Vokalwechsel einen wichtigen Endpunkt einer sich seit Jahrhunderten in diese Richtung vollziehenden Entwicklung. Aus synchroner Perspektive ist es mittlerweile verfehlt, noch - wie etwa beim deutschen Pluralsystem - von Umlaut zu sprechen, da längst eine Arbitrarisierung .des Vokalwechsels stattgefunden hat, die fast ablautähnliche Züge erreicht hat. Zusammenfassend gelangt man zu dem Eindruck, dass sich das Luxemburgische - etwa im Hinblick auf die subtraktive Pluralbildung - fast jedweden phonologischen Wandel zu Nutze macht bzw. - im Hinblick auf den Umlaut über die Morphologisierung sogar produktiv werden lässt. Aus der vorliegenden Untersuchung ergeben sich mehrere Fragestellungen, die Gegenstand weiterer Untersuchungen sein sollten. Zuerst wären genaue quantitative Erhebungen vorzunehmen, um die Nutzung und Verteilung der einzelnen Verfahren zu ermitteln. Auch die Produktivität der Regeln müsste untersucht werden. Des Weiteren ist noch ungeklärt, welche Regeln es genau sind, die die Distribution der Allomorphe steuern. Nimmt man z.B. das Englische mit seinen drei Pluralallomorphen [IZ], [z] und [s], so ist deren Verteilung rein phonologisch - nach dem Auslaut des Substantivs - gesteuert: Endet es auf einen Sibilanten, folgt silbisches [IZ] (horse-s ['horsIz]), endet es auf einen stimmhaften Laut, folgt stimmhaftes [z] (dog-s), und auf einen stimmlosen folgt stimmloses [s] (cat-s). Das Deutsche, das insgesamt neun konkrete Pluralallomorphe "besitzt, erlaubt auf grund der Singularform kaum Erschließbarkeit des Plurals, wie die folgenden drei einsilbigen Reimwörter gleichen Genus demonstrieren: der Hund - die Hunde, der Grund - die Gründe, der Mund - die Münder. Prosodische Kriterien wie die AkzentsteIle, syllabische (Silbenzahl), phonologische (Auslaut) und morphologische Kriterien " einschließlich der Genuszugehörigkeit fuhren nicht immer zum Ziel: Bei vielen Substantiven muss der Plural - siehe oben - mitgelernt werden, d.h. er ist Bestandteil des Lexikons. Was das Luxemburgische betrifft, so scheint das Steuerungsinstrumentarium komplexer zu sein, doch ist dies nur eine durch Stichproben gewonnene Vermutung, die zu fundieren wäre.
Twenty years ago (1983), I severely criticized Halle and Kiparsky’s review (1981) of Garde’s history of Slavic accentuation (1976). I concluded that Halle and Ki-parsky’s theoretical framework “rests upon an unwarranted limitation of the available evidence, obscures the chronological perspective, and yields results which are partly not new and partly incorrect. It is harmful because it does not give the facts their proper due and thereby blocks the road to empirical study, giving a free hand to unrestrained speculation” (1983: 40). As Halle has recently returned to the subject (2001), it may be interesting to see if there has been some progress in his thinking over the last two decades. In the following I shall try to avoid repeating what I have said in my earlier discussion.
Syntactic coindexing restrictions are by now known to be of central importance to practical anaphor resolution approaches. Since, in particular due to structural ambiguity, the assumption of the availability of a unique syntactic reading proves to be unrealistic, robust anaphor resolution relies on techniques to overcome this deficiency.
This paper describes the ROSANA approach, which generalizes the verification of coindexing restrictions in order to make it applicable to the deficient syntactic descriptions that are provided by a robust state-of-the-art parser. By a formal evaluation on two corpora that differ with respect to text genre and domain, it is shown that ROSANA achieves high-quality robust coreference resolution. Moreover, by an in-depth analysis, it is proven that the robust implementation of syntactic disjoint reference is nearly optimal. The study reveals that, compared with approaches that rely on shallow preprocessing, the largely nonheuristic disjoint reference algorithmization opens up the possibility/or a slight improvement. Furthermore, it is shown that more significant gains are to be expected elsewhere, particularly from a text-genre-specific choice of preference strategies.
The performance study of the ROSANA system crucially rests on an enhanced evaluation methodology for coreference resolution systems, the development of which constitutes the second major contribution o/the paper. As a supplement to the model-theoretic scoring scheme that was developed for the Message Understanding Conference (MUC) evaluations, additional evaluation measures are defined that, on one hand, support the developer of anaphor resolution systems, and, on the other hand, shed light on application aspects of pronoun interpretation.