Bochumer linguistische Arbeitsberichte : BLA
Hrsg.: Stefanie Dipper ; Björn Rothstein
Refine
Document Type
- Working Paper (16)
Has Fulltext
- yes (16)
Is part of the Bibliography
- no (16)
Keywords
- Spracherwerb (2)
- Annotation (1)
- Deutsch (1)
- Französisch (1)
- Fremdsprachenlernen (1)
- Gesprochene Sprache (1)
- Grammatikalisation (1)
- Grammatiktheorie (1)
- Katalanisch (1)
- Kindersprache (1)
Institute
18
The Shared Task on Source and Target Extraction from Political Speeches (STEPS) first ran in 2014 and is organized by the Interest Group on German Sentiment Analysis (IGGSA). This volume presents the proceedings of the workshop of the second iteration of the shared task. The workshop was held at KONVENS 2016 at Ruhr-University Bochum on September 22, 2016.
As in the first edition of the shared task the main focus of STEPS was on fine-grained sentiment analysis and offered a full task as well as two subtasks for the extraction Subjective Expressions and/or their respective Sources and Targets.
In order to make the task more accessible, the annotation schema was revised for this year’s edition and an adjudicated gold standard was used for the evaluation. In contrast to the pilot task, this iteration provided training data for the participants, opening the Shared Task for systems based on machine learning approaches.
The gold standard1 as well as the evaluation tool2 have been made publicly available to the research community via the STEPS’ website.
We would like to thank the GSCL for their financial support in annotating the 2014 test data, which were available as training data in this iteration. A special thanks also goes to Stephanie Köser for her support on preparing and carrying out the annotation of this year’s test data. Finally, we would like to thank all the participants for their contributions and discussions at the workshop.
17
NLP4CMC III : 3rd workshop on natural language processing for computer-mediated communication
(2016)
The present paper reports the first results of the compilation and annotation of a blog corpus for German. The main aim of the project is the representation of the blog discourse structure and relations between its elements (blog posts, comments) and participants (bloggers, commentators). The data included in the corpus were manually collected from the scientific blog portal SciLogs. The feature catalogue for the corpus annotation includes three types of information which is directly or indirectly provided in the blog or can be construed by means of statistical analysis or computational tools. At this point, only directly available information (e.g., title of the blog post, name of the blogger etc.) has been annotated. We believe, our blog corpus can be of interest for the general study of blog structure or related research questions as well as for the development of NLP methods and techniques (e.g. for authorship detection).
13
This paper deals with spelling normalization of historical texts with regard to further processing with modern part-of-speech taggers. Different methods for this task are presented and evaluated on a set of historical German texts from the 15th–18th century, and specific problems inherent to the processing of historical data are discussed. A chain combination using word-based and character-based techniques is shown to be best for normalization, while POS tagging of normalized data is shown to benefit from ignoring punctuation marks. Using these techniques, when 500 manually normalized tokens are used as training data for the normalization, the tagging accuracy of a manuscript from the 15th century can be raised from 28.65% to 76.27%.
12
Diese Arbeit hat als übergeordnete und finale Zielsetzung das Bestreben eine systematische, effiziente und nachvollziehbare Bestimmung der lexikalisierten Zählbarkeit deutscher Substantive zu ermöglichen. Ein Unterfangen, das zu meinem Wissen bisher weder für Substantive des Deutschen, noch des Englischen, in einem größeren Maßstab unternommen wurde.
Es gibt zwar einige Lexika, die bereits Einträge für nur im Singular oder nur im Plural auftretende Substantive beinhalten, jedoch ist mir keine Ressource bekannt, die eine qualitativ und quantitativ hochwertige Klassifizierung der lexikalischen Zählbarkeit von Substantiven des Englischen oder des Deutschen bietet. Ein Hinweis auf einen ausschließlich verwendeten Numerus eines Substantivs ist hierbei keineswegs ein zuverlässiges Indiz auf die Zählbarkeit dieses Substantivs, sondern lediglich eines von vielem Merkmalen, dass in Summe das ergibt, was gemeinhin unter dem Begriff Zählbarkeit summiert wird.
Auch die Literatur zur Zählbarkeit selbst beschränkt sich fast durchgängig auf einige wenige Substantive, die wie auch bereits in dieser Einleitung geschehen, immer wieder und wieder diskutiert werden. Die Interpretation der Zählbarkeit von Hunden, Katzen und Kaninchen, sowie von Wein, Reis, Möbeln und Schmuck, wird auch in den Beispielen dieser Arbeit immer wieder von Bedeutung sein. Es ist allerdings offenkundig, dass das Deutsche oder Englische weitaus mehr Wörter als die soeben genannten beinhaltet und somit eine Betrachtung über diese Standardbeispiele hinaus sinnvoll ist.
Es ist daher mein Bestreben, Tests und Richtlinien zur Bestimmung der lexikalischen Zählbarkeit von Substantiven zu entwickeln, diese auf über 1.000 Lemmata des Deutschen anzuwenden und somit erstmals einen Gold-Standard zu etablieren, der neben qualitativen Betrachtungen auch eine quantitative Untersuchung der Zählbarkeit von Wörtern in einer großen deutschsprachigen Tageszeitung erlaubt.
10
In dieser Arbeit untersuchen wir, welche nicht-satzwertigen Einheiten 2- bis 3-jährige Kinder ins Nachfeld stellen und aus welchen Gründen sie dies tun. Kindliche Äußerungen können ab der Phase der 'item'-basierten Konstruktionen, in der sie die Satzklammer erwerben, mit dem topologischen Feldermodell analysiert werden. Wir argumentieren dafür, dass Kinder zunächst ein vorläufiges Nachfeld entwickeln, welches sich hinter infiniten Verben oder Verbpartikeln befindet. Am häufigsten finden sich Adverb-, Präpositional- und Nominalphrasen im Nachfeld. Adverbien zeigen Verfestigungstendenzen, sodass wir diese als Konstruktionen beschreiben mit der Funktion, die Äußerung im Kontext zu verorten und/oder dieser Nachdruck zu verleihen. Präpositional- und Nominalphrasen werden aus Gründen der Zeitlichkeit bzw. nicht ausreichender Planung ins Nachfeld gestellt. Die Häufigkeit der Nominalphrasen im Nachfeld nimmt mit zunehmendem Alter ab.
9
The comprehension and production of single words involve a variety of processing stages. Which stages need to be accessed differs depending on whether objects (pictures in an experimental environment) or words are supposed to be named. Naming tasks are often employed in psycholinguistic studies in order to provide an insight into the function of mental processes during word production. Differences in naming latencies and naming accuracy between words suggest that the retrieval of some lexical items is easier or more difficult in contrast to others. The relative ease of word retrieval has been found to be strongly influenced by properties of these words, such as familiarity and written or spoken frequency.
Exploring which variables affect naming speed and accuracy will allow gaining more information about the storage and processing of words in general. If a variable has a discernable effect on a specific experimental task, the localization of this effect is of interest for psycholinguistic research. This is because finding the locus of the effect can help specify models of speech production with respect to what processes occur at which stage of lexical retrieval. Additionally, identifying which variables influence language processing is inevitable in order to control for these variables when necessary. Otherwise variance in naming latencies could not be explained by the variable that was to be tested because other, uncontrolled variables could have altered the results.
7
The 'de-allative'-pattern (Heine/ Kuteva 2008: 103) gives rise to the French grammaticalized periphrasis aller + INF and the Spanish grammaticalized periphrasis ir a + INF. This construction (anar + INF) also consists in Catalan, but here, however, with the periphrasis expressing a past tense. Concerning the grammaticalization path ir a + INF and aller + INF were formerly used to express a past (historical present), whereas anar + INF also expressed a future (and can still take on this function). This paper discusses possible reasons for the development and the thus exceptional position of the Catalan past-periphrasis. In addition to morphological and normative explanations, language contact between Catalan and Spanish/ French as well as sociolinguistic circumstances are factors which may possibly account for the development of the Catalan construction. After a separate presentation of the development and the former and actual use(s) and forms of the three periphrasis, the cognitive processes which took place during the grammaticalization are presented. Afterward the three periphrasis are compared using the parameters of Lehmann. The second part of this paper consists of a corpus which verifies and illustrates the results of the previous part.
5
To monitor one's speech means to check the speech plan for errors, both before and after talking. There are several theories as to how this process works. We give a short overview on the most influential theories only to focus on the most widely received one, the Perceptual Loop Theory of monitoring by Levelt (1983). One of the underlying assumptions of this theory is the existence of an Inner Loop, a monitoring device that checks for errors before speech is articulated. This paper collects evidence for the existence of such an internal monitoring device and questions how it might work. Levelt's theory argues that internal monitoring works by means of perception, but there are other empirical findings that allow for the assumption that an Inner Loop could also use our speech production devices. Based on data from both experimental and aphasiological papers we develop a model based on Levelt (1983) which shows that internal monitoring might in fact make use of both perception and production means.
4
Die Grundlagen der heutigen modernen Wortartenklassifikationen gehen bis in die Antike zurück: Bereits zu dieser Zeit hat Dionysius Thrax ein Schema mit acht Wortarten etabliert. Die darin auftretenden Wortarten sind Substantive, Verben, Adjektive, Artikel, Pronomen, Präpositionen, Adverbien und Konjunktionen. Diese Zahl wird wiederum in den unterschiedlichen Grammatikansätzen unserer Zeit variiert. So verwendet der generative Ansatz beispielsweise vier Wortarten – Bergenholtz/Schaeder (1977) verzeichnen dagegen ganze 51 verschiedene Wortarten und zusätzlich 5 Lexemklassen. Allein diese starken Schwankungen in der angenommenen Anzahl der Wortarten verdeutlichen die allgemeinen Schwierigkeiten bei der Abgrenzung der Wortarten in ihren Kriterien.
Das Zitat "Denn sie gliedern sich in Stämme wie die Menschen" aus Érik Orsennas "Die Grammatik ist ein sanftes Lied" leitet den Titel dieser Arbeit ein und markiert gleichzeitig eine Schnittstelle zwischen der Literaturwissenschaft und der Linguistik und speziell der Grammatik. Als metasprachliche Erzählung setzt sich Orsennas Erzählung literarisch mit der Sprache und ihrer Grammatik auseinander. In der vorliegenden Arbeit beschäftige ich mich vorrangig mit der Analyse der Kriterien zur Klassifikation von Wortarten und ihrer literarischen Darstellung und Ausgestaltung in Orsennas Text über die Wörter, die in Stämmen in der Stadt der Wörter zusammenleben und in einer Fabrik miteinander zu Sätzen verbunden werden können. Der Originaltext von Orsenna ist eine Erzählung in französischer Sprache. Die Übersetzerin Caroline Vollmann hat den Text an die Gegebenheiten und speziellen Phänomene der deutschen Sprache angepasst. Aus diesem Grund spreche ich in der Arbeit von Orsenna und Vollmann als Verfassern.
Da die Darstellung der Wortarten bei Orsenna und Vollmann primär durch Metaphern realisiert wird und den Wörtern als "Stämmen" in einer Stadt menschliche Eigenschaften zugewiesen werden, möchte ich besonders auf die Grundlagen der kognitiven Metapherntheorie von Lakoff und Johnson eingehen. Um eine möglichst wissenschaftlich fundierte Grundlage für die Analyse von Kriterien zur Wortartenklassifikation zu gewährleisten, habe ich drei Grammatiken als Vergleichsmedium für die spätere Analyse von Orsennas und Vollmanns Text ausgewählt. Dadurch gewinne ich sowohl eine syntaktisch als auch morphologisch und semantisch orientierte Perspektive auf den Untersuchungsgegenstand. Aus den Grammatiken von Hentschel/Weydt (2003), Helbig/Buscha (2005) und Boettcher (2009) soll im Verlauf der Arbeit ein Kriterienkatalog erstellt werden, der in einem weiteren Schritt auf die Analyse der Wortartenklassifikation des literarischen Textes angewendet werden kann.
3
The article discusses the methodology adopted for a cross-linguistic synchronic and diachronic corpus study on indefinites. The study covered five indefinite expressions, each in a different language. The main goal of the study was to verify the distribution of these indefinites synchronically and to attest their historical development. The methodology we used is a form of functional labeling which combines both context (syntax) and meaning (semantics) using as a starting point Haspelmath’s (1997) functional map. In the article we identify Haspelmath’s functions with logico-semantic interpretations and propose a binary branching decision tree assigning each instance of an indefinite exactly one function in the map.