Refine
Document Type
- Article (5)
- Master's Thesis (1)
Keywords
Institute
- Biowissenschaften (1)
- Extern (1)
-
Der TUSNELDA-Standard : ein Korpusannotierungsstandard zur Unterstützung linguistischer Forschung
(2001)
- Die Verwendung von Standards für die Annotierung größerer Sammlungen elektronischer Texte (Korpora) ist eine Voraussetzung für eine mögliche Wiederverwendung dieser Korpora. Dieser Artikel stellt einen Korpusannotierungsstandard vor, der die Anforderungen der Untersuchung unterschiedlichster linguistischer Phänomene berücksichtigt. Der Standard wurde im SFB 441 an der Universität Tübingen entwickelt. Er geht von bestehenden Standards, insbesondere CES und TEI, aus, die sich als teilweise zu ausführlich und zu wenig restriktiv,teilweise auch als nicht ausdrucksstark genug erweisen, um den Bedürfnissen korpusbasierter linguistischer Forschung gerecht zu werden.
-
Evaluating POS tagging under sub-optimal conditions : or: does meticulousness pay?
(2000)
- In this paper, we investigate the role of sub-optimality in training data for part-of-speech tagging. In particular, we examine to what extent the size of the training corpus and certain types of errors in it affect the performance of the tagger. We distinguish four types of errors: If a word is assigned a wrong tag, this tag can belong to the ambiguity class of the word (i.e. to the set of possible tags for that word) or not; furthermore, the major syntactic category (e.g. "N" or "V") can be correctly assigned (e.g. if a finite verb is classified as an infinitive) or not (e.g. if a verb is classified as a noun). We empirically explore the decrease of performance that each of these error types causes for different sizes of the training set. Our results show that those types of errors that are easier to eliminate have a particularly negative effect on the performance. Thus, it is worthwhile concentrating on the elimination of these types of errors, especially if the training corpus is large.
-
Rekonstruktion von Körpermassen pleistozäner Rhinocerotidae in der Sammlung von Koenigswald
(2007)
- Die vorliegende Arbeit umfasst die Rekonstruktion der Körpermasse pleistozäner Rhinocerotidae in Europa und Südost-Asien , hier speziell der Insel Java. Methodisch wird dieses Ziel durch lineare Regressionen nach Janis (1990) verfolgt. Zunächst wird ein Rezentmodell erstellt, das es ermöglicht Körpermasse mit verschiedenen Zahnparametern in Zusammenhang zu bringen. Die aus dem Rezentmodell resultierenden Regressionsgleichungen für jeden Zahn werden dann für die Rekonstruktion fossiler Körpermassen verwendet. Das fossile Zahnmaterial wurde vermessen und die Körpermassen für alle Zahnparameter errechnet. Um einen Vergleich mit veröffentlichten Werten zu ermöglichen, wurde die Körpermasse gleichfalls nach Legendre (1986) ermittelt, welcher eine Formel zur Körpermassenrekonstruktion entwickelte, die heute allgemein Verwendung findet. Um die oftmals sehr großen Schwankungen in der Körpermasse, verursacht durch Ernährungs- und Gesundheitszustand eines Tieres abzufedern, sind die absoluten Werte in Körpermassenklassen eingeteilt. Die ermittelten Körpermassen wurden dann in verschiedenen Zusammenhängen betrachtet und, soweit möglich , Aussagen über Gründe für Veranderungen oder Unterschiede zwischen Messstrecken, Zeiträumen, Habitaten oder auch Spezies genannt.
-
The TUSNELDA annotation standard : an XML encoding standard for multilingual corpora supporting various aspects of linguistic research
(2000)
- This paper proposes a corpus encoding standard that meets the needs of linguistic research using a variety of linguistic data structures. The standard was developed in SFB 441, a research project at the University of Tuebingen. The principal concern of SFB 441 are the empirical data structures which feed into linguistic theory building. SFB 441 consists of several projects, most of which are building corpora to empirically investigate various linguistic phenomena in various languages (e.g. modal verbs in German, forms of address and politeness in Russian). These corpora will form the components of the "Tuebingen collection of reusable, empirical, linguistic data structures (TUSNELDA)". The TUSNELDA annotation standard aims at providing a uniform encoding scheme for all subcorpora and texts of TUSNELDA such that they can be processed with uniform standardized tools. To guarantee maximal reusability we use XML for encoding. Previous SGML standards for text encoding were provided by the Text Encoding Initiative (TEI) and the Expert Advisory Group on Language Engineering Standards (Corpus Encoding Standard, CES). The TUSNELDA standard is based on TEI and XCES (XML version of CES) but takes into account the specific needs of the SFB projects, i.e. the peculiarities of the examined languages and linguistic phenomena.
-
Unity in diversity : integrating differing linguistic data in TUSNELDA
(2005)
- This paper describes the creation and preparation of TUSNELDA, a collection of corpus data built for linguistic research. This collection contains a number of linguistically annotated corpora which differ in various aspects such as language, text sorts / data types, encoded annotation levels, and linguistic theories underlying the annotation. The paper focuses on this variation on the one hand and the way how these heterogeneous data are integrated into one resource on the other hand.
