Refine
Year of publication
Document Type
- Article (23)
- Part of a Book (10)
- Review (8)
- Conference Proceeding (4)
- Working Paper (1)
Language
- German (37)
- English (4)
- Portuguese (4)
- Croatian (1)
Has Fulltext
- yes (46)
Is part of the Bibliography
- no (46)
Keywords
- Korpus <Linguistik> (46) (remove)
Institute
- Extern (2)
In dem Beitrag wird am Beispiel von zwei Emotionsverben des Deutschen und Tschechischen exemplarisch der Frage nachgegangen, wie typische Kollokationen zum Emotionswortschatz für die Belange eines zweisprachigen (tschechischdeutschen und deutsch-tschechischen) (Lerner-)Wörterbuches zu ermitteln sind. Im Mittelpunkt des Interesses befinden sich Kollokationen des Strukturtyps Verb + Adverb, weil dieser Typ von der Forschung bis jetzt nur ungenügend beachtet wurde. In einem ersten Schritt wird die Beschreibungspraxis in neueren ein- und zweisprachigen Wörterbüchern untersucht. In einem zweiten Schritt werden die Ergebnisse der Kookkurrenzanalyse zu den ausgewählten Ausdrücken anhand des Deutschen Referenzkorpus des IDS Mannheim und des Tschechischen Nationalkorpus ausgewertet. Zum Schluss werden aus den Ergebnissen der Gegenüberstellung Beschreibungsvorschläge für die lexikographische Praxis gemacht.
We present an effort for the development of multilingual named entity grammars in a unification-based finite-state formalism (SProUT). Following an extended version of the MUC7 standard, we have developed Named Entity Recognition grammars for German, Chinese, Japanese, French, Spanish, English, and Czech. The grammars recognize person names, organizations, geographical locations, currency, time and date expressions. Subgrammars and gazetteers are shared as much as possible for the grammars of the different languages. Multilingual corpora from the business domain are used for grammar development and evaluation. The annotation format (named entity and other linguistic information) is described. We present an evaluation tool which provides detailed statistics and diagnostics, allows for partial matching of annotations, and supports user-defined mappings between different annotation and grammar output formats.
This paper deals with spelling normalization of historical texts with regard to further processing with modern part-of-speech taggers. Different methods for this task are presented and evaluated on a set of historical German texts from the 15th–18th century, and specific problems inherent to the processing of historical data are discussed. A chain combination using word-based and character-based techniques is shown to be best for normalization, while POS tagging of normalized data is shown to benefit from ignoring punctuation marks. Using these techniques, when 500 manually normalized tokens are used as training data for the normalization, the tagging accuracy of a manuscript from the 15th century can be raised from 28.65% to 76.27%.
Die vorliegende Studie setzt sich mit dem Adjektiv "neu" und seinem slowakischen Äquivalent "nový" systembezogen und pragmatisch auseinander. Wir befassen uns kontrastiv mit der Bedeutungsstruktur, mit der Kollokabilität und lexikographischen Auffassung dieser Adjektive. Um alle erwähnten Ebenen in ihrer Komplexität zu erfassen, darf man sie nicht voneinander getrennt untersuchen. Bei unserer Untersuchung gehen wir von der kodifizierten Bedeutung aus, die wir mit der realen Sprachverwendung vergleichen und ihre Anwendbarkeit an der aus den Korpora gewonnenen Daten überprüfen. Bei unserer kontrastiven Vorhegensweise ist der Ausgangspunkt die Auslegung der slowakischen Bedeutungsbeschreibung der lexikalischen Einheit "nový". Zunächst erweitert sich der Forschungsgegenstand um den Vergleich der jeweiligen Erläuterungen der deutschen lexikalischen Einheit "neu" in verschiedenen deutschen Wörterbüchern. Im Anschluss an die semantische Analyse der einzelnen Adjektive in den zwei von uns ausgewählten Sprachen überprüfen wir, ob und inwiefern bei der Bedeutungsbeschreibung der Übersetzungsäquivalente "nový" und "neu" eine analogische Auslegung verwendbar ist.
Wie sich Konzessivkonnektoren im 18. und 19. Jh. entwickelt haben, untersuchen Lisa Bürgerhoff, Jana Giesenschlag, Linda Kunow und Alexandra Kern für ihren Beitrag "Von ob ich schon wanderte zu obschon ich wanderte?! - Eine Korpusuntersuchung zur Konzessivität von 1700-1900". Ihre Untersuchungen im Deutschen Textarchiv zeigen unter anderem einen Zusammenhang zwischen der Zusammenschreibung der Konnektoren und einer eindeutig konzessiven Lesart, der für obschon, obgleich, obwohl und obzwar allerdings unterschiedlich stark ist. Auch die Faktizität der Teilsätze und das Auftreten verstärkender Partikeln sind für die Entwicklung der ob-Gruppe von Bedeutung. Als eindeutigste und frequenteste Konzessivkonnektoren stellen sich insgesamt obwohl und vor allem obzwar heraus.
Das Thema fokussiert die Problematik der binären Präposition-Substantiv-Wortverbindungen (PWV) und -Wortverbindungsmuster (PWVM) mit ihren rekurrenten Kollokationspartnern und syntagmatischen Kontextmustern. Untersucht werden deutsche präpositionale Wortverbindungen, bei denen die interne Stelle zwischen der Präposition und dem Nomen überproportional häufig nicht mit einem Artikel besetzt ist. Solche Kombinationen kann man als autonome Einheiten auffassen und als feste Wortverbindungen untersuchen. Die Analyse stützt sich auf die Daten in der PRECON Datenbank, die vom Projekt Usuelle Wortverbindungen (UWV) modular erarbeitet wurde. Der im vorliegenden Artikel präsentierte empirische Zugang wirft ein neues Licht auf die Bestimmung der Äquivalenz, was bisher bei der Festlegung des sogenannten Systemäquivalents gar nicht oder nur annähernd beschrieben werden konnte. Das methodologische und lexikographische Novum beim Kontrastieren ist die Erweiterung der Beschreibung der Kernbedeutung(en) und ihrer Kernäquivalente um die Gebrauchsspezifika der Verwendung der äquivalenten PWV(M). Die korpusempirischen Analysen bestätigen die heute vertretene These, dass sich die Bedeutungs- und andere Gebrauchsaspekte nur schwer trennen lassen. Für die adäquate Beschreibung einer fremdsprachigen Einheit sind somit die verfestigte sprachliche Struktur, die verfestigte sprachliche Umgebung, die verfestigten situativ-kontextuellen Gebrauchsspezifika und die usualisierten Kontextmuster wichtig, in die die kontrastierten PWV eingebettet sind.
O modo como a mídia representa migrantes e refugiados desempenha um papel importante na percepção e recepção desse grupo em seu novo país (Ferreira/ Flister, 2019). Este estudo visa a problematizar o olhar da mídia online sobre imigração e refúgio no quadro de uma discussão sobre o tema a partir de uma perspectiva teórica da linguística cognitiva, por meio da análise de metáforas conceituais utilizadas por dois jornais online (um brasileiro e outro alemão) em torno da conceitualização do termo 'refúgio' ('Flucht' em alemão). Este estudo foi desenvolvido com apoio de metodologia da linguística de corpus. Nosso objetivo é contrastar os usos linguísticos em dois contextos culturais e pragmáticos distintos, i.e. a cultura brasileira e a cultura alemã respectivamente, por meio da análise de mapeamentos metafóricos sobre refúgio e imigração na mídia online através de enquadramentos metafóricos presentes nesses jornais. Algumas questões que pretendemos responder são: Que frames e que metáforas surgem na mídia online brasileira e alemã, a exemplo dos jornais online "Folha de São Paulo" (FSP), no Brasil, e o jornal online "Frankfurter Allgemeine Online" (FaZ) na Alemanha, para representar o conceito refúgio? Quais são suas implicações? Os resultados apontaram o uso de frames e metáforas do domínio experiencial DESASTRES/ FENÔMENOS NATURAIS com conotação negativa como 'ondas de imigração', 'avalanche imigratória', 'Flüchtlingsströme' ('correntes de refugiados') e 'Flüchtlingsbestie' ('monstro refugiado').