Refine
Year of publication
- 2008 (2) (remove)
Document Type
- Conference Proceeding (1)
- Preprint (1)
Has Fulltext
- yes (2)
Is part of the Bibliography
- no (2) (remove)
Keywords
- Arabisch (2) (remove)
Institute
- Extern (1)
The problem of vocalization, or diacritization, is essential to many tasks in Arabic NLP. Arabic is generally written without the short vowels, which leads to one written form having several pronunciations with each pronunciation carrying its own meaning(s). In the experiments reported here, we define vocalization as a classification problem in which we decide for each character in the unvocalized word whether it is followed by a short vowel. We investigate the importance of different types of context. Our results show that the combination of using memory-based learning with only a word internal context leads to a word error rate of 6.64%. If a lexical context is added, the results deteriorate slowly.
In der arabischen Welt herrscht eine sehr alte und stabile Situation der Diglossie, d.h. des funktional geregelten Nebeneinanders von zwei historischen Entwicklungsstufen der gleichen Sprache. Das Moderne Hocharabisch ist eine konservierte Form des Klassischen Arabisch. Es genießt hohes Ansehen und dient als Schriftsprache, wird aber nicht muttersprachlich erworben, sondern durch Unterricht erlernt. Im mündlichen und informellen Bereich werden die jeweiligen Dialekte verwendet; sie sind die natürliche Muttersprache der Bevölkerung, genießen jedoch keinerlei Ansehen. Da die Hochsprache in ihrer äußeren Form nicht verändert werden darf, aber auch die Dialekte sich nicht zu modernen geschriebenen Volkssprachen entwickeln dürfen, scheint die Diglossiesituation für alle Zeit festgeschrieben. Dadurch ist das Überleben der Dialekte gesichert, obgleich sie sich untereinander stärker annähern. Die Geringschätzung der Dialekte in der arabischen Welt bedingt auch eine Ablehnung der Dialektologie. Deshalb war die arabische Dialektologie immer eine Domäne westlicher Forscher, doch nun deutet sich auch im Westen ihr Niedergang an.