Refine
Year of publication
- 2003 (1)
Document Type
- Doctoral Thesis (1)
Language
- German (1)
Has Fulltext
- yes (1)
Is part of the Bibliography
- no (1)
Institute
- Physik (1)
Das zeitdiskrete Rohrmodell besitzt für die Modellierung der menschlichen Sprachproduktion eine wichtige theoretische und praktische Bedeutung, da es ein mathematisch handhabbares Modell darstellt und zugleich eine vereinfachte akustische Beschreibung des Sprechtraktes beinhaltet. Dies ist einerseits begründet durch die modellhafte Beschreibung der Ausbreitung von ebenen Wellen durch den Sprechtrakt und andererseits in der Darstellung des Rohrmodells als zeitdiskretes lineares System. Erst durch die Verfügbarkeit von adäquaten Schätzalgorithmen, welche die Modellparameter aus dem Sprachsignal bestimmen, ist das Rohrmodell für Anwendungen in der Sprachverarbeitung interessant. Diese liegen allerdings nur für die einfachsten unverzweigten Rohrmodelle vor, welche den Sprechtrakt nur stark vereinfacht modellieren. Für erweiterte Rohrmodelle existieren nur in eingeschränkter Weise adäquate Schätzalgorithmen, mit denen die Modellparameter aus dem Sprachsignal geschätzt werden können. Daher wird mit dieser Arbeit versucht diesen Mißstand aufzulösen, wofür Schätzalgorithmen auch für erweiterte Rohrmodelle entwickelt und vorgestellt werden. Die Erweiterungen des Rohrmodells beziehen sich auf Rohrverzweigungen, die auch mehrfach auftreten können, und Rohrabschlüsse, die frequenzabhängig oder zeitvariabel sein können. Zusätzlich werden Sprechtraktmodelle behandelt, die zwei Systemausgänge aufweisen. Dies wird für Analysen von getrennt aufgenommenen Mund- und Nasensignalen von nasalierten Lauten diskutiert, um die Lippen- und Nasenabstrahlung einzeln zu berücksichtigen. Ebenso werden verzweigte Modelle mit zwei Systemausgängen für eine Beschreibung des Nasaltraktes unter Berücksichtigung der beiden Nasengänge behandelt. Die Erweiterungen des Rohrmodells durch Verzweigungen und angepaßte Rohrabschlüsse ermöglichen eine genauere Beschreibung des Sprechtraktes infolge der Verzweigungen durch den Nasaltrakt und infolge der Abschlüsse an den Lippen, Nasenlöchern und der Glottis. Die Parameterbestimmung wird durch Minimierung eines Fehlers durchgeführt, welcher ein spektrales Abstandsmaß zwischen dem Rohrmodell und dem analysierten Sprachsignal darstellt. Für die Definition des Fehlers wird die inverse Filterung herangezogen, welche eine Leistungsminimierung des Ausgangssignals des inversen Systems beinhaltet. Dabei hat sich gezeigt, daß die Fehlerdefinition der inversen Filterung modifiziert werden muß, um auch erfolgreich auf erweiterte Rohrmodelle angewendet werden zu können. Die Modifikation kann für erweiterte Rohrmodelle einheitlich für den zeitinvarianten und zeitvariablen Fall vorgestellt werden. Über den allgemeinen Ansatz der Schätzung hinaus werden auch effiziente Schätzverfahren für ausgewählte Rohrstrukturen und allgemeine Pol-Nullstellen-Systeme vorgestellt. Die diskutierten Schätzverfahren ermöglichen eine gute Approximation der Sprachspektren durch die Modellbetragsgänge. Darüber hinaus konnte auch gezeigt werden, daß durch entsprechende Rohrmodellstrukturen und eine geeignete Vorverarbeitung des Sprachsignals realistische Querschnittsflächen des Sprechtraktes geschätzt werden können. Daher eignen sich die erweiterten Sprechtraktmodelle auch für die Sprachproduktion. In Synthesebeispielen wurden Lautübergänge auf der Basis von geschätzten Vokaltraktflächen realisiert und in Resynthesebeispielen mittels unverzweigter Rohrmodelle wurde insbesondere die Anregung der Modelle diskutiert. Daß durch die Verwendung von Rohrmodellen auch Lauttransformationen möglich sind, zeigt die vorgestellte künstliche Nasalierung von Sprachsignalen unnasalierter Laute, welche mittels verzweigter Rohrmodelle und Analysen von getrennt aufgenommenen Mund- und Nasensignalen erreicht werden konnte.