Refine
Document Type
- Doctoral Thesis (4)
Language
- German (4)
Has Fulltext
- yes (4)
Is part of the Bibliography
- no (4)
Keywords
- Akustik (2)
- Angewandte Physik (1)
- Beamforming (1)
- Breitbandigkeit (1)
- Broadband (1)
- Differential Arrays (1)
- Finite-Differenzen (1)
- Fractional Delay Filters (1)
- Fractional-Delay-Filter (1)
- Historie (1)
Institute
- Physik (4)
Das zeitdiskrete Rohrmodell besitzt für die Modellierung der menschlichen Sprachproduktion eine wichtige theoretische und praktische Bedeutung, da es ein mathematisch handhabbares Modell darstellt und zugleich eine vereinfachte akustische Beschreibung des Sprechtraktes beinhaltet. Dies ist einerseits begründet durch die modellhafte Beschreibung der Ausbreitung von ebenen Wellen durch den Sprechtrakt und andererseits in der Darstellung des Rohrmodells als zeitdiskretes lineares System. Erst durch die Verfügbarkeit von adäquaten Schätzalgorithmen, welche die Modellparameter aus dem Sprachsignal bestimmen, ist das Rohrmodell für Anwendungen in der Sprachverarbeitung interessant. Diese liegen allerdings nur für die einfachsten unverzweigten Rohrmodelle vor, welche den Sprechtrakt nur stark vereinfacht modellieren. Für erweiterte Rohrmodelle existieren nur in eingeschränkter Weise adäquate Schätzalgorithmen, mit denen die Modellparameter aus dem Sprachsignal geschätzt werden können. Daher wird mit dieser Arbeit versucht diesen Mißstand aufzulösen, wofür Schätzalgorithmen auch für erweiterte Rohrmodelle entwickelt und vorgestellt werden. Die Erweiterungen des Rohrmodells beziehen sich auf Rohrverzweigungen, die auch mehrfach auftreten können, und Rohrabschlüsse, die frequenzabhängig oder zeitvariabel sein können. Zusätzlich werden Sprechtraktmodelle behandelt, die zwei Systemausgänge aufweisen. Dies wird für Analysen von getrennt aufgenommenen Mund- und Nasensignalen von nasalierten Lauten diskutiert, um die Lippen- und Nasenabstrahlung einzeln zu berücksichtigen. Ebenso werden verzweigte Modelle mit zwei Systemausgängen für eine Beschreibung des Nasaltraktes unter Berücksichtigung der beiden Nasengänge behandelt. Die Erweiterungen des Rohrmodells durch Verzweigungen und angepaßte Rohrabschlüsse ermöglichen eine genauere Beschreibung des Sprechtraktes infolge der Verzweigungen durch den Nasaltrakt und infolge der Abschlüsse an den Lippen, Nasenlöchern und der Glottis. Die Parameterbestimmung wird durch Minimierung eines Fehlers durchgeführt, welcher ein spektrales Abstandsmaß zwischen dem Rohrmodell und dem analysierten Sprachsignal darstellt. Für die Definition des Fehlers wird die inverse Filterung herangezogen, welche eine Leistungsminimierung des Ausgangssignals des inversen Systems beinhaltet. Dabei hat sich gezeigt, daß die Fehlerdefinition der inversen Filterung modifiziert werden muß, um auch erfolgreich auf erweiterte Rohrmodelle angewendet werden zu können. Die Modifikation kann für erweiterte Rohrmodelle einheitlich für den zeitinvarianten und zeitvariablen Fall vorgestellt werden. Über den allgemeinen Ansatz der Schätzung hinaus werden auch effiziente Schätzverfahren für ausgewählte Rohrstrukturen und allgemeine Pol-Nullstellen-Systeme vorgestellt. Die diskutierten Schätzverfahren ermöglichen eine gute Approximation der Sprachspektren durch die Modellbetragsgänge. Darüber hinaus konnte auch gezeigt werden, daß durch entsprechende Rohrmodellstrukturen und eine geeignete Vorverarbeitung des Sprachsignals realistische Querschnittsflächen des Sprechtraktes geschätzt werden können. Daher eignen sich die erweiterten Sprechtraktmodelle auch für die Sprachproduktion. In Synthesebeispielen wurden Lautübergänge auf der Basis von geschätzten Vokaltraktflächen realisiert und in Resynthesebeispielen mittels unverzweigter Rohrmodelle wurde insbesondere die Anregung der Modelle diskutiert. Daß durch die Verwendung von Rohrmodellen auch Lauttransformationen möglich sind, zeigt die vorgestellte künstliche Nasalierung von Sprachsignalen unnasalierter Laute, welche mittels verzweigter Rohrmodelle und Analysen von getrennt aufgenommenen Mund- und Nasensignalen erreicht werden konnte.
Die Dissertation betrachtet zunächst die Anatomie der Lautentstehung und die Historie von Untersuchungen zu Sprechtraktakustik (u.a. Ibn Sina, Hook, Mical, Kratzenstein, Kempelen, Faber, Wheatstone, Helmholz, Riesz, Dunn, Chiba, Kajiyama, Kelly, Lochbaum, Saito, Itakura, Burg ) und geht insbesondere auf das Rohrmodell zu Beschreibung der Vokaltraktakustik ein.
Mittels Finiter-Differenzen wird die Aksutik der Sprechens dann dreidimensional beschrieben, und die zuätzlich auftretenden Effekte betrachtet. Fur die sich beim Sprechen schnell bewegende Mundhöhle wird ein Verfahren entwickelt und untersucht, mittels Sprachsignalen durch inverse Filterung und MRT-Aufnahmen die räumliche Konfiguration zu bestimmen. Für den Nasaltrakt wurden dreidimensional abbildende Verfahren aus der medizinischen Diagnostik verglichen (MRT und CT), und anhand eines Computer-Tomographischen Datensatzes die akustischen Vorgänge dreidimensional bestimmt.
Breitbandige Beamforming-Algorithmen zur Erfassung von Audiosignalen mit kompakten Mikrofon-Arrays
(2009)
Mikrofon-Arrays erlauben die selektive Erfassung und Trennung von Audiosignalen aus einer akustischen Umgebung. Typische Anwendungen sind z.B. die Ortung einzelner Schallquellen, die räumliche Kartierung eines Schallfeldes ("akustische Kamera") oder der gerichtete Empfang einer bestimmten Schallquelle bei gleichzeitiger Unterdrückung von Umgebungs- oder Störschallen. Vielkanalige Verfahren und Filter, die sich dieser Aufgabe widmen, werden als Beamforming bzw. Beamformer bezeichnet. In dieser Dissertation werden bekannte und eigene Beamforming-Ansätze im Hinblick auf ihre Eignung für die hochwertige Übertragung von Audiosignalen untersucht. Diese erfordert neben einer möglichst großen Abdeckung des relevanten Frequenzbereichs (Breitbandigkeit) auch die Frequenzunabhängigkeit der Richtcharakteristik, um spektrale Verzerrungen zu vermeiden. Es wird ein Algorithmus vorgestellt, der diese Anforderungen mit sehr kompakten Arrays erfüllt. Eine klassische Möglichkeit, eine frequenzinvariante Charakteristik (Beampattern) mithilfe eines Delay-and-Sum-Beamformers zu erhalten, ist eine frequenzabhängige Gewichtung der Mikrofone, welche die effektive Apertur des Arrays proportional zur Schallwellenlänge einstellt. Diese Methode funktioniert jedoch nur bei Wellenlängen, die kleiner sind als die Ausdehnung des Arrays, und erfordert bei Frequenzen unter 100Hz Arrays von mehreren Metern Größe. Ein gänzlich anderes Verhalten zeigen differentielle Mikrofonarrays, welche Differenzen aus Signalen benachbarter Mikrofone bilden: In Kombination mit Integratorfiltern erzeugen sie Beampattern, die auch bei sehr kleinen Frequenzen, d.h. bei Wellenlängen, die groß gegen das Array sind, unverändert bleiben (sog. Superdirektivität). Aus diesem Prinzip wurde in dieser Arbeit das Konzept des Multipol-Beamformers entwickelt, der ein gegebenes Soll-Beampattern durch eine Reihenentwicklung nach Sinus- und Kosinusfunktionen (zweidimensionaler Fall) oder Kugelflächenfunktionen (dreidimensionaler Fall) approximiert. Der Multipol-Beamformer erzielt eine hervorragende Richtwirkung bei kleinen Frequenzen, ist jedoch nur über einen sehr begrenzten Bereich frequenzinvariant und erweist sich insbesondere in drei Raumdimensionen als analytisch aufwändig. Flexibler und in zwei wie in drei Raumdimensionen gleichermaßen einfach in der Formulierung ist demgegenüber das in der Literatur zu findende Verfahren des modalen Subraum-Beamformings (Modal Subspace Decomposition, MSD). Dieser Ansatz bestimmt zu einer beliebigen Sensorgeometrie einen Satz orthogonaler Eigen-Beampattern, die dann zu einer Reihenentwicklung des Soll-Beampatterns herangezogen werden. Ähnlich dem erwähnten Delay-and-Sum-Beamformer jedoch erfordert auch dieser Ansatz bei großen Wellenlängen entsprechend groß dimensionierte Arrays und ist nicht superdirektiv. In dieser Arbeit wurde deshalb eine eigene, neue Ausprägung des MSD-Algorithmus formuliert, welche die Superdirektivität des Multipol-Beamformers mit der Flexibilität und Einfachheit des MSD-Verfahrens vereint. Diese als "superdirektives MSD-Beamforming" bezeichnete Methode besitzt - wie das bereits bekannte MSD-Verfahren auch - die interessante Eigenschaft, daß die Eigen-Beampattern für ein frei zu wählendes Entwurfs-Frequenzband berechnet werden, so daß das Verhalten des Beamformers über ein ganzes Frequenzintervall kontrolliert werden kann. Dies eröffnet auch die Möglichkeit eines sehr breitbandigen Beamformings durch Kombination mehrerer Beamformer, die individuell auf benachbarte Frequenzbänder abgestimmt werden. Mit beispielsweise einem hexagonalen Array von nur 6cm Durchmesser und sieben Mikrofonen erreicht der superdirektive Ansatz so ca. 20-30dB Störabstand über einen Frequenzbereich von 100Hz bis 6kHz, was für Sprache eine sehr hohe Übertragungsqualität darstellt. Zur experimentellen Verifikation der untersuchten Algorithmen wurde im Rahmen dieser Arbeit eine vielkanalige Echtzeit-Signalverarbeitungsumgebung unter Windows XP erstellt, welche die Erfassung, Verarbeitung, Analyse und Ausgabe vielkanaliger Audio-Daten erlaubt. Auch eine Simulation idealer Freifeldmessungen an Mikrofonarrays ist damit möglich, indem die Ausbreitung des Schalls von der Schallquelle zu den Mikrofonen durch zeitdiskrete Fractional-Delay-Filter simuliert wird. Dieser Filtertypus wurden im Rahmen dieser Arbeit ebenfalls eingehend untersucht: Für zwei aus der Literatur bekannte Entwurfsverfahren wurden Erweiterungen gefunden, die bei gleicher Filterordnung eine höhere nutzbare Bandbreite erzielen. Für Messungen an realen Arrays wurde die Akustik-Messkammer des Instituts durch zusätzliche Dämmauskleidung für Freifeld-Messungen nutzbar gemacht. Die Messergebnisse belegen, daß die untersuchten Algorithmen in der Praxis erwartungsgemäß funktionieren und daß der gefundene superdirektive MSD-Algorithmus mit sehr kompakten Arrays eine gute breitbandige Erfassung und Trennung von Audiosignalen ermöglicht.