Refine
Document Type
- Doctoral Thesis (6)
Language
- German (6)
Has Fulltext
- yes (6)
Is part of the Bibliography
- no (6)
Keywords
- Akustik (2)
- Angewandte Physik (1)
- Beamforming (1)
- Breitbandigkeit (1)
- Broadband (1)
- Differential Arrays (1)
- Finite-Differenzen (1)
- Fractional Delay Filters (1)
- Fractional-Delay-Filter (1)
- Historie (1)
Institute
- Physik (6)
Das zeitdiskrete Rohrmodell besitzt für die Modellierung der menschlichen Sprachproduktion eine wichtige theoretische und praktische Bedeutung, da es ein mathematisch handhabbares Modell darstellt und zugleich eine vereinfachte akustische Beschreibung des Sprechtraktes beinhaltet. Dies ist einerseits begründet durch die modellhafte Beschreibung der Ausbreitung von ebenen Wellen durch den Sprechtrakt und andererseits in der Darstellung des Rohrmodells als zeitdiskretes lineares System. Erst durch die Verfügbarkeit von adäquaten Schätzalgorithmen, welche die Modellparameter aus dem Sprachsignal bestimmen, ist das Rohrmodell für Anwendungen in der Sprachverarbeitung interessant. Diese liegen allerdings nur für die einfachsten unverzweigten Rohrmodelle vor, welche den Sprechtrakt nur stark vereinfacht modellieren. Für erweiterte Rohrmodelle existieren nur in eingeschränkter Weise adäquate Schätzalgorithmen, mit denen die Modellparameter aus dem Sprachsignal geschätzt werden können. Daher wird mit dieser Arbeit versucht diesen Mißstand aufzulösen, wofür Schätzalgorithmen auch für erweiterte Rohrmodelle entwickelt und vorgestellt werden. Die Erweiterungen des Rohrmodells beziehen sich auf Rohrverzweigungen, die auch mehrfach auftreten können, und Rohrabschlüsse, die frequenzabhängig oder zeitvariabel sein können. Zusätzlich werden Sprechtraktmodelle behandelt, die zwei Systemausgänge aufweisen. Dies wird für Analysen von getrennt aufgenommenen Mund- und Nasensignalen von nasalierten Lauten diskutiert, um die Lippen- und Nasenabstrahlung einzeln zu berücksichtigen. Ebenso werden verzweigte Modelle mit zwei Systemausgängen für eine Beschreibung des Nasaltraktes unter Berücksichtigung der beiden Nasengänge behandelt. Die Erweiterungen des Rohrmodells durch Verzweigungen und angepaßte Rohrabschlüsse ermöglichen eine genauere Beschreibung des Sprechtraktes infolge der Verzweigungen durch den Nasaltrakt und infolge der Abschlüsse an den Lippen, Nasenlöchern und der Glottis. Die Parameterbestimmung wird durch Minimierung eines Fehlers durchgeführt, welcher ein spektrales Abstandsmaß zwischen dem Rohrmodell und dem analysierten Sprachsignal darstellt. Für die Definition des Fehlers wird die inverse Filterung herangezogen, welche eine Leistungsminimierung des Ausgangssignals des inversen Systems beinhaltet. Dabei hat sich gezeigt, daß die Fehlerdefinition der inversen Filterung modifiziert werden muß, um auch erfolgreich auf erweiterte Rohrmodelle angewendet werden zu können. Die Modifikation kann für erweiterte Rohrmodelle einheitlich für den zeitinvarianten und zeitvariablen Fall vorgestellt werden. Über den allgemeinen Ansatz der Schätzung hinaus werden auch effiziente Schätzverfahren für ausgewählte Rohrstrukturen und allgemeine Pol-Nullstellen-Systeme vorgestellt. Die diskutierten Schätzverfahren ermöglichen eine gute Approximation der Sprachspektren durch die Modellbetragsgänge. Darüber hinaus konnte auch gezeigt werden, daß durch entsprechende Rohrmodellstrukturen und eine geeignete Vorverarbeitung des Sprachsignals realistische Querschnittsflächen des Sprechtraktes geschätzt werden können. Daher eignen sich die erweiterten Sprechtraktmodelle auch für die Sprachproduktion. In Synthesebeispielen wurden Lautübergänge auf der Basis von geschätzten Vokaltraktflächen realisiert und in Resynthesebeispielen mittels unverzweigter Rohrmodelle wurde insbesondere die Anregung der Modelle diskutiert. Daß durch die Verwendung von Rohrmodellen auch Lauttransformationen möglich sind, zeigt die vorgestellte künstliche Nasalierung von Sprachsignalen unnasalierter Laute, welche mittels verzweigter Rohrmodelle und Analysen von getrennt aufgenommenen Mund- und Nasensignalen erreicht werden konnte.
Die Dissertation betrachtet zunächst die Anatomie der Lautentstehung und die Historie von Untersuchungen zu Sprechtraktakustik (u.a. Ibn Sina, Hook, Mical, Kratzenstein, Kempelen, Faber, Wheatstone, Helmholz, Riesz, Dunn, Chiba, Kajiyama, Kelly, Lochbaum, Saito, Itakura, Burg ) und geht insbesondere auf das Rohrmodell zu Beschreibung der Vokaltraktakustik ein.
Mittels Finiter-Differenzen wird die Aksutik der Sprechens dann dreidimensional beschrieben, und die zuätzlich auftretenden Effekte betrachtet. Fur die sich beim Sprechen schnell bewegende Mundhöhle wird ein Verfahren entwickelt und untersucht, mittels Sprachsignalen durch inverse Filterung und MRT-Aufnahmen die räumliche Konfiguration zu bestimmen. Für den Nasaltrakt wurden dreidimensional abbildende Verfahren aus der medizinischen Diagnostik verglichen (MRT und CT), und anhand eines Computer-Tomographischen Datensatzes die akustischen Vorgänge dreidimensional bestimmt.
In dieser Arbeit wurden Verfahren zur Identifikation hirnelektrischer Aktivität mit Zellularen Nichtlinearen Netzwerken (CNN), im Besonderen Reaktions-Diffusions-Netzwerken, entwickelt und untersucht. Mit Hilfe der eingeführten Methoden wurden Langzeitaufzeichnungen hirnelektrischer Aktivität bei Epilepsie analysiert und mittels eines automatisierten Verfahrens ermittelt, inwieweit sich mögliche Voranfallszustände vom anfallsfreien Zustand im statistischen Sinne trennen lassen.
Zunächst wurde ein Überblick über CNN gegeben und deren Beschreibung durch Systeme gekoppelter Differentialgleichungen dargestellt. Weiterhin wurden die Möglichkeiten der Informationsverarbeitung mit CNN durch Ausnutzung von Gleichgewichtszuständen oder der vollständigen raum-zeitlichen Dynamik der Netzwerke diskutiert. Zusätzlich wurde die Klasse der Reaktions-Diffusions-Netzwerke (RD-CNN) eingeführt. Für die Repräsentation der hierbei benötigten weitgehend allgemeinen nichtlinearen Zellkopplungsvorschriften wurden polynomiale Gewichtsfunktionen vorgeschlagen. Mit einer Darstellung der Theorie der Lokalen Aktivität wurden notwendige Bedingungen für emergentes Verhalten in RD-CNN angegeben. Die statistische Bewertung von Vorhersagemodellen wurde aus theoretischer Sicht beleuchtet. Mit der Receiver Operating Characteristic (ROC) wurde eine Analysemethode zur Beurteilung der Vorhersagekraft des zeitlichen Verlaufs von Kenngrößen bezüglich bevorstehender epileptischer Anfälle vorgestellt.
Als nächstes wurden Überlegungen zur numerischen Simulation von CNN und deren flexible und erweiterbare programmtechnische Umsetzung entwickelt. Die daraus resultierende und im Rahmen dieser Arbeit entstandene objektorientierte Simulationsumgebung FORCE++ wurde konzeptionell und im Hinblick auf die Softwarearchitektur vorgestellt.
Die Verfahren zur numerischen Simulation wurden auf die Problemstellung der Systemidentifikation mit CNN angewandt. Dazu wurden Netzwerke derart bestimmt, dass deren Zellausgangswerte entsprechende Signalwerte des beobachteten, zu identifizierenden Systems approximieren.
Da die Parameter der zu bestimmenden CNN im vorliegenden Fall der Untersuchung hirnelektrischer Aktivität nicht bekannt sind und nicht direkt abgeleitet werden können, wurden überwachte Lernverfahren zur Bestimmung der Netzwerke eingesetzt. Hierbei wurden Lernverfahren verschiedener Klassen für die Identifikation mit CNN mit polynomialen Gewichtsfunktionen untersucht. Die Leistungsfähigkeit des vorgestellten Identifikationsverfahrens wurde anhand bekannter Systeme einer genauen Betrachtung unterzogen. Dabei wurde festgestellt, dass die betrachteten Systeme mit hoher Genauigkeit durch CNN repräsentiert werden konnten. Exemplarisch wurde das Parametergebiet lokaler Aktivität für ein RD-CNN berechnet und durch numerische Simulationen die Ausbildung von Mustern innerhalb des Netzwerkes nachgewiesen.
Nach einem einleitenden Überblick über die medizinischen Hintergründe von Epilepsie und der Erfassung hirnelektrischer Aktivität wurde eine vergleichende Übersicht über den Stand veröffentlichter Studien zur Vorhersage epileptischer Anfälle gegeben. Für die Anwendung des hier vorgestellten Identifikationsverfahrens zur Analyse hirnelektrischer Aktivität wurde zunächst die Genauigkeit der Approximation kurzer, als quasi-stationär betrachteter Abschnitte, von EEG-Signalen untersucht. Durch gezielte Erhöhung der Komplexität herangezogener Netzwerke konnte hier die Genauigkeit der Repräsentation von EEG-Signalverläufen deutlich verbessert werden. Dabei wurde zudem die Verallgemeinerungsfähigkeit der ermittelten Netzwerke untersucht, wobei festgestellt wurde, dass auch solche Signalwerte mit guter Genauigkeit approximiert werden, die nicht im Identifikationsverfahren durch die überwachte Parameteroptimierung berücksichtigt waren. Um speziell den Einfluss der Information aus der Korrelation benachbarter Elektrodensignale zu untersuchen, wurde ein Verfahren zur multivariaten Prädiktion mit Discrete Time CNN (DT-CNN) entwickelt.
Hierbei werden durch ein CNN Signalwerte der betrachteten Elektrode aus vergangenen, korrelierten Signalwerten von Nachbarelektroden geschätzt. Für diese Aufgabenstellung konnte eine Methode zur Bestimmung der Netzwerkparameter im optimalen Sinn, alleine aus den statistischen Eigenschaften der Elektrodensignale angegeben werden. Dadurch gelang eine erhebliche Reduzierung der Rechenkomplexität, die eine umfangreiche Untersuchung intrakranieller Langzeitableitungen ermöglichte.
Zur Analyse von Langzeitaufzeichnungen mit dem RD-CNN Identifikationsverfahren, wurden die numerischen Berechnungen zur Simulation von CNN mit FORCE++ auf einem durchsatz-orientierten Hochleistungs-Rechnernetzwerk durchgeführt. Mit den so gewonnen Ergebnissen konnten vergleichende Analysen vorgenommen werden. Zudem wurden Untersuchungen zum Vorliegen lokaler Aktivität in den ermittelten RD-CNN durchgeführt.
Die bei den beschriebenen Verfahren extrahierten Kenngrößen hirnelektrischer Aktivität wurden durch ein automatisiertes Verfahren auf ihre Vorhersagekraft für epileptische Anfälle bewertet. Dabei wurde untersucht, inwieweit der anfallsfreie Zustand und ein angenommener Voranfallszustand durch die jeweils betrachtete Kenngröße im statistischen Sinn diskriminiert werden kann. Durch parallele Analysen mit Anfallszeitsurrogaten wurden hierzu ergänzende Signifikanztests durchgeführt.
Nach Auswertung von mehrtägigen Hirnstromsignalen verschiedener Patienten konnte festgestellt werden, dass mit den in dieser Arbeit entwickelten Verfahren Kenngrößen hirnelektrischer Aktivität bestimmt werden konnten, welche offenbar die Identifikation potentieller Voranfallszustände ermöglichen.
Auch wenn für eine breite medizinische Anwendung die Spezifität und Sensitivität noch weiter verbessert werden muss, so können doch die erzielten Ergebnisse einen wesentlichen Schritt hin zu einer implantierbaren, CNN-basierten Plattform zur Erkennung und Verhinderung epileptischer Anfälle darstellen. Die Berechnungen für das Identifikationsverfahren mit RD-CNN könnten dabei durch zukünftige, spezialisierte schaltungstechnische Realisierungen für mehrschichtige CNN mit polynomialen Gewichtsfunktionen eine erhebliche Beschleunigung erfahren.
Zellulare Nichtlineare Netzwerke bzw. Zellulare Neuronale Netzwerke, sogenannte CNN, wurden 1988 von L.O. Chua und L.Yang eingeführt und seither intensiv untersucht. Diese sind als Simulations-Software und als schaltungstechnische Realisierungen, in Hardware, verfügbar.
Als analog arbeitende Hardware Schaltungen können diese Netzwerke erhebliche Rechenleistungen erzielen.
Durch ihren Aufbau ermöglichen sie eine parallele Daten- und Signalverarbeitung.
Eine Einführung in CNN wird gegeben und das EyeRIS 1.1 Systems des Unternehmens ANAFOCUS Ltd. vorgestellt.
Das EyeRIS 1.1 System ist mit einem analog arbeitenden Focal Plane Prozessor (FPP) und einem digitalen Prozessor ausgestattet, wobei der Focal Plane Prozessor auch als Kamera zur Aufnahme von Bildern und Bildsequenzen benutzt werden kann.
Dies ermöglicht es, analoge CNN-Algorithmen zusammen mit digitalen Algorithmen auf einem System zu implementieren und so die Vorteile beider Ansätze zu nutzen. Der Datenaustausch zwischen dem analogen und digitalem Teil des EyeRIS 1.1 Systems geschieht mittels digital/analog und analog/digital Wandlung. Es werden Algorithmen auf dem EyeRIS 1.1 System untersucht und mit Ergebnissen die mittels Simulationen erzeugt wurden verglichen.
In Voruntersuchungen werden die Darstellungsgenauigkeit von Werten im analogen Teil des EyeRIS 1.1 Systems und die Verarbeitungsgeschwindigkeiten des EyeRIS 1.1 Systems untersucht.
Im Weiteren wird besonderes Augenmerk auf medizinische und technische Anwendungsgebiete gelegt werden.
Im medizinischen Anwendungsbereich wird die Implementierung von Algorithmen zur Vorhersage epileptischer Anfälle untersucht.
Hierfür wird ein evolutionär motiviertes Optimierungsverfahren entwicklet und auf dem EyeRIS 1.1-System implementiert.
Hierbei werden Simulationen durchgeführt und mit Ergebnissen, die mittels Verwendung des EyeRIS 1.1 Systems erlangt wurden, verglichen.
Ein zweites Verfahren geht die Signalanalyse für die Vorhersage auf dem EyeRIS 1.1-System mittels Mustererkennung an.
Das Mustererkennungsverfahren wird eingehend beschrieben sowie die hierbei zu beachtenden Randbedingungen erläutert.
Die Ergebnisse zeigen, daß Algorithmen zur Vorhersage von epileptischen Anfällen auf schaltungstechnichen Realisierungen von CNN implementiert werden können.
Im technischen Bereich wird die Anwendbarkeit auf die Problemstellung der Bildverarbeitung gelegt und die Möglichkeit von CNN basierten Algorithmen zur Erkennung von Prozessparametern bei Laserschweißverfahren untersucht. Ein solcher Prozessparameter ist das sogenannte Key-Hole, welches in Bildsequenzen von Laserschweißprozessen als ein Maß für die zu erwartende Qualität einer Schweißnaht herangezogen werden kann. Ein CNN basierter Algorithmus für die Erkennung solcher Key-Holes wird in dieser Arbeit vorgestellt und untersucht.
Für die Überwachung eines Laserschweißverfahrens wird der entwickelte Algorithmius und seine Funktionsweise beschrieben.
Dieser wird in Teilalgorithmen auf die analog bzw. digital arbeitenden Komponenten des EyeRIS 1.1 Systems verteilt.
Die Teilalgorithmen und die möglichen Aufteilungen und deren Laufzeitverhalten werden beschrieben und untersucht.
Die Ergebnisse der Untersuchung zeigen, daß eine Prozessüberwachung mittels CNN möglich ist und heben die Vorteile hervor, welche die Bildaufnahme und -verarbeitung mittels analoger CNN-Hardware bietet.
Eine Untersuchung des Laufzeitverhaltens auf Grafikkarten Prozessoren (GPU's) wird im Anhang vorgestellt.
Epileptische Anfälle, unabhängig von ihrer Art und Auftrittshäufigkeit, bilden eine Symptomatik, welche bei ca. 1% der Weltbevölkerung auftritt. Hierbei kann es beispielsweise zu unkontrollierten Muskelkrämpfen kommen, ebenso aber zu einer Vielzahl anderer Symptome, die in ihrer Gesamtheit das Krankheitsbild der sogenannten Epileptogenesis bilden. Bei etwa zwei Drittel der an Epilepsie leidenden Patienten kann in vielen Fällen Anfallsfreiheit im Rahmen einer medikamentösen Therapie erreicht werden. Dies umso besser, wenn die Medikation präventiv zum geeigneten Zeitpunkt erfolgen könnte. Demzufolge würden in einer großen Anzahl von Fällen Patienten von einem System profitieren, das eine automatisierte zuverlässige Anfallsvorhersage ermöglicht. Bei nur 20% der anderen Patienten kann eine chirurgische Behandlung erfolgreich sein.
In dieser Arbeit soll eine weitergehende Untersuchung des im Institut für Angewandte Physik der Johann Wolfgang Goethe- Universität entwickelten Prädiktionsverfahrens an verschiedenen EEG-Registrierungen unterschiedlicher Patienten erfolgen. Dabei soll im speziellen untersucht werden, ob basierend auf den Resultaten einer Signalprädiktion eine Unterscheidung zwischen Voranfallszeitraum, Anfall und anfallsfreier Phase getroffen werden kann, und ob basierend auf den Kenngrößen eines Prädiktors und des Prädiktionsfehlers eine Merkmalsdefinition gefunden werden kann, welche in einem späteren, implantierbaren Frühwarnsystem eine automatisierte Anfallsvorhersage ermöglicht. Als Datenbasis sollen vier Langzeit-EEG-Registrierungen mit einer Länge von jeweils 5 – 10 Tagen zugrunde gelegt werden. Zur Prädiktion sollen zeitdiskrete, gedächtnisbehaftete, mehrschichtige Zellulare Nichtlineare Netzwerke herangezogen werden. Dabei soll insbesondere anhand von unterschiedlichen Netzwerken festgestellt werden, inwieweit mittels einer Signalprädiktion Synchronisationseffekte zwischen EEG-Signalen verschiedener Hirnareale festgestellt werden können.
Breitbandige Beamforming-Algorithmen zur Erfassung von Audiosignalen mit kompakten Mikrofon-Arrays
(2009)
Mikrofon-Arrays erlauben die selektive Erfassung und Trennung von Audiosignalen aus einer akustischen Umgebung. Typische Anwendungen sind z.B. die Ortung einzelner Schallquellen, die räumliche Kartierung eines Schallfeldes ("akustische Kamera") oder der gerichtete Empfang einer bestimmten Schallquelle bei gleichzeitiger Unterdrückung von Umgebungs- oder Störschallen. Vielkanalige Verfahren und Filter, die sich dieser Aufgabe widmen, werden als Beamforming bzw. Beamformer bezeichnet. In dieser Dissertation werden bekannte und eigene Beamforming-Ansätze im Hinblick auf ihre Eignung für die hochwertige Übertragung von Audiosignalen untersucht. Diese erfordert neben einer möglichst großen Abdeckung des relevanten Frequenzbereichs (Breitbandigkeit) auch die Frequenzunabhängigkeit der Richtcharakteristik, um spektrale Verzerrungen zu vermeiden. Es wird ein Algorithmus vorgestellt, der diese Anforderungen mit sehr kompakten Arrays erfüllt. Eine klassische Möglichkeit, eine frequenzinvariante Charakteristik (Beampattern) mithilfe eines Delay-and-Sum-Beamformers zu erhalten, ist eine frequenzabhängige Gewichtung der Mikrofone, welche die effektive Apertur des Arrays proportional zur Schallwellenlänge einstellt. Diese Methode funktioniert jedoch nur bei Wellenlängen, die kleiner sind als die Ausdehnung des Arrays, und erfordert bei Frequenzen unter 100Hz Arrays von mehreren Metern Größe. Ein gänzlich anderes Verhalten zeigen differentielle Mikrofonarrays, welche Differenzen aus Signalen benachbarter Mikrofone bilden: In Kombination mit Integratorfiltern erzeugen sie Beampattern, die auch bei sehr kleinen Frequenzen, d.h. bei Wellenlängen, die groß gegen das Array sind, unverändert bleiben (sog. Superdirektivität). Aus diesem Prinzip wurde in dieser Arbeit das Konzept des Multipol-Beamformers entwickelt, der ein gegebenes Soll-Beampattern durch eine Reihenentwicklung nach Sinus- und Kosinusfunktionen (zweidimensionaler Fall) oder Kugelflächenfunktionen (dreidimensionaler Fall) approximiert. Der Multipol-Beamformer erzielt eine hervorragende Richtwirkung bei kleinen Frequenzen, ist jedoch nur über einen sehr begrenzten Bereich frequenzinvariant und erweist sich insbesondere in drei Raumdimensionen als analytisch aufwändig. Flexibler und in zwei wie in drei Raumdimensionen gleichermaßen einfach in der Formulierung ist demgegenüber das in der Literatur zu findende Verfahren des modalen Subraum-Beamformings (Modal Subspace Decomposition, MSD). Dieser Ansatz bestimmt zu einer beliebigen Sensorgeometrie einen Satz orthogonaler Eigen-Beampattern, die dann zu einer Reihenentwicklung des Soll-Beampatterns herangezogen werden. Ähnlich dem erwähnten Delay-and-Sum-Beamformer jedoch erfordert auch dieser Ansatz bei großen Wellenlängen entsprechend groß dimensionierte Arrays und ist nicht superdirektiv. In dieser Arbeit wurde deshalb eine eigene, neue Ausprägung des MSD-Algorithmus formuliert, welche die Superdirektivität des Multipol-Beamformers mit der Flexibilität und Einfachheit des MSD-Verfahrens vereint. Diese als "superdirektives MSD-Beamforming" bezeichnete Methode besitzt - wie das bereits bekannte MSD-Verfahren auch - die interessante Eigenschaft, daß die Eigen-Beampattern für ein frei zu wählendes Entwurfs-Frequenzband berechnet werden, so daß das Verhalten des Beamformers über ein ganzes Frequenzintervall kontrolliert werden kann. Dies eröffnet auch die Möglichkeit eines sehr breitbandigen Beamformings durch Kombination mehrerer Beamformer, die individuell auf benachbarte Frequenzbänder abgestimmt werden. Mit beispielsweise einem hexagonalen Array von nur 6cm Durchmesser und sieben Mikrofonen erreicht der superdirektive Ansatz so ca. 20-30dB Störabstand über einen Frequenzbereich von 100Hz bis 6kHz, was für Sprache eine sehr hohe Übertragungsqualität darstellt. Zur experimentellen Verifikation der untersuchten Algorithmen wurde im Rahmen dieser Arbeit eine vielkanalige Echtzeit-Signalverarbeitungsumgebung unter Windows XP erstellt, welche die Erfassung, Verarbeitung, Analyse und Ausgabe vielkanaliger Audio-Daten erlaubt. Auch eine Simulation idealer Freifeldmessungen an Mikrofonarrays ist damit möglich, indem die Ausbreitung des Schalls von der Schallquelle zu den Mikrofonen durch zeitdiskrete Fractional-Delay-Filter simuliert wird. Dieser Filtertypus wurden im Rahmen dieser Arbeit ebenfalls eingehend untersucht: Für zwei aus der Literatur bekannte Entwurfsverfahren wurden Erweiterungen gefunden, die bei gleicher Filterordnung eine höhere nutzbare Bandbreite erzielen. Für Messungen an realen Arrays wurde die Akustik-Messkammer des Instituts durch zusätzliche Dämmauskleidung für Freifeld-Messungen nutzbar gemacht. Die Messergebnisse belegen, daß die untersuchten Algorithmen in der Praxis erwartungsgemäß funktionieren und daß der gefundene superdirektive MSD-Algorithmus mit sehr kompakten Arrays eine gute breitbandige Erfassung und Trennung von Audiosignalen ermöglicht.