Refine
Document Type
- Doctoral Thesis (3)
Has Fulltext
- yes (3)
Is part of the Bibliography
- no (3)
Keywords
Institute
- Physik (3) (remove)
Im Rahmen dieser Arbeit wurde untersucht, inwieweit eine Bewegungsschärzung aus monokularen Bildsequenzen von Straßenverkehrsszenen und eine darauf aufbauende Hinderniserkennung mit Hilfe von statistischen oder neuronalen Methoden realisiert werden kann. Bei dem zugrunde liegenden mathematischen Modell wird angenommen, daß die Umgebung, in der sich ein Fahrzeug bewegt, im wesentlichen eben ist, was für Verkehrsequenzen in guter Näherung erfüllt ist. Im ersten Teil dieser Arbeit wurde ein statistisches Verfahren zur Bewegungsschätzung vorgestellt und diskutiert. Der erste Schritt dieses Verfahrens stellt die Generierung eines sogenannten Markantheitsbildes dar, in welchem Objektkanten und Objektecken visuell hervorgehoben werden. Für die daraus resultierende Liste von markanten Bildbereichen werden anschließend unter Verwendung einer sogenannten Verschiebungsvektorschätzung, Korrespondenzen im zeitlich folgenden Bild ermittelt. Ausgehend von dem resultierenden Verschiebungsvektorfeld, werden in dem nächsten Schritt des Verfahrens die Bewegungsgrößen ermittelt, also die Rotationsmatrix und der Translationsvektor des Fahrzeugs, beziehungsweise der Kamera. Um abschließend eine Hinderniserkennung realisieren zu können, erfolgt unter Verwendung der Bewegungsgrößen eine Bewegungskompensation der Bilddaten. Bei einer solchen Bewegungskompensation wird unter Verwendung der ermittelten Bewegungsgrößen und dem Modell der bewegten Ebene eine Rücktransformation jedes Bildpixels durchgeführt, so daß bei der Bildung eines Differenzbildes zwischen dem bewegungskompensierten Bild und dem tatsächlich aufgenommenen Bild, dreidimensionale Strukturen, die ja das Ebenenmodell verletzen, deutlich hervortreten und somit auf potentielle Hindernisse hinweisen. Es hat sich gezeigt, daß Fehlmessungen in den Verschiebungsvektoren, welche beispielsweise durch periodische Strukturen auf der Ebene auftreten können, die Bewegungsschätzung und die Hinderniserkennung empfindlich stören. Diese statistischen Ausreißer bewirken, daß trotz der Verwendung von robusten Schätzmethoden, eine stabile Hinderniserkennung nur durch die Einbeziehung von Vorwissen über die Art der Bewegung des Fahrzeugs realisiert werden kann. Weiterhin führen die Komplexität des Verfahrens und die damit verbundenen hohen Anforderungen an die Rechenleistung der eingesetzten Hardware dazu, daß die für die praktische Anwendbarkeit so wichtige Echtzeitfähigkeit des Verfahrens bisher nur für Eingangsbilder mit geringer Auflösung ermöglicht werden konnte. Speziell für die Bildverarbeitung hat sich das neue Paradigma der Zellularen Neuronalen Netzwerke als außerordentlich leistungsfähig erwiesen. Neben der extrem hohen Verarbeitungsgeschwindigkeit von CNN-basierten schaltungstechnischen Realisierungen zeichnen sie sich durch eine hohe Robustheit bei vertauschten oder fehlerhaften Eingangsdaten aus. Für nahezu jedes aktuelle Problem der Bildverarbeitung wurde bisher ein geeignetes CNN bestimmt. Auch für komplexe Aufgabenstellungen aus der Bildverarbeitung, wie beispielsweise die Texturklassifikation, die Spurverfolgung oder die Gewinnung von Tiefeninformation konnten bereits CNN-Programme implementiert und schaltungstechnisch verwirklicht werden. So konnte auch im zweiten Teil dieser Arbeit gezeigt werden, daß die einzelnen Schritte der Hinderniserkennung aus monokularen Bildsequenzen ebenfalls unter Verwendung eines CNN realisierbar sind. Es wurde demonstriert, daß für die Generierung eines Markantheitsbildes bereits ein Standard-CNN mit linearer Kopplungsfunktion und der Nachbarschaft r=1 verwendet werden kann. Das rechenaufwändige statistische Verfahren der Markantheitsbildberechnung kann somit durch einen einzigen CNN-Verarbeitungsschritt durchgeführt werden. Weiterhin wurde im Rahmen dieser Arbeit gezeigt, daß auch der folgende, rechenintensive Schritt des statistischen Verfahrens der Hinderniserkennung, nämlich die Verschiebungsvektorschätzung, mittels CNN verwirklicht werden kann. Hierzu sind CNN mit polynomialen Kopplungsfunktionen und der Nachbarschaft r=1 notwendig. Bei den durchgeführten Untersuchungen hat sich herausgestellt, daß die CNN-basierten Verarbeitungsschritte den statistischen Methoden in den Punkten Robustheit und Verarbeitungsgeschwindigkeit deutlich überlegen sind. Abschließend wurde in dieser Arbeit gezeigt, daß mit Hilfe von CNN sogar eine direkte Hinderniserkennung aus monokularen Bildsequenzen - ohne den Umweg über die Bestimmung der Verschiebungsvektoren und der Bewegungsgrößen - realisiert werden kann. In dem vorgestellten Verfahren wird nach zwei Vorverarbeitungsschritten, die Hinderniserkennung in einem einzigen Schritt unter Verwendung eines CNN mit polynomialen Zellkopplungsgewichten vom Grade D=3 und der Nachbarschaft r=2 durchgeführt. Das vorgeschlagene Verfahren führt zu einer wesentlichen Vereinfachung der Hinderniserkennung in monokularen Bildsequenzen, da die Bewegegungsschätzung aus dem statistischen Verfahren nicht länger notwendig ist. Die Umgehung der expliziten Bewegungsschätzung hat weiterhin den Vorteil, daß der Rechenaufwand stark reduziert wurde und durch den Wegfall der Verschiebungsvektorschätzung und dem damit verketteten Problem der Ausreißer, ist das vorgestellte CNN-basierte Verfahren außerdem sehr robust. Die ersten Resultate, die unter Verwendung von synthetischen und natürlichen Bildsequenzen erhalten wurden, sind überaus vielversprechend und zeigen, daß CNN ausgezeichnet zur Verarbeitung von Videosequenzen geeignet sind.
In this thesis, we opened the door towards a novel estimation theory for homogeneous vectors and have taken several steps into this new and uncharted territory. Present state of the art for homogeneous estimation problems treats such vectors p 2 Pn as unit vectors embedded in Rn+1 and approximates the unit hypersphere by a tangent plane (which is a n-dimensional real space, thus having the same number of degrees of freedom as Pn). This approach allows to use known and established methods from real space (e.g. the variational approach which leads to the FNS algorithm), but it only works well for small errors and has several drawbacks: • The unit sphere is a two-sheeted covering space of the projective space. Embedding approaches cannot model this fact and therefore can cause a degradation of estimation quality. • Linearization breaks down if distributions are not highly concentrated (e.g. if data configurations approach degenerate situations). • While estimation in tangential planes is possible with little error, the characterization of uncertainties with covariance matrices is much more problematic. Covariance matrices are not suited for modelling axial uncertainties if distributions are not concentrated. Therefore, we linked approaches from directional statistics and estimation theory together. (Homogeneous) TLS estimation could be identified as central model for homogeneous estimation and links to axial statistics were established. In the first chapters, a unified estimation theory for the point data and axial data was developed. In contrast to present approaches, we identified axial data as a specific data model (and not just as directional data with symmetric probability density function); this led to the development of novel terms like axial mean vectors, axial variances and axial expectation values. Like a tunnel which is constructed from both ends simultaneously, we also drilled from the parameter estimation side towards directional/axial statistics in the second part. The presentation of parameter estimation given in this thesis deviates strongly from all known textbooks by presenting homogeneous estimation problems as a distinguished class of problems which calls for different estimation tools. Using the results from the first part, the TLS solution can be interpreted as the weighted anti-mean vector of an axial sample. This link allows to use our results from axial statistics; for instance, the certainty of the anti-mode (i.e. of the TLS solution!) can be described with a weighted Bingham distribution (see (3.91)). While present approaches are only interested in the eigenvector of the some matrix, we can now exploit the whole mean scatter matrix to describe TLS solution and its certainty. Algorithms like FNS, HEIV or renormalization were presented in a common context and linked to each other. One central result is that all iterative homogeneous estimation algorithms essentially minimize a series of evolving Rayleigh coefficients which corresponds to a series of (converging?) cost functions. Statistical optimization is only possible if we clearly identify every step as what it exactly is. For instance, the vague statement “solving Xp ... 0” means nothing but setting ˆp := arg minp pTXp pT p . We identified the most complex scenario for which closed form optimal solutions are possible (in terms of axial statistics: the type-I matrix weighted model). The IETLS approach which is developed in this thesis then solves general type-II matrix weighted problems with an iterative solution of a series of type-I matrix weighted problems. This approach also allows to built converging schemes including robust and/or constrained estimation – in contrast to other approaches which can have severe convergence problems even without such extensions if error levels are not low. Chapter 6 then is another big step forward. We presented the theoretical background of homogeneous estimation by introducing novel concepts like singular vector unbiasedness of random matrices and solved the problem of optimal estimation for correlated data. For instance, these results could be used for better estimation of local image orientation / optical flow (see section 7.2). At the end of this thesis, simulations and experiments for a few computer vision applications were presented; besides orientation estimation, especially the results for robust and constrained estimation for fundamental matrices is impressive. The novel algorithms are applicable for a lot of other applications not presented here, for instance camera calibration, factorization algorithm formulti-view structure from motion, or conic fitting. The fact that this work paved the way for a lot of further research is certainly a good sign.
In der vorliegenden Arbeit beschäftigen wir uns mit der Frage, wie ein Regler für ein hochdimensionales physikalisch/technisches System strukturiert und optimiert werden soll. Diesbezüglich untersuchen wir einen neuen Ansatz, welcher versucht, Regel-Mechanismen des ökonomischen Marktes und Lern-Prozesse mit in den Regler einzubauen. Um eine anschauliche Vorstellung von der Wirkung des Reglers zu erhalten, wenden wir diesen auf ein einfaches physikalisches Model an, eine an ihren Enden eingespannte eindimensionale Federkette. Wir implementieren das Model auf einem Rechner und simulieren den Einfluß des Regelverfahrens auf die Bewegung der Kette. Dabei beschränken wir uns auf den Grenzfall kleiner Amplituden, um das System im Rahmen einer näherungsweise linearen Dynamik beschreiben zu können. Mit Hilfe eines schwachen destabilisierenden Zusatzpotentials erreichen wir, daß die niedrigen Eigenmoden der schwingenden Kette instabil werden und die ausgestreckte Kette eine instabile Gleichgewichtslage darstellt. Wir stellen uns die Aufgabe, diese unter Verwendung des Reglers zu stabilisieren. Anhand des Modells untersuchen wir den Einfluß verschiedener Anfangsbedingungen der Kette, den Einfluß der Markt-Regelung, den Einfluß verschiedener Kommunikationsstrukturen und den Einfluß des Lernverfahrens auf die Wirksamkeit und die Robustheit des Regelprozesses. Als wichtigstes Ergebnis erkennen wir, daß die Regelung mit dem Markt robuster im Vergleich mit der Regelung ohne Markt ist, aber im allgemeinen einen höheren Regel-Energieaufwand aufweist. Untersuchungen anhand des Lernverfahrens ergeben, daß sich das Lernen der Markt- und der Kommunikationsstruktur kombinieren läßt und dadurch die Wirksamkeit der Regelung gegen über der Verwendung von nur einem der beiden Lern-Ansätze erhöht werden kann. Unsere Ergebnisse zeigen, daß sich das Markt-Konzept vollständig auf den gegebenen technischen Regelprozeß übertragen läßt. In der Diskussion der Ergebnisse führen wir die erhöhte Robustheit und den erhöhten Energieaufwand der Markt-Regelung auf eine indirekte, nichtlineare Kopplung der Regeleinheiten zurück, die der Markt-Mechanismus in den Regelprozeß einführt. Die Nichtlinearität bewirkt, daß die von dem Regler bestimmten Regelkräfte bei kleinen Kontrollfehlern relativ größer sind als bei großen Kontrollfehlern. Daduch ist der Energieaufwand der Markt-Regelung bei kleinen Kontrollfehlern gegenüber der Regelung ohne Markt erhöht. Der Regler ist damit in der Lage, die Kette auch bei dem Ausfall einer Regeleinheit zu stabilisieren, da ausreichend große Regelkräfte durch die verbleibenden Regeleinheiten ausgeübt werden. Die Kopplung von benachbarten Massenpunkten durch Federn unterstützt die Robustheit der Regelung in dem untersuchten Ketten-Modell, da die Kopplung dazu führt, daß die Massenpunkte eine zur instabilen Gleichgewichtslage rücktreibende Kraft erfahren und dadurch in den Bereich von kleinen Kontrollfehlern und relativ hohen Regelkräften gelangen. Am Ende der Diskussion gehen wir kurz auf mögliche Anwendungen der gewonnen Ergebnisse ein. Dabei haben wir besonders technische Regelprozesse im Sinne von Smart Matter (intelligente Bauteile) im Auge.