Information based universal feature extraction and object recognition

Menschen nutzen ihr bestehendes Wissen um Neues zu lernen: Sie nutzen Informationen über grundlegende mathematische Tatsachen um komplexere mathematische Probleme zu lösen, oder sie nutzen Wissen über das Fahren eines Mo
Menschen nutzen ihr bestehendes Wissen um Neues zu lernen: Sie nutzen Informationen über grundlegende mathematische Tatsachen um komplexere mathematische Probleme zu lösen, oder sie nutzen Wissen über das Fahren eines Motorrads um schneller Auto zu fahren. Das bertragen von Wissen ist eine der Strategien unseres Gehirns, um Objekte und Konzepte schneller zu erlernen.
Eines der vielen Dinge, die wir als Menschen in unserem Leben tun ist das Erkennen und/oder Kategorisieren aller Arten von visuellen Objekten (\OE-Aufgabe"). Es ist bekannt, dass rund fünfzig Prozent des Neocortex für das Verarbeiten visueller Reize genutzt wird. Aus dieser Tatsache k¨onnen wir schließen, dass Objekterkennung eine komplizierte Aufgabe in unserem Gehirn und in den Gehirnen von Tieren ist, und trotzdem sch
affen wir dies in Sekundenbruchteilen. Die zentrale Frage dabei ist: Wie schafft das Gehirn das? Nutzt das Gehirn eine Art Merkmalsextraktionsalgorithmus für OE-Aufgaben? Der hierarchische Aufbau des visuellen Cortex und Studien eines Teils der Sehrinde V1 zeigen, dass unser Gehirn Merkmalsextraktion mit Gabor-Filtern ausführt.
Wir nutzen außerdem bereits erworbenes Wissen über Objekterkennung um Objekte zu bemerken und zu erkennen, die wir nie zuvor gesehen haben. Außerdem lernen wir, neue Objekte schneller zu erkennen wenn wir älter werden. Die Frage ist wieder, wie machen wir das? Gibt es Merkmale, die verschiedene Objekte miteinander gemeinsam haben, die uns helfen verschiedenste Objekte mit unterschiedlichsten Wahrscheinlichkeiten und Eigenschaften zu erkennen?
Die Extraktion von Merkmalen ist ein wichtiger Schritt in der Erkennung von Mustern und zielt darauf ab, die relevanten Informationen, die eine Objektklassifizierung ermöglichen, zu erhalten.
Es ist die Basis für jede Erkennung von Objekten, sowohl im menschlichen als auch beim maschinellen Sehen. Die Extraktion und Wiederverwendung von Information impliziert, dass die Sehrinde von Menschen und anderen Tieren gemeinsame (universelle) Merkmale zumindest in den tieferen Ebenen nutzt, um zwischen verschiedenen Objekten zu unterscheiden. Es ist immer noch ein schwieriges Problem im maschinellen Sehen, Merkmale zu extrahieren, die die fundamentale Substanz von Bildern so komplett wie möglich abbilden.
In diesem Zusammenhang stellt sich die Frage: Gibt es universelle Merkmale in Bildern, so dass unter Verwendung dieser Merkmale ein unbekanntes Objekt effizient erkannt werden kann?
Ist es n¨otig neue, spezielle Merkmale für jedes neue Objekt zu finden? Was geschieht mit den bereits gelernten Merkmalen früherer Objekterkennungen? Ist es ohne großen Aufwand möglich, extrahierte Merkmale aus einer Aufgabe für eine andere Aufgabe zu nutzen? Gibt es einige allgemeine Merkmale in natürlichen und nicht-natürlichen
Bildern, die auch für spezielle Objekterkennungsaufgaben erfolgreich verwendet werden können? Können wir beispielsweise Merkmale natürlicher Bilder für das Erkennen2 handgeschriebener Ziffern verwenden?
In den letzten Jahrzehnten wurden diese Fragen kaum erforscht. In diesem Kontext schlagen wir einen neuen, informationsbasierten Ansatz vor und versuchen, Antworten auf die oben gestellten Fragen zu finden. Als Ergebnis fanden wir, dass man tatsächlich universelle Merkmale finden kann, die in allen drei oben erwähnten Fällen eingesetzt werden können. Die Klassifikationsergebnisse sind dabei genauso gut oder sogar besser als die Ergebnisse, die in der Literatur für spezialisierte Systeme angegeben werden.
Ein weiteres Problem der Objekterkennung ist das Erkennen von Objekten, unabhängig von jeglichen Anderungen, die durch den Kontext verursacht werden. Wir als Menschen und auch viele Tiere sind in der Lage, Objekte trotz vieler Deformationen (z.B. Änderung der Lichtverhältnisse, Drehung um beliebige Achsen und Winkel, Verzerrung sowie Vergrößerung und Verkleinerung) in Sekundenbruchteilen zu erkennen. Beim Beobachten eines Objektes, das wir nie zuvor gesehen haben, können wir uns trotzdem eine gedrehte oder vergrößerte Version des Objektes vorstellen. Damit stellt sich auch hier die Frage, wie wir das tun. Lernt das Gehirn eine Abbildungstransformation, unabhängig von Objekten oder deren Merkmalen?
Zu dieser Frage wurde in den vergangenen Jahrzehnten viel geforscht, aber es gibt immer noch viele ungelöste Probleme aufgrund der beschriebenen Schwierigkeiten bei Objekterkennungsaufgaben. Zum Beispiel gibt es noch kein künstliches Objekterkennungssystem, das eine Objekterkennung auf menschlichem Level ausf¨u hren kann, unabhängig von bestehenden Objektdeformationen. Eines der flexibelsten Systeme, Abbildungen von visuellen Objekten zu gespeicherten, bekannten Objekten zu finden, ist die Gruppe der dynamischen Abbildungen (Dynamic Link Mapping DLM). Obwohl diese Gruppe von Systemen interessante Resultate aufweist, haben sie auch Probleme: zum einen sind sie durch die Verwendung des mittleren quadratischen Fehlers empfindlich gegenüber Ausreißern, und zum anderen haben sie eine hohe Rechenkomplexität. Aus diesem
Grund beschäftigen wir uns in dieser Arbeit näher mit diesen Systemen und entwickeln einen neuen Algorithmus , der auf der Shannon-Information basiert. Wir können zeigen, dass der neue informationsbasierte, selbst-organisierende Algorithmus das Problem der invarianten Objekterkennung lösen kann, insbesondere auch das Problem der 3D-Rotation in der Tiefe.
show moreshow less
One of the main things that we as humans do in our lifetime is the recognition and/or classification of all kind of visual objects. It is known that about fifty percentage of the neocortex is responsible for visual proce
One of the main things that we as humans do in our lifetime is the recognition and/or classification of all kind of visual objects. It is known that about fifty percentage of the neocortex is responsible for visual processing. This fact tells us that object recognition (OR) is a complex task in our and in the animal brain, but we do it in a fraction of a second.
The main question is: How does the brain exactly do it? Does the brain use some feature extraction algorithm for OR tasks? The hierarchical structure of the visual cortex and studies on a part of the visual cortex called V1 tell us that our brain uses feature extraction for OR tasks by Gabor filters. We also use our previous knowledge in object recognition to detect and recognize the objects which we never saw before. Also, as we grow up we learn new objects faster than before.
These facts imply that the visual cortex of human and other animals uses some common (universal) features at least in the first stages to distinguish between different objects. In this context, we might ask: Do universal features in images exist, such that by using them we are able to efficiently recognize any unknown object? Is it necessary to extract new special features for any new object? How about using existing features from other tasks for this? Is it possible to efficiently use extracted feature of a specific task for other tasks? Are there some general features in natural and non-natural images which can also be used for specific object recognition? For example, can we use extracted features of natural images also for handwritten digit classification?
In this context, our work proposes a new information-based approach and tries to give some answers to the questions above. As a result, in our case we found that we could indeed extract unique features which are valid in all three different kinds of tasks. They give classification results that are about as good as the results reported by the corresponding literature for the specialized systems, or even better ones.
Another problem of the OR task is the recognition of objects, independently of any perception changes. We as humans or also animals can recognize objects in spite of many deformations (e.g. changes in illumination, rotation in any direction or angles, distortion and scaling up or down) in a fraction of a second. When observing an object which we never saw, we can imagine the rotated or scaled up objectin our mind. Here, also the question arises: How does the brain solve this problem? To do this, does the brain learn some mapping algorithm (transformation), independent of the objects or their features?
There are many approaches to model the mapping task. One of the most versatile ones is the idea of dynamically changing mappings, the dynamic link mapping (DLM). Although the dynamic link mapping systems show interesting results, the DLM system has the problem of a high computational complexity. In addition, because it uses the least mean squared error as risk function, the performance for classification is also not optimal. For random values where outliers are present, this system may not work well because outliers influence the mean squared error classification much more than probability-based systems. Therefore, we would like to complete the DLM system by a modified approach.
In our contribution, we will introduce a new system which employs the information criteria (i.e. probabilities) to overcome the outlier problem of the DLM systems and has a smaller computational complexity. The new information based selforganised system can solve the problem of invariant object recognition, especially in the task of rotation in depth, and does not have the disadvantage of current DLM systems and has a smaller computational complexity.
show moreshow less

Download full text files

Export metadata

  • Export Bibtex
  • Export RIS
Metadaten
Author:Mohammad Amiri
URN:urn:nbn:de:hebis:30:3-428025
Place of publication:Frankfurt am Main
Referee:Rüdiger Brause, Matthias Kaschube
Advisor:Rüdiger Brause
Document Type:Doctoral Thesis
Language:English
Date of Publication (online):2017/02/06
Year of first Publication:2016
Publishing Institution:Universitätsbibliothek Johann Christian Senckenberg
Granting Institution:Johann Wolfgang Goethe-Universität
Date of final exam:2017/02/01
Release Date:2017/02/06
Tag:Invariant object recognition; Transfer learning; Universa feature extraxtion
Pagenumber:162
HeBIS PPN:39943674X
Institutes:Informatik
Dewey Decimal Classification:004 Datenverarbeitung; Informatik
Sammlungen:Universitätspublikationen
Licence (German):License Logo Veröffentlichungsvertrag für Publikationen

$Rev: 11761 $