Designing deep neural networks for continual learning in an open world

  • Deep learning with neural networks seems to have largely replaced traditional design of computer vision systems. Automated methods to learn a plethora of parameters are now used in favor of previously practiced selection of explicit mathematical operators for a specific task. The entailed promise is that practitioners no longer need to take care of every individual step, but rather focus on gathering big amounts of data for neural network training. As a consequence, both a shift in mindset towards a focus on big datasets, as well as a wave of conceivable applications based exclusively on deep learning can be observed. This PhD dissertation aims to uncover some of the only implicitly mentioned or overlooked deep learning aspects, highlight unmentioned assumptions, and finally introduce methods to address respective immediate weaknesses. In the author’s humble opinion, these prevalent shortcomings can be tied to the fact that the involved steps in the machine learning workflow are frequently decoupled. Success is predominantly measured based on accuracy measures designed for evaluation with static benchmark test sets. Individual machine learning workflow components are assessed in isolation with respect to available data, choice of neural network architecture, and a particular learning algorithm, rather than viewing the machine learning system as a whole in context of a particular application. Correspondingly, in this dissertation, three key challenges have been identified: 1. Choice and flexibility of a neural network architecture. 2. Identification and rejection of unseen unknown data to avoid false predictions. 3. Continual learning without forgetting of already learned information. These latter challenges have already been crucial topics in older literature, alas, seem to require a renaissance in modern deep learning literature. Initially, it may appear that they pose independent research questions, however, the thesis posits that the aspects are intertwined and require a joint perspective in machine learning based systems. In summary, the essential question is thus how to pick a suitable neural network architecture for a specific task, how to recognize which data inputs belong to this context, which ones originate from potential other tasks, and ultimately how to continuously include such identified novel data in neural network training over time without overwriting existing knowledge. Thus, the central emphasis of this dissertation is to build on top of existing deep learning strengths, yet also acknowledge mentioned weaknesses, in an effort to establish a deeper understanding of interdependencies and synergies towards the development of unified solution mechanisms. For this purpose, the main portion of the thesis is in cumulative form. The respective publications can be grouped according to the three challenges outlined above. Correspondingly, chapter 1 is focused on choice and extendability of neural network architectures, analyzed in context of popular image classification tasks. An algorithm to automatically determine neural network layer width is introduced and is first contrasted with static architectures found in the literature. The importance of neural architecture design is then further showcased on a real-world application of defect detection in concrete bridges. Chapter 2 is comprised of the complementary ensuing questions of how to identify unknown concepts and subsequently incorporate them into continual learning. A joint central mechanism to distinguish unseen concepts from what is known in classification tasks, while enabling consecutive training without forgetting or revisiting older classes, is proposed. Once more, the role of the chosen neural network architecture is quantitatively reassessed. Finally, chapter 3 culminates in an overarching view, where developed parts are connected. Here, an extensive survey further serves the purpose to embed the gained insights in the broader literature landscape and emphasizes the importance of a common frame of thought. The ultimately presented approach thus reflects the overall thesis’ contribution to advance neural network based machine learning towards a unified solution that ties together choice of neural architecture with the ability to learn continually and the capability to automatically separate known from unknown data.
  • Tiefe neuronale Netze, bekannt unter dem englischen Begriff des „deep learning“, scheinen traditionelles Design von Computersystemen für visuelle Anwendungen weitestgehend abgelöst zu haben. Die ehemals praktizierte Selektion von expliziten mathematischen Operatoren für eine spezifische Aufgabenstellung wird nun ersetzt durch ein automatisiertes Lernverfahren einer Vielzahl an Parametern. Das sich daraus ergebende Versprechen ist, dass der Nutzer oder System Designer sich nicht um einzelne Schritte kümmern muss, sondern es hinreichend ist einen großen Datensatz zu sammeln und ein entsprechend tiefes neuronales Netz darauf zu trainieren. Als Konsequenz dieser vielversprechenden Entwicklung resultierte nicht nur ein scheinbarer gedanklicher Paradigmenwechsel von detailliertem Modellieren des Systems hin zu einem größeren Fokus auf die Erstellung umfangreicher Datensätze, sondern gleichzeitig auch eine beobachtbare Welle an vorstellbaren visuellen Anwendungen, die ausschließlich auf dem Prinzip des deep learnings basieren. Diese Dissertation beschäftigt sich damit, die teils nur implizierten oder unterschlagenen Aspekte zu ermitteln, die ungenannten Annahmen hervorzuheben und letztendlich Methoden vorzustellen, die sich mit unmittelbaren Schwächen befassen. Diese aktuellen Defizite lassen sich aus Sicht des Autors darauf zurückführen, dass die Arbeitsschritte im deep learning tendenziell entkoppelt werden und der Erfolg ausschließlich daran gemessen wird, wie akkurat sich ein entwickeltes neuronales Netz in einem definierten statischen Benchmark-Test verhält. Statt aus Sicht des Gesamtsystems und der damit verbundenen Anwendungen Lösungen zu finden, werden einzelne Komponenten mit Hinblick auf die verfügbaren Daten, die Wahl der neuronalen Netzarchitektur, des exakten Lernalgorithmus und dessen Parametern, sowie der Evaluierung und Validierung des fertig trainierten neuronalen Netzes, in Isolation betrachtet und entwickelt. Folglich wurden in dieser Dissertation drei Kernthematiken ermittelt, die ursprünglich in älterer Literatur diskutiert wurden, jedoch im aktuellen Kontext der deep learning Literatur ein erneute Betrachtung erfordern. Spezifisch handelt es sich dabei um drei zuerst unabhängige Aspekte, die allerdings im Gesamtrahmen eines durch maschinelles Lernen gestützten Systems verknüpft und erforderlich sind: 1. Wahl und Flexibilität der neuronalen Netzarchitektur. 2. Erkennen unbekannter Daten und Unterdrückung falscher Ausgaben. 3. Kontinuierliches Lernen ohne Vergessen älterer Informationen. Zusammenfassend stellt sich also die Frage, wie man ein angemessenes neuronales Netz für eine spezifische Aufgabenstellung auswählt, wie man innerhalb dieser Anwendung erkennt, was zur Aufgabenstellung gehört und welche Daten noch neue Konzepte enthalten oder eventuell sogar zu einer anderen Aufgabe gehören und schlussendlich wie man im Laufe der Zeit das neuronale Netz mit neuen Inhalten erweitert ohne dabei existierende zu überschreiben. Der zentrale Punkt dieser Dissertation ist es auf den existierenden Stärken des deep learning aufzubauen, aber auch oben genannte Schwächen zu identifizieren, diese in Ihren Abhängigkeiten und Synergie tiefer zu verstehen und einen einheitlichen Mechanismus als gemeinsame Lösung zu finden. Der Hauptteil der Dissertation ist kumulativ und liegt in Form von mehreren Publikationsmanuskripten vor, die entsprechend thematisch anhand der obigen drei Fragestellungen gruppiert sind. Kapitel 1 befasst sich somit mit der Wahl und Erweiterbarkeit der neuronalen Netzarchitektur, welche zunächst an populärer Bildklassifizierung verdeutlicht wird. Es wird ein in der Dissertation vorgeschlagener Algorithmus zur automatischen Bestimmung der Netzwerkbreite mit statischen Literaturarchitekturen verglichen, und letztlich die Rolle gewählter Architekturen an einer konkreten Anwendung in Defekterkennung an Betonbrücken verdeutlicht. Kapitel 2 beschäftigt sich mit den komplementären Fragen zur Erkennung von für das neuronale Netz unbekannten Konzepten und dem darauf folgenden kontinuierlichem Lernen. Es wird ein einheitlicher Mechanismus vorgeschlagen, welcher erlaubt in einem einzelnen neuronalen Netz unbekannte Konzepte in Klassifizierungsaufgaben zu erkennen und diese dann zu lernen, ohne auf Daten älterer Klassen zurückzukommen oder diese zu vergessen. Die Rolle der neuronalen Netzarchitektur wird hierbei erneut quantitativ analysiert. Kapitel 3 fasst letztlich die einzeln entwickelten Aspekte zusammen, betont ihre Wichtigkeit im Rahmen einer umfassenden Literaturrecherche und verknüpft separat gewonnene Erkenntnisse zu einem gemeinsamen Zusammenhang. Der letztendlich präsentierte umfassende Ansatz ist somit der Beitrag der Dissertation zum Fortschritt für das maschinelle Lernen gestützt durch neuronale Netze, in dem eine gemeinsame Lösung für kontinuierliches Lernen, Wahl der neuronalen Architektur und robuste Anwendung mit automatischer Erkennung unbekannter Daten vorgeschlagen wird.

Download full text files

Export metadata

Metadaten
Author:Martin MundtORCiDGND
URN:urn:nbn:de:hebis:30:3-624878
DOI:https://doi.org/10.21248/gups.62487
Place of publication:Frankfurt
Referee:Visvanathan RameshORCiD, Gemma Roig NogueraORCiDGND, Stefan Kramer
Advisor:Visvanathan Ramesh
Document Type:Doctoral Thesis
Language:English
Date of Publication (online):2021/08/30
Year of first Publication:2021
Publishing Institution:Universitätsbibliothek Johann Christian Senckenberg
Granting Institution:Johann Wolfgang Goethe-Universität
Date of final exam:2021/08/23
Release Date:2021/09/22
Page Number:239
HeBIS-PPN:485706636
Institutes:Informatik und Mathematik
Dewey Decimal Classification:0 Informatik, Informationswissenschaft, allgemeine Werke / 00 Informatik, Wissen, Systeme / 004 Datenverarbeitung; Informatik
Sammlungen:Universitätspublikationen
Licence (German):License LogoDeutsches Urheberrecht