The search result changed since you submitted your search request. Documents might be displayed in a different sort order.
  • search hit 18 of 161
Back to Result List

Intrinsically motivated agents for goal discovery in high dimensional state spaces

  • Goal-Conditioned Reinforcement Learning (GCRL) is a popular framework for training agents to solve multiple tasks in a single environment. It is cru- cial to train an agent on a diverse set of goals to ensure that it can learn to generalize to unseen downstream goals. Therefore, current algorithms try to learn to reach goals while simultaneously exploring the environment for new ones (Aubret et al., 2021; Mendonca et al., 2021). This creates a form of the prominent exploration-exploitation dilemma. To relieve the pres- sure of a single agent having to optimize for two competing objectives at once, this thesis proposes the novel algorithm family Goal-Conditioned Re- inforcement Learning with Prior Intrinsic Exploration (GC-π), which sep- arates exploration and goal learning into distinct phases. In the first ex- ploration phase, an intrinsically motivated agent explores the environment and collects a rich dataset of states and actions. This dataset is then used to learn a representation space, which acts as the distance metric for the goal- conditioned reward signal. In the final phase, a goal-conditioned policy is trained with the help of the representation space, and its training goals are randomly sampled from the dataset collected during the exploration phase. Multiple variations of these three phases have been extensively evaluated in the classic AntMaze MuJoCo environment (Nachum et al., 2018). The fi- nal results show that the proposed algorithms are able to fully explore the environment and solve all downstream goals while using every dimension of the state space for the goal space. This makes the approach more flexible compared to previous GCRL work, which only ever uses a small subset of the dimensions for the goals (S. Li et al., 2021a; Pong et al., 2020).
  • Goal-Conditioned Reinforcement Learning (GCRL) ist ein beliebtes Framework, um Agenten zu trainieren, welche mehrere Aufgaben in einer Lernumgebung lösen können. Es ist entscheidend einen Agenten mit vielfältigen Zielen zu trainieren, sodass er lernt zu generalisieren, um auch unbekannte Ziele erreichen zu können. Deshalb versuchen aktuelle Algorithmen, den Agenten so zu trainieren, dass er lernt Ziele zu erreichen, während er gleichzeitig die Umgebung nach neuen Zielen erkundet (Aubret et al., 2021; Mendonca et al., 2021). Dies erzeugt eine Form des prominenten Exploration-Exploitation Dilemmas. Um den Druck von einem einzelnen Agenten zu nehmen, der zwei konkurrierende Ziele gleichzeitig optimieren muss, schlägt diese Thesis die neue Algorithmenfamilie Goal-Conditioned Reinforcement Learning with Prior Intrinsic Exploration (GC- π) vor, welche die Exploration und das ZielLernen in getrennte Phasen aufteilt. In einer ersten Explorationsphase erkundet ein intrinsisch motivierter Agent die Umgebung und sammelt einen großen Datensatz von Umgebungszuständen und Aktionen. Dieser Datensatz wird dann verwen- det, um einen Repräsentationsraum zu lernen, welcher als Distanzmetrik für das zielbedingte Belohnungssignal dient. In der letzten Phase wird eine zielbedingte Policy mit Hilfe des Repräsentationsraums trainiert und die Trainingsziele werden zufällig aus dem Datensatz ausgewählt, der während der Explorationsphase gesammelt wurde. Mehrere Variationen dieser drei Phasen werden ausführlich in der klassischen Ant-Maze MuJoCo Umgebung (Nachum et al., 2018) evaluiert. Die finalen Ergebnisse zeigen, dass die vorgeschlagenen Algorithmen in der Lage sind, die Lernumgebung vollständig zu erkunden und alle Evaluierungsziele zu erreichen, während sie jede Dimension des Zustandsraums für den Zielraum verwenden. Dies macht den Ansatz flexibler im Vergleich zu anderen GCRL Algorithmen aus der Literatur, welche nur eine geringe Anzahl der Dimensionen für die Ziele verwenden (S. Li et al., 2021a; Pong et al., 2020).

Download full text files

Export metadata

Metadaten
Author:Nico BohlingerGND
URN:urn:nbn:de:hebis:30:3-754939
Place of publication:Frankfurt am Main
Document Type:Master's Thesis
Language:English
Date of Publication (online):2023/10/20
Year of first Publication:2023
Publishing Institution:Universitätsbibliothek Johann Christian Senckenberg
Granting Institution:Johann Wolfgang Goethe-Universität
Date of final exam:2023/05/23
Release Date:2023/10/20
Tag:Machine Learning; Reinforcement Learning
Page Number:96
HeBIS-PPN:512622825
Institutes:Informatik und Mathematik
Dewey Decimal Classification:0 Informatik, Informationswissenschaft, allgemeine Werke / 00 Informatik, Wissen, Systeme / 004 Datenverarbeitung; Informatik
Sammlungen:Universitätspublikationen
Licence (German):License LogoCreative Commons - CC BY - Namensnennung 4.0 International