Bestärkendes Lernen oder verstärkendes Lernen englisch reinforcement learning RL steht für einen Lernstil des maschinell
Bestärkendes Lernen

Bestärkendes Lernen oder verstärkendes Lernen (englisch reinforcement learning, RL) steht für einen Lernstil des maschinellen Lernens. Dabei führt ein KI-Agent selbständig Aktionen in einer dynamischen Umgebung aus und erlernt durch Versuch und Irrtum eine Strategie (englisch policy), die die Summe der erhaltenen Belohnungen (englisch rewards) maximiert.
Der Begriff ist der Psychologie entlehnt und wurde bereits seit den Anfängen der Kybernetik verwendet. So benutzte schon Marvin Minsky den Begriff in seiner Dissertation von 1954. Die Modelle des bestärkenden Lernens versuchen, das Lernverhalten in der Natur nachzubilden.
Die Umgebung wird in der Regel als Markov-Entscheidungsproblem (MDP) beschrieben. Eine klassische Methode für das Lösen eines MDPs ist die dynamische Programmierung. Dazu muss ein genaues mathematisches Modell für das Problem bekannt sein. Außerdem ist die Zahl der Zustände, die effizient verarbeitet werden können, begrenzt. Der wesentliche Unterschied zwischen klassischen Methoden und denen des bestärkenden Lernens besteht darin, dass die Methoden des bestärkenden Lernens kein Modell für das Markov-Entscheidungsproblem voraussetzen und sie auch auf MDPs mit vielen Zuständen effizient angewendet werden können.
Diese Methoden müssen einen Kompromiss finden zwischen dem Erkunden (englisch exploration) von noch unbekannten Zuständen und dem Ausnutzen (englisch exploitation) von erlerntem Wissen, mit dem der Agent die Summe der erhaltenen Belohnungen maximiert. Dabei können Belohnungen auch verzögert eintreffen. Eine Aktion, auf die zunächst keine hohe Belohnung erfolgt, kann zu einem Zustand führen, von dem aus mit weiteren Aktionen eine hohe Belohnung erreicht werden kann.
Beim bestärkenden Lernen wird die Theorie der optimalen Steuerung angewendet. Ein einfacher Ansatz ist das Q-Lernen. Dabei werden Erfahrungswerte zu Zuständen und Aktionen direkt in Tabellen gespeichert. Es wird kein Modell von der Umgebung erstellt. Q-Lernen funktioniert gut bei Problemstellungen, die nur wenige Zustände und Aktionen enthalten, so dass der Agent beim Lernen mit Sicherheit jeden Zustand mehrfach erreichen und darin Aktionen ausführen kann. Andere Ansätze erstellen beim Lernen ein Modell der Umgebung.
Ein Spezialfall ist die Verwendung eines Bewertungsmodells, welches durch menschliche Interaktion mit überwachtem Lernen vorprogrammiert wird und die Interaktion mit der Umgebung ergänzt. In diesem Fall erfolgt bestärkendes Lernen durch menschlich beeinflusste Rückkopplung (englisch reinforcement learning through human feedback, (RLHF)).
Grundlagen
Die mathematischen Grundlagen des bestärkenden Lernens bilden die folgenden fünf Begriffe: Der Agent (englisch agent), die Umwelt (englisch environment), die Zustände (englisch states), die Aktionen (englisch actions) und die Belohnungen (englisch rewards). Die Methoden des bestärkenden Lernens betrachten die Interaktion des lernenden Agenten mit seiner Umgebung. Einfache Beispiele sind ein Saugroboter, dessen Belohnung in der Staubmenge besteht, die er in einer bestimmten Zeit aufsaugt oder ein beweglicher Roboter, der in einem Labyrinth steht und mit möglichst wenigen Schritten zu einem bestimmten Feld gehen soll.
Beschreibung der Umgebung
Die Umgebung wird in der Regel als Markow-Entscheidungsproblem (englisch markov decision process, MDP) formuliert. Die Interaktion des Agenten mit der Umgebung findet zu diskreten Zeitpunkten statt. Zu jedem Zeitpunkt befindet sich der Agent in einem Zustand, wählt eine Aktion aus und erhält dafür eine reellwertige Belohnung.
Das Markow-Entscheidungsproblem ist ein Tupel , wobei
- eine Menge von Zuständen,
- eine Menge von Aktionen,
- das Aktionsmodell (auch Transitionswahrscheinlichkeit) ist, so dass die Wahrscheinlichkeit ist, von Zustand durch Ausführen von Aktion in den Zustand zu gelangen.
- die Belohnungsfunktion ist, die allen Zustandsübergängen eine Belohnung zuordnet und
- die Startverteilung ist, die zu jedem Zustand angibt, wie wahrscheinlich es ist, in diesem Zustand zu starten.
Eine Policy ist eine Kollektion von Wahrscheinlichkeitsmaßen auf . gibt dabei die Präferenz des Agenten an, zum Zeitpunkt die Aktion zu wählen, wenn er sich in Zustand befindet. In Zufallsvariablen gesprochen bedeutet dies .
Total Discounted Reward Kriterium
Man kann die Qualität einer Policy bestimmen, indem man den Gewinn, den man mit ihr erzielt, mit dem Gewinn vergleicht, den man mit einer optimalen Policy erzielen kann. Um annähernd optimal zu handeln, muss der Agent die langfristigen Folgen seiner Handlungen berücksichtigen, auch wenn die damit verbundene unmittelbare Belohnung negativ sein könnte.
Ziel des Agenten ist es, den insgesamt erwarteten Gewinn (englisch total discounted reward) zu maximieren. Dieser Gewinn wird auch kumulierter Reward genannt. Er wird in der Regel als Summe aller Belohnungen über unendlich viele Zustandsübergänge berechnet:
- mit
Dabei ist die Belohnung, die der Agent wahrscheinlich im Zeitschritt erhält. Der Diskontierungsfaktor gewichtet Belohnungen, die kurzfristig erfolgen, höher als solche, die später erfolgen. Er sorgt auch dafür, dass die Summe für kontinuierliche Probleme (unendlich viele Zustandsübergänge) gegen einen Grenzwert konvergiert. Für zählt nur die direkte Belohnung einer Aktion, alle zukünftigen Belohnungen werden ignoriert. Für erhalten zukünftige Belohnungen immer mehr Gewicht.:487–491:17 Typische Werte für liegen zwischen 0,95 und 0,99.:738
Erkundung der Umgebung
Wenn alle Elemente eines MDP vollständig bekannt sind und er nicht zu viele Zustände enthält, kann die optimale Policy direkt mit dynamischer Programmierung berechnet werden, siehe auch Markow-Entscheidungsproblem#Algorithmen. Bei vielen Aufgaben, die mit bestärkendem Lernen gelöst werden sollen, ist das Aktionsmodell nicht bekannt. Bei diesen Aufgaben spielt die autonome Erkundung der Umgebung eine wichtige Rolle. Der Agent kann selbstständig eine Erkundungs-Policy ausführen, um durch Versuch und Irrtum entweder das Aktionsmodell oder, statt einem Modell, direkt eine optimale Policy zu erlernen. In einigen Aufgabenstellungen kann der Agent allerdings nur einen Teil der Zustände beobachten oder die Beobachtungen können ungenau sein. Formal muss das Problem dann als teilweise beobachtbares Markow-Entscheidungsproblem (englisch partially observable Markov decision process, (POMDP)) beschrieben werden. In beiden Fällen kann es auch Einschränkungen geben für die Aktionen, die der Agent ausführen kann.
Zur Erkundung ist ein rein zufälliges Vorgehen nicht effizient. Der Agent soll sinnvolle Ansätze verfolgen und dabei bereits erworbenes Wissen ausnutzen (englisch exploitation). Er soll sich aber nicht zu früh festlegen und weiter nach neuen, noch besseren Aktionsmöglichkeiten suchen (englisch exploration). Eine prominente Erkundungs-Policy ist die ε-greedy policy. Hierbei ist der Agent entweder gierig (englisch greedy) und wählt die aus seiner Sicht erfolgversprechendste Aktion (gemäß seinem bereits erworbenen Wissen) oder er wählt eine zufällige Aktion. Der Parameter ε mit Werten zwischen 0 und 1 gibt die Wahrscheinlichkeit an, mit der er eine zufällige Aktion wählt.:494,495
Wesentliche Fähigkeiten
Der Erfolg von bestärkendem Lernen beim Lösen von Aufgaben in komplexen Umgebungen beruht im Wesentlichen auf zwei Fähigkeiten. Erstens kann der Agent seine Umwelt erforschen und mit Hilfe der Rückmeldungen seine Policy verbessern. Zweitens kann er in Umgebungen, in denen eine direkte Berechnung der optimalen Policy nicht effizient möglich ist, die zugehörige Funktion approximieren. Dadurch eignet sich das bestärkende Lernen insbesondere für das Lösen von Aufgaben, bei denen:
- Die einzige Möglichkeit, die nötigen Informationen zu erhalten, darin besteht, die Umwelt aktiv zu erforschen;
- Das Modell der Umgebung vollständig bekannt ist, es aber zu umfangreich ist, um eine analytische Lösung zu berechnen.
Das erste Problem ist ein „echtes“ Lernproblem. Das zweite Problem ist eigentlich ein Planungsproblem, denn das Modell der Umwelt ist vorab bekannt.
Lernverfahren
Zum Erlernen der Strategie des Agenten gibt es verschiedene Algorithmen. Sie lassen sich grob einteilen in modellbasiert und modellfrei. Modellbasierte Methoden lernen das Aktionsmodell und die Belohnungsfunktion und berechnen daraus die optimale Strategie. Modellfreie Methoden lernen für jeden Zustand die optimale Aktion. Der Agent kennt nur die optimalen Aktionen. Er kann nicht vorhersagen, zu welchen Folgezuständen die Aktionen führen.:492
Modellfrei
Die am häufigsten genutzten modellfreien Ansätze sind wertbasiert oder strategiebasiert. Die Mischform wird meist als bezeichnet.
Wertbasiert
Wertbasierte Methoden bestimmen für jeden Zustand und jede Aktion, die darin ausgeführt werden kann, den kumulierten Reward. Dieser wird als Summe der direkten Belohnung auf die Aktion und allen zukünftig zu erwartenden Belohnungen berechnet. Der Agent lernt eine Nutzenfunktion, die den kumulierten Reward maximiert.
Bei kleinen Zustands- oder Aktionsräumen können alle Werte in einer Tabelle gespeichert werden, deren Felder anhand der erhaltenen Belohnungen aktualisiert werden. Bei großen Zustandsräumen muss die Nutzenfunktion jedoch approximiert werden. Dazu eignet sich beispielsweise die Fourierreihe oder auch ein Neuronales Netz.
Bekannte Beispiele sind Monte-Carlo-Methoden und Temporal Difference Learning.
Monte-Carlo-Methoden
Die Grundidee der Monte-Carlo-Methoden besteht darin, den Wert einer bestimmten Aktion in einem bestimmten Zustand dadurch abzuschätzen, dass man eine hinreichend große Menge von zufällig gewählten Episoden ausführt, die den Zustand besuchen und die Aktion ausführen und den Mittelwert der erhaltenen Belohnungen bildet. Der Mittelwert berücksichtigt für jede Episode die Summe aller Belohnungen, die nach der Aktion erhalten wurden.
Der Begriff „Monte Carlo“ steht allgemein für jede Methode, die eine Zufallsstichprobe beinhaltet. Im hier gegebenen Kontext ist das wesentliche Merkmal von Monte-Carlo-Methoden, dass sie die Aktualisierungen jeweils nach einer abgeschlossenen Episode durchführen. Sie können nur auf episodische Aufgabenstellungen angewendet werden. Sie warten das Ergebnis einer vollständigen Episode ab und aktualisieren danach die Mittelwerte für die ausgeführten Aktionen. Die Ergebnisse sind vom weiteren Verlauf der Episode abhängig. Ein ungünstiger weiterer Verlauf in einer Episode senkt das Ergebnis und damit auch den Schätzwert für eine Aktion. Deshalb können Monte-Carlo-Methoden eine suboptimale Lösung berechnen, wenn keine geeigneten Gegenmaßnahmen ergriffen werden.:54–56
Temporal Difference Learning
Temporal Difference Learning passt den systematischen Ansatz des Q-Wert-Iterationsalgorithmus, der die optimale Strategie für ein vollständig bekanntes Markow-Entscheidungsproblem berechnen kann, an Probleme an, bei denen das Aktionsmodell und die Belohnungfunktion nicht bekannt sind. Die Methoden erkunden die Umgebung und verwenden in jedem Schritt direkt die Belohnung, die die Umgebung zur ausgeführten Aktion zurückmeldet. Dabei kombinieren sie die direkte Belohnung mit Schätzungen zum optimalen zukünftigen Verlauf. Den so erhaltenen Wert verwenden sie, um die Schätzung für den Wert der Aktion zu aktualisieren. Gegenüber Monte-Carlo-Methoden hat dieses Vorgehen entscheidende Vorteile: Die Schätzung ist unabhängig vom weiteren Verlauf der Episode, sie benötigt weniger Zeit und sie ist auch bei Aufgabenstellungen möglich, die unendlich weitergeführt werden können. Außerdem wurde die Konvergenz zur optimalen Wertfunktion bewiesen. Eine sehr verbreitete Variante ist Q-Lernen.
Sollen mehrere Agenten kooperieren und mit Q-Lernen eine optimale Strategie dafür lernen, kann (bislang) nur in trivialen Fällen die Konvergenz der Lernvorgänge garantiert werden. Trotzdem kann unter Zuhilfenahme von Heuristiken oft ein in der Praxis nützliches Verhalten gelernt werden, da der worst case selten auftritt.
Strategiebasiert
Strategiebasierte Methoden versuchen, die zu erwartende kumulative Belohnung direkt durch Parametrisierung der Strategie zu maximieren. Meistens erfolgt diese Maximierung durch stochastisch gradientbasierte Optimierung (englisch policy gradient). Prominente Vertreter dieser Klasse sind , (TRPO) und (PPO).
Beispiel REINFORCE
Der einfach herzuleitende Algorithmus REINFORCE schätzt den Gradienten des zu erwartenden Gewinns
, um damit seine Parameter über empirisch gewinnbare Spielabläufe zu aktualisieren. Hierbei muss die Strategie nach differenzierbar sein und stellt einen Spielablauf dar, der aus der Wahrscheinlichkeitsverteilung entnommen wird. Diese setzt sich einerseits aus der Strategie , als auch der möglicherweise nicht-deterministischen Umgebung (auf die der Agent keinen Einfluss hat), zusammen:
- ,
wobei eine Verteilung über den Startzustand darstellt. Über die Definition der Erwartungswerts kann nun REINFORCE wie folgt hergeleitet werden:
- :
wobei für die erste Gleichung die Leibnizregel verwendet wurde und für die dritte Gleichung die Regel
- ,
wobei der natürliche Logarithmus gemeint ist. Als letzten Schritt erkennen wir, dass
- .
Nun kann man einen erwartungstreuen Schätzer des Gradienten des zu erwartenden Gewinns erhalten, indem man erst einen Spielablauf mit dem Agenten generiert und einsetzt:
- .
Der Parameterupdate mit Lernrate erfolgt dann wie folgt:
- .
Modellbasiert
Modellbasierte Verfahren konstruieren ein prädiktives Modell ihrer Umwelt. Dies bedeutet, dass der Agent Vorhersagen für Anfragen der Art „Was wird passieren, wenn ich eine bestimmte Aktion ausführe?“ generieren kann. Das Modell stellt somit einen (gelernten oder bekannten) reversiblen Zugang zur Umgebungsdynamik dar, da der Agent eine Vorhersage zu jedem beliebigen Zustands-Aktions-Paar ermitteln kann und nicht an die durch den Spielablauf vorgegebene Ordnung gebunden ist. Anders als in modellfreien Ansätzen ermöglicht das Modell explizites Planen. Dies wird in Algorithmen wie z. B. von Deepmind genutzt, um ein präzise Vorausberechnung zu ermöglichen, die in einigen Spielen wie Schach oder Go von besonderer Relevanz ist. Eine andere Klasse von Methoden, welche auf dem basiert, kombiniert den modellbasierten mit dem modellfreien Ansatz, indem sie das gelernte Modell nutzt, um künstliche (halluzinierte) Daten zu generieren. Diese werden dann wiederum zum Lernen einer Strategie und/oder Wertfunktion eingesetzt.
Forschende erhoffen sich, dass modellbasierte RL-Methoden künftig noch mehr zum Verständnis realer Kausalitäten medizinischer, sozial- und wirtschaftswissenschaftlicher Wissenschaftszweige oder Politikgestaltung beitragen können (causal machine learning), deren Themenfelder bisher über wenige inhaltliche und personelle Überschneidungen verfügen.
Literatur
- Richard Sutton, Andrew Barto: Reinforcement Learning: An Introduction. MIT Press, Cambridge, MA, 1998.
- Dimitri P. Bertsekas, John Tsitsiklis: Neuro-Dynamic Programming. Athena Scientific, Cambridge, MA, 1996.
- Csaba Szepesvári, Algorithms for Reinforcement Learning, Morgan and Claypool, 2010 (ualberta.ca PDF).
- Marc Patrick Deisenroth, Gerhard Neumann, Jan Peters: A Survey on Policy Search for Robotics. Foundations and Trends in Robotics, 21, S. 388–403, 2013 (ausy.tu-darmstadt.de PDF).
- Jens Kober, Drew Bagnell, Jan Peters: Reinforcement Learning in Robotics: A Survey. International Journal of Robotics Research, 32, 11, S. 1238–1274, 2013 (ausy.tu-darmstadt.de PDF).
- Uwe Lorenz: Reinforcement Learning: Aktuelle Ansätze verstehen – mit Beispielen in Java und Greenfoot. (aktual. 2. Auflage) Springer Vieweg, 2024, ISBN 978-3-662-68311-8
- Warren B. Powell: Approximate Dynamic Programming. John Wiley and Sons, 2011.
- Stuart Russell, Peter Norvig: Künstliche Intelligenz: Ein moderner Ansatz. Pearson Studium, August 2004, ISBN 3-8273-7089-2 (deutsche Übersetzung der 2. Auflage) Kapitel 21.
Weblinks
- Introduction to reinforcement learning by openAI
- Tutorial zu Reinforcement Learning (englisch, PDF; 101 kB)
- Artikel. In: Scholarpedia. (englisch, inkl. Literaturangaben)
- Der Computer macht sich selbst schlau. In: NZZ, 20. Oktober 2017. Abgerufen am 12. August 2023
Einzelnachweise
- Leslie P. Kaelbling, Michael L. Littman, Andrew W. Moore: Reinforcement Learning: A Survey. In: Journal of Artificial Intelligence Research. 4. Jahrgang, 1996, S. 237–285, doi:10.1613/jair.301, arxiv:cs/9605103 (englisch, cs.washington.edu ( des vom 20. November 2001)).
- Richard Sutton: Reinforcement Learning FAQ. 2. April 2004, archiviert vom 28. August 2016; abgerufen am 21. April 2016 (englisch). (nicht mehr online verfügbar) am
- Yi Ma und Shankar Sastry: Reinforcement Learning & Optimal Control Overview. (PDF) University of California, Berkeley, 17. Februar 2021, abgerufen am 18. April 2022 (englisch).
- Illustrating Reinforcement Learning from Human Feedback (RLHF). huggingface.co, 9. Dezember 2022. Abgerufen am 8. August 2023 (englisch)
- Jörg Frochte: Maschinelles Lernen: Grundlagen und Algorithmen in Python (= Hanser eLibrary). 3., überarbeitete und erweiterte Auflage. Hanser, München 2021, ISBN 978-3-446-46144-4.
- Uwe Lorenz: Reinforcement Learning: Aktuelle Ansätze verstehen – mit Beispielen in Java und Greenfoot. 2. Aufl. 2024. Springer Berlin Heidelberg, Berlin, Heidelberg 2024, ISBN 978-3-662-68310-1.
- Aurélien Géron: Praxiseinstieg Machine Learning. 3. Auflage. dpunkt Verlag, Heidelberg 2023, ISBN 978-3-96009-212-4.
- Sergey Levine: Actor-Critic Algorithms. (PDF) In: Actor-Critic Algorithms. UC Berkley, abgerufen am 27. Dezember 2021 (englisch).
- J. F. Knabe: Kooperatives Reinforcement Lernen in Multiagentensystemen. B. Sc. Thesis, Universität Osnabrück, 2005 (panmental.de PDF)
- Ronald J. Williams: Simple statistical gradient-following algorithms for connectionist reinforcement learning. In: Machine Learning. Band 8, Nr. 3, 1. Mai 1992, ISSN 1573-0565, S. 229–256, doi:10.1007/BF00992696.
- Daniel Seita: Model-Based Reinforcement Learning:Theory and Practice. Abgerufen am 18. April 2022.
- Thomas M. Moerland, Joost Broekens, Aske Plaat, Catholijn M. Jonker: Model-based Reinforcement Learning: A Survey. 31. März 2022, doi:10.48550/arxiv.2006.16712, arxiv:2006.16712 [abs].
- Julian Schrittwieser, Ioannis Antonoglou, Thomas Hubert, Karen Simonyan, Laurent Sifre: Mastering Atari, Go, chess and shogi by planning with a learned model. In: Nature. Band 588, Nr. 7839, Dezember 2020, ISSN 1476-4687, S. 604–609, doi:10.1038/s41586-020-03051-4.
- Richard S. Sutton: Integrated Architectures for Learning, Planning and Reacting. In: ACM SIGART Bulletin. Band 2, Nr. 4, 1. Juli 1991, S. 160–163, doi:10.1145/122344.122377 (psu.edu [PDF]).
- Daniel Seita: Model-Based Reinforcement Learning:Theory and Practice. Abgerufen am 18. April 2022.
- Jean Kaddour, Aengus Lynch, Qi Liu, Matt J. Kusner, Ricardo Silva: Causal Machine Learning. A Survey and Open Problems. 21. Juli 2022, S. 70 ff., arxiv:2206.15475v2.
Autor: www.NiNa.Az
Veröffentlichungsdatum:
wikipedia, wiki, deutsches, deutschland, buch, bücher, bibliothek artikel lesen, herunterladen kostenlos kostenloser herunterladen, MP3, Video, MP4, 3GP, JPG, JPEG, GIF, PNG, Bild, Musik, Lied, Film, Buch, Spiel, Spiele, Mobiltelefon, Mobil, Telefon, android, ios, apple, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, pc, web, computer, komputer, Informationen zu Bestärkendes Lernen, Was ist Bestärkendes Lernen? Was bedeutet Bestärkendes Lernen?
Bestarkendes Lernen oder verstarkendes Lernen englisch reinforcement learning RL steht fur einen Lernstil des maschinellen Lernens Dabei fuhrt ein KI Agent selbstandig Aktionen in einer dynamischen Umgebung aus und erlernt durch Versuch und Irrtum eine Strategie englisch policy die die Summe der erhaltenen Belohnungen englisch rewards maximiert Ubersicht uber einen typischen Ablauf beim bestarkenden Lernen Ein Agent fuhrt eine Aktion Action in einer Umgebung Environment aus Die Aktion wird bewertet Ihre Auswirkungen werden in Form einer Belohnung Reward und eines neuen Zustands State an den Agenten zuruckgemeldet Der Begriff ist der Psychologie entlehnt und wurde bereits seit den Anfangen der Kybernetik verwendet So benutzte schon Marvin Minsky den Begriff in seiner Dissertation von 1954 Die Modelle des bestarkenden Lernens versuchen das Lernverhalten in der Natur nachzubilden Die Umgebung wird in der Regel als Markov Entscheidungsproblem MDP beschrieben Eine klassische Methode fur das Losen eines MDPs ist die dynamische Programmierung Dazu muss ein genaues mathematisches Modell fur das Problem bekannt sein Ausserdem ist die Zahl der Zustande die effizient verarbeitet werden konnen begrenzt Der wesentliche Unterschied zwischen klassischen Methoden und denen des bestarkenden Lernens besteht darin dass die Methoden des bestarkenden Lernens kein Modell fur das Markov Entscheidungsproblem voraussetzen und sie auch auf MDPs mit vielen Zustanden effizient angewendet werden konnen Diese Methoden mussen einen Kompromiss finden zwischen dem Erkunden englisch exploration von noch unbekannten Zustanden und dem Ausnutzen englisch exploitation von erlerntem Wissen mit dem der Agent die Summe der erhaltenen Belohnungen maximiert Dabei konnen Belohnungen auch verzogert eintreffen Eine Aktion auf die zunachst keine hohe Belohnung erfolgt kann zu einem Zustand fuhren von dem aus mit weiteren Aktionen eine hohe Belohnung erreicht werden kann Beim bestarkenden Lernen wird die Theorie der optimalen Steuerung angewendet Ein einfacher Ansatz ist das Q Lernen Dabei werden Erfahrungswerte zu Zustanden und Aktionen direkt in Tabellen gespeichert Es wird kein Modell von der Umgebung erstellt Q Lernen funktioniert gut bei Problemstellungen die nur wenige Zustande und Aktionen enthalten so dass der Agent beim Lernen mit Sicherheit jeden Zustand mehrfach erreichen und darin Aktionen ausfuhren kann Andere Ansatze erstellen beim Lernen ein Modell der Umgebung Ein Spezialfall ist die Verwendung eines Bewertungsmodells welches durch menschliche Interaktion mit uberwachtem Lernen vorprogrammiert wird und die Interaktion mit der Umgebung erganzt In diesem Fall erfolgt bestarkendes Lernen durch menschlich beeinflusste Ruckkopplung englisch reinforcement learning through human feedback RLHF GrundlagenDie mathematischen Grundlagen des bestarkenden Lernens bilden die folgenden funf Begriffe Der Agent englisch agent die Umwelt englisch environment die Zustande englisch states die Aktionen englisch actions und die Belohnungen englisch rewards Die Methoden des bestarkenden Lernens betrachten die Interaktion des lernenden Agenten mit seiner Umgebung Einfache Beispiele sind ein Saugroboter dessen Belohnung in der Staubmenge besteht die er in einer bestimmten Zeit aufsaugt oder ein beweglicher Roboter der in einem Labyrinth steht und mit moglichst wenigen Schritten zu einem bestimmten Feld gehen soll Beschreibung der Umgebung Die Umgebung wird in der Regel als Markow Entscheidungsproblem englisch markov decision process MDP formuliert Die Interaktion des Agenten mit der Umgebung findet zu diskreten Zeitpunkten t N0 displaystyle t in mathbb N 0 statt Zu jedem Zeitpunkt befindet sich der Agent in einem Zustand wahlt eine Aktion aus und erhalt dafur eine reellwertige Belohnung Das Markow Entscheidungsproblem ist ein Tupel S A T r p0 displaystyle S A T r p 0 wobei S displaystyle S eine Menge von Zustanden A displaystyle A eine Menge von Aktionen T displaystyle T das Aktionsmodell auch Transitionswahrscheinlichkeit T S A S 0 1 displaystyle T colon S times A times S rightarrow 0 1 ist so dass T st at st 1 p st 1 st at displaystyle T s t a t s t 1 p s t 1 s t a t die Wahrscheinlichkeit ist von Zustand st displaystyle s t durch Ausfuhren von Aktion at displaystyle a t in den Zustand st 1 displaystyle s t 1 zu gelangen r S A S R displaystyle r colon S times A times S rightarrow mathbb R die Belohnungsfunktion ist die allen Zustandsubergangen eine Belohnung zuordnet und p0 S R displaystyle p 0 colon S rightarrow mathbb R die Startverteilung ist die zu jedem Zustand angibt wie wahrscheinlich es ist in diesem Zustand zu starten Eine Policy p displaystyle pi ist eine Kollektion von Wahrscheinlichkeitsmassen pt s s S displaystyle pi t cdot mid s s in mathcal S auf A displaystyle mathcal A pt a s displaystyle pi t a mid s gibt dabei die Praferenz des Agenten an zum Zeitpunkt t displaystyle t die Aktion a displaystyle a zu wahlen wenn er sich in Zustand s displaystyle s befindet In Zufallsvariablen gesprochen bedeutet dies At pt St displaystyle A t sim pi t cdot mid S t Total Discounted Reward Kriterium Man kann die Qualitat einer Policy p displaystyle pi bestimmen indem man den Gewinn den man mit ihr erzielt mit dem Gewinn vergleicht den man mit einer optimalen Policy p displaystyle pi erzielen kann Um annahernd optimal zu handeln muss der Agent die langfristigen Folgen seiner Handlungen berucksichtigen auch wenn die damit verbundene unmittelbare Belohnung negativ sein konnte Ziel des Agenten ist es den insgesamt erwarteten Gewinn englisch total discounted reward zu maximieren Dieser Gewinn wird auch kumulierter Reward genannt Er wird in der Regel als Summe aller Belohnungen r displaystyle r uber unendlich viele Zustandsubergange berechnet E Gt E i 0 gi rt i displaystyle mathbb E G t mathbb E left sum i 0 infty gamma i cdot r t i right mit 0 g lt 1 displaystyle 0 leq gamma lt 1 Dabei ist rt i displaystyle r t i die Belohnung die der Agent wahrscheinlich im Zeitschritt t 1 displaystyle t 1 erhalt Der Diskontierungsfaktor g displaystyle gamma gewichtet Belohnungen die kurzfristig erfolgen hoher als solche die spater erfolgen Er sorgt auch dafur dass die Summe fur kontinuierliche Probleme unendlich viele Zustandsubergange gegen einen Grenzwert konvergiert Fur g 0 displaystyle gamma 0 zahlt nur die direkte Belohnung einer Aktion alle zukunftigen Belohnungen werden ignoriert Fur g 1 displaystyle gamma rightarrow 1 erhalten zukunftige Belohnungen immer mehr Gewicht 487 491 17 Typische Werte fur g displaystyle gamma liegen zwischen 0 95 und 0 99 738 Erkundung der Umgebung Wenn alle Elemente eines MDP vollstandig bekannt sind und er nicht zu viele Zustande enthalt kann die optimale Policy direkt mit dynamischer Programmierung berechnet werden siehe auch Markow Entscheidungsproblem Algorithmen Bei vielen Aufgaben die mit bestarkendem Lernen gelost werden sollen ist das Aktionsmodell T displaystyle T nicht bekannt Bei diesen Aufgaben spielt die autonome Erkundung der Umgebung eine wichtige Rolle Der Agent kann selbststandig eine Erkundungs Policy ausfuhren um durch Versuch und Irrtum entweder das Aktionsmodell oder statt einem Modell direkt eine optimale Policy zu erlernen In einigen Aufgabenstellungen kann der Agent allerdings nur einen Teil der Zustande beobachten oder die Beobachtungen konnen ungenau sein Formal muss das Problem dann als teilweise beobachtbares Markow Entscheidungsproblem englisch partially observable Markov decision process POMDP beschrieben werden In beiden Fallen kann es auch Einschrankungen geben fur die Aktionen die der Agent ausfuhren kann Zur Erkundung ist ein rein zufalliges Vorgehen nicht effizient Der Agent soll sinnvolle Ansatze verfolgen und dabei bereits erworbenes Wissen ausnutzen englisch exploitation Er soll sich aber nicht zu fruh festlegen und weiter nach neuen noch besseren Aktionsmoglichkeiten suchen englisch exploration Eine prominente Erkundungs Policy ist die e greedy policy Hierbei ist der Agent entweder gierig englisch greedy und wahlt die aus seiner Sicht erfolgversprechendste Aktion gemass seinem bereits erworbenen Wissen oder er wahlt eine zufallige Aktion Der Parameter e mit Werten zwischen 0 und 1 gibt die Wahrscheinlichkeit an mit der er eine zufallige Aktion wahlt 494 495 Wesentliche Fahigkeiten Der Erfolg von bestarkendem Lernen beim Losen von Aufgaben in komplexen Umgebungen beruht im Wesentlichen auf zwei Fahigkeiten Erstens kann der Agent seine Umwelt erforschen und mit Hilfe der Ruckmeldungen seine Policy verbessern Zweitens kann er in Umgebungen in denen eine direkte Berechnung der optimalen Policy nicht effizient moglich ist die zugehorige Funktion approximieren Dadurch eignet sich das bestarkende Lernen insbesondere fur das Losen von Aufgaben bei denen Die einzige Moglichkeit die notigen Informationen zu erhalten darin besteht die Umwelt aktiv zu erforschen Das Modell der Umgebung vollstandig bekannt ist es aber zu umfangreich ist um eine analytische Losung zu berechnen Das erste Problem ist ein echtes Lernproblem Das zweite Problem ist eigentlich ein Planungsproblem denn das Modell der Umwelt ist vorab bekannt LernverfahrenZum Erlernen der Strategie des Agenten gibt es verschiedene Algorithmen Sie lassen sich grob einteilen in modellbasiert und modellfrei Modellbasierte Methoden lernen das Aktionsmodell T displaystyle T und die Belohnungsfunktion r displaystyle r und berechnen daraus die optimale Strategie Modellfreie Methoden lernen fur jeden Zustand die optimale Aktion Der Agent kennt nur die optimalen Aktionen Er kann nicht vorhersagen zu welchen Folgezustanden die Aktionen fuhren 492 Modellfrei Die am haufigsten genutzten modellfreien Ansatze sind wertbasiert oder strategiebasiert Die Mischform wird meist als bezeichnet Wertbasiert Wertbasierte Methoden bestimmen fur jeden Zustand und jede Aktion die darin ausgefuhrt werden kann den kumulierten Reward Dieser wird als Summe der direkten Belohnung auf die Aktion und allen zukunftig zu erwartenden Belohnungen berechnet Der Agent lernt eine Nutzenfunktion die den kumulierten Reward maximiert Bei kleinen Zustands oder Aktionsraumen konnen alle Werte in einer Tabelle gespeichert werden deren Felder anhand der erhaltenen Belohnungen aktualisiert werden Bei grossen Zustandsraumen muss die Nutzenfunktion jedoch approximiert werden Dazu eignet sich beispielsweise die Fourierreihe oder auch ein Neuronales Netz Bekannte Beispiele sind Monte Carlo Methoden und Temporal Difference Learning Monte Carlo Methoden Die Grundidee der Monte Carlo Methoden besteht darin den Wert einer bestimmten Aktion in einem bestimmten Zustand dadurch abzuschatzen dass man eine hinreichend grosse Menge von zufallig gewahlten Episoden ausfuhrt die den Zustand besuchen und die Aktion ausfuhren und den Mittelwert der erhaltenen Belohnungen bildet Der Mittelwert berucksichtigt fur jede Episode die Summe aller Belohnungen die nach der Aktion erhalten wurden Der Begriff Monte Carlo steht allgemein fur jede Methode die eine Zufallsstichprobe beinhaltet Im hier gegebenen Kontext ist das wesentliche Merkmal von Monte Carlo Methoden dass sie die Aktualisierungen jeweils nach einer abgeschlossenen Episode durchfuhren Sie konnen nur auf episodische Aufgabenstellungen angewendet werden Sie warten das Ergebnis einer vollstandigen Episode ab und aktualisieren danach die Mittelwerte fur die ausgefuhrten Aktionen Die Ergebnisse sind vom weiteren Verlauf der Episode abhangig Ein ungunstiger weiterer Verlauf in einer Episode senkt das Ergebnis und damit auch den Schatzwert fur eine Aktion Deshalb konnen Monte Carlo Methoden eine suboptimale Losung berechnen wenn keine geeigneten Gegenmassnahmen ergriffen werden 54 56 Temporal Difference Learning Temporal Difference Learning passt den systematischen Ansatz des Q Wert Iterationsalgorithmus der die optimale Strategie fur ein vollstandig bekanntes Markow Entscheidungsproblem berechnen kann an Probleme an bei denen das Aktionsmodell und die Belohnungfunktion nicht bekannt sind Die Methoden erkunden die Umgebung und verwenden in jedem Schritt direkt die Belohnung die die Umgebung zur ausgefuhrten Aktion zuruckmeldet Dabei kombinieren sie die direkte Belohnung mit Schatzungen zum optimalen zukunftigen Verlauf Den so erhaltenen Wert verwenden sie um die Schatzung fur den Wert der Aktion zu aktualisieren Gegenuber Monte Carlo Methoden hat dieses Vorgehen entscheidende Vorteile Die Schatzung ist unabhangig vom weiteren Verlauf der Episode sie benotigt weniger Zeit und sie ist auch bei Aufgabenstellungen moglich die unendlich weitergefuhrt werden konnen Ausserdem wurde die Konvergenz zur optimalen Wertfunktion bewiesen Eine sehr verbreitete Variante ist Q Lernen Sollen mehrere Agenten kooperieren und mit Q Lernen eine optimale Strategie dafur lernen kann bislang nur in trivialen Fallen die Konvergenz der Lernvorgange garantiert werden Trotzdem kann unter Zuhilfenahme von Heuristiken oft ein in der Praxis nutzliches Verhalten gelernt werden da der worst case selten auftritt Strategiebasiert Strategiebasierte Methoden versuchen die zu erwartende kumulative Belohnung direkt durch Parametrisierung der Strategie zu maximieren Meistens erfolgt diese Maximierung durch stochastisch gradientbasierte Optimierung englisch policy gradient Prominente Vertreter dieser Klasse sind TRPO und PPO Beispiel REINFORCE Der einfach herzuleitende Algorithmus REINFORCE schatzt den Gradienten des zu erwartenden Gewinns 8Et p8 R0 displaystyle nabla theta mathbf E tau sim p theta R 0 um damit seine Parameter uber empirisch gewinnbare Spielablaufe zu aktualisieren Hierbei muss die Strategie p8 a s displaystyle pi theta a s nach 8 displaystyle theta differenzierbar sein und t s0 a0 s1 a1 sT aT displaystyle tau s 0 a 0 s 1 a 1 dots s T a T stellt einen Spielablauf dar der aus der Wahrscheinlichkeitsverteilung p8 displaystyle p theta entnommen wird Diese setzt sich einerseits aus der Strategie p8 displaystyle pi theta als auch der moglicherweise nicht deterministischen Umgebung p s s a displaystyle p s s a auf die der Agent keinen Einfluss hat zusammen p8 t m s0 t 0Tp st 1 st at p8 at st displaystyle p theta tau mu s 0 prod t 0 T p s t 1 s t a t pi theta a t s t wobei m displaystyle mu eine Verteilung uber den Startzustand darstellt Uber die Definition der Erwartungswerts kann nun REINFORCE wie folgt hergeleitet werden 8Et p8 R0 8 R0p8 t dt R0 8p8 t dt displaystyle nabla theta mathbf E tau sim p theta R 0 nabla theta int R 0 p theta tau d tau int R 0 nabla theta p theta tau d tau R0 8log p8 t p8 t dt Et p8 R0 8log p8 t displaystyle int R 0 nabla theta text log p theta tau p theta tau d tau mathbf E tau sim p theta R 0 nabla theta text log p theta tau wobei fur die erste Gleichung die Leibnizregel verwendet wurde und fur die dritte Gleichung die Regel xlog f x xf x f x displaystyle nabla x text log f x frac nabla x f x f x wobei der naturliche Logarithmus gemeint ist Als letzten Schritt erkennen wir dass 8log p8 t 8 log m s0 t 0Tlog p st 1 st at log p8 st at t 0T 8log p8 st at displaystyle nabla theta text log p theta tau nabla theta Big text log mu s 0 sum t 0 T text log p s t 1 s t a t text log pi theta s t a t Big sum t 0 T nabla theta text log pi theta s t a t Nun kann man einen erwartungstreuen Schatzer 8Et p8 R0 displaystyle hat nabla theta mathbf E tau sim p theta R 0 des Gradienten des zu erwartenden Gewinns erhalten indem man erst einen Spielablauf t displaystyle tau mit dem Agenten generiert und einsetzt 8Et p8 R0 R0 t 0T 8log p8 at st displaystyle hat nabla theta mathbf E tau sim p theta R 0 R 0 cdot sum t 0 T nabla theta text log pi theta a t s t Der Parameterupdate mit Lernrate h displaystyle eta erfolgt dann wie folgt 8t 1 8t h 8Et p8 R0 displaystyle theta t 1 leftarrow theta t eta hat nabla theta mathbf E tau sim p theta R 0 Modellbasiert Modellbasierte Verfahren konstruieren ein pradiktives Modell ihrer Umwelt Dies bedeutet dass der Agent Vorhersagen fur Anfragen der Art Was wird passieren wenn ich eine bestimmte Aktion ausfuhre generieren kann Das Modell stellt somit einen gelernten oder bekannten reversiblen Zugang zur Umgebungsdynamik dar da der Agent eine Vorhersage zu jedem beliebigen Zustands Aktions Paar ermitteln kann und nicht an die durch den Spielablauf vorgegebene Ordnung gebunden ist Anders als in modellfreien Ansatzen ermoglicht das Modell explizites Planen Dies wird in Algorithmen wie z B von Deepmind genutzt um ein prazise Vorausberechnung zu ermoglichen die in einigen Spielen wie Schach oder Go von besonderer Relevanz ist Eine andere Klasse von Methoden welche auf dem basiert kombiniert den modellbasierten mit dem modellfreien Ansatz indem sie das gelernte Modell nutzt um kunstliche halluzinierte Daten zu generieren Diese werden dann wiederum zum Lernen einer Strategie und oder Wertfunktion eingesetzt Forschende erhoffen sich dass modellbasierte RL Methoden kunftig noch mehr zum Verstandnis realer Kausalitaten medizinischer sozial und wirtschaftswissenschaftlicher Wissenschaftszweige oder Politikgestaltung beitragen konnen causal machine learning deren Themenfelder bisher uber wenige inhaltliche und personelle Uberschneidungen verfugen LiteraturRichard Sutton Andrew Barto Reinforcement Learning An Introduction MIT Press Cambridge MA 1998 Dimitri P Bertsekas John Tsitsiklis Neuro Dynamic Programming Athena Scientific Cambridge MA 1996 Csaba Szepesvari Algorithms for Reinforcement Learning Morgan and Claypool 2010 ualberta ca PDF Marc Patrick Deisenroth Gerhard Neumann Jan Peters A Survey on Policy Search for Robotics Foundations and Trends in Robotics 21 S 388 403 2013 ausy tu darmstadt de PDF Jens Kober Drew Bagnell Jan Peters Reinforcement Learning in Robotics A Survey International Journal of Robotics Research 32 11 S 1238 1274 2013 ausy tu darmstadt de PDF Uwe Lorenz Reinforcement Learning Aktuelle Ansatze verstehen mit Beispielen in Java und Greenfoot aktual 2 Auflage Springer Vieweg 2024 ISBN 978 3 662 68311 8 Warren B Powell Approximate Dynamic Programming John Wiley and Sons 2011 Stuart Russell Peter Norvig Kunstliche Intelligenz Ein moderner Ansatz Pearson Studium August 2004 ISBN 3 8273 7089 2 deutsche Ubersetzung der 2 Auflage Kapitel 21 WeblinksCommons Bestarkendes Lernen Sammlung von Bildern und Videos Introduction to reinforcement learning by openAI Tutorial zu Reinforcement Learning englisch PDF 101 kB Artikel In Scholarpedia englisch inkl Literaturangaben Der Computer macht sich selbst schlau In NZZ 20 Oktober 2017 Abgerufen am 12 August 2023EinzelnachweiseLeslie P Kaelbling Michael L Littman Andrew W Moore Reinforcement Learning A Survey In Journal of Artificial Intelligence Research 4 Jahrgang 1996 S 237 285 doi 10 1613 jair 301 arxiv cs 9605103 englisch cs washington edu Memento des Originals vom 20 November 2001 Richard Sutton Reinforcement Learning FAQ 2 April 2004 archiviert vom Original nicht mehr online verfugbar am 28 August 2016 abgerufen am 21 April 2016 englisch Yi Ma und Shankar Sastry Reinforcement Learning amp Optimal Control Overview PDF University of California Berkeley 17 Februar 2021 abgerufen am 18 April 2022 englisch Illustrating Reinforcement Learning from Human Feedback RLHF huggingface co 9 Dezember 2022 Abgerufen am 8 August 2023 englisch Jorg Frochte Maschinelles Lernen Grundlagen und Algorithmen in Python Hanser eLibrary 3 uberarbeitete und erweiterte Auflage Hanser Munchen 2021 ISBN 978 3 446 46144 4 Uwe Lorenz Reinforcement Learning Aktuelle Ansatze verstehen mit Beispielen in Java und Greenfoot 2 Aufl 2024 Springer Berlin Heidelberg Berlin Heidelberg 2024 ISBN 978 3 662 68310 1 Aurelien Geron Praxiseinstieg Machine Learning 3 Auflage dpunkt Verlag Heidelberg 2023 ISBN 978 3 96009 212 4 Sergey Levine Actor Critic Algorithms PDF In Actor Critic Algorithms UC Berkley abgerufen am 27 Dezember 2021 englisch J F Knabe Kooperatives Reinforcement Lernen in Multiagentensystemen B Sc Thesis Universitat Osnabruck 2005 panmental de PDF Ronald J Williams Simple statistical gradient following algorithms for connectionist reinforcement learning In Machine Learning Band 8 Nr 3 1 Mai 1992 ISSN 1573 0565 S 229 256 doi 10 1007 BF00992696 Daniel Seita Model Based Reinforcement Learning Theory and Practice Abgerufen am 18 April 2022 Thomas M Moerland Joost Broekens Aske Plaat Catholijn M Jonker Model based Reinforcement Learning A Survey 31 Marz 2022 doi 10 48550 arxiv 2006 16712 arxiv 2006 16712 abs Julian Schrittwieser Ioannis Antonoglou Thomas Hubert Karen Simonyan Laurent Sifre Mastering Atari Go chess and shogi by planning with a learned model In Nature Band 588 Nr 7839 Dezember 2020 ISSN 1476 4687 S 604 609 doi 10 1038 s41586 020 03051 4 Richard S Sutton Integrated Architectures for Learning Planning and Reacting In ACM SIGART Bulletin Band 2 Nr 4 1 Juli 1991 S 160 163 doi 10 1145 122344 122377 psu edu PDF Daniel Seita Model Based Reinforcement Learning Theory and Practice Abgerufen am 18 April 2022 Jean Kaddour Aengus Lynch Qi Liu Matt J Kusner Ricardo Silva Causal Machine Learning A Survey and Open Problems 21 Juli 2022 S 70 ff arxiv 2206 15475v2