Künstliche Intelligenz als Nebenprodukt von Belohnungen

Mit "Reward is enough" (https://doi.org/10.1016/j.artint.2021.103535) wirft Google DeepMind viele Diskussionspunkte mit einer Mischung aus Philosophie, Technik und Futurismus in den Raum. Die Autoren behaupten, dass ein lernender Agent, der seine Belohnung in einer hinreichend komplexen Umgebung maximiert, zwangsläufig Intelligenz als Nebenprodukt entwickelt. Die Belohnungsmaximierung soll dabei der beste Weg sein, um die Schaffung von Artificial General Intelligence (Künstliche allgemeine Intelligenz) voranzutreiben. Doch was steckt hinter dieser Hypothese?

Hintergrund: Das Reinforcement Learning Problem

Bevor wir nun genauer auf den Beitrag eingehen, möchten wir das Reinforcement Learning Problem nochmals in Erinnerung rufen.

Illustration der Agent-Umgebung Interaktion
(Quelle: R. S. Sutton and A. G. Barto, "Reinforcement learning: An Introduction")

Reinforcement Learning ist neben "Supervised Learning" und "Unsupervised Learning" ein Gebiet des maschinellen Lernens. Ein Agent lernt, wie er Situationen (States, S) auf Aktionen (Actions, A) abbilden kann, um eine numerische Belohnung (Reward, R) zu maximieren, die er von einer Umgebung (Environment) erhält.

Wie bei vielen interaktionsbedingten Umgebungen gilt es auch hier Probleme zu überwinden, die unter dem "Reinforcement Learning Problem" zusammengefasst werden können:

Exploitation vs. Exploration: Ziel ist, den Reward auf Basis der bereits gesammelten Erfahrungen zu maximieren (Exploitation), aber dennoch die Umgebung zu erkunden, da es Aktionen geben könnte, die zu einer noch besseren Belohnung führen könnten (Exploration).

Delayed Rewards: Eine Aktion kann erst verspätet zu einer Belohnung führen. Dieser verspätete Reward ist dabei ein Problem, da ein Agent durch den unmittelbaren schlechteren Reward versuchen könnte, die soeben getätigte Aktion zukünftig zu vermeiden.

Credit Assignment Problem: Ein Reward kann oft nicht der verantwortlichen Aktion zugeordnet werden, sprich welche Aktion ist für die Belohnung verantwortlich?

Non-Stationary Reward Distirbution: Die Belohnungen, die durch Aktionen hergerufen werden, können sich mit der Zeit verändern. Sprich eine Aktion, die aktuell zum höchsten Reward führt, kann mehrere Schritte später hingegen die schlechteste Aktion sein.

Partial Observability: Oft ist die gesamte Umgebung nicht einsehbar und Aktionen sind davon abhängig, wie sich die Umgebung verändert.

Multi-Agent: Nicht immer ist nur ein Spieler vorhanden. Oft existieren mehrere Akteure und die eigenen Aktionen sind zusätzlich von den Aktionen der Mitspieler abhängig.

Herausforderungen im Reinforcement Learning
(Quelle: Dipl.-Ing. Sebastian Eresheim, BSc - Researcher Fachhochschule St. Pölten)

Reward is enough

Verschiedene Formen von Intelligenz können als Teil der Maximierung von Belohnungen verstanden werden. Die Fähigkeiten und die Intelligenz, die ein Agent dabei entwickelt, entsteht implizit aus dem Streben nach diesen Belohnungen.

"Intelligence, and its associated abilities, can be understood as subserving the maximisation of reward by an agent acting in its environment," D. Silver, S. Singh, D. Precup und R. S. Sutton, "Reward is enough"

Das Verhalten des Agents kann dabei so gesteuert werden, dass dieser die meisten (wenn nicht alle) Fähigkeiten aufweist, die auch in der natürlichen und künstlichen Intelligenz nachgewiesen werden können.

Als Beispiel dazu nennen die Autoren ein Eichhörnchen, dass versucht, in der Natur zu überleben. Das Eichhörnchen muss dabei im Laufe des Lebens lernen, wie es von Baum zu Baum springt, wie es mit Artgenossen kommuniziert, aber auch wie die vier Jahreszeiten beschaffen sind. All diese Eigenschaften und Fähigkeiten erlernt das Eichhörnchen nun implizit daraus, die eigene Belohnung "Nüsse zu sammeln" zu maximieren, um zu überleben.

Ein weiteres Beispiel wäre ein Roboter, der das eigene Heim auf Vordermann bringt und so sauber wie möglich hält. Wie der Roboter dies bewerkstelligt und welche Fähigkeiten es dazu braucht, lernt dieser implizit dadurch, die Belohnung "Sauberkeit" zu maximieren. Eine dieser Fähigkeiten wäre zum Beispiel Schmutz vom Boden aufzusammeln oder das Geschirr abzuwaschen. Der Roboter könnte dabei auch so kreativ werden, um zum Beispiel zur Mittagszeit automatisch Pizza zu bestellen, da in diesem Falle erst gar kein schmutziges Geschirr anfällt und dadurch die Belohnung "Sauberkeit" maximiert ist.

Implizite Entstehung von Intelligenz
(Quelle: D. Silver, S. Singh, D. Precup and R. S. Sutton, “Reward is enough”)

Die Hypothese in Bezug zu Artificial General Intelligence

Die Hypothese "Reward is enough" unterstreicht die implizite Entstehung von Intelligenz durch Maximierung der Belohnung. Die Autoren betonen dabei auch besonders folgende generellen Fähigkeiten, die oft mit (menschlicher und tierischer) Intelligenz in Zusammenhang gebracht werden und ein wichtiger Schritt in Richtung künstlicher allgemeiner Intelligenz sind:

Wissen und Lernen

Eine Umgebung kann sowohl angeborenes als auch erlerntes Wissen erfordern. Angeborenes Wissen ist bei natürlichen Agenten durch die Evolution bestimmt (Instinkt), künstliche Agenten erhalten dies durch Design. Das erlernte Wissen wird durch Maximierung der Belohnungen durch die Agenten selbst erworben.

Wahrnehmung

Auch Wahrnehmung kann als Teil der Belohnungsmaximierung verstanden werden. Am Beispiel unseres Eichhörnchens kann Maximierung von Nahrung implizite Wahrnehmungsfähigkeiten wie das Vermeiden natürlicher Feinde oder das Erinnern an Verstecke vergrabener Nüsse hervorrufen.

Soziale Intelligenz

Soziale Intelligenz hat viele Facetten, dies kann schlichtweg die Sprache aber auch das Verhalten in Gruppen bedeuten. Durch das Streben nach Belohnung entsteht soziale Intelligenz, da ein Agent durch eine komplexe Sequenz von Handlungen (z.B. das Aussprechen von Sätzen oder der Interaktion mit anderen Lebewesen) eine größere Summe an Rewards akkumulieren kann.

Auch das Gegenteil, sprich "Gefahr" kann durch die "Reward is enough" Hypothese wahrgenommen werden, da ein Agent Gefahren durch negative Belohnungen vermeiden und vorhersagen kann.

Generalisierung

Generalisierung wird oft als die Fähigkeiten verstanden, die Lösung eines Problems auf ein anderes Problem übertragen zu können. Auch dies kann durch eine Belohnungsmaximierung erreicht werden, da Generalisierung auch als ständige Interaktion zwischen Agent und Umgebung verstanden werden kann. Nehmen wir als Beispiel wieder unser Eichhörnchen: Würde das Eichhörnchen in einem unbekannten Wald landen oder sich verletzen, führt dies zu unterschiedlichen Zuständen in dieser Umgebung. Die Fähigkeit Nahrung zu sammeln, sprich die Belohnung "Nüsse zu sammeln" zu maximieren wird dennoch durch die bereits erlernten Fähigkeiten realisiert.

Nachahmung

Imitation ist eine wichtige Fähigkeit, die mit (menschlicher und tierischer) Intelligenz in Verbindung gebracht wird. Unser Eichhörnchen lernt zum Beispiel durch die eigene Mutter, wie es von Baum zu Baum springen kann. Dadurch lernt das Eichhörnchen neue Wege, Nüsse zu finden. Auch dies kann wieder als Maximierung der Belohnung verstanden werden, da durch die Nachahmung anderer das eigene Verhalten und folgedessen der eigene Reward erhöht werden kann. Auch das wichtige Fähigkeitsprinzip der Imitation ist durch die Hypothese abgedeckt.

Allgemeine künstliche Intelligenz, wie sie der Mensch aber auch viele Tieren besitzen, kann damit definiert werden, eine Vielzahl von Zielen in unterschiedlichen Kontexten zu erreichen.

Google DeepMind (https://deepmind.com/) wirft mit "Reward is enough" viele Diskussionspunkte mit einer Mischung aus Philosophie, Technik und Futurismus in den Raum, die viel Platz zur Interpretation bieten, aber auch einen Weg in Richtung künstliche allgemeine Intelligenz bilden können.

Referenzen

D. Silver, S. Singh, D. Precup, and R. S. Sutton, “Reward is enough” Artificial Intelligence, vol. 299, p. 103535, Oct. 2021, doi: 10.1016/j.artint.2021.103535.

Y. Kilcher, Reward Is Enough (Machine Learning Research Paper Explained). Accessed: Jun. 05, 2021. [Online Video]. Available: https://www.youtube.com/watch?v=dmH1ZpcROMk

R. S. Sutton and A. G. Barto, Reinforcement Learning: An Introduction, second edition. Cambridge, Massachusetts: The MIT Press, 2018.

J. McCarthy, What Is AI?, 1998.

S.J. Pan, Q. Yang, A survey on transfer learning, IEEE Trans. Knowl. Data Eng. 22(10) (2009) 1345–1359.

M.E. Taylor, P. Stone, Transfer learning for reinforcement learning domains: A survey, J. Mach. Learn. Res. 10(1) (2009) 1633–1685.

Fabian Kovac

studiert Data Science an der FH St. Pölten

Hier geht's zu Fabians LinkedIn-Profil