Google entwickelt eine KI, die sowohl Schach als auch Pac-Man lernen kann

Google entwickelt eine KI, die sowohl Schach als auch Pac-Man lernen kann

Die erste große Eroberung der künstlichen Intelligenz war das Scheitern. Das Spiel hat eine schwindelerregende Anzahl möglicher Kombinationen, aber es war relativ behandelbar, da es durch ein klares Regelwerk strukturiert war. Ein Algorithmus kann immer den Status des Spiels genau kennen und alle möglichen Bewegungen kennen, die er und sein Gegner ausführen können. Der Zustand des Spiels kann nur durch einen Blick auf das Brett beurteilt werden.

Aber viele andere Spiele sind nicht so einfach. Wenn du so etwas nimmst Pac-ManUm den idealen Zug zu bestimmen, müssen die Form des Labyrinths, die Position der Geister, die Position der zu räumenden zusätzlichen Bereiche, die Verfügbarkeit von Power-Ups und vieles mehr berücksichtigt werden. wenn Blinky oder Clyde einen unerwarteten Schritt machen. Wir haben AIs entwickelt, die auch diese Spiele angehen können, aber sie mussten einen ganz anderen Ansatz verfolgen als diejenigen, die Schach und Go eroberten.

Zumindest bis jetzt. Heute hat die DeepMind-Abteilung von Google jedoch einen Artikel veröffentlicht, der die Struktur einer KI beschreibt, die sowohl Schach- als auch Atari-Klassiker angehen kann.

Bäume stärken

Algorithmen, die an Spielen wie Schach und Go gearbeitet haben, planen anhand eines Baumansatzes, bei dem sie einfach alle Zweige betrachten, die sich aus verschiedenen Aktionen in der Gegenwart ergeben. Dieser Ansatz ist rechenintensiv und die Algorithmen beruhen auf der Kenntnis der Spielregeln, wodurch sie den aktuellen Status des Spiels auf mögliche zukünftige Status des Spiels projizieren können.

Andere Spiele erfordern Algorithmen, die sich nicht wirklich um den Status des Spiels kümmern. Stattdessen bewerten die Algorithmen einfach, was sie “sehen” – normalerweise so etwas wie die Position von Pixeln auf einem Bildschirm. für ein Arcade-Spiel – und wählen Sie eine darauf basierende Aktion. Es gibt kein internes Modell für den Status des Spiels, und ein Großteil des Trainingsprozesses bestimmt, welche Reaktion angesichts dieser Informationen angemessen ist. Es gab einige Versuche, den Spielstatus basierend auf Eingaben wie Pixelinformationen zu modellieren, aber sie waren nicht so effektiv wie erfolgreiche Algorithmen, die einfach auf das reagieren, was auf dem Bildschirm angezeigt wird.

READ  100 GB freies Datenvolumen für mobile Kunden

Das neue System, das DeepMind MuZero nennt, basiert teilweise auf DeepMinds Arbeit mit dem AlphaZero Die KI, die gelernt hat, regelbasierte Spiele wie Schach und Los zu beherrschen. MuZero bietet aber auch eine neue Variante, die es wesentlich flexibler macht.

Diese Wendung wird als “modellbasiertes Verstärkungslernen” bezeichnet. In einem System, das diesen Ansatz verwendet, verwendet die Software das, was sie von einem Spiel sehen kann, um ein internes Modell des Status des Spiels zu erstellen. Kritisch ist dieser Status nicht basierend auf vorstrukturiert Ein gewisses Verständnis des Spiels – die KI kann sehr flexibel sein, welche Informationen darin enthalten sind und welche nicht. Der Teil des Lernens durch Verstärkung bezieht sich auf den Trainingsprozess, der es der KI ermöglicht, zu erkennen, wann das verwendete Modell genau ist und die Informationen enthält, die sie zum Treffen von Entscheidungen benötigt.

Vorhersagen

Das von ihm erstellte Modell wird verwendet, um eine Reihe von Vorhersagen zu treffen. Dazu gehört der bestmögliche Zug angesichts des aktuellen Status und des aktuellen Status nach dem Zug. Entscheidend ist, dass seine Vorhersage auf seinem internen Modell der Spielzustände basiert – nicht auf der tatsächlichen visuellen Darstellung des Spiels, wie beispielsweise der Position der Schachfiguren. Die Vorhersage selbst basiert auf früheren Erfahrungen, die ebenfalls trainiert werden müssen.

Schließlich wird der Wert des Zuges anhand der Vorhersagen der Algorithmen aller unmittelbaren Belohnungen bewertet, die sich aus diesem Zug ergeben (z. B. der Punktwert einer Schachfigur), und anhand des Endzustands des Spiels, z Ergebnis gewinnen oder verlieren. Schach. Dies kann die gleiche Suche nach potenziellen Spielstatusbäumen beinhalten, die von früheren Schachalgorithmen durchgeführt wurde, aber in diesem Fall bestehen die Bäume aus den internen Spielmodellen der KI.

READ  Android 11 ist da: Welche Smartphones erhalten das Mega-Update von Google?

Wenn es verwirrend ist, können Sie es sich auch so vorstellen: MuZero führt drei Bewertungen parallel durch. Einer (der politische Prozess) wählt den nächsten Schritt basierend auf dem aktuellen Stand des Spiels. Ein zweiter sagt den resultierenden neuen Zustand und die unmittelbaren Belohnungen des Unterschieds voraus. Und ein Drittel berücksichtigt frühere Erfahrungen, um politische Entscheidungen zu treffen. Jedes von ihnen ist das Produkt eines Trainings, das darauf abzielt, Fehler zwischen diesen Vorhersagen und dem, was tatsächlich im Spiel passiert, zu minimieren.

Überbiete das!

Offensichtlich hätten die Leute bei DeepMind keinen Artikel in Nature, wenn das nicht funktionieren würde. MuZero hat knapp eine Million Spiele gegen seinen Vorgänger AlphaZero bestritten, um ein ähnliches Leistungsniveau wie Schach oder Shogi zu erreichen. Für Go lag es nach nur einer halben Million Spielen an der Spitze von AlphaZero. In allen drei Fällen kann MuZero als jedem menschlichen Spieler weit überlegen angesehen werden.

Aber MuZero hat sich auch in einer Reihe von Atari-Spielen hervorgetan, für die zuvor ein völlig anderer KI-Ansatz erforderlich war. Im Vergleich zum vorherigen besten Algorithmus, der überhaupt kein internes Modell verwendet, hatte MuZero in 42 der 57 getesteten Spiele einen höheren Mittelwert und Medianwert. Während es immer noch Umstände gibt, unter denen sie zurückbleibt, macht sie jetzt modellbasierte KI in diesen Spielen wettbewerbsfähig, während sie weiterhin ihre Fähigkeit behält, regelbasierte Spiele wie Schach zu handhaben. und gehen.

Insgesamt ist dies eine beeindruckende Leistung und ein Hinweis auf die zunehmende Raffinesse der KI. Vor einigen Jahren war es eine Errungenschaft, AIs für eine einzelne Aufgabe zu schulen, beispielsweise das Erkennen einer Katze auf Fotos. Aber jetzt können wir mehrere Aspekte einer KI gleichzeitig trainieren – hier wurden der Algorithmus, der das Modell erstellt hat, derjenige, der die Bewegung ausgewählt hat, und derjenige, der zukünftige Belohnungen vorhergesagt hat, alle gleichzeitig trainiert.

READ  ModMic Uni, USB und drahtlose Clip-Mikrofone im Test

Dies ist zum Teil auf die Verfügbarkeit von mehr Rechenleistung zurückzuführen, die es ermöglicht, Millionen von Schachpartien zu spielen. Aber zum Teil ist es eine Erkenntnis, dass dies das ist, was wir tun müssen, wenn eine KI jemals flexibel genug sein soll, um mehrere verwandte Aufgaben aus der Ferne zu meistern.

Natur, 2020. DOI: 10.1038 / s41586-020-03051-4 ((Über DOIs).

Listenbild von Richard Heaven / Flickr

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.