RegistrierenRegistrieren   LoginLogin   FAQFAQ    SuchenSuchen   
Bewertungsfunktion
 
Neue Frage »
Antworten »
    Foren-Übersicht -> Off-Topic
Autor Nachricht
Boardgamer3



Anmeldungsdatum: 01.08.2021
Beiträge: 1

Beitrag Boardgamer3 Verfasst am: 01. Aug 2021 14:31    Titel: Bewertungsfunktion Antworten mit Zitat

Meine Frage:

Hallo

ich frage mich gerade, wie AlphaGo arbeitet und sehe einen Unterschied zwischen Bewertungsfunktion und einem Aufsummieren von Wahrscheinlichkeiten.
Ich weiß jetzt garnicht, ob AlphaGo so spielt, aber für mich als Mensch bietet sich das ja an...
Also eine Bewertungsfunktion sagt mir, was der beste Zug ist; ich suche also immer den besten Zug.
Nun zeigt sich aber das Dilemma da, wo ich danach ja auch das Abspiel präzise machen muß. Und Teile davon können hinter meinem Rechenhorizont sein. Dann drf ich vielleicht davon ausgehen, daß ich das nicht schaffe, also das Spiel wohl verliere.

Nun habe ich also Züge und ihre Gewinnwahrscheinlichkeiten; soweit klar, schon, weil das vielleicht mehr Züge sind, wäre das eine bessere Wahrscheinlichkeit.

Wie macht aber AlphaGo das?
Also: wie kann ein mathematisch operierender Algorithmus überhaupt wissen, ich habe bessere Gewinnchancen?



Meine Ideen:
Meine Idee ist, wir bauen ein Potential ein; also so daß das NN in der Lage ist, so zu spielen, wie ein Mensch das vielleicht macht, nur präziser.

Ist das überhaupt machbar? Ohne das NN voll zu blockieren, meine ich.
Also läßt sich das physikalisch lösen, das ein NN bei Bedarf eben einer menschlichen Spielweise folgt?

Ich seh' nicht, daß das überhaupt möglich ist...
ML



Anmeldungsdatum: 17.04.2013
Beiträge: 3388

Beitrag ML Verfasst am: 03. Aug 2021 01:55    Titel: Re: Bewertungsfunktion Antworten mit Zitat

Hallo,

Boardgamer3 hat Folgendes geschrieben:

ich frage mich gerade, wie AlphaGo arbeitet und sehe einen Unterschied zwischen Bewertungsfunktion und einem Aufsummieren von Wahrscheinlichkeiten.

Schau Dir hierzu einmal das AlphaGo Zero Cheat Sheet an.
Du siehst dort, dass die Suche ein komplexes Wechselspiel ist.

Zunächst werden Spiele mit zufälligen Zügen bis zu Ende gespielt. Wer dann häufiger gewonnen hat, hatte -- so die Annahme -- die bessere Stellung.
Durch die Kenntnis über die Gewinne wird ein neuronales Netz angelernt, um gute Züge zu erkennen. Zunehmend wird beim Training jedoch auch das neuronale Netz mit eingesetzt, um gute Züge vorauszuwählen.

Es gibt im Algorithmus m. E. zwei Größen, die etwas über den Gewinn aussagen:
- eine Gewinnwahrscheinlichkeit
- eine Zugwahrscheinlichkeit

Eine sinnvolle Ergänzung wäre eine Gewinnfunktion, die quantifiziert, wie stark der zu erwartende Gewinn ist (so etwas wie die gewonnenen "Punkte"). Ich bin mir aber nicht sicher, ob das in Alpha Go Zero realisiert ist.


Viele Grüße
Michael
Neue Frage »
Antworten »
    Foren-Übersicht -> Off-Topic