Nieuws uit de sector

Is AlphaZero de moeite waard om te spelen?

2018-06-02

DeepMind, een bedrijf voor kunstmatige intelligentie dat eigendom is van Google, heeft een nieuw artikel gepubliceerd waarin wordt beschreven hoe het team het machine-leersysteem van AlphaGo gebruikte om een ​​nieuw project met de naam AlphaZero te bouwen. AlphaZero maakt gebruik van AI-technologie, reinforining learning genaamd, die alleen basisregels gebruikt, geen menselijke ervaring, helemaal opnieuw traint en het bordspel AI veegt.

AlphaZero veroverde eerst Go en explodeerde een ander bordspel: onder dezelfde omstandigheden had het systeem acht uur training en versloeg de eerste AI die mensen versloeg - Li Shishi-versie AlphaGo; na 4 uur training versloeg AI Elmo het sterkste schaakspel AI Stokvis en versloeg de sterkste (Japanse schaak) AI Elmo in 2 uur. Zelfs de sterkste Go-speler, AlphaGo, werd niet gespaard. AlphaZero trainde 34 uur en versloeg AlphaGo Zero die 72 uur trainde.

Kaart / aantal draws, draws of verliezen in het spel vanuit het perspectief van AlphaZero (uit het DeepMind Team Paper)

Het versterken van leren is zo krachtig. Wat is het?

Adit Deshpande, een bekende AI-blogger van de University of California, Los Angeles (UCLA), publiceerde een reeks artikelen over Deep Learning Research Review in zijn blog, waarin de kracht achter AlphaGo's overwinning wordt uitgelegd. In zijn artikel introduceerde hij dat het gebied van machinaal leren kan worden onderverdeeld in drie categorieën: gesuperviseerd leren, onbewaakt leren en versterkingsleren. Versterkend leren kan verschillende acties leren in verschillende situaties of omgevingen om de beste resultaten te bereiken.

Foto / Adit Deshpande's blog Deep Learning Research Review Week 2: Reinforcement Learning

We stellen ons een kleine robot voor in een kleine kamer. We hebben deze robot niet geprogrammeerd om te bewegen of te lopen of om actie te ondernemen. Hij staat daar gewoon. We willen dat het naar een hoek van de kamer gaat, krijg beloningspunten als je er bent en verliest punten elke keer dat je gaat. We hopen dat de robot de aangewezen locatie zo ver mogelijk zal bereiken en dat de robot in vier richtingen kan bewegen: oost, zuid, west en noord. Robots zijn eigenlijk heel simpel. Welk gedrag is het meest waardevol? Het is natuurlijk een aangewezen plaats. Om de grootste beloning te krijgen, kunnen we robots alleen acties laten gebruiken die de waarde maximaliseren.
Foto / Adit Deshpande's blog Deep Learning Research Review Week 2: Reinforcement Learning

Wat is de waarde van de explosie van menselijke schaakgames door AlphaZero?

AlphaGo Zero is een doorbraak, is AlphaZero ook? Buitenlandse experts analyseerden dat de laatste vier doorbraken in technologie had:

Ten eerste optimaliseert AlphaGo Zero volgens de winnende ratio alleen overwinningen, negatieve twee soorten resultaten; En AlphaZero is volgens het resultaat om de optimalisatie voort te zetten, heeft rekening gehouden met de mogelijkheid zoals stropdas.

Ten tweede zal AlphaGo Zero de bordrichting wijzigen voor versterkingstesten, terwijl AlphaZero dit niet doet. Go board is gestapeld, terwijl schaken en schaken dat niet zijn, dus AlphaZero is veelzijdiger.

Ten derde blijft AlphaGo Zero kiezen voor de beste versie van de vervangingsratio, terwijl AlphaZero alleen een neuraal netwerk bijwerkt, waardoor het risico op het trainen van slechte resultaten wordt verminderd.

4. De hyperparameters in de zoeksectie van AlphaGo Zero worden verkregen via Bayesiaanse optimalisatie. Selectie heeft een grote invloed op het schattingsresultaat. AlphaZero hergebruikt dezelfde hyperparameter voor alle spellen, dus het is niet nodig om specifieke aanpassingen aan het spel aan te brengen.

Het vierde paradigma van senior machine learning architect Tu Weiwei vertelde geek park dat AlphaZero doorbraken en beperkingen heeft:

Ten eerste, DeepMind De kern van dit proefschrift is om de veelzijdigheid van de AlphaGo Zero-strategie op het schaakprobleem aan te tonen; er is geen speciaal hoogtepunt in de methode. AlphaZero is eigenlijk een uitgebreide versie van de AlphaGo Zero-strategie van Go naar andere vergelijkbare bordspellen en verslaat de andere op technologie gebaseerde bordspel AI. Ze waren de beste daarvoor.

Ten tweede is AlphaZero slechts een & quot; universeel & quot; engine voor vergelijkbare bordspellen met een goed gedefinieerd en perfect informatiespel. AlphaZero zal nog steeds problemen ondervinden bij complexere andere problemen.

Eerder, toen Ryukyu Sun Jian AlphaGo Zero interpreteerde, zei hij: "Versterkt leren kan worden uitgebreid naar vele andere gebieden en het is niet zo eenvoudig om het in de echte wereld te gebruiken. Versterkingsleren kan bijvoorbeeld worden gebruikt om nieuwe medicijnen en nieuwe medicijnen te onderzoeken. De structuur moet worden doorzocht. Na het zoeken wordt het in de geneeskunde omgezet. Dan is het effectief om het medicijn echt te testen. Deze closed-loop-kosten zijn erg duur en erg traag. Het is erg moeilijk voor u om het zo eenvoudig te maken als schaken. & Quot;

Ten derde heeft AlphaZero ook veel computerresources nodig om de relatief & quot; simple & quot; schaakprobleem, en de kosten zijn erg hoog. Volgens geekparken verklaarde DeepMind in de krant dat ze 5000 eerste generatie TPU's gebruikten om zelfspellende games te genereren en 64 tweede generatie TPU's gebruikten om neurale netwerken te trainen. Eerder hebben sommige experts tegen bepaalde media gezegd dat, hoewel de prestaties van de TPU verbazingwekkend zijn, de kosten erg hoog zullen zijn. Sommige beleggers van een internationale durfkapitaalorganisatie hebben ook vrienden gemaakt in deze kring. Een van de woorden is: & quot; Deze dure chip, ik kijk gewoon naar ... & quot;

Ten vierde kan de huidige AlphaZero een afstand verwijderd zijn van & quot; Go God & quot; op Go. Het winnen van mensen vertegenwoordigt God niet. De huidige netwerkstructuur en trainingsstrategie zijn niet optimaal. Eigenlijk is het de moeite waard om verder te studeren.

Hoewel er bepaalde beperkingen zijn, zijn de toepassingsscenario's de moeite van het graven waard. Er zijn veel andere onderzoeksgebieden die de aandacht verdienen in de richting van onderzoek die machinaal leren algemener maakt, zoals AutoML, migratieleren, enzovoort. Tegelijkertijd is ook aandacht besteed aan het verder verkrijgen van een algemenere AI-engine tegen lagere kosten (computerkosten, kosten van domeinexperts) en meer waarde toevoegen aan KI in praktische toepassingen.

Driptochten zijn een speciaal gebied. Volgens geekparken gebruiken dj's kunstmatige intelligentie-technologie om bestuurders en passagiers te koppelen aan onredelijke rechtlijnige afstanden (mogelijk over rivieren) tot aan opdrachten. Passagiers met de minste tijd aan auto's hebben veel technische optimalisatie ondergaan. Ze stuitten ook op problemen en werkten hard voor hen: Bij het trainen van kunstmatige-intelligentiesystemen kunnen technologieën zoals GPU-clusters worden gebruikt. Wanneer stuurprogramma's en passagiers op elkaar worden afgestemd, is real-time prestaties vereist en wordt de configuratie beperkt. Daarom, hoe te zorgen voor nauwkeurigheid is ook een onderzoek. Het personeel heeft het probleem onderzocht.

Maar Tu Weiwei bevestigde de inspanningen van DeepMind in de richting van & quot; universele kunstmatige intelligentie. & Quot;