Anthropic gebruikte Pokémon om zijn nieuwste AI-model te benchmarken

Anthropic gebruikte Pokémon om zijn nieuwste AI-model te benchmarken. Ja, echt waar.
In een blogpost die maandag werd gepubliceerd, zei Anthropic dat het zijn nieuwste model, Claude 3.7 Sonnet , heeft getest op de Game Boy classic Pokémon Red. Het bedrijf heeft het model uitgerust met basisgeheugen, schermpixelinvoer en functieaanroepen om op knoppen te drukken en over het scherm te navigeren, waardoor het continu Pokémon kan spelen.
Een uniek kenmerk van Claude 3.7 Sonnet is het vermogen om deel te nemen aan “uitgebreid denken.” Net als OpenAI's o3-mini en DeepSeek's R1, kan Claude 3.7 Sonnet “redeneren” door middel van uitdagende problemen door meer rekenkracht toe te passen — en meer tijd te nemen.
Dat kwam blijkbaar goed van pas in Pokémon Red.
Vergeleken met een eerdere versie van Claude, Claude 3.0 Sonnet, die er niet in slaagde het huis in Pallet Town te verlaten waar het verhaal begint, heeft Claude 3.7 Sonnet succesvol gevochten tegen drie Pokémon-gymleiders en hun badges gewonnen.

Nu is het niet duidelijk hoeveel rekenkracht Claude 3.7 Sonnet nodig had om die mijlpalen te bereiken — en hoe lang elk ervan duurde. Anthropic zei alleen dat het model 35.000 acties uitvoerde om de laatste gym leader, Surge, te bereiken.
Het zal vast niet lang duren voordat een ondernemende ontwikkelaar hierachter komt.
Pokémon Red is meer een speelgoedbenchmark dan wat dan ook. Er is echter een lange geschiedenis van games die worden gebruikt voor AI-benchmarkingdoeleinden. Alleen al in de afgelopen paar maanden zijn er een aantal nieuwe apps en platforms opgedoken om de spelmogelijkheden van modellen te testen op titels variërend van Street Fighter tot Pictionary .
techcrunch