Anthropic lanceert een nieuw AI-model dat 'denkt' zolang je wilt

Anthropic brengt een nieuw grensverleggend AI-model uit, genaamd Claude 3.7 Sonnet. Het bedrijf heeft dit model zo ontworpen dat het zo lang over vragen kan 'nadenken' als gebruikers dat willen.
Anthropic noemt Claude 3.7 Sonnet het eerste "hybride AI-redeneringsmodel" van de industrie, omdat het een enkel model is dat zowel realtime antwoorden als meer overwogen, "doordachte" antwoorden op vragen kan geven. Gebruikers kunnen kiezen of ze de "redenerings"-mogelijkheden van het AI-model willen activeren, die Claude 3.7 Sonnet ertoe aanzetten om gedurende een korte of lange periode te "denken".
Het model vertegenwoordigt Anthropic's bredere inspanning om de gebruikerservaring rondom zijn AI-producten te vereenvoudigen. De meeste AI-chatbots hebben tegenwoordig een ontmoedigende modelkiezer die gebruikers dwingt om te kiezen uit verschillende opties die variëren in kosten en mogelijkheden. Labs zoals Anthropic willen liever niet dat u erover nadenkt — idealiter doet één model al het werk.
Claude 3.7 Sonnet wordt maandag uitgerold naar alle gebruikers en ontwikkelaars, zei Anthropic, maar alleen gebruikers die betalen voor Anthropics premium Claude chatbot-abonnementen krijgen toegang tot de redeneerfuncties van het model. Gratis Claude-gebruikers krijgen de standaard, niet-redenerende versie van Claude 3.7 Sonnet, waarvan Anthropic beweert dat het zijn vorige grens-AI-model, Claude 3.5 Sonnet , overtreft. (Ja, het bedrijf heeft een nummer overgeslagen.)
Claude 3.7 Sonnet kost $3 per miljoen input tokens (wat betekent dat je ongeveer 750.000 woorden, meer woorden dan de hele Lord of the Rings-serie, in Claude kunt invoeren voor $3) en $15 per miljoen output tokens. Dat maakt het duurder dan OpenAI's o3-mini ($1,10 per 1M input tokens/$4,40 per 1M output tokens) en DeepSeek's R1 ($0,55 per 1M input tokens/$2,19 per 1M output tokens), maar houd in gedachten dat o3-mini en R1 strikt redeneermodellen zijn — geen hybrides zoals Claude 3.7 Sonnet.

Claude 3.7 Sonnet is het eerste AI-model van Anthropic dat kan ‘redeneren’, een techniek waar veel AI-labs naar zijn overgestapt nu traditionele methoden om de AI-prestaties te verbeteren afnemen .
Redeneringsmodellen zoals o3-mini, R1, Google's Gemini 2.0 Flash Thinking en xAI's Grok 3 (Think) gebruiken meer tijd en rekenkracht voordat ze vragen beantwoorden. De modellen breken problemen op in kleinere stappen, wat de nauwkeurigheid van het uiteindelijke antwoord verbetert. Redeneringsmodellen denken of redeneren niet per se zoals een mens dat zou doen, maar hun proces is gemodelleerd naar deductie.
Uiteindelijk wil Anthropic dat Claude zelf uitzoekt hoe lang het over vragen moet 'nadenken', zonder dat gebruikers vooraf besturingselementen moeten selecteren, vertelde Diane Penn, hoofd product en onderzoek bij Anthropic, aan TechCrunch in een interview.
"Op dezelfde manier waarop mensen niet over twee aparte hersenen beschikken voor vragen die direct beantwoord kunnen worden en vragen die denkwerk vereisen," schreef Anthropic in een blogpost die gedeeld werd met TechCrunch, "beschouwen wij redeneren als een van de capaciteiten die een grensmodel zou moeten hebben, die soepel geïntegreerd moet worden met andere capaciteiten, in plaats van iets dat in een apart model moet worden geboden."
Anthropic zegt dat het Claude 3.7 Sonnet toestaat om zijn interne planningsfase te tonen via een "zichtbaar kladblok". Lee vertelde TechCrunch dat gebruikers Claude's volledige denkproces voor de meeste prompts zullen zien, maar dat sommige delen mogelijk zijn geredigeerd voor vertrouwens- en veiligheidsdoeleinden.

Anthropic zegt dat het Claude's denkmodi heeft geoptimaliseerd voor taken in de echte wereld, zoals moeilijke coderingsproblemen of agentische taken. Ontwikkelaars die gebruikmaken van Anthropic's API kunnen het "budget" voor denken beheren, en snelheid en kosten inruilen voor de kwaliteit van het antwoord.
Bij een test om real-word coding-taken te meten, SWE-Bench, was Claude 3.7 Sonnet 62,3% nauwkeurig, vergeleken met OpenAI's o3-mini model dat 49,3% scoorde. Bij een andere test om het vermogen van een AI-model te meten om te interacteren met gesimuleerde gebruikers en externe API's in een retailomgeving, TAU-Bench, scoorde Claude 3.7 Sonnet 81,2%, vergeleken met OpenAI's o1 model dat 73,5% scoorde.
Anthropic zegt ook dat Claude 3.7 Sonnet minder vaak zal weigeren om vragen te beantwoorden dan zijn vorige modellen, en beweert dat het model in staat is om genuanceerdere onderscheidingen te maken tussen schadelijke en goedaardige prompts. Anthropic zegt dat het onnodige weigeringen met 45% heeft verminderd in vergelijking met Claude 3.5 Sonnet. Dit komt op een moment dat sommige andere AI-labs hun aanpak heroverwegen om de antwoorden van hun AI-chatbot te beperken .
Naast Claude 3.7 Sonnet brengt Anthropic ook een agentic coding tool uit, genaamd Claude Code. De tool wordt gelanceerd als een research preview en stelt ontwikkelaars in staat om specifieke taken via Claude uit te voeren, rechtstreeks vanaf hun terminal.
In een demo lieten Anthropic-medewerkers zien hoe Claude Code een codeerproject kan analyseren met een eenvoudig commando zoals " Leg deze projectstructuur uit." Met behulp van gewoon Engels in de opdrachtregel kan een ontwikkelaar een codebase wijzigen. Claude Code beschrijft zijn bewerkingen terwijl het wijzigingen aanbrengt en test zelfs een project op fouten of pusht het naar een GitHub-repository.
Claude Code zal in eerste instantie beschikbaar zijn voor een beperkt aantal gebruikers op basis van ‘wie het eerst komt, het eerst maalt’, vertelde een woordvoerder van Anthropic aan TechCrunch.
Anthropic brengt Claude 3.7 Sonnet uit op een moment dat AI-labs in een razend tempo nieuwe AI-modellen leveren. Anthropic hanteert van oudsher een meer methodische, op veiligheid gerichte aanpak. Maar dit keer wil het bedrijf vooroplopen.
Hoe lang nog, is de vraag. OpenAI staat misschien op het punt om een eigen hybride AI-model uit te brengen ; de CEO van het bedrijf, Sam Altman, heeft gezegd dat het binnen "maanden" zal arriveren.
techcrunch