Claude 3.7 Sonnet di Anthropic prende di mira OpenAI e DeepSeek nella prossima grande battaglia dell'intelligenza artificiale

Iscriviti alle nostre newsletter giornaliere e settimanali per gli ultimi aggiornamenti e contenuti esclusivi sulla copertura AI leader del settore. Scopri di più
Anthropic ha appena lanciato un colpo di avvertimento a OpenAI , DeepSeek e all'intero settore dell'intelligenza artificiale con il lancio di Claude 3.7 Sonnet , un modello che offre agli utenti un controllo senza precedenti su quanto tempo un'intelligenza artificiale impiega a " pensare " prima di generare una risposta. Il rilascio, insieme al debutto di Claude Code , un agente di codifica AI da riga di comando, segnala l'aggressiva spinta di Anthropic nel mercato dell'intelligenza artificiale aziendale, che potrebbe rimodellare il modo in cui le aziende creano software e automatizzano il lavoro.
La posta in gioco non potrebbe essere più alta. Il mese scorso, DeepSeek ha sbalordito il mondo della tecnologia con un modello di intelligenza artificiale che ha eguagliato i sistemi statunitensi a una frazione del costo , facendo scendere le azioni di Nvidia del 17% e sollevando allarmi sulla leadership dell'intelligenza artificiale americana. Ora Anthropic scommette che il controllo preciso sul ragionamento dell'intelligenza artificiale, non solo sulla velocità pura o sui risparmi sui costi, gli darà un vantaggio.

"Crediamo semplicemente che il ragionamento sia una parte fondamentale e un componente fondamentale di un'IA, piuttosto che una cosa separata per cui devi pagare separatamente per accedervi", ha affermato Dianne Penn, che guida la gestione dei prodotti per la ricerca presso Anthropic, in un'intervista con VentureBeat. "Proprio come gli umani, l'IA dovrebbe gestire sia risposte rapide che pensieri complessi. Per una semplice domanda come "che ore sono?", dovrebbe rispondere all'istante. Ma per compiti complessi, come pianificare un viaggio di due settimane in Italia, soddisfacendo al contempo le esigenze dietetiche senza glutine, ha bisogno di tempi di elaborazione più estesi".
"Non vediamo ragionamento, pianificazione e autocorrezione come capacità separate", ha aggiunto. "Quindi questo è essenzialmente il nostro modo di esprimere quella differenza filosofica... Idealmente, il modello stesso dovrebbe riconoscere quando un problema richiede un pensiero più intenso e adattarsi, piuttosto che richiedere agli utenti di selezionare esplicitamente diverse modalità di ragionamento".

I dati di riferimento supportano l'ambiziosa visione di Anthropic. In modalità di pensiero esteso, Claude 3.7 Sonnet raggiunge il 78,2% di accuratezza nei compiti di ragionamento di livello universitario, sfidando gli ultimi modelli di OpenAI e superando DeepSeek R1.
Ma i dati più significativi provengono da applicazioni nel mondo reale: il modello ottiene un punteggio dell'81,2% nell'uso di strumenti incentrati sulla vendita al dettaglio e mostra notevoli miglioramenti nel rispetto delle istruzioni (93,2%) , ambiti in cui i concorrenti hanno avuto difficoltà o non hanno pubblicato risultati.
Mentre DeepSeek e OpenAI sono leader nei benchmark matematici tradizionali , l'approccio unificato di Claude 3.7 dimostra che un singolo modello può passare efficacemente da risposte rapide ad analisi approfondite, eliminando potenzialmente la necessità per le aziende di mantenere sistemi di intelligenza artificiale separati per diversi tipi di attività.
La tempistica del rilascio è cruciale. L'emergere di DeepSeek il mese scorso ha mandato onde d'urto nella Silicon Valley, dimostrando che un ragionamento AI sofisticato potrebbe essere ottenuto con una potenza di calcolo molto inferiore a quanto si pensasse in precedenza. Ciò ha messo in discussione le ipotesi fondamentali sui costi di sviluppo AI e sui requisiti infrastrutturali. Quando DeepSeek ha pubblicato i suoi risultati, le azioni di Nvidia sono scese del 17% in un solo giorno, con gli investitori che improvvisamente si sono chiesti se i chip costosi fossero davvero essenziali per l'AI avanzata.
Per le aziende, la posta in gioco non potrebbe essere più alta. Le aziende stanno spendendo milioni per integrare l'IA nelle loro operazioni, scommettendo su quale approccio prevarrà. Il modello ibrido di Anthropic offre una via di mezzo avvincente: la capacità di mettere a punto le prestazioni dell'IA in base al compito da svolgere, dalle risposte immediate del servizio clienti alle complesse analisi finanziarie. Il sistema mantiene il precedente prezzo di Anthropic di 3 $ per milione di token di input e 15 $ per milione di token di output, anche con funzionalità di ragionamento aggiuntive.

"I nostri clienti cercano di ottenere risultati per i loro clienti", ha spiegato Michael Gerstenhaber, responsabile della piattaforma di Anthropic. "Utilizzare lo stesso modello e sollecitare lo stesso modello in modi diversi consente a qualcuno come Thompson Reuters di fare ricerche legali, consente ai nostri partner di codifica come Cursor o GitHub di essere in grado di sviluppare applicazioni e raggiungere quegli obiettivi".
L'approccio ibrido di Anthropic rappresenta sia un'evoluzione tecnica che una mossa strategica. Mentre OpenAI mantiene modelli separati per diverse capacità e DeepSeek si concentra sull'efficienza dei costi , Anthropic sta perseguendo sistemi unificati in grado di gestire sia attività di routine che ragionamenti complessi. È una filosofia che potrebbe rimodellare il modo in cui le aziende distribuiscono l'IA, eliminando la necessità di destreggiarsi tra più modelli specializzati.
Anthropic ha anche presentato oggi Claude Code , uno strumento da riga di comando che consente agli sviluppatori di delegare compiti di ingegneria complessi direttamente all'IA. Il sistema richiede l'approvazione umana prima di eseguire modifiche al codice, riflettendo la crescente attenzione del settore sullo sviluppo responsabile dell'IA.

"In realtà devi comunque accettare le modifiche apportate da Claude. Sei un revisore con le mani sul volante", ha osservato Penn. "Esiste essenzialmente una sorta di checklist che devi sostanzialmente accettare affinché il modello intraprenda determinate azioni".
Gli annunci giungono in un momento di intensa competizione nello sviluppo dell'IA. I ricercatori di Stanford hanno recentemente creato un modello di ragionamento open source per meno di $ 50, mentre Microsoft ha appena integrato il modello o3-mini di OpenAI in Azure. Il successo di DeepSeek ha anche stimolato nuovi approcci allo sviluppo dell'IA, con alcune aziende che esplorano tecniche di distillazione del modello che potrebbero ridurre ulteriormente i costi.

Penn ha illustrato il progresso spettacolare nelle capacità dell'IA con un esempio inaspettato: "Abbiamo chiesto a diverse versioni di Claude di giocare a Pokémon... Questa versione è arrivata fino a Vermilion City , ha catturato diversi Pokémon e ha persino macinato per salire di livello. Ha i Pokémon giusti per combattere contro i rivali".
"Penso che ci vedrete continuare a innovare e a spingere sulla qualità del ragionamento, spingere verso cose come il ragionamento dinamico", ha spiegato Penn. "Lo abbiamo sempre pensato come una parte fondamentale dell'intelligenza, piuttosto che qualcosa di separato".
La vera prova dell'approccio di Anthropic verrà dall'adozione aziendale. Mentre giocare a Pokémon potrebbe sembrare banale, dimostra il tipo di intelligenza adattiva di cui le aziende hanno bisogno: IA in grado di gestire sia le operazioni di routine sia le decisioni strategiche complesse senza passare da un modello specializzato all'altro. Le versioni precedenti di Claude non riuscivano ad andare oltre la città di partenza di un gioco. L'ultima versione crea strategie, gestisce risorse e prende decisioni tattiche, capacità che rispecchiano la complessità delle sfide aziendali del mondo reale.
Per i clienti aziendali, questo potrebbe significare la differenza tra il mantenimento di più sistemi AI per diverse attività e l'implementazione di una soluzione singola, più capace. I prossimi mesi riveleranno se la scommessa di Anthropic sul ragionamento AI unificato rimodellerà il mercato aziendale o diventerà un altro esperimento nella rapida evoluzione del settore.
Se vuoi impressionare il tuo capo, VB Daily ha quello che fa per te. Ti diamo informazioni privilegiate su cosa stanno facendo le aziende con l'intelligenza artificiale generativa, dai cambiamenti normativi alle implementazioni pratiche, così puoi condividere approfondimenti per il massimo ROI.
Leggi la nostra Informativa sulla Privacy
Grazie per esserti iscritto. Scopri altre newsletter VB qui .
Si è verificato un errore.

venturebeat