Anthropic, istediğiniz kadar 'düşünen' yeni bir yapay zeka modeli piyasaya sürüyor

Anthropic, kullanıcıların istediği kadar uzun süre sorular hakkında "düşünmek" üzere tasarlanan Claude 3.7 Sonnet adlı yeni bir sınır yapay zeka modeli yayınlıyor.
Anthropic, Claude 3.7 Sonnet'i sektörün ilk "hibrit AI akıl yürütme modeli" olarak adlandırıyor çünkü bu, hem gerçek zamanlı yanıtlar hem de sorulara daha fazla düşünülmüş, "düşünülmüş" yanıtlar verebilen tek bir model. Kullanıcılar, Claude 3.7 Sonnet'in kısa veya uzun bir süre "düşünmesini" sağlayan AI modelinin "akıl yürütme" yeteneklerini etkinleştirip etkinleştirmemeyi seçebilirler.
Model, Anthropic'in AI ürünleri etrafındaki kullanıcı deneyimini basitleştirme yönündeki daha geniş çabasını temsil ediyor. Günümüzdeki çoğu AI sohbet robotu, kullanıcıları maliyet ve yetenek açısından farklılık gösteren birkaç farklı seçenek arasından seçim yapmaya zorlayan göz korkutucu bir model seçiciye sahip. Anthropic gibi laboratuvarlar, bunun hakkında düşünmenizi istemezler; ideal olarak, tek bir model tüm işi yapar.
Claude 3.7 Sonnet, Pazartesi günü tüm kullanıcılar ve geliştiriciler için kullanıma sunulacak, Anthropic söyledi, ancak yalnızca Anthropic'in premium Claude chatbot planlarını ödeyen kullanıcılar modelin muhakeme özelliklerine erişebilecek. Ücretsiz Claude kullanıcıları, Anthropic'in önceki sınır AI modeli Claude 3.5 Sonnet'ten daha iyi performans gösterdiğini iddia ettiği Claude 3.7 Sonnet'in standart, muhakemesiz sürümünü alacak. (Evet, şirket bir sayıyı atladı.)
Claude 3.7 Sonnet, milyon girdi jetonu başına 3 dolara (yani yaklaşık 750.000 kelimeyi, yani Yüzüklerin Efendisi serisinin tamamından daha fazla kelimeyi Claude'a 3 dolara girebileceğiniz anlamına gelir) ve milyon çıktı jetonu başına 15 dolara mal olur. Bu, onu OpenAI'nin o3-mini'sinden (1 milyon girdi jetonu başına 1,10 dolar/1 milyon çıktı jetonu başına 4,40 dolar) ve DeepSeek'in R1'inden (1 milyon girdi jetonu başına 0,55 dolar/1 milyon çıktı jetonu başına 2,19 dolar) daha pahalı hale getirir, ancak o3-mini ve R1'in kesinlikle akıl yürütme modelleri olduğunu unutmayın; Claude 3.7 Sonnet gibi melezler değil.

Claude 3.7 Sonnet, birçok yapay zeka laboratuvarının geleneksel yapay zeka performansını artırma yöntemlerinin azalmasıyla birlikte başvurduğu bir teknik olan "akıl yürütme" yeteneğine sahip Anthropic'in ilk yapay zeka modelidir.
o3-mini, R1, Google'ın Gemini 2.0 Flash Thinking ve xAI'nin Grok 3 (Think) gibi akıl yürütme modelleri soruları yanıtlamadan önce daha fazla zaman ve işlem gücü kullanır. Modeller sorunları daha küçük adımlara böler, bu da nihai cevabın doğruluğunu artırma eğilimindedir. Akıl yürütme modelleri, mutlaka bir insanın düşündüğü veya akıl yürüttüğü gibi düşünmez, ancak süreçleri çıkarımdan sonra modellenmiştir.
Anthropic'in ürün ve araştırma lideri Diane Penn, TechCrunch'a verdiği röportajda, Anthropic'in nihayetinde kullanıcıların önceden kontrolleri seçmesine gerek kalmadan, Claude'un sorular hakkında ne kadar süre "düşünmesi" gerektiğini kendi kendine bulmasını istediğini söyledi.
Anthropic, TechCrunch ile paylaştığı bir blog yazısında, "İnsanların hemen cevaplanabilen sorular ile düşünmeyi gerektiren sorular için iki ayrı beyni olmadığı gibi, biz de akıl yürütmeyi, ayrı bir modelde sağlanması gereken bir şey olarak değil, diğer yeteneklerle sorunsuz bir şekilde entegre edilmesi gereken, öncü bir modelin sahip olması gereken yeteneklerden biri olarak görüyoruz." ifadelerini kullandı.
Anthropic, Claude 3.7 Sonnet'in iç planlama aşamasını "görünür bir not defteri" aracılığıyla göstermesine izin verdiğini söylüyor. Lee, TechCrunch kullanıcılarının Claude'un düşünce sürecinin tamamını çoğu istem için göreceğini, ancak güven ve emniyet amaçları doğrultusunda bazı bölümlerin sansürlenebileceğini söyledi.

Anthropic, Claude'un düşünme modlarını zor kodlama sorunları veya aracı görevler gibi gerçek dünya görevleri için optimize ettiğini söylüyor. Anthropic'in API'sini kullanan geliştiriciler, düşünme için "bütçeyi" kontrol edebilir, yanıt kalitesi için hız ve maliyet ticareti yapabilir.
Gerçek dünya kodlama görevlerini ölçmek için yapılan bir testte, SWE-Bench, Claude 3.7 Sonnet %62.3 oranında doğruydu, OpenAI'nin o3-mini modeli ise %49.3 puan aldı. Bir perakende ortamında simüle edilmiş kullanıcılar ve harici API'lerle etkileşim kurma becerisini ölçmek için yapılan başka bir testte, TAU-Bench, Claude 3.7 Sonnet %81.2 oranında puan aldı, OpenAI'nin o1 modeli ise %73.5 puan aldı.
Anthropic ayrıca Claude 3.7 Sonnet'in önceki modellerine göre soruları daha az sıklıkla yanıtlamayı reddedeceğini ve modelin zararlı ve iyi huylu istemler arasında daha ayrıntılı ayrımlar yapabileceğini iddia ediyor. Anthropic, gereksiz reddetmeleri Claude 3.5 Sonnet'e kıyasla %45 oranında azalttığını söylüyor. Bu , bazı diğer AI laboratuvarlarının AI sohbet robotlarının yanıtlarını kısıtlama yaklaşımlarını yeniden düşündükleri bir zamanda geliyor.
Claude 3.7 Sonnet'e ek olarak, Anthropic Claude Code adlı bir aracı kodlama aracı da yayınlıyor. Bir araştırma önizlemesi olarak başlatılan araç, geliştiricilerin Claude aracılığıyla belirli görevleri doğrudan terminallerinden çalıştırmalarına olanak tanıyor.
Bir demoda, Anthropic çalışanları Claude Code'un " Bu proje yapısını açıkla" gibi basit bir komutla bir kodlama projesini nasıl analiz edebileceğini gösterdi. Bir geliştirici, komut satırında sade İngilizce kullanarak bir kod tabanını değiştirebilir. Claude Code, değişiklikler yaparken düzenlemelerini açıklayacak ve hatta bir projeyi hatalar açısından test edecek veya bir GitHub deposuna gönderecek.
Anthropic sözcüsü TechCrunch'a yaptığı açıklamada, Claude Code'un başlangıçta "önce gelen önce alır" esasına göre sınırlı sayıda kullanıcıya sunulacağını söyledi.
Anthropic, AI laboratuvarlarının yeni AI modellerini baş döndürücü bir hızla gönderdiği bir zamanda Claude 3.7 Sonnet'i yayınlıyor. Anthropic tarihsel olarak daha metodik, güvenlik odaklı bir yaklaşım benimsemiştir. Ancak bu sefer şirket sürüye liderlik etmeyi hedefliyor.
Soru ne kadar uzun süreceği. OpenAI kendi hibrit AI modelini yayınlamaya yakın olabilir ; şirketin CEO'su Sam Altman, bunun "aylar" içinde geleceğini söyledi.
techcrunch