ElevenLabs'ın yeni konuşma-metne modeli Scribe, şu ana kadar en yüksek doğruluk oranına sahip (İngilizce için %96,7)

Sektör lideri AI kapsamına ilişkin en son güncellemeler ve özel içerikler için günlük ve haftalık bültenlerimize katılın. Daha Fazla Bilgi Edinin
Eski Palantir mezunlarından, son derece değerli AI ses klonlama ve oluşturma girişimi ElevenLabs, bugün birden fazla dilde en yüksek doğruluğa ulaştığı bildirilen yeni bir konuşma-metne modeli olan Scribe v1'i piyasaya sürdü . Kullanıcılar bunu ElevenLabs sitesinde deneyebilir .
Şirketin kıyaslamalarına göre, konuşulanları web üzerinde metne doğru bir şekilde dönüştürme konusunda Google'ın Gemini 2.0 Flash'ını, OpenAI'nin Whisper v3'ünü ve Deepgram Nova-3'ü geride bırakarak, hata oranlarında rekor seviyeye ulaştı.
Şirket, Scribe'ın Sırpça, Kantonca ve Malayalam gibi daha önce yeterince destek görmeyen dillerde gelişmiş performans da dahil olmak üzere 99 dilde en son teknoloji transkripsiyon doğruluğunu sağladığını iddia ediyor.
ElevenLabs Baş Araştırmacısı Flavio Schneider'in X hakkında yazdığına göre Scribe, ElevenLabs tarafından bugüne kadar yayımlanan "en akıllı ses anlama modeli".
Schneider, zincirleme bir yanıtta şöyle devam etti: "Scribe yalnızca yazıya dökmez; sesi anlar." "Sözlü olmayan olayları (gülme, ses efektleri, müzik ve arka plan gürültüsü gibi) tespit edebilir ve en zorlu ortamlarda bile doğru günlük kaydı için uzun ses bağlamlarını analiz edebilir."
“ Diarizasyon ”, bir kayıtta konuşmacıları ses özelliklerine göre ayırma işlemine verilen isimdir.
ElevenLabs'ın dokümanlarında Scribe'ın aynı ses dosyasındaki 32 farklı konuşmacıyı ayırt edip izole edebildiği belirtiliyor.
ElevenLabs, Scribe'ın "gerçek zamanlı transkripsiyondan ziyade yüksek doğrulukta transkripsiyon gerektiğinde kullanılmasının daha iyi olduğu" konusunda uyarıda bulunurken, şirket aynı zamanda gerçek zamanlı uygulamalarda kullanımını genişletecek düşük gecikmeli bir sürümünü de yakında piyasaya sürmeyi planlıyor.
Scribe, gerçek dünyadaki ses zorluklarını hassasiyetle ele almak üzere tasarlanmıştır. FLEURS ve Common Voice'un kıyaslama sonuçlarına göre, İtalyanca (%98,7) ve İngilizce (%96,7) dahil olmak üzere birçok dil için en düşük kelime hata oranlarını (WER) kaydeder.
Temel özellikler şunlardır:
- Çok konuşmacılı kayıtlarda konuşmacıları ayırt etmek için konuşmacı günlüğü
- Ayrıntılı transkripsiyon doğruluğu için kelime düzeyinde zaman damgaları
- Gülme ve arka plan sesleri gibi konuşma dışı olayların tespiti
- API aracılığıyla kusursuz entegrasyon için yapılandırılmış transkript çıktısı
Scribe artık ElevenLabs web sitesi ve API'si aracılığıyla kullanılabilir.
Giriş sesinin saati başına 0,40$ olarak belirlenen fiyatlandırma, önümüzdeki altı hafta boyunca %50 indirimle sunuluyor. Gerçek zamanlı uygulamalar için düşük gecikmeli bir sürüm de geliştirilme aşamasında.
Scribe, kurumsal karar vericiler için ölçeklenebilir, yüksek doğrulukta transkripsiyon sağlayan bir araç sunarak, otomatik dokümantasyon, toplantı transkripsiyonu ve içerik erişilebilirliğine güvenen sektörler için kullanışlı hale geliyor.
Modelin farklı dilleri yüksek hassasiyetle işleyebilme yeteneği, çok uluslu şirketlere, medya şirketlerine ve müşteri destek uygulamalarına da fayda sağlıyor.
Scribe'ın fiyatlandırma yapısı, yüksek hacimli transkripsiyon hizmetlerine ihtiyaç duyan işletmeler için rekabetçi hale getirirken, API tabanlı entegrasyonu da kurumsal iş akışlarında sorunsuz bir şekilde benimsenmesini sağlıyor.
Ayrıca, yakında çıkacak olan düşük gecikmeli sürüm, Scribe'ı gerçek zamanlı iletişim araçları için geçerli bir seçenek haline getirebilir.
Rakibi Hume'un zıt metinden sese modeli Octave ile aynı gün geliyorZamanlama her şeydir ve ElevenLabs, Scribe'ı, rakip firma Hume AI'nın, kullanıcıların yapay zeka tarafından oluşturulan sesleri ayarlanabilir duygularla özelleştirmesine olanak tanıyan LLM destekli bir metinden sese dönüştürme modeli olan Octave'ı tanıttığı gün piyasaya sürmeyi seçti.
Sesli kitaplar, podcast'ler ve video oyunu seslendirmeleri dahil olmak üzere içerik oluşturma için tasarlanmıştır. Standart TTS sistemlerinden farklı olarak, Octave bireysel cümlelerin ötesinde bağlamı dikkate alır, tonu, ritmi ve kadansı daha doğal duyulacak şekilde dinamik olarak ayarlar.
Hume AI, Octave'ı ElevenLabs'ın metinden sese dönüştürme tekliflerine doğrudan rakip olarak konumlandırıyor ve Octave'ın fiyatlandırmasının ElevenLabs'ın mevcut yapay zeka ses hizmetlerinin maliyetinin yaklaşık yarısı olduğunu vurguluyor.
Scribe ve Octave farklı işlevlere sahip olsa da, gelişimleri yapay zeka destekli ses modellerindeki artan rekabeti yansıtıyor.
ElevenLabs, hassas, çok dilli konuşma tanıma teknolojisine öncelik verirken, Hume AI ise yapay zeka tarafından üretilen etkileyici konuşmayı geliştiriyor.
İşletmeler açısından bu, hem transkripsiyon hem de sentetik ses uygulamaları için daha uzmanlaşmış çözümler anlamına geliyor ve bu da daha verimli içerik üretimi, müşteri katılımı ve erişilebilirlik araçları sağlıyor.
Scribe artık yayında ve ElevenLabs, önümüzdeki hafta geliştirme ekibiyle birlikte sanal bir etkinliğe ev sahipliği yapacak. Daha fazla ayrıntı, kıyaslama ve API dokümantasyonu resmi blog yazısında mevcuttur.
Patronunuzu etkilemek istiyorsanız, VB Daily sizin için burada. Şirketlerin üretken yapay zeka ile ilgili olarak düzenleyici değişikliklerden pratik dağıtımlara kadar neler yaptıklarına dair içeriden bilgiler veriyoruz, böylece maksimum yatırım getirisi için içgörüler paylaşabilirsiniz.
Gizlilik Politikamızı okuyun
Abone olduğunuz için teşekkürler. Daha fazla VB bültenine buradan göz atın.
Bir hata oluştu.

venturebeat