Новая модель преобразования речи в текст Scribe от ElevenLabs представлена с наивысшей на данный момент точностью (96,7% для английского языка)

Подпишитесь на наши ежедневные и еженедельные рассылки, чтобы получать последние обновления и эксклюзивный контент о ведущих в отрасли материалах об ИИ. Узнать больше
ElevenLabs, высоко оцененный стартап по клонированию и генерации голоса на основе искусственного интеллекта от бывших выпускников Palantir, сегодня запустил Scribe v1 , новую модель преобразования речи в текст, которая, как сообщается, достигает наивысшей точности на нескольких языках. Пользователи могут попробовать ее здесь, на сайте ElevenLabs.
По данным тестов компании, он превосходит Google Gemini 2.0 Flash, OpenAI Whisper v3 и Deepgram Nova-3 по точности преобразования устной речи в текст в Интернете, достигая нового рекордно низкого уровня ошибок.
Компания утверждает, что Scribe обеспечивает высочайшую точность транскрипции на 99 языках, включая улучшенную производительность на ранее недостаточно обслуживаемых языках, таких как сербский, кантонский и малаялам.
Как написал Флавио Шнайдер, ведущий исследователь ElevenLabs, на сайте X , Scribe — это «самая умная модель понимания аудио», выпущенная ElevenLabs на сегодняшний день.
«Scribe не просто транскрибирует — он понимает аудио», — продолжил Шнайдер в ответе. «Он может обнаруживать невербальные события (такие как смех, звуковые эффекты, музыку и фоновый шум) и анализировать длинные аудиоконтексты для точной диаризации даже в самых сложных условиях».
« Диаризация » — это название процесса разделения говорящих по их вокальным качествам на записи.
Фактически, в документации ElevenLabs указано, что Scribe может различать и изолировать до 32 разных ораторов в одном аудиофайле.
Хотя ElevenLabs предупреждает, что Scribe «лучше всего использовать, когда требуется высокоточная транскрипция, а не транскрипция в реальном времени», компания также планирует вскоре представить версию с низкой задержкой, расширив ее применение для приложений реального времени.
Scribe разработан для точного решения реальных аудиозадач. Согласно результатам тестов FLEURS и Common Voice, он регистрирует самые низкие показатели ошибок в словах (WER) для многих языков, включая итальянский (98,7%) и английский (96,7%).
Ключевые особенности включают в себя:
- Диаризация говорящих для различения говорящих в записях с несколькими говорящими
- Временные метки на уровне слов для точной и подробной транскрипции
- Обнаружение неречевых событий , таких как смех и фоновые шумы
- Структурированный вывод расшифровки для бесшовной интеграции через API
Scribe теперь доступен на сайте ElevenLabs и через API.
Цена установлена на уровне $0,40 за час входного аудио, со скидкой 50% на следующие шесть недель. Версия с низкой задержкой для приложений реального времени также находится в разработке.
Для лиц, принимающих решения на предприятиях, Scribe представляет собой инструмент для масштабируемой, высокоточной транскрипции, что делает его полезным для отраслей, полагающихся на автоматизированное документирование, транскрипцию совещаний и доступность контента.
Способность модели обрабатывать различные языки с высокой точностью также приносит пользу многонациональным предприятиям, медиакомпаниям и приложениям поддержки клиентов.
Структура ценообразования Scribe делает его конкурентоспособным для предприятий, которым требуются услуги транскрибации больших объемов, а его интеграция на основе API обеспечивает беспрепятственное внедрение в корпоративные рабочие процессы.
Кроме того, предстоящая версия с низкой задержкой может позиционировать Scribe как жизнеспособный вариант для инструментов общения в реальном времени.
В тот же день выйдет противоположная модель преобразования текста в речь от конкурента Хьюма Octave.Время решает все, и ElevenLabs решила запустить Scribe в тот же день, когда ее конкурент Hume AI представил Octave — модель преобразования текста в речь на базе LLM , которая позволяет пользователям настраивать голоса, генерируемые ИИ, с помощью регулируемых эмоций.
Он предназначен для создания контента, включая аудиокниги, подкасты и озвучку видеоигр. В отличие от стандартных систем TTS, Octave учитывает контекст за пределами отдельных предложений, динамически регулируя тон, ритм и каденцию, чтобы звучать более естественно.
Hume AI позиционирует Octave как прямого конкурента предложениям ElevenLabs по преобразованию текста в речь, подчеркивая, что цена Octave составляет примерно половину стоимости текущих голосовых услуг ИИ от ElevenLabs.
Хотя Scribe и Octave выполняют разные функции, их развитие отражает растущую конкуренцию в области аудиомоделей на базе искусственного интеллекта.
ElevenLabs уделяет первостепенное внимание точному распознаванию речи на нескольких языках, в то время как Hume AI развивает выразительную речь, генерируемую искусственным интеллектом.
Для предприятий это означает более специализированные решения для приложений транскрипции и синтеза голоса, позволяющие более эффективно производить контент, взаимодействовать с клиентами и обеспечивать доступность инструментов.
Scribe уже запущен, и ElevenLabs проведет виртуальное мероприятие на следующей неделе с командой, стоящей за его разработкой. Более подробная информация, бенчмарки и документация API доступны в официальном сообщении в блоге .
Если вы хотите произвести впечатление на своего босса, VB Daily вам поможет. Мы даем вам внутреннюю информацию о том, что компании делают с генеративным ИИ, от изменений в регулировании до практических развертываний, чтобы вы могли поделиться идеями для максимальной окупаемости инвестиций.
Ознакомьтесь с нашей Политикой конфиденциальности
Спасибо за подписку. Ознакомьтесь с другими рассылками VB здесь .
Произошла ошибка.

venturebeat