Новая модель преобразования речи в текст Scribe от ElevenLabs представлена с наивысшей на данный момент точностью (96,7% для английского языка)

Подпишитесь на наши ежедневные и еженедельные рассылки, чтобы получать последние обновления и эксклюзивный контент о ведущих в отрасли материалах об ИИ. Узнать больше

ElevenLabs, высоко оцененный стартап по клонированию и генерации голоса на основе искусственного интеллекта от бывших выпускников Palantir, сегодня запустил Scribe v1 , новую модель преобразования речи в текст, которая, как сообщается, достигает наивысшей точности на нескольких языках. Пользователи могут попробовать ее здесь, на сайте ElevenLabs.

По данным тестов компании, он превосходит Google Gemini 2.0 Flash, OpenAI Whisper v3 и Deepgram Nova-3 по точности преобразования устной речи в текст в Интернете, достигая нового рекордно низкого уровня ошибок.

Компания утверждает, что Scribe обеспечивает высочайшую точность транскрипции на 99 языках, включая улучшенную производительность на ранее недостаточно обслуживаемых языках, таких как сербский, кантонский и малаялам.

Как написал Флавио Шнайдер, ведущий исследователь ElevenLabs, на сайте X , Scribe — это «самая умная модель понимания аудио», выпущенная ElevenLabs на сегодняшний день.

«Scribe не просто транскрибирует — он понимает аудио», — продолжил Шнайдер в ответе. «Он может обнаруживать невербальные события (такие как смех, звуковые эффекты, музыку и фоновый шум) и анализировать длинные аудиоконтексты для точной диаризации даже в самых сложных условиях».

« Диаризация » — это название процесса разделения говорящих по их вокальным качествам на записи.

Фактически, в документации ElevenLabs указано, что Scribe может различать и изолировать до 32 разных ораторов в одном аудиофайле.

Хотя ElevenLabs предупреждает, что Scribe «лучше всего использовать, когда требуется высокоточная транскрипция, а не транскрипция в реальном времени», компания также планирует вскоре представить версию с низкой задержкой, расширив ее применение для приложений реального времени.

Scribe разработан для точного решения реальных аудиозадач. Согласно результатам тестов FLEURS и Common Voice, он регистрирует самые низкие показатели ошибок в словах (WER) для многих языков, включая итальянский (98,7%) и английский (96,7%).

Ключевые особенности включают в себя:

Диаризация говорящих для различения говорящих в записях с несколькими говорящими
Временные метки на уровне слов для точной и подробной транскрипции
Обнаружение неречевых событий , таких как смех и фоновые шумы
Структурированный вывод расшифровки для бесшовной интеграции через API

Scribe теперь доступен на сайте ElevenLabs и через API.

Цена установлена на уровне $0,40 за час входного аудио, со скидкой 50% на следующие шесть недель. Версия с низкой задержкой для приложений реального времени также находится в разработке.

Для лиц, принимающих решения на предприятиях, Scribe представляет собой инструмент для масштабируемой, высокоточной транскрипции, что делает его полезным для отраслей, полагающихся на автоматизированное документирование, транскрипцию совещаний и доступность контента.

Способность модели обрабатывать различные языки с высокой точностью также приносит пользу многонациональным предприятиям, медиакомпаниям и приложениям поддержки клиентов.

Структура ценообразования Scribe делает его конкурентоспособным для предприятий, которым требуются услуги транскрибации больших объемов, а его интеграция на основе API обеспечивает беспрепятственное внедрение в корпоративные рабочие процессы.

Кроме того, предстоящая версия с низкой задержкой может позиционировать Scribe как жизнеспособный вариант для инструментов общения в реальном времени.

В тот же день выйдет противоположная модель преобразования текста в речь от конкурента Хьюма Octave.

Время решает все, и ElevenLabs решила запустить Scribe в тот же день, когда ее конкурент Hume AI представил Octave — модель преобразования текста в речь на базе LLM , которая позволяет пользователям настраивать голоса, генерируемые ИИ, с помощью регулируемых эмоций.

Он предназначен для создания контента, включая аудиокниги, подкасты и озвучку видеоигр. В отличие от стандартных систем TTS, Octave учитывает контекст за пределами отдельных предложений, динамически регулируя тон, ритм и каденцию, чтобы звучать более естественно.

Hume AI позиционирует Octave как прямого конкурента предложениям ElevenLabs по преобразованию текста в речь, подчеркивая, что цена Octave составляет примерно половину стоимости текущих голосовых услуг ИИ от ElevenLabs.

Хотя Scribe и Octave выполняют разные функции, их развитие отражает растущую конкуренцию в области аудиомоделей на базе искусственного интеллекта.

ElevenLabs уделяет первостепенное внимание точному распознаванию речи на нескольких языках, в то время как Hume AI развивает выразительную речь, генерируемую искусственным интеллектом.

Для предприятий это означает более специализированные решения для приложений транскрипции и синтеза голоса, позволяющие более эффективно производить контент, взаимодействовать с клиентами и обеспечивать доступность инструментов.

Scribe уже запущен, и ElevenLabs проведет виртуальное мероприятие на следующей неделе с командой, стоящей за его разработкой. Более подробная информация, бенчмарки и документация API доступны в официальном сообщении в блоге .

Ежедневные аналитические обзоры бизнес-кейсов с VB Daily

Если вы хотите произвести впечатление на своего босса, VB Daily вам поможет. Мы даем вам внутреннюю информацию о том, что компании делают с генеративным ИИ, от изменений в регулировании до практических развертываний, чтобы вы могли поделиться идеями для максимальной окупаемости инвестиций.

Ознакомьтесь с нашей Политикой конфиденциальности

Спасибо за подписку. Ознакомьтесь с другими рассылками VB здесь .

Произошла ошибка.

venturebeat

Новая модель преобразования речи в текст Scribe от ElevenLabs представлена с наивысшей на данный момент точностью (96,7% для английского языка)

« Диаризация » — это название процесса разделения говорящих по их вокальным качествам на записи.

Ключевые особенности включают в себя:

Диаризация говорящих для различения говорящих в записях с несколькими говорящими
Временные метки на уровне слов для точной и подробной транскрипции
Обнаружение неречевых событий , таких как смех и фоновые шумы
Структурированный вывод расшифровки для бесшовной интеграции через API

Scribe теперь доступен на сайте ElevenLabs и через API.

В тот же день выйдет противоположная модель преобразования текста в речь от конкурента Хьюма Octave.

Ежедневные аналитические обзоры бизнес-кейсов с VB Daily

Ознакомьтесь с нашей Политикой конфиденциальности

Спасибо за подписку. Ознакомьтесь с другими рассылками VB здесь .

Произошла ошибка.

venturebeat

Новая модель преобразования речи в текст Scribe от ElevenLabs представлена с наивысшей на данный момент точностью (96,7% для английского языка)

Похожие новости

Новая модель преобразования речи в текст Scribe от ElevenLabs представлена с наивысшей на данный момент точностью (96,7% для английского языка)

Похожие новости

Европейская компания Relay привлекла $35 млн. в рамках серии A после применения азиатской модели доставки

Инфраструктура центров обработки данных Lonestar и Phison отправляется на Луну

В Демократической Республике Конго появилась смертельная неопознанная болезнь

Commercetools, пионер в области «безголовой коммерции», увольняет десятки сотрудников

Shop Circle привлекает 60 миллионов долларов для охвата электронной коммерции с помощью пакета приложений

Новая модель преобразования речи в текст Scribe от ElevenLabs представлена ​​с наивысшей на данный момент точностью (96,7% для английского языка)

Похожие новости

Новая модель преобразования речи в текст Scribe от ElevenLabs представлена ​​с наивысшей на данный момент точностью (96,7% для английского языка)

Похожие новости

Европейская компания Relay привлекла $35 млн. в рамках серии A после применения азиатской модели доставки

Инфраструктура центров обработки данных Lonestar и Phison отправляется на Луну

В Демократической Республике Конго появилась смертельная неопознанная болезнь

Commercetools, пионер в области «безголовой коммерции», увольняет десятки сотрудников

Shop Circle привлекает 60 миллионов долларов для охвата электронной коммерции с помощью пакета приложений

Новая модель преобразования речи в текст Scribe от ElevenLabs представлена с наивысшей на данный момент точностью (96,7% для английского языка)

Новая модель преобразования речи в текст Scribe от ElevenLabs представлена с наивысшей на данный момент точностью (96,7% для английского языка)