El nuevo modelo de conversión de voz a texto de ElevenLabs, Scribe, ya está aquí con el mayor índice de precisión hasta el momento (96,7 % para inglés)

Suscríbase a nuestros boletines diarios y semanales para recibir las últimas actualizaciones y contenido exclusivo sobre la cobertura de inteligencia artificial líder en la industria. Más información
ElevenLabs, la startup de clonación y generación de voz con inteligencia artificial de gran prestigio creada por antiguos alumnos de Palantir, lanzó hoy Scribe v1 , un nuevo modelo de conversión de voz a texto que, según se informa, logra la mayor precisión en varios idiomas. Los usuarios pueden probarlo aquí, en el sitio de ElevenLabs.
Según los puntos de referencia de la empresa, supera a Gemini 2.0 Flash de Google, Whisper v3 de OpenAI y Deepgram Nova-3 en la conversión precisa de voz hablada en texto en la web, logrando nuevos índices de error récord.
La empresa afirma que Scribe ofrece una precisión de transcripción de última generación en 99 idiomas, incluido un rendimiento mejorado en idiomas anteriormente desatendidos, como el serbio, el cantonés y el malabar.
Como escribió Flavio Schneider, investigador principal de ElevenLabs, en X , Scribe es el “modelo de comprensión de audio más inteligente” lanzado por ElevenLabs hasta el momento.
“Scribe no solo transcribe, también entiende audio”, continuó Schneider en una respuesta en cadena. “Puede detectar eventos no verbales (como risas, efectos de sonido, música y ruido de fondo) y analizar contextos de audio largos para una transcripción precisa, incluso en los entornos más desafiantes”.
“ Diarización ” es el nombre que se le da a los procesos de separación de los hablantes según sus cualidades vocales en una grabación.
De hecho, la documentación de ElevenLabs afirma que Scribe puede distinguir y aislar hasta 32 hablantes diferentes en el mismo archivo de audio.
Si bien ElevenLabs advierte que Scribe “se utiliza mejor cuando se requiere una transcripción de alta precisión en lugar de una transcripción en tiempo real”, la compañía también planea presentar pronto una versión de baja latencia, ampliando su uso para aplicaciones en tiempo real.
Scribe está diseñado para manejar desafíos de audio del mundo real con precisión. Según los resultados de referencia de FLEURS y Common Voice, registra las tasas de error de palabras (WER) más bajas para muchos idiomas, incluidos el italiano (98,7 %) y el inglés (96,7 %).
Las características principales incluyen:
- Diarización de hablantes para diferenciar hablantes en grabaciones con varios hablantes
- Marcas de tiempo a nivel de palabra para una transcripción detallada y precisa
- Detección de eventos no verbales , como risas y ruidos de fondo.
- Salida de transcripción estructurada para una integración perfecta a través de API
Scribe ya está disponible a través del sitio web y la API de ElevenLabs.
El precio se ha fijado en 0,40 dólares por hora de entrada de audio, con un descuento del 50 % durante las próximas seis semanas. También se está desarrollando una versión de baja latencia para aplicaciones en tiempo real.
Para los tomadores de decisiones empresariales, Scribe presenta una herramienta de transcripción escalable y de alta precisión, lo que la hace útil para industrias que dependen de la documentación automatizada, la transcripción de reuniones y la accesibilidad al contenido.
La capacidad del modelo para manejar diversos idiomas con alta precisión también beneficia a empresas multinacionales, compañías de medios y aplicaciones de atención al cliente.
La estructura de precios de Scribe lo hace competitivo para las empresas que requieren servicios de transcripción de gran volumen, y su integración basada en API permite una adopción perfecta en los flujos de trabajo empresariales.
Además, la próxima versión de baja latencia podría posicionar a Scribe como una opción viable para herramientas de comunicación en tiempo real.
Llega el mismo día que el modelo de texto a voz opuesto de Hume, Octave.El tiempo lo es todo, y ElevenLabs decidió lanzar Scribe el mismo día que su rival Hume AI presentó Octave, un modelo de texto a voz impulsado por LLM que permite a los usuarios personalizar las voces generadas por IA con emociones ajustables.
Está diseñado para la creación de contenido, incluidos audiolibros, podcasts y voces en off de videojuegos. A diferencia de los sistemas TTS estándar, Octave considera el contexto más allá de las oraciones individuales, ajustando el tono, el ritmo y la cadencia de manera dinámica para que suenen más naturales.
Hume AI posiciona a Octave como un competidor directo de las ofertas de texto a voz de ElevenLabs, destacando que el precio de Octave es aproximadamente la mitad del costo de los servicios de voz de IA actuales de ElevenLabs.
Si bien Scribe y Octave cumplen funciones diferentes, su desarrollo refleja la creciente competencia en los modelos de audio impulsados por IA.
ElevenLabs está dando prioridad al reconocimiento de voz preciso y en varios idiomas, mientras que Hume AI está impulsando el habla expresiva generada por IA.
Para las empresas, esto significa soluciones más especializadas tanto para aplicaciones de transcripción como de voz sintética, lo que permite una producción de contenido más eficiente, interacción con el cliente y herramientas de accesibilidad.
Scribe ya está disponible y la semana que viene ElevenLabs organizará un evento virtual con el equipo responsable de su desarrollo. Encontrará más detalles, evaluaciones comparativas y documentación de API en la publicación oficial del blog .
Si desea impresionar a su jefe, VB Daily lo tiene cubierto. Le brindamos información exclusiva sobre lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, para que pueda compartir información y obtener el máximo retorno de la inversión.
Lea nuestra Política de privacidad
Gracias por suscribirse. Vea más boletines de VB aquí .
Se produjo un error.

venturebeat