A ElevenLabs está lançando seu próprio modelo de conversão de fala em texto

ElevenLabs , uma startup de IA que acaba de levantar uma mega rodada de financiamento de US$ 180 milhões , é conhecida principalmente por sua proeza de geração de áudio. A empresa deu um passo em outra direção tecnológica ao lançar seu primeiro modelo autônomo de conversão de fala em texto chamado Scribe.

A startup, avaliada em US$ 3,3 bilhões , auxiliou muitas outras empresas a fornecer serviços de conversão de fala em texto por meio de sua vasta biblioteca de vozes. No entanto, a empresa agora está buscando entrar na detecção de fala e competir com empresas como Gladia , Speechmatics , AssemblyAI , Deepgram e os modelos Whisper da OpenAI.

O modelo Scribe da ElevenLabs suporta mais de 99 idiomas no lançamento. A empresa categoriza mais de 25 idiomas na categoria de precisão excelente para o modelo onde a taxa de erro de palavra é inferior a 5%. Esta lista inclui inglês (taxa de precisão declarada de 97%), francês, alemão, hindi, indonésio, japonês, canarês, malaiala, polonês, português, espanhol e vietnamita. Outros idiomas são classificados em diferentes categorias com taxas de erro de palavra alta (5-10%), boa (10 a 20%) e moderada (25 a 50%).

A empresa disse que o modelo superou o Google Gemini 2.0 Flash e o Whisper Large V3 em vários idiomas nos testes de benchmark FLEURS e Common Voice.

A ElevenLabs desenvolveu o componente de conversão de fala em texto para sua plataforma de agente conversacional de IA, que foi lançada no ano passado. No entanto, esta é a primeira vez que a empresa está lançando um modelo autônomo de detecção de fala . Em uma conversa com a TechCrunch no mês passado, o CEO Mati Staniszewski falou sobre melhorar os modelos de detecção de fala.

“Queremos entender melhor o que está sendo dito por você em uma conversa. Estamos trabalhando em maneiras de nos afastarmos de apenas gerar conteúdo e entender e transcrever a fala”, disse Staniszewski na época. “Muitas pessoas dizem que a conversão de fala em texto é um problema resolvido. Mas, para muitos idiomas, é bem ruim. Achamos que podemos construir melhores modelos de detecção de fala porque temos equipes internas para anotar dados e nos dar um feedback rápido.”

O modelo também tem diarização inteligente de alto-falante para dizer quem está falando, registro de data e hora no nível da palavra para legendas precisas e marcação automática de eventos sonoros, como risadas do público. A startup está fornecendo uma maneira para os clientes transcreverem diretamente o conteúdo do vídeo para adicionar legendas ou legendas ocultas em seu estúdio.

Atualmente, o Scribe só funciona com formatos de áudio pré-gravados. A empresa disse que lançará uma versão de baixa latência em tempo real do modelo em breve. Isso significa que ele ainda não é eficaz para transcrições de reuniões ou anotações de voz.

A ElevenLabs está cobrando do Scribe US$ 0,40 por uma hora de áudio transcrito. Embora a taxa seja competitiva, alguns de seus rivais oferecem um preço menor para transcrições de áudio no momento, com alguma diferenciação de recursos.