Nvidia lanza el modelo de inteligencia artificial de transcripción de código abierto Parakeet-TDT-0.6B-V2 en Hugging Face

Únase a nuestros boletines diarios y semanales para recibir las últimas novedades y contenido exclusivo sobre la cobertura líder en IA del sector. Más información.
Nvidia se ha convertido en una de las empresas más valiosas del mundo en los últimos años gracias a que el mercado de valores ha notado la gran demanda que hay de unidades de procesamiento gráfico (GPU), los potentes chips que fabrica Nvidia que se utilizan para renderizar gráficos en videojuegos pero también, cada vez más, para entrenar modelos de lenguaje y difusión de gran tamaño de IA.
Pero Nvidia hace mucho más que simplemente fabricar hardware, por supuesto, y el software para ejecutarlo. A medida que avanza la era de la IA generativa, la compañía con sede en Santa Clara también ha ido lanzando cada vez más modelos de IA propios, en su mayoría de código abierto y gratuitos para que investigadores y desarrolladores los tomen, descarguen, modifiquen y utilicen comercialmente. El más reciente es Parakeet-TDT-0.6B-v2 , un modelo de reconocimiento automático de voz (ASR) que puede, en palabras de Vaibhav “VB” Srivastav de Hugging Face, “transcribir 60 minutos de audio en un segundo [emoji alucinante]”.
Esta es la nueva generación del modelo Parakeet que Nvidia presentó por primera vez en enero de 2024 y actualizó nuevamente en abril de ese año , pero esta versión dos es tan poderosa que actualmente encabeza el ranking Hugging Face Open ASR con una "Tasa de error de palabra" promedio (veces que el modelo transcribe incorrectamente una palabra hablada) de solo 6.05% (sobre 100).
Para ponerlo en perspectiva, se acerca a modelos de transcripción propietarios como GPT-4o-transcribe de OpenAI (con un WER del 2,46 % en inglés) y ElevenLabs Scribe (3,3 %).
Y ofrece todo esto mientras permanece disponible gratuitamente bajo una licencia Creative Commons CC-BY-4.0 comercialmente permisiva, lo que lo convierte en una propuesta atractiva para empresas comerciales y desarrolladores independientes que buscan incorporar servicios de reconocimiento de voz y transcripción en sus aplicaciones pagas.
El modelo cuenta con 600 millones de parámetros y aprovecha una combinación de las arquitecturas del codificador FastConformer y del decodificador TDT.
Es capaz de transcribir una hora de audio en solo un segundo, siempre que se ejecute en el hardware acelerado por GPU de Nvidia.
El punto de referencia de rendimiento se mide en un RTFx (factor de tiempo real) de 3386,02 con un tamaño de lote de 128, lo que lo coloca en la cima de los puntos de referencia ASR actuales mantenidos por Hugging Face.
Parakeet-TDT-0.6B-v2, lanzado globalmente el 1 de mayo de 2025, está dirigido a desarrolladores, investigadores y equipos de la industria que crean aplicaciones como servicios de transcripción, asistentes de voz, generadores de subtítulos y plataformas de inteligencia artificial conversacional.
El modelo admite puntuación, mayúsculas y marca de tiempo detallada a nivel de palabra, y ofrece un paquete de transcripción completo para una amplia gama de necesidades de conversión de voz a texto.
Los desarrolladores pueden implementar el modelo con el kit de herramientas NeMo de Nvidia. El proceso de configuración es compatible con Python y PyTorch, y el modelo puede usarse directamente o ajustarse para tareas específicas del dominio.
La licencia de código abierto (CC-BY-4.0) también permite el uso comercial, lo que la hace atractiva tanto para empresas emergentes como para grandes empresas.
Parakeet-TDT-0.6B-v2 se entrenó con un corpus diverso y a gran escala denominado conjunto de datos Granary. Este incluye alrededor de 120 000 horas de audio en inglés, compuestas por 10 000 horas de datos de alta calidad transcritos por humanos y 110 000 horas de habla pseudoetiquetada.
Las fuentes van desde conjuntos de datos conocidos como LibriSpeech y Mozilla Common Voice hasta YouTube-Commons y Librilight.
Nvidia planea hacer que el conjunto de datos Granary esté disponible públicamente luego de su presentación en Interspeech 2025.
El modelo se evaluó con múltiples benchmarks de ASR en inglés, como AMI, Earnings22, GigaSpeech y SPGISpeech, y mostró un excelente rendimiento de generalización. Mantiene su robustez en diversas condiciones de ruido y funciona bien incluso con formatos de audio de tipo telefónico, con una degradación leve con relaciones señal-ruido bajas.
Parakeet-TDT-0.6B-v2 está optimizado para entornos de GPU Nvidia y admite hardware como las placas A100, H100, T4 y V100.
Si bien las GPU de alta gama maximizan el rendimiento, el modelo aún puede cargarse en sistemas con tan solo 2 GB de RAM, lo que permite escenarios de implementación más amplios.
NVIDIA señala que el modelo se desarrolló sin el uso de datos personales y se adhiere a su marco de IA responsable.
Aunque no se tomaron medidas específicas para mitigar el sesgo demográfico, el modelo pasó los estándares de calidad internos e incluye documentación detallada sobre su proceso de entrenamiento, procedencia del conjunto de datos y cumplimiento de la privacidad.
El lanzamiento captó la atención de las comunidades de aprendizaje automático y código abierto, especialmente tras ser destacado públicamente en redes sociales. Los comentaristas destacaron la capacidad del modelo para superar las alternativas comerciales de ASR, a la vez que sigue siendo completamente de código abierto y comercialmente utilizable.
Los desarrolladores interesados en probar el modelo pueden acceder a él a través de Hugging Face o del kit de herramientas NeMo de Nvidia. Las instrucciones de instalación, los scripts de demostración y la guía de integración están disponibles para facilitar la experimentación y la implementación.
Si quieres impresionar a tu jefe, VB Daily te tiene cubierto. Te ofrecemos información exclusiva sobre lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, para que puedas compartir tus conocimientos y maximizar el retorno de la inversión.
Lea nuestra Política de Privacidad
Gracias por suscribirte. Consulta más boletines de VB aquí .
Se produjo un error.

venturebeat