Hume lance le modèle de synthèse vocale Octave qui génère des voix d'IA émotives et ajustables à la demande en fonction de vos invites

Inscrivez-vous à nos newsletters quotidiennes et hebdomadaires pour recevoir les dernières mises à jour et du contenu exclusif sur la couverture de l'IA de pointe. En savoir plus
La startup new-yorkaise Hume AI est sortie de la clandestinité il y a deux ans et a depuis levé des millions de dollars grâce à sa technologie qui permet aux créateurs de créer des voix d'IA émotives destinées à être utilisées dans des applications d'entreprise.
Aujourd'hui, l'entreprise va encore plus loin avec un nouveau modèle de langage et de parole à grande échelle appelé « Omni-capable text and voice engine », ou Octave en abrégé, conçu pour produire un discours réaliste et émotionnellement nuancé destiné à être utilisé dans différentes formes de contenu, des livres audio aux dialogues préenregistrés de personnages de jeux vidéo et aux films/TV/vidéos.
Hume affirme qu'Octave est le premier système de synthèse vocale alimenté par un grand modèle linguistique (LLM) formé non seulement sur du texte mais aussi sur des jetons de parole et d'émotion, lui permettant de comprendre les mots dans leur contexte et d'ajuster le ton, le rythme et la cadence en conséquence - et que l'utilisateur peut ajuster au niveau de la phrase avec des invites textuelles.
« Nous lançons le premier LLM de synthèse vocale, un modèle qui comprend les mots dans leur contexte, prédit les émotions, le rythme, la cadence et l'emphase appropriés, rendant la parole plus humaine que jamais », a déclaré Alan Cowen, cofondateur et PDG de Hume AI, dans une interview vidéo avec VentureBeat.
Les capacités d'Octave vont au-delà de la génération de voix de base. Il peut interpréter les traits de caractère et le style à partir d'un script seul, en ajustant les inflexions vocales pour correspondre aux émotions implicites. Une remarque sarcastique sera prononcée de manière sarcastique, une phrase paniquée semblera urgente et un secret murmuré sera étouffé, le tout sans avoir besoin d'instructions explicites.
De plus, si l'utilisateur n'aime pas la voix générée ou souhaite la modifier, il peut le faire de manière granulaire grâce au langage naturel en tapant simplement une instruction textuelle à Octave, telle que « plus heureux, plus triste, plus frustré, plus en colère, plus sarcastique, plus sincère », etc.
« Vous pouvez décrire un personnage, comme un paysan médiéval sarcastique, et le modèle créera instantanément cette voix, en ajustant les émotions comme la colère, la tristesse ou le bonheur en fonction de vos instructions », a ajouté Cowen.
Bien que la version actuelle se concentre sur la parole en anglais, Octave prend également en charge l'espagnol et devrait étendre ses capacités linguistiques dans un avenir proche.
Conçu pour la création de contenuOctave est conçu pour les créateurs de contenu et la production multimédia, offrant des applications dans les livres audio, les podcasts, les personnages de jeux vidéo et les voix off vidéo.
« Ce nouveau modèle est conçu pour la synthèse vocale hors ligne, parfait pour les livres audio, les podcasts, les voix off vidéo et les personnages de jeux vidéo, où les créateurs ont besoin de voix réalistes et spécifiques aux personnages », a expliqué Cowen.
Cependant, l'utilisateur doit y accéder via le site Web de Hume, soit sur sa page Projets, soit via une interface de programmation d'application (API). Le composant « hors ligne » fait référence au fait que ce modèle est conçu pour produire des fichiers audio distincts qui peuvent être ajoutés à des projets tels que des vidéos ou des livres audio. Il n'est pas conçu pour mener une conversation en temps réel, bien que cela puisse théoriquement être autorisé en acheminant des requêtes textuelles vers le site Web.
L'API de Hume permet aux développeurs de faire jusqu'à 50 requêtes du nouveau modèle Octave par minute, avec une longueur de texte maximale de 5 000 caractères et des descriptions limitées à 1 000 caractères. Chaque requête peut générer jusqu'à cinq sorties, et les formats audio pris en charge incluent MP3, WAV et PCM.
La série précédente de modèles EVI de Hume permet des interactions en streaming, en temps réel et dans les deux sens, et reste disponible et continuera d'être développée.
Hume AI propose un modèle de tarification basé sur un abonnement avec des niveaux allant d'une option gratuite aux plans Creator, Creator Pro et Enterprise.
Voici une brève description des offres :
- Gratuit (0 $/mois) – 10 000 caractères de synthèse vocale par mois (environ 10 minutes) avec des voix personnalisées illimitées.
- Starter (3 $/mois) – 30 000 caractères (~ 30 minutes) plus assistance pour jusqu'à 20 projets.
- Créateur (10 $/mois) – 100 000 caractères (environ 100 minutes), tarification basée sur l'utilisation pour les caractères supplémentaires (0,20 $/1 000) et prise en charge jusqu'à 1 000 projets.
- Pro (50 $/mois) – 500 000 caractères (~ 500 minutes), tarification basée sur l'utilisation inférieure (0,15 $/1 000) et prise en charge jusqu'à 3 000 projets.
- Échelle (150 $/mois) – 2 000 000 de caractères (~ 2 000 minutes), tarification encore plus réduite en fonction de l'utilisation (0,13 $/1 000) et prise en charge jusqu'à 10 000 projets.
- Entreprise (900 $/mois) – 10 000 000 caractères (~ 10 000 minutes), tarification encore plus basse en fonction de l'utilisation (0,10 $/1 000) et prise en charge jusqu'à 20 000 projets.
- Entreprise (tarif personnalisé) – Utilisation illimitée, conditions juridiques personnalisées, garanties de sécurité, tarifs de gros considérablement réduits et assistance prioritaire.
Au total, Hume a souligné que le prix de son Octave TTS est environ la moitié du prix de la startup concurrente de création vocale par IA ElevenLabs , montrant ainsi l'intensification de la concurrence dans le domaine de la synthèse vocale.
En outre, Hume AI a mené une étude comparative en aveugle auprès de 180 évaluateurs humains pour comparer Octave à ElevenLabs. Les résultats ont montré qu'Octave était préféré en termes de qualité audio (71,6 % des essais), de naturel (51,7 % des essais) et de correspondance entre le discours et les descriptions de la voix souhaitée (57,7 % des essais), sur 120 invites diverses.

Pour évaluer davantage ses performances, Hume AI a également lancé l'Expressive TTS Arena, un benchmark public conçu pour tester la capacité des modèles d'IA à gérer les discours plus longs et expressifs, un domaine que les benchmarks TTS précédents ont largement négligé.
Contrairement aux systèmes de synthèse vocale traditionnels qui s'appuient sur des ensembles de données vocales limités, Octave TTS est construit sur un LLM formé sur des dizaines de milliards de jetons linguistiques.
« Les modèles de synthèse vocale traditionnels sont formés sur des données vocales limitées, mais le nôtre est construit sur un LLM formé sur des dizaines de milliards de jetons, lui permettant de raisonner, de penser et de déduire des émotions à partir du texte », a déclaré Cowen.
Le modèle a été formé à l'aide de millions d'heures de données vocales publiques de longue durée et d'ensembles de données propriétaires de Hume AI sur les nouvelles voix enregistrées par les participants à l'enquête.
« Nous avons recueilli des données auprès de personnes s'enregistrant via des webcams, réagissant naturellement aux vidéos, racontant des histoires et parlant à d'autres, y compris des amis et des membres de la famille, pour capturer un large éventail d'expressions émotionnelles », a déclaré Cowen.
Cette formation approfondie permet au modèle de déduire un contexte émotionnel et de suivre des instructions détaillées, créant des voix qui correspondent à des descriptions et des attributs de personnages spécifiques.
Le modèle, disponible aujourd'hui via la plateforme et l'API de Hume AI, offre un contrôle émotionnel au niveau des phrases, avec une certaine flexibilité au sein des phrases.
« La modulation de la voix fonctionne au niveau de la phrase, mais vous pouvez également ajuster certaines parties d’une phrase, en demandant au modèle de transmettre des émotions nuancées comme une légère frustration mêlée d’humour ou d’exaspération », a noté Cowen. Le modèle prend également en compte le contexte au-delà des phrases individuelles. « Contrairement aux modèles traditionnels qui traitent le texte mot par mot, notre modèle prend en compte des paragraphes entiers, capturant le contexte pour délivrer un discours plus naturel et émotionnellement précis », a-t-il expliqué.
Octave TTS maintient des voix de personnages cohérentes dans tout le contenu long.
« Avec notre plateforme, vous pouvez générer des voix uniques pour chaque personnage d'un livre audio, comme un orc d'âge moyen, et conserver la voix de ce personnage tout au long de l'histoire », a déclaré Cowen.
Cette capacité est prise en charge par la page « Projets » de Hume AI, qui gère le contenu long comme les livres audio en fragmentant automatiquement le texte tout en préservant la cohérence des caractères et le contexte entre les chapitres.
Hume a intégré des garde-fous techniques à son site Web et à son API interdisant la création de voix d'enfants réalistes et d'imitations d'individus spécifiques, mais à part cela, il est ouvert à une utilisation dans un large éventail de contenus et de sujets, y compris des scènes potentiellement dangereuses pour le travail telles que celles des romans d'amour populaires.
« Nous donnons aux développeurs une certaine liberté, en autorisant la création de contenu couvrant un large éventail d'expériences humaines, même si nous limitons la création de voix d'enfants réalistes et d'imitations d'individus spécifiques », a expliqué Cowen.
En outre, Cowen a déclaré que la société pourrait ajuster ces garde-fous pour des clients spécifiques sur demande, comme un éditeur de livres pour enfants cherchant à créer des voix pour des livres audio pour enfants.
En outre, Hume AI travaille sur une future fonctionnalité de clonage de voix, qui permettra aux utilisateurs de reproduire une voix à partir de seulement cinq secondes d'audio. L'entreprise élabore des mesures de protection pour garantir une utilisation éthique avant de déployer cette fonctionnalité au public.
Avec sa combinaison de conscience contextuelle, d'expression émotionnelle et de personnalisation des personnages, Octave TTS vise à offrir aux créateurs de contenu plus de contrôle et de flexibilité, en proposant des voix à la fois réalistes et émotionnellement engageantes.
Si vous souhaitez impressionner votre patron, VB Daily a tout ce qu'il vous faut. Nous vous donnons un aperçu de ce que font les entreprises avec l'IA générative, des changements réglementaires aux déploiements pratiques, afin que vous puissiez partager vos idées pour un retour sur investissement maximal.
Lisez notre politique de confidentialité
Merci de vous être abonné. Découvrez d'autres newsletters VB ici .
Une erreur s'est produite.

venturebeat