Hume wprowadza model zamiany tekstu na mowę Octave, który generuje emocjonalne, regulowane głosy AI na żądanie na podstawie Twoich poleceń

Dołącz do naszych codziennych i cotygodniowych newsletterów, aby otrzymywać najnowsze aktualizacje i ekskluzywne treści na temat wiodących w branży relacji z AI. Dowiedz się więcej
Nowojorski startup Hume AI powstał z ukrycia dwa lata temu i od tego czasu pozyskał wielomilionowe finansowanie na bazie swojej technologii, która pozwala tworzyć emocjonalne głosy sztucznej inteligencji do wykorzystania w aplikacjach korporacyjnych.
Dziś firma rozwija swoją ofertę, wprowadzając nowy model obsługi wielu języków i mowy, zwany „wszechstronnym silnikiem tekstowo-głosowym” lub w skrócie Octave . Został on zaprojektowany w celu generowania realistycznej, pełnej niuansów emocjonalnych mowy do wykorzystania w różnych formach treści, od audiobooków po nagrane dialogi postaci z gier wideo oraz filmy/telewizję/wideo.
Hume twierdzi, że Octave to pierwszy system zamiany tekstu na mowę oparty na dużym modelu językowym (LLM), który uczył się nie tylko tekstu, ale także mowy i emocji, co pozwala mu rozumieć słowa w kontekście i odpowiednio dostosowywać ton, rytm i kadencję — a użytkownik może to dostosowywać na poziomie zdania za pomocą podpowiedzi tekstowych.
„Wprowadzamy pierwszy model LLM do zamiany tekstu na mowę — model, który rozumie słowa w kontekście, przewidując odpowiednie emocje, rytm, kadencję i akcent, dzięki czemu mowa brzmi bardziej ludzko niż kiedykolwiek wcześniej” — powiedział Alan Cowen, współzałożyciel i dyrektor generalny Hume AI, w wywiadzie wideo dla VentureBeat.
Możliwości Octave wykraczają poza podstawową generację głosu. Potrafi interpretować cechy charakteru i styl na podstawie samego skryptu, dostosowując intonację głosu do sugerowanych emocji. Sarkastyczna uwaga zostanie wypowiedziana sarkastycznie, zdanie w panice zabrzmi pilnie, a szeptany sekret zostanie uciszony — wszystko to bez potrzeby wyraźnego kierowania.
Ponadto, jeśli użytkownikowi nie podoba się wygenerowany głos lub chce go zmienić, może to zrobić szczegółowo za pomocą języka naturalnego, po prostu wpisując instrukcję tekstową do Octave, np. „szczęśliwszy, smutniejszy, bardziej sfrustrowany, bardziej zły, bardziej sarkastyczny, bardziej szczery” itp.
„Możesz opisać postać, np. sarkastycznego średniowiecznego chłopa, a model natychmiast stworzy ten głos, dostosowując emocje, takie jak gniew, smutek lub szczęście, na podstawie twoich instrukcji” – dodał Cowen.
Choć bieżąca wersja skupia się na mowie w języku angielskim, Octave obsługuje również język hiszpański i oczekuje się, że w niedalekiej przyszłości rozszerzy swoje możliwości językowe.
Dostosowane do tworzenia treściOctave to system stworzony z myślą o twórcach treści i producentach mediów. Oferuje aplikacje do audiobooków, podcastów, tworzenia postaci z gier wideo i podkładania głosu do filmów.
„Ten nowy model jest przeznaczony do przetwarzania tekstu na mowę w trybie offline — co idealnie nadaje się do audiobooków, podcastów, podkładów głosowych do filmów i postaci z gier wideo — w sytuacjach, w których twórcy potrzebują realistycznych głosów charakterystycznych dla poszczególnych postaci” — wyjaśnił Cowen.
Jednak użytkownik musi uzyskać do niego dostęp za pośrednictwem witryny Hume'a, albo na stronie Projekty, albo za pośrednictwem interfejsu programowania aplikacji (API). Komponent „offline” odnosi się do faktu, że ten model został zaprojektowany do tworzenia odrębnych plików audio, które można dodawać do projektów, takich jak filmy lub audiobooki. Nie został zaprojektowany do prowadzenia konwersacji w czasie rzeczywistym, chociaż teoretycznie można by to umożliwić, przesyłając zapytania tekstowe do witryny.
API Hume'a pozwala programistom na tworzenie do 50 żądań nowego modelu Octave na minutę, z maksymalną długością tekstu 5000 znaków i opisami ograniczonymi do 1000 znaków. Każde żądanie może wygenerować do pięciu wyników, a obsługiwane formaty audio obejmują MP3, WAV i PCM.
Poprzednie modele serii EVI firmy Hume umożliwiają strumieniowanie, interakcje w czasie rzeczywistym i są nadal dostępne oraz będą nadal rozwijane.
Hume AI oferuje model cenowy oparty na subskrypcji, obejmujący różne poziomy: od opcji bezpłatnej po plany Creator, Creator Pro i Enterprise.
Oto zwięzły opis oferty:
- Bezpłatnie (0 USD/miesiąc) – 10 000 znaków zamiany tekstu na mowę miesięcznie (~10 minut) z nieograniczoną liczbą niestandardowych głosów.
- Starter (3 USD/miesiąc) – 30 000 znaków (~30 minut) plus wsparcie dla maksymalnie 20 projektów.
- Twórca (10 USD/miesiąc) – 100 000 znaków (~100 minut), cena za dodatkowe znaki uzależniona od wykorzystania (0,20 USD/1000) i obsługa do 1000 projektów.
- Pro (50 USD/miesiąc) – 500 000 znaków (~500 minut), niższa cena zależna od wykorzystania (0,15 USD/1000) i obsługa do 3000 projektów.
- Skala (150 USD/miesiąc) – 2 000 000 znaków (~2000 minut), dodatkowo obniżona cena zależna od wykorzystania (0,13 USD/1000) i obsługa do 10 000 projektów.
- Business (900 USD/miesiąc) – 10 000 000 znaków (~10 000 minut), jeszcze niższe ceny zależne od wykorzystania (0,10 USD/1000) i obsługa do 20 000 projektów.
- Enterprise (cena niestandardowa) – nieograniczone użytkowanie, niestandardowe warunki prawne, gwarancje bezpieczeństwa, znaczne zniżki na ceny hurtowe i priorytetowe wsparcie.
Hume podkreślił, że ceny jego rozwiązania Octave TTS stanowią około połowę kosztów konkurencyjnego startupu ElevenLabs zajmującego się tworzeniem głosu za pomocą sztucznej inteligencji, co pokazuje zaostrzającą się konkurencję na rynku rozwiązań do zamiany tekstu na mowę.
Ponadto Hume AI przeprowadziło ślepe badanie porównawcze z udziałem 180 ludzkich oceniających, aby porównać Octave z ElevenLabs. Wyniki wykazały, że Octave był preferowany pod względem jakości dźwięku (71,6% prób), naturalności (51,7% prób) i tego, jak dobrze mowa odpowiadała opisom pożądanego głosu (57,7% prób) w 120 różnych podpowiedziach.

Aby jeszcze lepiej ocenić wydajność, Hume AI uruchomiło również Expressive TTS Arena, publiczny test porównawczy mający na celu sprawdzenie, jak modele AI radzą sobie z dłuższymi, ekspresywnymi wypowiedziami — obszar, który poprzednie testy porównawcze TTS w dużej mierze pomijały.
W przeciwieństwie do tradycyjnych systemów zamiany tekstu na mowę, które opierają się na ograniczonych zbiorach danych dotyczących mowy, Octave TTS powstał w oparciu o model LLM wytrenowany na dziesiątkach bilionów tokenów językowych.
„Tradycyjne modele zamiany tekstu na mowę są trenowane na ograniczonej liczbie danych dotyczących mowy, natomiast nasz bazuje na modelu LLM trenowanym na dziesiątkach bilionów tokenów, co pozwala mu na rozumowanie, myślenie i wyciąganie wniosków z emocji na podstawie tekstu” – powiedział Cowen.
Model wytrenowano, wykorzystując miliony godzin danych z publicznych, długich wystąpień oraz zastrzeżone zbiory danych Hume AI zawierające nowe głosy nagrane przez uczestników ankiety.
„Zebraliśmy dane od osób nagrywających się za pomocą kamer internetowych, reagujących naturalnie na filmy, opowiadających historie i rozmawiających z innymi, w tym z przyjaciółmi i rodziną, aby uchwycić szeroką gamę ekspresji emocjonalnych” – powiedział Cowen.
Dzięki temu kompleksowemu szkoleniu model potrafi wyciągać wnioski na temat kontekstu emocjonalnego i postępować zgodnie ze szczegółowymi instrukcjami, tworząc głosy odpowiadające opisom i atrybutom konkretnych postaci.
Model ten, dostępny dziś za pośrednictwem platformy i interfejsu API Hume AI, umożliwia kontrolę emocji na poziomie zdań, przy zachowaniu pewnej elastyczności w obrębie zdań.
„Modulacja głosu działa na poziomie zdania, ale można również dostosować części zdania, instruując model, aby przekazywał niuanse emocji, takie jak lekka frustracja zmieszana z humorem lub irytacją” — zauważył Cowen. Model bierze również pod uwagę kontekst wykraczający poza poszczególne zdania. „W przeciwieństwie do tradycyjnych modeli, które przetwarzają tekst słowo po słowie, nasz model bierze pod uwagę całe akapity, przechwytując kontekst, aby dostarczać bardziej naturalną i emocjonalnie dokładną mowę” — wyjaśnił.
System Octave TTS zapewnia spójny głos postaci w przypadku treści o dłuższej formie.
„Dzięki naszej platformie możesz generować unikalne głosy dla każdej postaci w audiobooku — na przykład orka w średnim wieku — i zachować głos tej postaci przez całą historię” — powiedział Cowen.
Tę możliwość zapewnia strona „Projekty” serwisu Hume AI, która obsługuje długie treści, takie jak audiobooki, poprzez automatyczne dzielenie tekstu na fragmenty, przy jednoczesnym zachowaniu spójności postaci i kontekstu w poszczególnych rozdziałach.
Firma Hume zastosowała na swojej stronie internetowej i w interfejsie API zabezpieczenia techniczne, które zabraniają tworzenia realistycznych głosów dzieci i imitacji konkretnych osób. Poza tym można korzystać z niej w szerokim zakresie treści i tematów, w tym w scenach potencjalnie niebezpiecznych dla pracy, takich jak te występujące w popularnych powieściach romantycznych.
„Dajemy twórcom gier pełną swobodę, pozwalając na tworzenie treści obejmujących szeroki zakres doświadczeń ludzkich, choć ograniczamy tworzenie realistycznych głosów dzieci i imitacji konkretnych osób” – wyjaśnił Cowen.
Cowen dodał, że firma może na życzenie konkretnych klientów dostosować te zabezpieczenia, np. do wydawcy książek dla dzieci, który chciałby stworzyć głosy do audiobooków dla dzieci.
Ponadto Hume AI pracuje nad nadchodzącą funkcją Voice Cloning, która umożliwi użytkownikom replikację głosu z zaledwie pięciu sekund dźwięku. Firma opracowuje zabezpieczenia, aby zapewnić etyczne korzystanie przed publicznym udostępnieniem tej funkcji.
Dzięki połączeniu świadomości kontekstowej, ekspresji emocjonalnej i personalizacji postaci, Octave TTS ma zapewnić twórcom treści większą kontrolę i elastyczność, dostarczając głosy, które brzmią zarówno realistycznie, jak i angażują emocjonalnie.
Jeśli chcesz zaimponować swojemu szefowi, VB Daily ma dla Ciebie rozwiązanie. Dajemy Ci wewnętrzny wgląd w to, co firmy robią z generatywną sztuczną inteligencją, od zmian regulacyjnych po praktyczne wdrożenia, dzięki czemu możesz dzielić się spostrzeżeniami, aby uzyskać maksymalny zwrot z inwestycji.
Przeczytaj naszą Politykę prywatności
Dziękujemy za subskrypcję. Sprawdź więcej newsletterów VB tutaj .
Wystąpił błąd.

venturebeat