Poznaj Eleven Music. Stwórz idealną piosenkę na każdą okazję.

ElevenLabs wychodzi z fazy „beta” i wprowadza Eleven Multilingual v2, model konwersacyjny AI w 30 językach

22 sie 2023 • 5 minut czytania

Platforma głosowa AIElevenLabs robi ogromny krok w eliminacji barier językowych w różnych treściach dzięki wprowadzeniu nowego modelu głębokiego uczenia, który oferuje możliwości wielojęzyczne w 30 językach:Eleven Multilingual v2.
Ten postęp pozwoli mediom, deweloperom gier, wydawcom i niezależnym twórcom na całym świecie znacznie poprawić dostępność swoich treści.
Te nowe możliwości, które pojawiły się po serii wprowadzeń funkcji i ulepszeń od stycznia, oficjalnie oznaczają również koniec fazy „beta” firmy.
Celem ElevenLabs jest uczynienie wszystkich treści dostępnych uniwersalnie, w każdym języku i z dowolnym głosem.

Londyn, Wielka Brytania-ElevenLabs, światowy lider w oprogramowaniu głosowym AI, wprowadził dziś nowy model generowania głosu wielojęzycznego w 30 językach,zdolny do precyzyjnego tworzenia „emocjonalnie bogatego” audio generowanego przez AI.

Ten postęp, oparty w całości na badaniach wewnętrznych, pozwoli twórcom tworzyć zlokalizowane treści audio dla rynków międzynarodowych w Europie, Azji i na Bliskim Wschodzie. ElevenLabs poświęciło ostatnie 18 miesięcy na analizę markerów mowy ludzkiej, co pozwoliło stworzyć nowe mechanizmy rozumienia kontekstu i przekazywania emocji w generowaniu mowy oraz syntezować nowe i unikalne głosy.

Z Eleven Multilingual v2, wprowadzając tekst na platformie zamiany tekstu na mowę ElevenLabs,nowy model może automatycznie rozpoznać około 30 języków i generować głos z niespotykaną autentycznością.

Jednocześnie, niezależnie od tego, czy używana jest głos syntetyczny czy klonowany, unikalne cechy głosu mówcy są zachowane we wszystkich językach, w tym jego oryginalny akcent. Oznacza to, że można używać tego samego głosu do ożywienia treści w 30 różnych językach.

Towprowadzenie następuje po publikacji Professional Voice Cloning, dostępnego dla wszystkich twórców na platformie. Ta aktualizacja produktu, wprowadzona wraz z dodatkowymi funkcjami zabezpieczeń, pozwala użytkownikom stworzyć idealną cyfrową kopię własnego głosu. Głos, który jest praktycznie nie do odróżnienia od oryginału. Dzisiejsze wprowadzenie oznacza, że nasz głos będzie mógł mówić w około 30 językach oferowanych przez model wielojęzyczny.

Obsługiwane języki tokoreański, niderlandzki, turecki, szwedzki, indonezyjski, wietnamski, filipiński, ukraiński, grecki, czeski, fiński, rumuński, duński, bułgarski, malajski, węgierski, norweski, słowacki, chorwacki, klasyczny arabski i tamilski. Dołączają do wcześniej dostępnych języków, w tym angielskiego, polskiego, niemieckiego, hiszpańskiego, francuskiego, włoskiego, hindi i portugalskiego.

Po niedawnych wprowadzeniach nowych funkcji i ciągłych ulepszeniach platformy, ElevenLabs potwierdziło dziś, że platforma oficjalnie wychodzi z fazy „beta”. Ta zmiana oznacza kluczowy moment w zaangażowaniu firmy: dostarczanie niezawodnych i nowoczesnych narzędzi dla ponad 1 miliona globalnych użytkowników.

W przyszłości ElevenLabs planuje wprowadzić mechanizm, który pozwoli użytkownikom dzielić się głosami na platformie i czerpać korzyści z rozwoju nowych plików audio, co sprzyjałoby możliwościom współpracy między ludźmi a AI.

Mati Staniszewski, dyrektor generalny (CEO) i współzałożyciel ElevenLabs, komentuje:

„ElevenLabs powstało z marzeniem, aby wszystkie treści były dostępne uniwersalnie, w każdym języku i z dowolnym głosem. Dzięki wprowadzeniu Eleven Multilingual v2, jesteśmy o krok bliżej do realizacji tego marzenia i udostępnienia głosów o jakości ludzkiej stworzonych przez AI we wszystkich dialektach”.

„Nasze narzędzia generowania „z tekstu na mowę” przyczyniają się do równości szans i oferują wysokiej jakości możliwości audio mówionego dla wszystkich twórców. Te korzyści teraz rozszerzają się na aplikacje wielojęzyczne w prawie 30 językach. Z czasem mamy nadzieję objąć jeszcze więcej języków i głosów z pomocą AI, eliminując bariery językowe w treściach. W ElevenLabs wierzymy, że te postępy w dostępności ostatecznie sprzyjają większej kreatywności, innowacji i różnorodności”.

Zmniejszając koszty i zasoby potrzebne do tworzenia wysokiej jakości treści audio w wielu językach, ElevenLabs umożliwia firmom i twórcom produkcję bardziej kreatywnych i dostępnych treści we wszystkich kulturach i językach.

Dlaniezależnych deweloperów i wydawców gier, narzędzie generowania głosu wielojęzycznego oferuje nowe możliwości tłumaczenia doświadczeń z gier i treści audio dla międzynarodowych odbiorców, łącząc się z graczami i słuchaczami w ich własnych językach bez obniżania jakości lub precyzji mowy.

Podobnie,instytucje edukacyjnemają teraz środki, aby natychmiast dostarczać studentom dokładne treści audio w docelowych językach, co wzmacnia umiejętności rozumienia i wymowy różnych języków, a także zaspokaja różne style nauczania i potrzeby edukacyjne studentów na całym świecie.

Każdy rodzaj twórcy może używać narzędzia ElevenLabs, aby poprawićdostępnośćswoich treści dla osób z niepełnosprawnością wzrokową lub dodatkowymi potrzebami edukacyjnymi, tak aby treści wizualne były uzupełniane przez dostępne audio w różnych językach.

Początkowy zestaw narzędzi głosowych AI, zaprezentowany w styczniu 2023 roku, obejmował możliwość konwersji dowolnego tekstu na mowę dzięki wyborowi zaprojektowanych głosów syntetycznych oraz możliwość stworzenia klonu głosu użytkownika. Narzędzie syntezy głosu wielojęzycznego to kolejny krok w celu ElevenLabs, aby wszystkie treści były dostępne uniwersalnie, w każdym języku i z dowolnym głosem.

Ta technologia została już przyjęta w wielu branżach i sektorach kreatywnych, co pozwoliło niezależnym autorom tworzyć audiobooki, nadawać głos postaciom drugoplanowym w grach wideo, wspierać osoby z niepełnosprawnością wzrokową w dostępie do treści pisanych online, a nawet uruchomić pierwszy na świecie kanał radiowy AI. ElevenLabs współpracuje z niektórymi z głównych studiów i twórców treści, jak generatory wideo AID-ID, jednym z największych wydawców audiobooków na świecie,Storytel,platformą wideo naukowego z otwartym dostępemScienceCast, której narzędzie generowania wideo kondensuje prace naukowe publikowane warXiv,wiodącą na świecie platformą tworzenia treści,TheSoul Publishing,deweloperami niektórych z najbardziej niesamowitych gier, jakEmbark StudiosiParadox Interactive,oraz platformą medialnąMNTN.

Przeglądaj artykuły zespołu ElevenLabs

Safety

Safety

Safety framework for AI voice agents

AI voice agents are increasingly being used in customer service, entertainment, and enterprise applications. With this shift comes the need for clear safeguards to ensure responsible use.

Product

Product

How we engineered RAG to be 50% faster

Tips from latency-sensitive RAG systems in production

Twórz z najwyższą jakością dźwięku AI

Zacznij za darmo

Masz już konto? Zaloguj się