Poznaj Eleven Music. Stwórz idealną piosenkę na każdą okazję.

ElevenLabs wychodzi z fazy beta i wprowadza Eleven Multilingual v2 – podstawowy model językowy AI dla 30 języków

22 sie 2023 • 5 minut czytania

ElevenLabs, platforma dla lingwistycznej AI, robi radykalny krok naprzód w dążeniu do pokonywania barier językowych w treściach, wprowadzając nowe, podstawowe modelowanie deep learning, które wspiera wielojęzyczne możliwości w 30 językach – Eleven Multilingual v2
Ta innowacja pozwoli firmom medialnym, twórcom gier, wydawcom i niezależnym autorom na całym świecie znacznie poprawić dostępność swoich treści
Te nowe możliwości, które są kontynuacją szeregu nowych funkcji i ulepszeń od uruchomienia platformy w styczniu, oznaczają również oficjalne zakończenie fazy beta firmy
Misją ElevenLabs jest uczynienie wszystkich treści uniwersalnie dostępnymi w każdym języku i z każdą głosem

Londyn, Wielka Brytania – ElevenLabs, wiodący na świecie dostawca oprogramowania do rozpoznawania mowy, wprowadził dziś nowe wielojęzyczne modelowanie generowania mowy, które potrafi tworzyć „emocjonalne” sygnały audio AI w 30 językach.

Rozwój, oparty w pełni na własnych badaniach, pozwoli deweloperom produkować zlokalizowane treści audio dla międzynarodowych rynków w Europie, Azji i na Bliskim Wschodzie. ElevenLabs analizował markery ludzkiej mowy przez ostatnie 18 miesięcy, opracował nowe mechanizmy rozumienia kontekstu i wyrażania emocji w generowaniu mowy oraz stworzył nowe, unikalne głosy.

Z Eleven Multilingual v2 nowy model może automatycznie rozpoznawać prawie 30 języków pisanych przy wprowadzaniu tekstu do platformy Text to Speech ElevenLabs i generować mowę w tych językach z niespotykaną dotąd autentycznością.

Niezależnie od tego, czy używana jest syntetyczna, czy sklonowana głos, unikalne cechy głosu mówcy są zachowane we wszystkich językach, w tym oryginalny akcent. Oznacza to, że z tym samym głosem można ożywić treści w 30 różnych językach.

Ta premiera następuje po publicznym udostępnieniu Professional Voice Cloning dla wszystkich twórców na platformie. Dzięki tej aktualizacji produktu, wydanej wraz z dodatkowymi funkcjami zabezpieczeń, użytkownicy mogą stworzyć idealną cyfrową kopię swojego głosu, która

praktycznie nie różni się od oryginału. Dzięki dzisiejszej premierze twój głos może mówić w prawie 30 językach dostępnych w ramach modelu wielojęzycznego.

Obsługiwane języki to: koreański, niderlandzki, turecki, szwedzki, indonezyjski, wietnamski, filipiński, ukraiński, grecki, czeski, fiński, rumuński, duński, bułgarski, malajski, węgierski, norweski, słowacki, chorwacki, arabski i tamilski. Te języki uzupełniają już dostępne języki: angielski, polski, niemiecki, hiszpański, francuski, włoski, hindi i portugalski.

Po wprowadzeniu nowych funkcji i ciągłym ulepszaniu platformy ElevenLabs potwierdziło dziś również, że platforma oficjalnie opuściła fazę beta. Ten przejście oznacza kluczowy moment w zaangażowaniu firmy w dostarczanie ponad 1 milionowi użytkowników na całym świecie niezawodnych i nowoczesnych narzędzi.

W przyszłości ElevenLabs planuje wprowadzenie mechanizmu, który pozwoli użytkownikom dzielić się swoimi głosami na platformie i czerpać korzyści z rozwoju nowych danych audio, aby wspierać współpracę między ludźmi a AI.

Mati Staniszewski, CEO i założyciel ElevenLabs, powiedział:

„ElevenLabs zostało założone z marzeniem, aby wszystkie treści były uniwersalnie dostępne w każdym języku i z każdą głosem. Dzięki wprowadzeniu Eleven Multilingual v2 jesteśmy o krok bliżej do realizacji tego marzenia, udostępniając głosy AI o jakości ludzkiej w każdym dialekcie.

Nasze narzędzia do syntezy mowy torują drogę dla wszystkich twórców, oferując im wysokiej jakości opcje syntezy mowy. Te korzyści teraz obejmują wielojęzyczne zastosowania w prawie 30 językach. Ostatecznie mamy nadzieję, że z pomocą AI będziemy mogli objąć jeszcze więcej języków i głosów oraz usunąć bariery językowe dla treści. W ElevenLabs wierzymy, że te skoki w dostępności ostatecznie prowadzą do większej kreatywności, innowacji i różnorodności.”

ElevenLabs redukuje koszty i zasoby potrzebne do tworzenia wysokiej jakości treści audio w wielu językach. Firmy i twórcy mogą dzięki temu produkować bardziej pomysłowe i łatwiej dostępne treści, które znajdują odbiorców ponad granicami kulturowymi i językowymi.

Niezależnym twórcom gier i wydawcom wielojęzyczne narzędzie do generowania mowy oferuje nowe możliwości tłumaczenia doświadczeń graczy i treści audio dla międzynarodowej publiczności oraz komunikowania się z graczami i słuchaczami w ich własnym języku, bez kompromisów w zakresie jakości czy dokładności mowy.

Podobnie, instytucje edukacyjne mają teraz możliwość natychmiastowego dostarczania uczniom precyzyjnych treści audio w docelowym języku, aby poprawić zrozumienie języka i wymowę oraz sprostać różnym stylom nauczania i potrzebom edukacyjnym międzynarodowych studentów.

Twórcy wszelkiego rodzaju mogą korzystać z narzędzia ElevenLabs, aby poprawić dostępność swoich treści dla osób z wadami wzroku lub dodatkowymi potrzebami edukacyjnymi, wzbogacając treści wizualne o mowę w wielu językach.

Pierwszy zestaw narzędzi do syntezy mowy AI, przedstawiony w styczniu 2023 roku, oferuje możliwość zamiany dowolnego tekstu na mowę, korzystając z wyboru predefiniowanych syntetycznych głosów oraz możliwości stworzenia klonu własnego głosu. Wielojęzyczne narzędzie do syntezy mowy to kolejny krok w misji ElevenLabs, aby wszystkie treści były uniwersalnie dostępne w każdym języku i z każdą głosem.

Technologia jest już wykorzystywana w wielu kreatywnych branżach i sektorach. Pozwala niezależnym autorom pisać audiobooki, dubbingować postacie poboczne w grach wideo, ułatwiać osobom niewidomym dostęp do pisemnych treści online i prowadzić pierwszy na świecie radiowy kanał AI. ElevenLabs nawiązało również partnerstwa z wieloma wiodącymi twórcami treści i studiami, w tym z generatorem wideo AI D-ID, Storytel, jednym z największych wydawców audiobooków na świecie, platformą wideo z otwartym dostępem ScienceCast, której narzędzie do generowania wideo agreguje prace naukowe opublikowane na arXiv, wiodącą na świecie platformą do tworzenia treści TheSoul Publishing, niesamowitymi twórcami gier jak Embark Studios i Paradox Interactive oraz platformą medialną MNTN.

Przeglądaj artykuły zespołu ElevenLabs

Safety

Safety

Safety framework for AI voice agents

AI voice agents are increasingly being used in customer service, entertainment, and enterprise applications. With this shift comes the need for clear safeguards to ensure responsible use.

Product

Product

How we engineered RAG to be 50% faster

Tips from latency-sensitive RAG systems in production

Twórz z najwyższą jakością dźwięku AI

Zacznij za darmo

Masz już konto? Zaloguj się