Poznaj Eleven Music. Stwórz idealną piosenkę na każdą okazję.

ElevenLabs wychodzi z fazy beta i wprowadza Eleven Multilingual v2: podstawowy model głosu AI dla 30 języków

22 sie 2023 • 4 minut czytania

Platforma AI głosowego ElevenLabsosiąga nowy etap w eliminowaniu barier językowych w treściach, wprowadzając nowy model głęboko uczący się z obsługą wielojęzyczną w 30 językach: Eleven Multilingual v2
Ten postęp pozwoli firmom medialnym, deweloperom gier, wydawcom i niezależnym twórcom na całym świecie znacznie poprawić dostępność ich treści
Te nowe funkcje, które pojawiły się po serii nowości i ulepszeń od stycznia, oznaczają również oficjalne zakończenie fazy beta firmy
Misją ElevenLabs jest uczynienie wszystkich treści uniwersalnie dostępnymi w każdym języku i z dowolnym głosem

Londyn, Wielka Brytania - ElevenLabs, światowy lider w oprogramowaniu AI głosowego, wprowadził dziś nowy model generowania głosu wielojęzycznego zdolny do precyzyjnego tworzenia dźwięków AI „pełnych emocji” w 30 językach.

Ten postęp, oparty w całości na badaniach wewnętrznych, pozwoli twórcom tworzyć zlokalizowane treści audio dla rynków międzynarodowych w Europie, Azji i na Bliskim Wschodzie. ElevenLabs spędziło ostatnie 18 miesięcy na analizie cech ludzkiej mowy, tworzeniu nowych mechanizmów rozumienia kontekstu i przekazywania emocji w generowaniu mowy oraz na syntezowaniu nowych i unikalnych głosów.

Z Eleven Multilingual v2, gdy tekst jest wprowadzany do platformy syntezy mowy ElevenLabs, nowy model może automatycznie rozpoznać prawie 30 języków pisanych i generować mowę z niespotykaną autentycznością.

Ponadto, niezależnie od tego, czy jest to głos syntetyczny, czy klonowany, unikalne cechy głosu mówcy są zachowane we wszystkich językach, w tym jego oryginalny akcent. Dzięki temu ten sam głos może ożywić treści w 30 różnych językach.

To wdrożenie następuje po wprowadzeniu profesjonalnego klonowania głosu dla wszystkich twórców na platformie. Ta aktualizacja produktu, wprowadzona jednocześnie z dodatkowymi funkcjami zabezpieczeń, pozwala użytkownikom stworzyć doskonałą cyfrową kopię własnego głosu, która jest praktycznie

nie do odróżnienia od oryginału. Dzięki tej nowej wersji, twój głos będzie mógł wyrażać się w około 30 językach oferowanych przez model wielojęzyczny.

Obsługiwane języki to: koreański, niderlandzki, turecki, szwedzki, indonezyjski, wietnamski, filipiński, ukraiński, grecki, czeski, fiński, rumuński, duński, bułgarski, malajski, węgierski, norweski, słowacki, chorwacki, arabski klasyczny i tamilski. Dołączają one do wcześniej dostępnych języków, takich jak angielski, polski, niemiecki, hiszpański, francuski, włoski, hindi i portugalski.

Po ostatnich wprowadzeniach funkcji i ciągłych ulepszeniach platformy, ElevenLabs potwierdziło dziś również, że platforma oficjalnie wychodzi z fazy beta. Ta zmiana oznacza punkt zwrotny w zaangażowaniu firmy w dostarczanie niezawodnych i nowoczesnych narzędzi dla ponad miliona użytkowników na całym świecie.

W przyszłości ElevenLabs planuje wprowadzić mechanizm umożliwiający użytkownikom dzielenie się swoimi głosami na platformie i korzystanie z rozwoju nowych dźwięków, wspierając tym samym możliwości współpracy między człowiekiem a sztuczną inteligencją.

Mati Staniszewski, CEO i współzałożyciel ElevenLabs, komentuje:

„ElevenLabs zostało stworzone z myślą o uczynieniu wszystkich treści uniwersalnie dostępnymi w każdym języku i z dowolnym głosem. Dzięki wydaniu Eleven Multilingual v2, zbliżamy się o krok do naszego celu, jakim jest uczynienie tego marzenia rzeczywistością i udostępnienie głosów AI o jakości ludzkiej we wszystkich dialektach.

„Nasze narzędzia do syntezy mowy pozwalają wyrównać szanse i oferują wszystkim twórcom wysokiej jakości możliwości audio głosowego. Te korzyści teraz obejmują aplikacje wielojęzyczne w prawie 30 językach. W przyszłości mamy nadzieję objąć jeszcze więcej języków i głosów z pomocą AI, eliminując bariery językowe w treściach. W ElevenLabs wierzymy, że te postępy w zakresie dostępności będą ostatecznie wspierać kreatywność, innowacje i różnorodność.”

Obniżając koszty i zasoby potrzebne do tworzenia wysokiej jakości treści audio w wielu językach, ElevenLabs umożliwia firmom i twórcom produkcję bardziej kreatywnych i dostępnych treści, które uwzględniają wszystkie kultury i języki.

Dla deweloperów i niezależnych wydawców gier, narzędzie do generowania głosu wielojęzycznego pozwala tłumaczyć doświadczenia z gier i treści audio dla międzynarodowej publiczności, nawiązując kontakt z graczami i słuchaczami w ich własnym języku bez kompromisów w jakości lub precyzji mowy.

Podobnie, instytucje edukacyjne mogą teraz natychmiast dostarczać uczniom dokładne treści audio w językach docelowych, co wzmacnia umiejętności rozumienia i wymowy oraz odpowiada na różne style nauczania i potrzeby edukacyjne studentów międzynarodowych.

Twórcy wszelkiego rodzaju mogą używać narzędzia ElevenLabs, aby poprawić dostępność treści dla osób z wadami wzroku lub mających dodatkowe potrzeby edukacyjne, uzupełniając treści wizualne o mowę dostępną w wielu językach.

Pierwszy zestaw narzędzi głosowych AI, zaprezentowany w styczniu 2023 roku, obejmował możliwość przekształcenia dowolnego tekstu w mowę dzięki wyborowi wstępnie zaprojektowanych głosów syntetycznych oraz możliwość stworzenia klonu własnego głosu. Narzędzie do syntezy mowy wielojęzycznej to nowy krok w misji ElevenLabs, aby uczynić wszystkie treści uniwersalnie dostępnymi w każdym języku i z dowolnym głosem.

Technologia została już przyjęta w wielu sektorach i branżach kreatywnych, umożliwiając niezależnym autorom tworzenie audiobooków, dając głos postaciom drugoplanowym w grach wideo, pomagając osobom niewidomym w dostępie do treści pisanych online i zasilając pierwszą na świecie stację radiową AI. ElevenLabs współpracuje również z wieloma czołowymi twórcami i studiami treści, w tym z generatorami wideo AI D-ID, jednym z największych wydawców audiobooków na świecie , Storytel, platformą wideo naukowego z otwartym dostępem ScienceCast której narzędzie do generowania wideo gromadzi dokumenty naukowe publikowane na arXiv, głównej światowej platformie tworzenia treści TheSoul Publishing, niesamowitymi deweloperami gier jak Embark Studios i Paradox Interactive, oraz platformą multimedialną MNTN.

Przeglądaj artykuły zespołu ElevenLabs

Safety

Safety

Safety framework for AI voice agents

AI voice agents are increasingly being used in customer service, entertainment, and enterprise applications. With this shift comes the need for clear safeguards to ensure responsible use.

Product

Product

How we engineered RAG to be 50% faster

Tips from latency-sensitive RAG systems in production

Twórz z najwyższą jakością dźwięku AI

Zacznij za darmo

Masz już konto? Zaloguj się