
Safety framework for AI voice agents
AI voice agents are increasingly being used in customer service, entertainment, and enterprise applications. With this shift comes the need for clear safeguards to ensure responsible use.
Londyn, Wielka Brytania – ElevenLabs, wiodący na świecie dostawca oprogramowania do rozpoznawania mowy, wprowadził dziś nowe wielojęzyczne modelowanie generowania mowy, które potrafi tworzyć „emocjonalne” sygnały audio AI w 30 językach.
Rozwój, oparty w pełni na własnych badaniach, pozwoli deweloperom produkować zlokalizowane treści audio dla międzynarodowych rynków w Europie, Azji i na Bliskim Wschodzie. ElevenLabs analizował markery ludzkiej mowy przez ostatnie 18 miesięcy, opracował nowe mechanizmy rozumienia kontekstu i wyrażania emocji w generowaniu mowy oraz stworzył nowe, unikalne głosy.
Z Eleven Multilingual v2 nowy model może automatycznie rozpoznawać prawie 30 języków pisanych przy wprowadzaniu tekstu do platformy Text to Speech ElevenLabs i generować mowę w tych językach z niespotykaną dotąd autentycznością.
Niezależnie od tego, czy używana jest syntetyczna, czy sklonowana głos, unikalne cechy głosu mówcy są zachowane we wszystkich językach, w tym oryginalny akcent. Oznacza to, że z tym samym głosem można ożywić treści w 30 różnych językach.
Ta premiera następuje po publicznym udostępnieniu Professional Voice Cloning dla wszystkich twórców na platformie. Dzięki tej aktualizacji produktu, wydanej wraz z dodatkowymi funkcjami zabezpieczeń, użytkownicy mogą stworzyć idealną cyfrową kopię swojego głosu, która
praktycznie nie różni się od oryginału. Dzięki dzisiejszej premierze twój głos może mówić w prawie 30 językach dostępnych w ramach modelu wielojęzycznego.
Obsługiwane języki to: koreański, niderlandzki, turecki, szwedzki, indonezyjski, wietnamski, filipiński, ukraiński, grecki, czeski, fiński, rumuński, duński, bułgarski, malajski, węgierski, norweski, słowacki, chorwacki, arabski i tamilski. Te języki uzupełniają już dostępne języki: angielski, polski, niemiecki, hiszpański, francuski, włoski, hindi i portugalski.
Po wprowadzeniu nowych funkcji i ciągłym ulepszaniu platformy ElevenLabs potwierdziło dziś również, że platforma oficjalnie opuściła fazę beta. Ten przejście oznacza kluczowy moment w zaangażowaniu firmy w dostarczanie ponad 1 milionowi użytkowników na całym świecie niezawodnych i nowoczesnych narzędzi.
W przyszłości ElevenLabs planuje wprowadzenie mechanizmu, który pozwoli użytkownikom dzielić się swoimi głosami na platformie i czerpać korzyści z rozwoju nowych danych audio, aby wspierać współpracę między ludźmi a AI.
Mati Staniszewski, CEO i założyciel ElevenLabs, powiedział:
„ElevenLabs zostało założone z marzeniem, aby wszystkie treści były uniwersalnie dostępne w każdym języku i z każdą głosem. Dzięki wprowadzeniu Eleven Multilingual v2 jesteśmy o krok bliżej do realizacji tego marzenia, udostępniając głosy AI o jakości ludzkiej w każdym dialekcie.
Nasze narzędzia do syntezy mowy torują drogę dla wszystkich twórców, oferując im wysokiej jakości opcje syntezy mowy. Te korzyści teraz obejmują wielojęzyczne zastosowania w prawie 30 językach. Ostatecznie mamy nadzieję, że z pomocą AI będziemy mogli objąć jeszcze więcej języków i głosów oraz usunąć bariery językowe dla treści. W ElevenLabs wierzymy, że te skoki w dostępności ostatecznie prowadzą do większej kreatywności, innowacji i różnorodności.”
ElevenLabs redukuje koszty i zasoby potrzebne do tworzenia wysokiej jakości treści audio w wielu językach. Firmy i twórcy mogą dzięki temu produkować bardziej pomysłowe i łatwiej dostępne treści, które znajdują odbiorców ponad granicami kulturowymi i językowymi.
Niezależnym twórcom gier i wydawcom wielojęzyczne narzędzie do generowania mowy oferuje nowe możliwości tłumaczenia doświadczeń graczy i treści audio dla międzynarodowej publiczności oraz komunikowania się z graczami i słuchaczami w ich własnym języku, bez kompromisów w zakresie jakości czy dokładności mowy.
Podobnie, instytucje edukacyjne mają teraz możliwość natychmiastowego dostarczania uczniom precyzyjnych treści audio w docelowym języku, aby poprawić zrozumienie języka i wymowę oraz sprostać różnym stylom nauczania i potrzebom edukacyjnym międzynarodowych studentów.
Twórcy wszelkiego rodzaju mogą korzystać z narzędzia ElevenLabs, aby poprawić dostępność swoich treści dla osób z wadami wzroku lub dodatkowymi potrzebami edukacyjnymi, wzbogacając treści wizualne o mowę w wielu językach.
Pierwszy zestaw narzędzi do syntezy mowy AI, przedstawiony w styczniu 2023 roku, oferuje możliwość zamiany dowolnego tekstu na mowę, korzystając z wyboru predefiniowanych syntetycznych głosów oraz możliwości stworzenia klonu własnego głosu. Wielojęzyczne narzędzie do syntezy mowy to kolejny krok w misji ElevenLabs, aby wszystkie treści były uniwersalnie dostępne w każdym języku i z każdą głosem.
Technologia jest już wykorzystywana w wielu kreatywnych branżach i sektorach. Pozwala niezależnym autorom pisać audiobooki, dubbingować postacie poboczne w grach wideo, ułatwiać osobom niewidomym dostęp do pisemnych treści online i prowadzić pierwszy na świecie radiowy kanał AI. ElevenLabs nawiązało również partnerstwa z wieloma wiodącymi twórcami treści i studiami, w tym z generatorem wideo AI D-ID, Storytel, jednym z największych wydawców audiobooków na świecie, platformą wideo z otwartym dostępem ScienceCast, której narzędzie do generowania wideo agreguje prace naukowe opublikowane na arXiv, wiodącą na świecie platformą do tworzenia treści TheSoul Publishing, niesamowitymi twórcami gier jak Embark Studios i Paradox Interactive oraz platformą medialną MNTN.
AI voice agents are increasingly being used in customer service, entertainment, and enterprise applications. With this shift comes the need for clear safeguards to ensure responsible use.
Tips from latency-sensitive RAG systems in production
Napędzane przez ElevenLabs Conversational AI