Hola desde ElevenLabs

10 ago 2022 • 4 minutos de lectura

A young man with curly hair wearing a white t-shirt, smiling softly against a plain background.

Construyendo la próxima generación de voz IA

¿Qué es ElevenLabs?

Somos una empresa de investigación en tecnología de voz. Usamos inteligencia artificial (IA) y aprendizaje automático (ML) para ofrecer las herramientas más potentes de síntesis de voz, conversión de voz y doblaje a creadores, plataformas web y estudios de producción en diversas industrias.

¿Qué es el doblaje, la conversión de voz y la síntesis de voz?

El doblaje es un proceso para proporcionar a una película una banda sonora en un idioma diferente. Sin embargo, comúnmente se refiere a reemplazar las voces de los actores originales por las de intérpretes que hablan otro idioma, también conocido como "re-voicing", una tarea tradicionalmente costosa y que consume mucho tiempo. En Eleven, usamos IA para hacerlo automáticamente mientras preservamos las voces originales de los actores en diferentes idiomas.

La conversión de voz permite a una persona hablar con la voz de otra. También conocida como voice cloning, es un proceso para codificar una voz objetivo y superponerla sobre una voz fuente. Hablar con la voz de otra persona plantea preocupaciones éticas, ya que puede usarse con fines malintencionados, pero en Eleven nos comprometemos a usar nuestra tecnología solo con el consentimiento del individuo o para demostraciones de manera que no genere conflictos de interés.

Text-to-speech (TTS) es la base de toda la tecnología de síntesis de voz. La tecnología TTS ha mejorado radicalmente a lo largo de los años, aunque a menudo todavía suena robótica. Esto se debe a que pronunciar palabras con fluidez por sí solo no es suficiente para dar a la voz calidad humana. Es el tono y el ritmo impulsados por la intención que provienen de entender qué se está diciendo lo que la hace sonar natural. Nuevamente, en Eleven, intentamos lograr precisamente eso: exponiendo nuestro modelo a una gran cantidad de datos de habla humana, lo entrenamos para entender tanto el contexto lógico como emocional de las expresiones, y ajustar la entonación en consecuencia. También podemos modificar la entonación predeterminada para lograr cualquier efecto deseado.

¿En qué se diferencia Eleven?

Nuestra herramienta de doblaje te permite re-vozar automáticamente un vídeo en otro idioma mientras preservas las características distintivas de la voz del hablante original. Somos la primera empresa con la misión de proporcionar herramientas dedicadas para traducción de voz a voz que preservan la identidad del hablante entre idiomas. Nuestra tecnología te permite producir pistas de audio multilingües y localizadas habladas con fluidez y vocabulario nativo, en tu propia voz, con tu patrón de habla preservado, y sin necesidad de re-editar los visuales. En Eleven imaginamos un futuro donde todo el contenido hablado sea accesible en cualquier idioma a través de streaming, cine, podcasts, audiolibros, videojuegos, publicidad, así como, eventualmente, conversación en tiempo real. Esperamos ayudar a que este futuro se haga realidad proporcionando una experiencia mucho más inmersiva y fluida de lo que los subtítulos podrían ofrecer. La primera iteración de nuestra herramienta ofrece doblaje de inglés a español europeo.

Alcanzar calidad de producción en doblaje automático solo es posible si avanzamos en dos áreas adyacentes de tecnología de voz: conversión de voz y generación de voz, para las cuales también desarrollamos herramientas dedicadas, en paralelo con nuestro software de doblaje. Nuestros productos aquí apoyan tanto el voice cloning como la voz sintética. Vamos más allá de ofrecer voces que suenan humanas, no robóticas (o incluso discursos indistinguibles del original cuando se entrena con un conjunto de muestras). Podemos ajustar con precisión el tono de las expresiones para cualquier efecto deseado, así como generar innumerables iteraciones dentro de un estilo particular de entonación, tal como lo haría un actor.

En resumen, nuestra herramienta de doblaje busca permitir que el contenido existente llegue a una audiencia más amplia. Nuestras herramientas de generación de voz y conversión de voz buscan optimizar el tiempo y el costo involucrados en la producción de nuevo contenido mientras maximizan el valor de producción. A través del doblaje, esperamos principalmente permitir a creadores ampliar su alcance y ayudar a audiencias potenciales a descubrir contenido que encuentren relevante y cautivador, independientemente del idioma que entiendan.

Descubre artículos del equipo de ElevenLabs

Customer stories

Layer integrates ElevenLabs to deliver game-ready audio

Expanding creative capabilities with fast, flexible voice and sound generation

Customer stories

lemlist doubles outbound reply rates at scale with AI voice notes powered by ElevenLabs

Engagement in the platform has increased 20% among early adopters with voice messages generating twice the reply rate of text-only outreach.

Crea con audio con IA de la más alta calidad

Empieza gratis

¿Ya tienes una cuenta? Inicia sesión