Tipo de empresa | Empresa privada |
---|---|
Industria | Inteligencia artificial |
Fundado | 2022 |
Fundadores |
|
Sede | Ciudad de Nueva York, Estados Unidos |
Sitio web | oncelabs.io |
Parte de una serie sobre |
Inteligencia artificial |
---|
ElevenLabs es una empresa de software que se especializa en el desarrollo de software de síntesis de voz con sonido natural utilizando aprendizaje profundo .
Se la ha reconocido como una de las principales empresas detrás del actual auge de la IA . [1]
ElevenLabs fue cofundada en 2022 por Piotr Dąbkowski, exingeniero de aprendizaje automático de Google , y Mati Staniszewski, exestratega de implementación de Palantir . [2] Ambos se criaron en Polonia y, según se informa, su inspiración para fundar ElevenLabs surgió al ver películas estadounidenses mal dobladas . [3] [4]
Dąbkowski y Staniszewski inicialmente consideraron diferentes opciones de financiación, incluida la posibilidad de colaborar con un acelerador de startups. En enero de 2023 revelaron que habían conseguido una ronda de financiación inicial de 2 millones de dólares. La especialización de la startup en inteligencia de voz por IA, un campo aún emergente en Europa , jugó un papel importante a la hora de atraer inversores. La financiación inicial estuvo liderada principalmente por Credo Ventures, a la que se unió Concept Ventures. [5]
En enero de 2023, ElevenLabs lanzó públicamente su plataforma beta . [6]
En junio de 2023, ElevenLabs recaudó una ronda de financiación de Serie A de 19 millones de dólares con una valoración de unos 100 millones de dólares, [7] [8] a pesar de que la empresa no tenía oficinas y solo tenía 15 empleados. [4] [8] La ronda de financiación fue codirigida por la firma de capital de riesgo Andreessen Horowitz , el exdirector ejecutivo de GitHub Nat Friedman y el empresario Daniel Gross . También participaron personas destacadas como SV Angel , Mike Krieger (cofundador de Instagram), Brendan Iribe (cofundador de Oculus), Mustafa Suleyman (cofundador de Deepmind) y Tim O'Reilly (fundador de O'Reilly Media). También se anunció que Andreessen Horowitz se uniría a la junta directiva de ElevenLabs. [3]
El 22 de enero de 2024, ElevenLabs recaudó 80 millones de dólares adicionales en financiación de Serie B , lo que elevó la valoración total de la empresa a 1100 millones de dólares. La ronda de financiación estuvo liderada por Andreessen Horowitz, Friedman, Gross y Sequoia Capital . Además, la empresa anunció una serie de nuevos productos, entre ellos su Voice Marketplace, AI Dubbing Studio y una aplicación móvil. [9]
ElevenLabs es conocido principalmente por su software de conversión de texto a voz asistido por IA basado en navegador , Speech Synthesis, que puede producir un habla realista al sintetizar la emoción vocal y la entonación . [10] La empresa afirma que sus modelos están entrenados para interpretar el contexto del texto y ajustar la entonación y el ritmo en consecuencia. [11] Utiliza algoritmos avanzados para analizar los aspectos contextuales del texto, con el objetivo de detectar emociones como la ira, la tristeza, la felicidad o la alarma, lo que permite al sistema comprender el sentimiento del usuario, [12] lo que da como resultado una inflexión más realista y humana. La startup está en proceso de patentar esta tecnología. [5] En su sitio beta, los usuarios pueden enviar texto y generar archivos de audio a partir de una selección de voces predeterminadas. Los usuarios que pagan tienen la posibilidad de cargar muestras de voz personalizadas para crear nuevos estilos vocales utilizando la herramienta de clonación de voz de la empresa. [13]
Voice Library es la función de la empresa para compartir perfiles de voz únicos creados con su tecnología Voice Design. Estos perfiles de voz prediseñados permiten a los usuarios seleccionar la voz que mejor se adapte a sus necesidades, en lugar de crear una desde cero. [14] Actualmente, hay más de 1000 voces creadas por la comunidad en la biblioteca. Otra herramienta llamada VoiceLab permite a los usuarios clonar voces a partir de unos pocos fragmentos cortos de audio y crear voces sintéticas completamente nuevas. [3]
El 20 de junio de 2023, ElevenLabs lanzó una herramienta de reconocimiento de IA llamada AI Speech Classifier, que, según afirma, es la primera de su tipo. [3] Se puede acceder a la herramienta a través de una API y está diseñada para determinar si una muestra de audio cargada se origina a partir de la tecnología de IA patentada de ElevenLabs. [4] La empresa ha expresado su intención de colaborar con otros desarrolladores de IA para crear un sistema de detección universal que pueda adoptarse en toda la industria. [15]
En julio de 2023, ElevenLabs anunció "Projects", una herramienta para crear contenido hablado de larga duración, como audiolibros y segmentos de diálogo con voces sintéticas o personalizadas que tienen en cuenta el contexto. [4] [16] La herramienta se lanzó en septiembre. En agosto, ElevenLabs amplió sus capacidades de generación de voz a 28 idiomas. Utilizando un modelo de IA interno, detecta automáticamente idiomas como el coreano , el holandés y el vietnamita , lo que permite la generación de voz multilingüe "emocionalmente rica". La empresa también anunció que su tecnología había salido oficialmente de su fase beta . [17] [18]
En octubre de 2023, ElevenLabs presentó "AI Dubbing", una herramienta capaz de traducir el habla a más de 20 idiomas. La función es capaz de preservar la voz, las emociones y la entonación originales del hablante, empleando métodos propios para manejar tareas como la eliminación de ruido, la diferenciación de hablantes, la transcripción y la sincronización del habla traducida con el audio original. [19]
En mayo de 2024, ElevenLabs lanzó un modelo de texto a música . [20] En junio de 2024, ElevenLabs lanzó la aplicación ElevenLabs Reader en iOS y Android, que permite a los usuarios escuchar artículos, archivos PDF y ePubs con voces de IA en su teléfono. [21] En julio de 2024, ElevenLabs lanzó "Voice Isolator", que elimina el ruido de fondo del audio. [22]
Los casos de uso de ElevenLabs abarcan una variedad de sectores.
Los creadores de contenido han utilizado ElevenLabs para podcasts, narraciones y programas de comedia. [23] [24] [25] En marzo de 2023, el comediante Drew Carey utilizó la herramienta de clonación de voz de ElevenLabs para recrear su voz para un episodio de su programa de radio, Friday Night Freakout . [11] En abril de 2023, el presentador de radio y televisión polaco Jaroslaw Kuzniar utilizó una versión sintetizada de su voz para ofrecer una serie de podcasts sobre la invasión rusa de Ucrania . [26] Seth Godin también ha utilizado ElevenLabs para narrar su podcast centrado en IA. [3]
Tim Green , exjugador de la NFL y autor, utiliza la tecnología de clonación de voz con inteligencia artificial de ElevenLabs para su podcast, "Tim Green's Nothing Left Unsaid". [27] A Green le diagnosticaron una forma de esclerosis lateral amiotrófica de progresión lenta , lo que afectó su capacidad para comunicarse verbalmente. La tecnología de inteligencia artificial le permite presentar y participar en conversaciones profundas con varios invitados utilizando una versión clonada de su voz de grabaciones anteriores. Este uso innovador de la tecnología de ElevenLabs le permite a Green seguir contribuyendo a debates importantes a pesar de su condición.
En marzo de 2023, Super-Hi-Fi, un servicio de automatización de streaming, se asoció con ElevenLabs para lanzar un servicio de radio totalmente automatizado llamado "AI Radio", utilizando el software de ElevenLabs para dar voz a su DJ virtual a partir de indicaciones generadas con ChatGPT . [28] ElevenLabs también ha sido empleado para narrar juegos y dar voz a personajes de juegos en asociaciones con el desarrollador de juegos sueco Paradox Interactive y Magicave, con sede en el Reino Unido. [3] [29]
Los editores y autores han utilizado ElevenLabs para narrar audiolibros y boletines informativos. [5] [30] El 13 de junio de 2023, Storytel anunció una asociación exclusiva con ElevenLabs. A través de esta colaboración, ElevenLabs creará voces adaptadas específicamente a los mercados principales de Storytel y producirá audiolibros narrados por IA. Se implementó una función de cambio de voz llamada VoiceSwitcher para mejorar la personalización para los usuarios, brindando experiencias de escucha únicas personalizadas para cada individuo. [31] [32]
ElevenLabs se ha utilizado para generar audio para doblar videos en diferentes idiomas, incluso por parte de creadores de contenido. [5] [8] La plataforma tiene la capacidad de replicar con precisión casi cualquier acento en cualquier idioma. [33] Los fanáticos famosos han utilizado ElevenLabs para crear mensajes inspiradores utilizando las voces de sus celebridades favoritas. [34]
En febrero, el periodista de VICE Joseph Cox publicó los hallazgos de que había grabado cinco minutos de sí mismo hablando y luego había usado ElevenLabs para crear deepfakes de voz que derrotaron el sistema de autenticación de voz de un banco . [35]
En julio, la representante estadounidense Jennifer Wexton utilizó ElevenLabs para crear una réplica de su voz después de perderla por una parálisis supranuclear progresiva (PSP) similar a la enfermedad de Parkinson. [36]
ElevenLabs establece unas directrices explícitas en relación con el uso de su tecnología, prohibiendo la clonación de voces con fines abusivos como el fraude, la discriminación, el discurso de odio o el abuso en línea, aunque sí apoya el uso de su plataforma para “caricaturas, parodias y sátiras” y “discursos artísticos y políticos que contribuyan a los debates públicos”. La empresa afirma su autoridad para suspender las cuentas y el contenido de los usuarios que infrinjan estas directrices, y también destaca su compromiso de cooperar con las autoridades y denunciar cualquier actividad ilegal de acuerdo con las leyes aplicables. [3] En enero, la empresa admitió que su plataforma se ha utilizado para “casos de uso indebido de clonación de voces” [37] y endureció sus salvaguardas contra el uso vejatorio de su tecnología. [38]
En enero de 2024, el operador de autobuses Stagecoach East Midlands introdujo nuevos anuncios de próxima parada en su flota de autobuses de Grimsby y Skegness utilizando las voces George y Lily de Elevenlabs, reemplazando la voz de texto a voz de Amazon Polly Amy existente.
Tras su lanzamiento en enero de 2023, ElevenLabs cobró impulso rápidamente y fue elogiada por la calidad de su salida de voz, los rápidos tiempos de generación y un "generoso nivel gratuito". También ha sido elogiada por su capacidad para pronunciar con precisión nombres con pronunciaciones únicas o poco comunes, abordando una deficiencia común en herramientas similares que a menudo se centran principalmente en nombres occidentales. [39] La empresa alcanzó más de un millón de usuarios registrados entre su lanzamiento y junio de 2023. [3] [4] [40]
ElevenLabs fue criticado después de que los usuarios pudieron abusar de su software para generar declaraciones controvertidas en el estilo vocal de celebridades, funcionarios públicos y otras personas famosas, [41] [42] [43] [44] [38] particularmente atrayendo la atención después de que los usuarios de 4chan usaran la herramienta para compartir mensajes de odio. [45] [15] La capacidad del software para replicar fielmente voces reales ha generado preocupaciones éticas , y los críticos lo compararon con deepfaking . [46] En respuesta, la compañía dijo que trabajaría para mitigar el posible abuso a través de salvaguardas y verificación de identidad . [6] Posteriormente, la compañía ha limitado el acceso a su función de clonación de voz a los suscriptores pagos, [47] citando el requisito de proporcionar información de pago como un medio para mejorar la rendición de cuentas, [48] y ha implementado prohibiciones a los usuarios que violan repetidamente los términos del servicio.
En el período previo a las primarias demócratas de enero de 2024 en New Hampshire , se enviaron a miles de residentes llamadas automáticas generadas por IA supuestamente de Joe Biden alentando a los votantes a no votar el día de las primarias. La oficina del fiscal general de New Hampshire inició una investigación sobre el incidente y lo vinculó a una empresa con sede en Texas, y los expertos en audio concluyeron que la llamada se realizó mediante ElevenLabs. En respuesta al incidente, el director ejecutivo Mati Staniszewski declaró que la empresa estaba "dedicada a prevenir el uso indebido de las herramientas de IA de audio", pero no proporcionó ningún comentario sobre incidentes específicos. [49]
Se han planteado preocupaciones adicionales sobre la ética de la fuente de los datos de entrenamiento de ElevenLabs, y varios actores de voz afirman que ElevenLabs utilizó muestras de sus voces sin su consentimiento. [50] Por lo tanto, ElevenLabs, junto con otras empresas de su categoría, ha sido vista como un desafío potencial para el sector de la actuación de voz. [18]
{{cite web}}
: CS1 maint: varios nombres: lista de autores ( enlace )