Con la clonación de voz, Descript da un paso más en la edición de podcasts y vídeos con IA

Jay LeBoeuf, de Descript, habla de cómo la empresa utiliza la IA para que editar audio y vídeo sea tan fácil como editar un documento de texto. Esto incluye Overdub, la nueva función de clonación de voz de Descript.

El software tradicional de edición de audio y vídeo, con sus docenas de herramientas y paneles, puede llevar meses de aprendizaje y años de dominio. La startup Descript se lanzó en 2017 con una idea sencilla pero ambiciosa: ¿Y si pudieras editar secuencias solo editando texto? Y mejor aún, ¿y si el texto procediera de una transcripción que tu aplicación de edición creara automáticamente?

Gracias a la inteligencia artificial generativa y al procesamiento del lenguaje, Descript ofrece a los creadores la posibilidad de crear ellos mismos contenidos de calidad profesional. Los archivos de audio o vídeo se transcriben automáticamente en un documento de texto; a continuación, los usuarios cortan, pegan y borran el texto, y el audio o vídeo correspondiente sigue el ejemplo automáticamente.

Stripe habló con Jay LeBoeuf, director de desarrollo empresarial y corporativo de Descript y veterano en el campo del reconocimiento de voz y sonido. Le preguntamos sobre cómo la empresa equilibra el potencial creativo de la IA con sus riesgos, sobre su función de clonación de voz llamada Overdub y sobre cómo la empresa se ha beneficiado de trabajar con Stripe. La entrevista, que transcribimos en Descript, ha sido editada y condensada para mayor claridad.

¿Qué les dio la idea de hacer que la edición de audio y vídeo fuera básicamente como editar un documento de Word?

Las personas somos narradores naturales, y todos podemos agruparnos en torno a las palabras y la escritura como nuestra forma de plasmar ideas. El texto es algo que nos resulta muy familiar, tanto si acabas de empezar y no tienes ni idea de lo que es una forma de onda, como si eres un profesional y sabes exactamente cómo te gustaría reestructurar la historia.

¿Qué diferencia a su producto de otras tecnologías de transcripción?

Hemos añadido un toque especial a nuestra tecnología para que las ediciones sean perfectas. Por un lado, Descript alinea perfectamente la transcripción con el audio para que todas las ediciones que hagas estén exactamente donde quieres. Además, los cortes son prácticamente indetectables. Por ejemplo, si he dicho una palabra o una frase y quieres recortarla con Descript, no quedará ningún hueco, no parecerá que me he tomado un respiro en mitad de la frase. Tampoco sonará como un corte mal editado. Todo funcionará como si un editor experto hubiera hecho el arduo trabajo.

Todo esto implica tecnología avanzada, pero apenas te enteras de que está ahí. En una experiencia típica de edición de vídeo de Descript, hay 11 ocasiones en las que te encontrarás con IA sin ni siquiera saber que esta ha influido en tu creación.

Vaya. ¿Cómo qué?

Estamos grabando esta entrevista. Imaginemos que después tomamos el archivo y lo arrastramos a Descript. Esta es la primera instancia de la IA, donde todas las palabras del archivo se transcriben y aparecen como texto. Luego tenemos la IA que detectará al hablante. De esta manera, Descript identificará cuándo estás hablando tú y cuándo estoy hablando yo.

Nuestra IA también puede mejorar automáticamente la calidad del sonido de la grabación. Yo tengo un micrófono decente, pero muchas otras personas están en entornos acústicos que no suenan profesionales. Por ello desarrollamos una tecnología llamada Studio Sound que hace que cada persona suene como si estuviera en un entorno de emisión de calidad NPR.

También procesa el lenguaje natural. Así que todos los «eh» y «em», y otras palabras de relleno que me impiden contar mi historia, se pueden recortar con solo pulsar un botón.

VideoEditorScreenshot (1) — Una captura de la aplicación Descript.

A veces, las palabras de relleno o las pausas largas pueden añadir textura a una pieza de audio o vídeo. Como una pausa dramática. ¿Puede tu tecnología distinguir entre pausas significativas y «eh» extraños?

Por supuesto. Entendemos que las palabras de relleno y las pausas pueden contribuir a la credibilidad, la autenticidad y el dramatismo. Por eso, aunque disponemos de una herramienta de eliminación con un solo clic, también permitimos a los usuarios aplicar cambios a instancias individuales, si así lo prefieren. Nos gusta pensar en la IA como una herramienta de flujo de trabajo en manos de un narrador experto.

¿Puedes hablarnos de cómo Descript está incorporando la capacidad de la IA para generar un lenguaje novedoso?

Tenemos una tecnología de voz llamada Overdub. Permite a cualquiera clonar su propia voz, y solo su propia voz.

Digamos que soy el presentador de un podcast. Creo un borrador de un episodio, pero luego me doy cuenta de que he cometido algunos errores. Digamos que llamo a un invitado Sam en lugar de Henry por error. Bueno, he creado mi propio clon de la voz de Jay que puedo usar para corregirlo. Bastaron diez minutos de hablar por el micrófono para que Overdub tuviera suficiente material de entrenamiento. Hago doble clic en la palabra Henry y escribo Sam, y Overdub me sintetizará en el mismo entorno acústico diciendo el nombre correcto.

Overdub es muy popular entre nuestros usuarios empresariales, especialmente los equipos de marketing de productos.

¿A qué se debe?

Supongamos que necesita actualizar con frecuencia los nombres de los productos o las instrucciones sobre dónde encontrar algo. Puedes elegir lo que necesitas corregir y volver a escribirlo en lugar de volver a grabarlo cada vez. O digamos que eres la voz de una demostración de producto y te das cuenta de que necesitas añadir una llamada a la acción, en la que expliques qué pueden hacer los usuarios para obtener más información. Puedes escribir frases enteras y Overdub las vocalizará por ti.

¿Qué pasa si alguien intenta clonar mi voz sin mi consentimiento?

Si creas tu voz Overdub, no solo tienes que proporcionarnos material de formación sobre cómo suenas, sino que tienes que leer una declaración de consentimiento que te pedimos en directo. Tomamos esa declaración de consentimiento y la comparamos tanto algorítmicamente con una huella vocal como mediante un equipo de humanos con auriculares para asegurarnos de que realmente estás presente y de que tu material de formación coincide con tu consentimiento.

Overdub, una función de clonación de voz de Descript, permite a los usuarios crear un modelo de texto a voz de su propia voz o utilizar voces de archivo ultrarrealistas.

¿Puedes hablarnos de tu relación con Stripe?

Utilizamos varios productos de Stripe conjuntamente: plataforma de pagos de Stripe, Billing, Radar, Sigma y Revenue Recognition. Ha sido muy útil consolidar el procesamiento, las suscripciones, la facturación y el reconocimiento en un solo lugar. Ahorramos costes, pero también reducimos la complejidad: necesitamos menos ingeniería para integrar los sistemas. Stripe es un socio extraordinariamente favorable para los desarrolladores.

¿Cuáles son algunas de las formas en las que Stripe ha ayudado a los desarrolladores?

Para empezar, la documentación de la API es el estándar de oro. Por ejemplo, al incluir claves de prueba en los ejemplos de código, queda claro que Stripe se preocupa por facilitar la integración de la API.

También son receptivos. Formamos parte de la prueba beta de Revenue Recognition y tuvimos varias reuniones con los equipos de producto y facturación en las que nos explicaron los cambios. Incluso con elementos como la prueba de webhooks, se han realizado varias mejoras durante nuestro tiempo de integración con Stripe. Siempre están trabajando para mejorar la experiencia.

¿Podrá finalmente Descript utilizar grandes modelos lingüísticos para sugerir contenidos reales que luego podrían crearse con Overdub?

Recientemente anunciamos una integración con ChatGPT-4 que estará disponible en breve. ¿Cómo será? Lo que has mencionado es una posibilidad, es algo que los usuarios nos están diciendo que les gustaría. Es estupendo contar con OpenAI como socio, y creo que todo el mundo se va a quedar boquiabierto con lo que vamos a presentar este año.

Pagos

Ingresos

Gestión del dinero

Plataformas y marketplaces

Pagos

Ingresos

Gestión del dinero

Plataformas y marketplaces

Con la clonación de voz, Descript da un paso más en la edición de podcasts y vídeos con IA

Últimas historias

En The Cauldron, salir una noche se convierte en algo mágico.

Morisawa, la principal fundición de tipos de letra de Japón, acude a Stripe para apoyar su servicio de suscripciones