Grâce au clonage vocal, Descript révolutionne le montage de podcasts et de vidéos avec l'IA
Jay LeBoeuf, de Descript, nous explique comment son entreprise utilise l'IA pour rendre le montage audio et vidéo aussi simple que l'édition d'un texte. Il évoque aussi Overdub, la nouvelle fonctionnalité de clonage vocal de Descript.
Les logiciels de montage audio et vidéo traditionnels incluent des dizaines d'outils et de panneaux. Pour les maîtriser, il faut parfois des mois, voire des années. La start-up Descript s'est lancée en 2017 avec une idée simple, mais ambitieuse : monter de la vidéo en partant de son texte. Mieux encore, la solution extrait ce texte automatiquement de votre vidéo.
Avec l'IA générative et le traitement du langage, Descript donne aux personnes créatives la possibilité de monter par elles-mêmes du contenu de qualité professionnelle. L'application retranscrit automatiquement les fichiers audio et vidéo dans un document texte. Il devient alors possible de couper, coller et supprimer du texte pour monter son fichier.
Stripe a pu s'entretenir avec Jay LeBoeuf, le responsable du développement commercial et de l'entreprise, et expert de la reconnaissance vocale et sonore. Nous lui avons demandé comment l'entreprise gère les risques et le potentiel créatif de l'IA, nous avons évoqué sa fonctionnalité de clonage vocal Overdub, ainsi que les avantages de sa collaboration avec Stripe. L'interview, retranscrite avec Descript, a été éditée et condensée pour plus de clarté.
Comment avez-vous eu l'idée de faire du montage audio et vidéo à la Word ?
La narration fait partie de la nature humaine. Nous nous appuyons tous sur les mots et l'écriture pour communiquer nos idées. Le texte est un concept que tout le monde connaît, que vous débutiez tout juste et ne sachiez même pas ce qu'est une forme d'onde ou que vous maîtrisiez parfaitement l'art de restructurer une histoire.
En quoi votre produit se distingue-t-il des autres technologies de transcription ?
Nous avons ajouté à notre technologie des fonctionnalités spéciales qui simplifient l'édition. Par exemple, Descript assure une correspondance parfaite entre la transcription et le son pour que toutes vos modifications interviennent exactement là où vous le souhaitez. Les coupures sont quasiment indétectables. Par exemple, si vous supprimez un mot ou une phrase, Descript ne laissera aucun silence. Vous n'aurez pas l'impression que j'ai pris une inspiration au milieu d'une phrase ni d'avoir fait une coupe maladroite. Un spécialiste n'aurait pas fait mieux.
Cette capacité implique une technologie de pointe, mais qui est presque invisible. Lors d'un montage vidéo classique avec Descript, vous utiliserez l'IA à 11 reprises sans même vous en rendre compte.
À ce point ? Pour faire quoi ?
Eh bien, prenez cet entretien. Imaginons que vous importiez le fichier enregistré dans Descript. L'IA intervient pour transcrire le son et le transformer en texte. Ensuite, l'IA détectera les locuteurs : Descript indiquera à quels endroits vous parlez et à quel endroit c'est moi qui parle.
Notre IA peut aussi améliorer automatiquement la qualité sonore des enregistrements. Mon micro n'est pas mauvais, mais beaucoup de personnes enregistrent dans des environnements qui n'ont rien de professionnel. Nous avons donc développé une technologie appelée Studio Sound qui donne l'impression que chaque personne parle depuis un studio de radio.
L'IA effectue aussi un traitement en langage naturel. Tous les « euh » et autres tics de langage qui nuisent à la clarté de mon discours peuvent être supprimés en un clic.
Les tics de langage et pauses prolongées peuvent ajouter de la profondeur à un son ou une vidéo. Votre technologie est-elle capable de faire la différence entre ces pauses qui ont un sens et ces « euh » qui n'ont pas vraiment d'intérêt ?
Bien sûr. Les tics de langage et les pauses jouent sur la crédibilité, l'authenticité et l'ambiance d'un discours. Nous proposons un outil permettant de les supprimer en un clic, mais nous permettons aussi d'agir sur chacune de leurs instances individuelles. Pour nous, l'IA est un outil au service des personnes qui savent raconter avec brio des histoires.
Pouvez-vous nous expliquer comment Descript s'appuie sur l'IA pour générer une nouvelle voix ?
Nous avons mis au point une technologie vocale appelée Overdub. Elle permet à tout un chacun de cloner sa voix, et rien que sa voix.
Imaginons que j'anime un podcast. Je produis mon épisode, mais je me rends compte que j'ai fait des erreurs. Disons que j'ai appelé mon invité Sam au lieu d'Henri. Eh bien, je peux rattraper le coup avec mon clone vocal. Il me suffit de parler dix minutes dans un micro pour fournir à Overdub suffisamment de matériel pour s'entraîner. Je n'ai alors plus qu'à double-cliquer sur le mot Henri dans la transcription et à le remplacer par Sam. Overdub synthétise ma voix disant le bon nom, dans le même environnement acoustique que celui du reste du podcast.
Overdub est très populaire dans le monde professionnel, et notamment auprès des équipes de marketing produit.
Pourquoi donc ?
Eh bien, si vous devez régulièrement mettre à jour des noms de produits ou des instructions expliquant où trouver telle ou telle chose, il vous suffit de sélectionner ce qu'il faut corriger et de taper la nouvelle version. Vous n'avez pas besoin de multiplier les enregistrements. Autre exemple : vous êtes la voix derrière une démonstration de produit et vous vous rendez compte que vous devez ajouter un appel à l'action expliquant aux utilisateurs ce qu'ils doivent faire pour aller plus loin. Vous n'avez qu'à taper des phrases complètes pour qu'Overdub les prononce à votre place.
Et si quelqu'un se met en tête de cloner ma voix sans mon autorisation ?
Pour cloner votre voix avec Overdub, vous devez non seulement nous fournir des données d'entraînement vocal, mais aussi lire en temps réel une déclaration de consentement. Nous faisons ensuite correspondre cette lecture à votre empreinte vocale à l'aide d'algorithmes et d'êtres humains équipés d'écouteurs. Cela nous permet de nous assurer que vous êtes bien présent et que les données d'entraînement correspondent à la voix qui donne son consentement.
Pouvez-vous nous parler de votre relation avec Stripe ?
Nous tirons parti des synergies entre les divers produits de Stripe, notamment en utilisant sa plateforme de paiement, Billing, Radar, Sigma et Revenue Recognition. Nous trouvons très pratique de réunir le traitement des paiements, les abonnements, la facturation et la comptabilisation des revenus au même endroit. Cela nous permet de faire des économies, mais aussi de simplifier l'intégration technique des systèmes. Stripe propose vraiment des solutions qui facilitent la vie des développeurs.
En quoi Stripe facilite-t-elle la vie des développeurs ?
Déjà, la documentation de l'API fait vraiment référence. L'inclusion de clés de test dans les exemples de code montre bien que Stripe tient à faciliter l'intégration de son API.
Stripe se montre aussi très réactive. Nous sommes membres du test de la version bêta de Revenue Recognition et avons rencontré à plusieurs reprises les équipes produit et facturation, qui ont pris le temps de nous expliquer les évolutions de la solution. Et puis, lors de nos tests des webhooks, nous avons constaté que Stripe apportait des améliorations en parallèle de notre période d'intégration. Cela marque vraiment une volonté d'améliorer l'expérience.
Est-ce que Descript finira par utiliser de grands modèles de langage pour suggérer du contenu pouvant être ensuite créé avec Overdub ?
Nous avons annoncé récemment une intégration avec ChatGPT-4. Elle sera disponible d'ici peu. À quoi servira-t-elle ? Eh bien, vous avez déjà évoqué une option qui intéresse les personnes qui utilisent notre produit. Nous sommes très heureux de travailler avec OpenAI, et je pense que beaucoup vont être ébahis par nos nouveautés de l'année.