Clonagem de voz da Descript abre novos caminhos para a edição de podcasts e vídeos com IA

Jay LeBoeuf, da Descript, conta como a empresa aplica IA para tornar a edição de áudio e vídeo tão simples quanto a edição de documentos de texto. Um dos recursos é o Overdub, o novo recurso de clonagem de voz da Descript.

Descript social card

Pode levar meses para alguém aprender e anos para dominar um software tradicional de edição de áudio e vídeo com dezenas de ferramentas e painéis. A startup Descript foi lançada em 2017 com uma ideia simples, mas ambiciosa: e se fosse possível editar gravações como se edita um texto? E mais: e se o texto fosse a transcrição criada automaticamente pelo seu aplicativo de edição?

Aplicando IA criativa e processamento de linguagem, a Descript permite que criadores comuns editem sozinhos conteúdos com qualidade profissional. Arquivos de áudio ou vídeo são transcritos automaticamente para um documento de texto que os usuários podem cortar, colar e excluir, e as alterações são reproduzidas automaticamente nos trechos de áudio ou vídeo.

A Stripe conversou com Jay LeBoeuf, diretor de desenvolvimento empresarial e corporativo da Descript e veterano na área de reconhecimento de som e fala. Perguntamos sobre o equilíbrio do potencial criativo da IA e seus riscos, sobre o recurso de clone de voz, chamado Overdub e sobre como a parceria com a Stripe foi vantajosa para a empresa. A entrevista, transcrita pelo Descript, foi editada e condensada para dar mais clareza.

De onde veio a ideia de transformar a edição de áudio e vídeo basicamente numa edição de documento do Word?

Todo mundo gosta de contar histórias, é natural, e gostamos de nos reunir em torno de palavras escritas para capturar ideias. O texto é muito familiar, tanto para quem está começando e não tem ideia do que seja uma onda acústica, quanto para o profissional que sabe exatamente como deseja reestruturar uma história.

O que diferencia seu produto de outras tecnologias de transcrição?

Usamos um tempero especial em nossa tecnologia, que torna as edições perfeitas. Primeiro, o Descript alinha perfeitamente a transcrição ao seu áudio para que todas as edições aconteçam exatamente onde você deseja. E os cortes são basicamente indetectáveis. Por exemplo, se eu disser uma palavra ou uma frase e você quiser cortá-la com o Descript, não fica uma quebra, não vai soar como se eu tivesse respirado no meio da frase. Também não vai soar como um corte mal editado. Tudo funciona como se você tivesse um editor qualificado fazendo todo o trabalho.

Isso exige tecnologia avançada, mas você nem percebe que ela está lá. Em uma experiência típica de edição de vídeo com o Descript, você vai usar IA 11 vezes sem nem perceber que a IA tocou o trabalho.

Uau. Como assim?

Então, estamos gravando esta entrevista. Imagine que depois você pega o arquivo e arrasta para o Descript. Aqui a IA já começou a trabalhar, transcrevendo todas as palavras no arquivo e convertendo em texto. Depois, tem a IA que faz a identificação dos interlocutores, o Descript identifica quando você falou e eu falei.

Nossa IA também pode melhorar automaticamente a qualidade do som da gravação. Então, eu tenho um microfone decente, mas tem muita gente que grava em ambientes com uma acústica não profissional. Por isso, desenvolvemos uma tecnologia chamada Studio Sound, que faz com que todos soem como se estivessem em um estúdio profissional de rádio.

Também temos o processamento de linguagem natural. Aí é que podemos cortar todos os “Hãs” e “Éees” e outras palavras de preenchimento que atrapalham minha história, basta apertar um botão.

VideoEditorScreenshot (1)

Captura de tela do aplicativo Descript.

Às vezes, palavras de preenchimento ou pausas longas podem adicionar textura a um trecho de áudio ou vídeo. Como uma pausa dramática. Sua tecnologia consegue diferenciar pausas significativas de sons estranhos?

Com certeza. Entendemos que palavras e pausas de preenchimento podem melhorar a credibilidade, autenticidade e dramaticidade. Temos uma ferramenta de remoção com um clique, mas também permitimos que os usuários apliquem alterações em pontos específicos, se preferirem. Para nós, a IA é uma ferramenta de trabalho nas mãos de um escritor habilidoso.

Você pode comentar como a Descript está incorporando a capacidade da IA de realmente gerar uma nova linguagem?

Temos uma tecnologia de voz chamada Overdub. Ela permite que qualquer pessoa clone sua própria voz, somente a própria voz.

Então, digamos que eu apresente um podcast. Eu rascunho um episódio, mas percebo que ele tem alguns erros. Por exemplo, eu chamei o entrevistado de Sam em vez de Henry, por engano. Como tenho meu próprio clone de voz do Jay, posso usá-lo para corrigir isso. Com dez minutos falando em um microfone, o Overdub tem material suficiente para treinar minha voz. Eu clico na palavra Henry e digito Sam, e o Overdub sintetiza minha voz no mesmo ambiente acústico dizendo o nome correto.

O Overdub é muito usado por usuários de empresas, principalmente equipes de marketing de produtos.

Por quê?

Digamos que você precise atualizar com frequência nomes de produtos ou instruções sobre onde encontrar algo. Você pode selecionar o que precisa corrigir e basta digitar, em vez de regravar todas as vezes. Ou você gravou uma demonstração de produto e percebe que precisa adicionar um “call to action”, explicando onde o usuário pode buscar mais informações. Você digita uma frase inteira e o Overdub faz a gravação para você.

E se alguém tentar clonar minha voz sem meu consentimento?

Ao criar sua voz no Overdub, além de fornecer o material de sua voz para treinar a ferramenta, você também precisa ler uma declaração de consentimento, fornecida por nós, ao vivo. Essa declaração de consentimento é comparada com uma impressão digital de voz pelo algoritmo e por uma equipe de humanos com fones de ouvido que garante você realmente estava presente e que o material de treinamento corresponde ao da declaração de consentimento.

O Overdub, recurso de clone de voz da Descript, permite que os usuários criem um modelo de conversão de texto em fala de sua voz ou usem vozes prontas ultrarrealistas.

Fale de seu relacionamento com a Stripe

Usamos vários produtos da Stripe em conjunto — a plataforma de pagamentos Stripe, o Billing, o Radar, o Sigma e o Revenue Recognition. Foi muito útil consolidar processamento, assinaturas, faturamento e reconhecimento no mesmo lugar. Economizamos custos, mas também reduzimos a complexidade, pois são menos processos de engenharia para integrar nossos sistemas. A facilidade de uso da Stripe para desenvolvedores é extraordinária.

Você pode dar alguns exemplos de como a Stripe ajuda desenvolvedores?

A documentação das APIs é a melhor que existe, para começar. Por exemplo, as chaves de teste nas amostras de código demonstram que a Stripe faz questão de facilitar a integração da API.

E também a receptividade. Participamos do teste beta do Revenue Recognition e fizemos várias reuniões com as equipes de produto e faturamento, e eles nos explicaram todas as mudanças. Também nos testes de webhooks, várias melhorias foram feitas durante nossa integração na Stripe. Vocês estão sempre melhorando a experiência.

Será que a Descript vai conseguir usar grandes modelos de linguagem para sugerir conteúdos para serem criados no Overdub?

Acabamos de anunciar uma integração com o ChatGPT-4, a ser lançada em breve. E como isso vai funcionar? Sua ideia é uma possibilidade, e os usuários dizem que gostariam disso. É ótimo ter a parceria da OpenAI, e acho que vamos surpreender todo mundo com o que vamos lançar este ano.