Con la clonazione vocale, Descript compie un passo avanti nell'editing di podcast e video basato sull'IA

Jay LeBoeuf di Descript spiega come l'azienda utilizza l'IA per trasformare l'editing di audio e video in un'operazione semplice come la modifica di un documento di testo. Questo include Overdub, la nuova funzione di clonazione vocale di Descript.

I software di editing audio e video tradizionali, con decine di strumenti e pannelli, possono richiedere mesi per l'apprendimento e anni per acquisirne la piena padronanza. La start-up Descript ha lanciato nel 2017 un'idea semplice ma ambiziosa: cosa succederebbe se si potessero modificare i filmati semplicemente modificando un testo? E, ancora meglio, se il testo provenisse da una trascrizione creata automaticamente dall'app di editing?

Utilizzando IA generativa ed elaborazione del linguaggio, Descript offre a chi crea ogni giorno la possibilità di creare autonomamente contenuti di qualità professionale. I file audio o video vengono automaticamente trascritti in un documento di testo; gli utenti possono quindi tagliare, incollare e cancellare il testo, e l'audio o il video applicherà le stesse modifiche in modo automatico.

Stripe ha parlato con Jay LeBoeuf, responsabile dello sviluppo commerciale e aziendale di Descript e veterano nel campo del riconoscimento vocale e sonoro. Gli abbiamo chiesto come l'azienda riesca a bilanciare il potenziale creativo dell'IA con i suoi rischi, come funzioni la clonazione vocale Overdub e in che modo l'azienda abbia tratto vantaggio dalla collaborazione con Stripe. L'intervista, che abbiamo trascritto su Descript, è stata modificata e condensata per migliorarne la leggibilità.

Come è nata l'idea di far diventare l'editing audio e video sostanzialmente equivalente alla modifica di un documento di Word?

Le persone sono per loro natura dei narratori e tutti noi siamo concordi nel considerare le parole e la scrittura un modo per fissare le idee. Il testo è qualcosa di molto familiare, sia per chi è agli inizi e non ha idea di cosa sia una forma d'onda, sia per i professionisti che sanno esattamente come vogliono riadattare la storia.

Cosa distingue il vostro prodotto dalle altre tecnologie di trascrizione?

Abbiamo aggiunto un ingrediente speciale alla nostra tecnologia, che rende le modifiche estremamente agevoli. Prima di tutto, Descript allinea perfettamente la trascrizione all'audio, in modo che tutte le modifiche apportate si trovino esattamente nel punto desiderato. E i tagli sono pressoché impercettibili. Per esempio, se c'è una parola o una frase che ho detto e volete tagliarla usando Descript, non si creerà un vuoto, non sembrerà che abbia tirato il fiato a metà della frase. Non sembrerà nemmeno uno stacco poco curato nel montaggio. Tutto funzionerà come se un editor esperto avesse svolto il lavoro più difficile.

Tutto questo richiede una tecnologia avanzata, ma a malapena ci si accorge della sua presenza. In una tipica esperienza di editing di un video con Descript, si incontra l'IA per ben 11 volte, senza nemmeno sapere che l'IA ha contribuito alla creazione.

Wow. Quando, per esempio?

Dunque, stiamo registrando questa intervista. Immaginiamo di prendere il file e di trascinarlo in Descript. Questo è il primo caso in cui l'IA entra in gioco: tutte le parole del file vengono trascritte e appaiono come testo. Poi c'è l'IA che si occupa del rilevamento dei partecipanti alla conversazione. Così Descript identificherà quando ciascuno di noi sta parlando.

La nostra IA può anche migliorare automaticamente la qualità del suono della registrazione. Io, ad esempio, ho un buon microfono, ma molte altre persone si trovano in ambienti acustici che non assicurano un suono professionale. Per questo abbiamo sviluppato una tecnologia chiamata Studio Sound che fa sentire ogni persona come se si trovasse in un ambiente di trasmissione di qualità NPR.

Inoltre, elabora il linguaggio naturale. Così tutti gli "uhm" e gli "ah" e tutte le altre parole di riempimento che interferiscono con il mio racconto possono essere eliminate con la semplice pressione di un tasto.

Uno screenshot dall'app Descript.

A volte, parole di riempimento o lunghe pause possono aggiungere consistenza a un brano audio o video, come una pausa drammatica. La vostra tecnologia è in grado di distinguere tra pause significative e pause superflue?

Assolutamente sì. Siamo consapevoli che le parole di riempimento e le pause possono fornire un contributo di credibilità, autenticità e drammaticità. Per questo motivo, pur disponendo di uno strumento per la rimozione con un solo clic, consentiamo agli utenti di applicare le modifiche a singole istanze, se lo preferiscono. Ci piace considerare l'IA uno strumento per flussi di lavoro nelle mani di un narratore esperto.

In che modo Descript incorpora la capacità dell'IA di generare un nuovo linguaggio?

Disponiamo di una tecnologia vocale chiamata Overdub. Permette a chiunque di clonare la propria voce, ma solo la propria voce.

Supponiamo che io sia il conduttore di un podcast. Creo la bozza di un episodio, ma poi mi accorgo di aver commesso degli errori. Ad esempio, ho chiamato per errore un ospite Mario invece che Paolo. Bene, ho creato il mio clone vocale Jay e posso usarlo per correggere l'errore. Sono bastati dieci minuti di conversazione in un microfono per fornire a Overdub abbastanza materiale di addestramento. Faccio doppio clic sulla parola Mario e digito Paolo, e Overdub sintetizzerà la mia voce nello stesso ambiente acustico pronunciando il nome corretto.

Overdub è molto apprezzato dai nostri utenti aziendali, in particolare dai team di marketing dei prodotti.

Perché?

Immaginiamo che sia necessario aggiornare spesso i nomi dei prodotti o le istruzioni su dove trovare qualcosa. Si può selezionare ciò che si deve correggere e riscriverlo, invece di ripetere la registrazione ogni volta. Oppure, supponiamo che tu sia la voce di una demo di un prodotto e ti renda conto che devi aggiungere un invito all'azione, spiegando cosa possono fare gli utenti per saperne di più: puoi semplicemente digitare intere frasi e Overdub le riprodurrà in voce per te.

Cosa succede se qualcuno cerca di clonare la mia voce senza il mio consenso?

Per creare la tua voce Overdub, non solo devi fornirci il materiale di addestramento della tua voce, ma devi anche leggere una dichiarazione di consenso dal vivo su nostra richiesta. Noi prendiamo la dichiarazione di consenso e la mettiamo a confronto sia tramite un algoritmo con un'impronta vocale, sia con un team di persone dotate di cuffie per assicurarci che tu sia davvero presente e che il materiale di addestramento corrisponda al tuo consenso.

Overdub, una funzione di clonazione vocale di Descript, consente agli utenti di creare un modello di sintesi vocale della propria voce o di utilizzare voci di repertorio estremamente realistiche.

Com'è il vostro rapporto con Stripe?

Utilizziamo diversi prodotti Stripe integrati tra loro: la piattaforma di pagamenti di Stripe, Billing, Radar, Sigma e Revenue Recognition. È stato molto utile accorpare l'elaborazione, gli abbonamenti, la fatturazione e il riconoscimento in un unico posto. Risparmiamo sui costi, ma riduciamo anche la complessità: il lavoro tecnico necessario per integrare i sistemi è minore. Stripe è un partner straordinariamente vicino agli sviluppatori.

In che modo Stripe ha facilitato il lavoro degli sviluppatori?

La documentazione dell'API è lo standard di riferimento, per esempio. È chiaro che Stripe si preoccupa di rendere l'API facile da integrare, ad esempio includendo chiavi di test negli esempi di codice.

Stripe è anche molto reattiva. Abbiamo fatto parte del beta test di Revenue Recognition e abbiamo avuto diversi incontri con i team di prodotto e di fatturazione durante i quali ci hanno dedicato il loro tempo per mostrarci le modifiche. Inoltre, durante il periodo di integrazione con Stripe, sono stati introdotti diversi miglioramenti relativi al test dei webhook. L'impegno di Stripe per migliorare l'esperienza è incessante.

È possibile che prima o poi Descript riesca a utilizzare modelli linguistici di grandi dimensioni per suggerire contenuti effettivi che possano poi essere creati con Overdub?

Abbiamo recentemente annunciato un'integrazione con ChatGPT-4, che sarà disponibile a breve. Come sarà? Quella che ha menzionato è una possibilità: è qualcosa che gli utenti ci chiedono di realizzare. È fantastico avere OpenAI come partner e credo che tutti rimarranno sbalorditi da ciò che ci vedranno proporre quest'anno.