Descript、ボイスクローニングで AI ポッドキャストと動画の編集を次の段階に前進

AI を使用して、どのように音声と動画の編集をテキスト文書の編集並みに簡単にすることができたのかについて、Descript の Jay LeBoeuf 氏に語っていただきました。同社の新しいボイスクローニング技術である Overdub についても言及されています。

従来の音声・動画編集ソフトウェアには何十ものツールやパネルが存在し、使用方法を学ぶのに数カ月、マスターするには数年かかる場合があります。2017 年に創業したスタートアップの Descript は、「テキストを編集するだけで映像を編集できるとしたら?さらに、そのテキストが編集アプリによって自動作成されたトランスクリプトだとしたら?」とシンプルでありながら野心的なアイデアを抱いていました。

Descript は生成 AI と言語処理を使用して、すべてのクリエイターがプロ並みのコンテンツを自分で編集できるようにしました。音声ファイルや動画ファイルは、自動的にテキスト文書に書き起こされます。ユーザーがテキストの切り取り、貼り付け、削除を行うと、音声や動画の該当箇所も自動的に編集されます。

Stripe は、Descript のビジネスおよび経営企画の責任者であり、スピーチと音声認識の専門家でもある Jay LeBoeuf 氏に話を伺いました。AI の創造的潜在能力とリスクの間でどのようにバランスを取っているのか、さらに Overdub と呼ばれるボイスクローニング機能や、Stripe との連携によるメリットについても質問しました。なお、このインタビューは Descript で書き起こしをし、わかりやすくするために編集と要約を行いました。

ワード文書を編集するように、音声と動画を編集できるようにするというアイデアは、どこから生まれたのでしょうか?

人間は生まれながらの語り手であり、アイデアを得るための手段として言葉や文字を使用することができます。書き始めたばかりで、考えが漠然としている場合でも、または専門家としてストーリーをどのように再編集するか明確になっている場合でも、 文書というのは非常に身近な存在です。

貴社の製品は、どの点で他社のトランスクリプト技術と異なるのでしょうか。

Descript では、編集をシームレスにする自社の技術に特別な要素を加えています。一例を挙げると、トランスクリプトを音声と完全に一致させているため、ユーザーがどのような編集をしても希望通りに反映されます。カットをしても誰も気が付きません。たとえば、私が発した言葉や文章の一部を、あなたが切り取ったとしても、音声の隙間が生じることはありません。つまり、文章の途中で一呼吸しているようには聞こえないでしょう。

ここには高度な技術が使用されていますが、そのような技術の存在が認識されることはまずありません。Descript の動画編集では、AI が 11 回登場しますが、ユーザーは AI が自身の作品に影響していることには気付きません。

すごいですね。具体的に教えてください。

このインタビューは現在録音されていますが、後であなたがこのファイルを取り出して、Descript にドラッグするとしましょう。ここで AI が初めて使用され、ファイルのすべての言葉が文字に起こされ、テキストになります。次に、話し手を検知する AI が登場し、Descript はどの部分があなたの話で、どの部分が私の話かを特定します。

当社の AI は録音の音声を向上させることもできます。私自身はそれなりのマイクを持っていますが、多くの人はプロフェッショナルな音響環境にはいません。そのため、誰が話しても NPR (ナショナル・パブリック・ラジオ) 品質の放送環境にいるように聞こえる Studio Sound と呼ばれる技術を開発したのです。

Descript は言語処理も自然に行います。私が話しているときに出てくる「えっと」や「あの」と言ったつなぎ言葉も、ボタンを 1 つ押すだけで削除することができます。

Descript アプリのスクリーンショット

つなぎ言葉や長い沈黙は、時として音声や動画に味わいを加えることがあります。ドラマチックな効果のある間合いのようなものです。貴社の技術は、意味のある沈黙と不要なつなぎ言葉を区別できますか。

もちろんです。私たちは、つなぎ言葉や沈黙に信頼性や信ぴょう性、ドラマ性を高める効果があることを理解しています。つなぎ言葉を 1 クリックで削除できるようにしていますが、希望に合わせて個別に変更を加えることもできます。私たちは AI を、熟練した語り部の下で管理されるワークフローツールと見なしたいのです。

実際に新しい言語を生成する AI の機能を、Descript がどのように取り入れているのか教えていただけますか。

当社には Overdub という音声技術があります。これを使用すると、誰でも自分の声を複製できます。自分の声だけです。

たとえば、私がポッドキャストの司会をしているとします。エピソードのドラフトを作成したあとで、いくつかの間違いに気付きました。ゲストの名前を間違えて、ヘンリーではなくサムと呼んだとします。その場合でも、自分自身の Jay ボイスをすでに作成しているので、これを使用して間違えた部分を修正することができます。マイクに向かって 10 分話すだけで、Overdub に十分なトレーニング材料を提供できます。「ヘンリー」の文字をダブルクリックして、「サム」と入力すると、Overdub は、私が同じ音響環境で話しているように合成してくれます。

Overdub は、当社のビジネスユーザー、特に製品マーケティング担当者の間で非常に人気があります。

なぜでしょうか。

製品名や、どこに何があるかという説明を頻繁に更新しなければならないとします。そのような場合、毎回録音し直す必要はありません。修正する箇所を選択して、文字を再入力すればよいのです。また、製品デモの音声を担当している際に、ユーザーが詳細を知りたいときにどうすればよいかを説明する行動喚起 (CTA) を追加しなければならないことに気付いたとします。そのようなときは、文章全体を入力するだけで、Overdub が話し手に代わってナレーションをしてくれます。

私の同意なしで、誰かが私の声を複製しようとしたらどうなりますか。

Overdub ボイスを作成する場合、あなたの声に関するトレーニング材料を提供するだけでなく、当社からの同意書をその場で読み上げていただく必要があります。当社でその同意書を受け取ったら、声紋とアルゴリズムで照合し、さらに人間のチームが、本人がその場にいるか、トレーニング材料が同意と一致しているかを確認します。

Descript のボイスクローニング機能である Overdub を使用すると、ユーザーは自分の声のテキスト読み上げモデルを作成したり、極めて本物に近いストックボイスを使用したりすることが可能です。

Stripe との関係について説明していただけますか。

Stripe の決済プラットフォームBillingRadarSigmaRevenue Recognition など多数の Stripe 製品を相互に連携させて使用しています。処理、サブスクリプション、請求書発行、収益認識を一元化できるようになり、非常に助かっています。コストだけでなく、煩雑な作業を減らすことができました。システムを連携させるために当社で必要なエンジニアリング作業はわずかでした。Stripe は非常に開発者フレンドリーなパートナーです。

どのような点で Stripe は開発者フレンドリーなのでしょうか。

たとえば、API ドキュメントは高品質です。コードサンプルにテストキーを含めるなど、Stripe が API を容易に実装できるように配慮していることがよくわかります。

また、Stripe はきめ細かく対応してくれます。Revenue Recognition のベータテストを実施した際には、製品チームおよび Billing チームと何度かミーティングを行い、時間をかけて変更点を説明してもらいました。Webhook のテストでも Stripe を実装中に複数の改良が加えられました。Stripe は常にユーザー体験の向上に取り組んでいます。

Descript はいずれ大規模な言語モデルを使用して、Overdub で作成可能な実際のコンテンツを提案できるようになりますか。

当社は最近、まもなく利用可能になる ChatGPT-4 との連携を発表しました。どのようなことが起きるでしょうか。あなたが言及されたことは、1 つの可能性であり、ユーザーが望んでいることでもあります。OpenAI をパートナーとして迎えたのは素晴らしいことです。当社が今年発表することは、人々を驚かせるでしょう。