2000 年代初頭のポーランドで育った Mati Staniszewski 氏と Piotr Dabkowski 氏は、質の低い吹き替えの外国映画を仕方なく見なければならないことに耐えられませんでした。ポーランド語への吹き替えには限られた予算しかなく、ほとんどの映画では、たった 1 人のナレーターがすべての登場人物のセリフを読み上げるだけ。深みやニュアンス、感情表現はほとんどありませんでした。
二人が IT 業界でキャリアを築いていく間も、この子供時代の体験がずっと心に残っていて、最終的にあるアイデアがひらめきました。それは、「リアルで、感情があり、文脈を理解できる合成音声を作れば、あのひどい吹き替えの問題だけでなく、他にも多くの課題を解決できるのではないか?」というものです。
そのアイデアがきっかけで、2022 年に ElevenLabs を創業。ElevenLabs は、AI とディープラーニングの進歩を活用し、人間のような音声 (笑い声までも) を作り出せる人工音声を開発した最初の企業となったのです。この画期的な技術により、ElevenLabs は AI 音声技術の最前線に立つスタートアップとなりました。現在、ElevenLabs は、音声・映像コンテンツ向けのテキスト読み上げエンジン、キャラクター開発向けの音声デザインツール、翻訳・吹き替えスタジオ、顧客と対話可能な会話型 AI チャットボット向けツールキットなどを提供し、製品群を拡充し続けています。
事業を拡大しながらこれらの製品を収益化するには、それに見合う高度な決済パートナーが必要でした。ロンドンとニューヨークに拠点を置く ElevenLabs は、2023 年に Stripe を導入。自社の AI 音声ツール向けに定額制サブスクリプションを開始しました。それ以来、エンタープライズ向けサービスへの拡大や、急速に進化するビジネスモデルを支えるために、Stripe の豊富なプロダクト群を活用してきました。たとえば、声優が自分の声を商用利用のためにライセンス販売できるマーケットプレイスの構築など、大規模な新規事業を展開する際にも、Stripe を活用しています。
「会社設立から約 2 年半ですが、今ではユニコーン企業になりました。現在、何十万ものセルフサービス型のユーザーと、Perplexity、タイム誌、Bertelsmann などの大企業が当社プラットフォームを利用しています。最初のエンジニアが Stripe を導入したおかげで、これらすべての決済に対応できています」(ElevenLabs のグロース責任者である Luke Harries 氏)
1 人のエンジニアで、サブスクリプション、入金、エージェント型ワークフローを支える
ElevenLabs は、人間のような AI 音声 11 種類からスタート。従来の機械的な AI 音声とは異なり、ElevenLabs の技術は、年齢、アクセント、性別、イントネーションなど、人の声の個性を特徴づける要素を忠実に再現します。さらに、テキストの手がかりから感情を読み取り、その感情に合わせた音声を生成できる機能が、ElevenLabs のテキスト読み上げエンジンを大ヒットさせました。動画スクリプト、ポッドキャスト、ニュースレポート、オーディオブック、その他ほぼすべての音声・映像コンテンツの音声化を望むクリエイターの間で人気となっています。
Stripe Billing は、簡単に始められて、素早く改善できます。このため、ElevenLabs は、コンテンツクリエイターや出版社向けに音声テキスト変換ツールのサブスクリプションを、スムーズに拡大できました。Stripe の API や SDK は扱いやすく、開発リソースをほとんど割かなくても、複数の料金プランをすぐに構築できる。ElevenLabs のチームはそう確信しました。さらに、Billing は柔軟性が高いため、大口顧客向けに大規模なサブスクリプションサービス (本格的な音声制作スタジオや吹き替えサービスなど) を展開する際にもスムーズに拡張できました。
Stripe のグローバル対応のおかげで、ElevenLabs は世界中のユーザーのサブスクリプション登録にすぐに対応できました。Stripe 決済ソリューションを活用し、グローバルユーザー向けに、シンプルで効果的なサブスクリプション登録ページを設計。たとえば、構築済み決済フォームである Checkout を自社サイトに埋め込むことで、追加のコーディングなしで、Apple Pay、Google Pay、Revolut Pay などのデジタルウォレットや地域別の決済手段を簡単に提供できるようにしました。さらに、Stripe のスピーディーな決済ソリューションである Link も導入。Link のネットワーク全体で、保存済みの支払い情報を自動入力できるようにしました。Stripe 決済ソリューションを利用することで、購入完了率が向上する効果も得られ、現在、ElevenLabs の決済のうち 20% は Link の簡単でスピーディーな決済機能を使って行われています。
AI 企業である ElevenLabs は、Stripe の AI がサブスクリプション登録の流れに大きな影響を与える可能性があると考えました。Stripe 決済ソリューションに組み込まれた AI モデルは、従来のような固定ルールは使いません。代わりに、それぞれの決済ごとに、どの決済手段をどの順番で表示するかを動的に決定します。これにより、ElevenLabs はよりパーソナライズされたユーザー体験を提供できるようになっています。
Stripe のプロダクトにより、ElevenLabs のさまざまな請求や支払い関連業務の効率化も実現。たとえば、入金管理や、顧客のアカウント登録プロセスをシンプルにできました。実際、ElevenLabs は、Stripe の各種実装をわずか 1 人のエンジニアで実現し、多様な請求・決済ワークフローの管理もその担当者だけで行っています。「もし、すべてのサブスクリプションインフラを自社で構築して、地域ごとに異なる決済対応をしなければならなかったとしたら、決済専任のエンジニアチームが必要だったでしょう」(Harries 氏)
高度な音声クローン技術を開発したことで、ElevenLabs は新たな機会を見いだしました。プロの声優のコミュニティーを支援し、ビジネスモデルに新たな収益源を加えるというものです。そこで、Stripe Connect を活用してマーケットプレイスを構築。声優が自分の声を商用プロジェクト用にクローンし、利用条件を設定します。ElevenLabs ユーザーがその声をプロジェクトで採用した場合、声優が報酬を受け取れるという仕組みです。Connect には、国際的な送金対応や、本人確認 (KYC) 件などの規制対応をはじめ、声優のアカウント登録を支援する機能が備わっています。たとえば、本人確認要件への準拠は、プラットフォームにとってアカウント登録時の大きな障壁になることがあります。ElevenLabs の場合は Stripe の機能を利用できたため、そのための開発や対応にかかる時間とリソースを節約し、その分を自社の基幹サービスである AI 音声プロジェクトに集中できました。
ElevenLabs は、多くの企業が ElevenLabs の Text to Speech (テキスト読み上げ) や Speech to Text (音声テキスト変換) モデルを使って、AI エージェントを構築していることを目の当たりにしました。しかし、これらの企業は、本番環境に移行するのに数カ月もかかっていて、毎回同じ基盤の構築を繰り返していることが多かったのです。そこで ElevenLabs は、顧客がより短期間で本番環境に導入できるよう、インフラ構築ではなく、エージェントのビジネスロジック開発に集中できるように、自社の会話型 AI 音声プラットフォームを立ち上げ。さらに、Stripe のエージェントツールキットを組み合わせることで、カスタマーサービスや営業のワークフローを AI エージェントが自動で完結できるようにしました。たとえば、企業の AI エージェントが、Stripe アカウントに接続して返金を行ったり、決済リンクを送って取引を完了させたりできます。「会話型 AI エージェントの最大の変化として、単に質問に答える形から、特定のアクションを自律的に実行できる方向へ進化することになるでしょう」(Harries 氏)
ElevenLabs を競合他社より常に一歩先へ導くパートナー
最初は 11 種類の音声からスタートした ElevenLabs ですが、現在ではプラットフォーム上で 5,000種類以上の音声を提供しています。この成長には、同社の高度なマーケットプレイスの存在も大きく貢献しています。このプラットフォームでは、声優に対して累計で 400 万ドル以上の報酬が支払われており、中には月に 1 万ドル以上の収入を得る声優もいます。
すでに、ElevenLabs のプラットフォーム上では 55 万体以上の AI エージェントが作られています。しかし、これはほんの始まりに過ぎません。本当に会話ができるボットや、自律的なエージェント型ワークフローが可能にするユースケースの数を考えると、今後はさらに利用が広がると見られています。ElevenLabs は、Text to Speech (テキスト読み上げ) や吹き替え機能の対応言語も拡充し続けており、現在では英語、フランス語、スペイン語のほか、新たに加わったクロアチア語やタミル語など 33 言語に対応しています。
Harries 氏は、AI 音声分野での競争を F1 レースに例えています。あらゆる企業が、先頭ポジションを確保するために、次の技術革新や画期的な製品を探し求めている状況だと言います。そのため、ElevenLabs のイノベーションのペースが減速することは当分ないだろうと考えています。そして、Stripeを、その継続的なイノベーションの重要なパートナーとして見ています。
「Stripe を通じて、決済規模をさらに拡大し、より多くの声優への報酬支払いを実現し、より多くの国や決済手段への対応を進めていけることを大変楽しみにしています」と、Harries 氏は語っています。