2000 年代初頭のポーランドで育った Mati Staniszewski 氏と Piotr Dabkowski 氏は、質の低い吹き替えの外国映画を仕方なく見なければならないことに耐えられませんでした。ポーランド語への吹き替えには限られた予算しかなく、ほとんどの映画では、たった 1 人のナレーターがすべての登場人物のセリフを読み上げるだけ。深みやニュアンス、感情表現はほとんどありませんでした。
二人が IT 業界でキャリアを築いていく間も、この子供時代の体験がずっと心に残っていて、最終的にあるアイデアがひらめきました。それは、「リアルで、感情があり、文脈を理解できる合成音声を作れば、あのひどい吹き替えの問題だけでなく、他にも多くの課題を解決できるのではないか?」というものです。
そのアイデアがきっかけで、2022 年に ElevenLabs を創業。ElevenLabs は、AI とディープラーニングの進歩を活用し、人間のような音声 (笑い声までも) を作り出せる人工音声を開発した最初の企業となったのです。この画期的な技術により、ElevenLabs は AI 音声技術の最前線に立つスタートアップとなりました。現在、ElevenLabs は、音声・映像コンテンツ向けのテキスト読み上げエンジン、キャラクター開発向けの音声デザインツール、翻訳・吹き替えスタジオ、顧客と対話可能な会話型 AI チャットボット向けツールキットなどを提供し、製品群を拡充し続けています。
事業を拡大しながらこれらの製品を収益化するには、それに見合う高度な決済パートナーが必要でした。ロンドンとニューヨークに拠点を置く ElevenLabs は、2023 年に Stripe を導入。自社の AI 音声ツール向けに定額制サブスクリプションを開始しました。それ以来、エンタープライズ向けサービスへの拡大や、急速に進化するビジネスモデルを支えるために、Stripe の豊富なプロダクト群を活用してきました。たとえば、声優が自分の声を商用利用のためにライセンス販売できるマーケットプレイスの構築など、大規模な新規事業を展開する際にも、Stripe を活用しています。
「会社設立から約 2 年半ですが、今ではユニコーン企業になりました。現在、何十万ものセルフサービス型のユーザーと、Perplexity、タイム誌、Bertelsmann などの大企業が当社プラットフォームを利用しています。最初のエンジニアが Stripe を導入したおかげで、これらすべての決済に対応できています」(ElevenLabs のグロース責任者である Luke Harries 氏)
1 人のエンジニアで、サブスクリプション、入金、エージェント型ワークフローを支える
ElevenLabs は、人間のような AI 音声 11 種類からスタート。従来の機械的な AI 音声とは異なり、ElevenLabs の技術は、年齢、アクセント、性別、イントネーションなど、人の声の個性を特徴づける要素を忠実に再現します。さらに、テキストの手がかりから感情を読み取り、その感情に合わせた音声を生成できる機能が、ElevenLabs のテキスト読み上げエンジンを大ヒットさせました。動画スクリプト、ポッドキャスト、ニュースレポート、オーディオブック、その他ほぼすべての音声・映像コンテンツの音声化を望むクリエイターの間で人気となっています。
Stripe Billing は、簡単に始められて、素早く改善できます。このため、ElevenLabs は、コンテンツクリエイターや出版社向けに音声テキスト変換ツールのサブスクリプションを、スムーズに拡大できました。Stripe の API や SDK は扱いやすく、開発リソースをほとんど割かなくても、複数の料金プランをすぐに構築できる。ElevenLabs のチームはそう確信しました。さらに、Billing は柔軟性が高いため、大口顧客向けに大規模なサブスクリプションサービス (本格的な音声制作スタジオや吹き替えサービスなど) を展開する際にもスムーズに拡張できました。
Stripe のグローバル対応のおかげで、ElevenLabs は世界中のユーザーのサブスクリプション登録にすぐに対応できました。Stripe 決済ソリューションを活用し、グローバルユーザー向けに、シンプルで効果的なサブスクリプション登録ページを設計。たとえば、構築済み決済フォームである Checkout を自社サイトに埋め込むことで、追加のコーディングなしで、Apple Pay、Google Pay、Revolut Pay などのデジタルウォレットや地域別の決済手段を簡単に提供できるようにしました。さらに、Stripe のスピーディーな決済ソリューションである Link も導入。Link のネットワーク全体で、保存済みの支払い情報を自動入力できるようにしました。Stripe 決済ソリューションを利用することで、購入完了率が向上する効果も得られ、現在、ElevenLabs の決済のうち 20% は Link の簡単でスピーディーな決済機能を使って行われています。
AI 企業である ElevenLabs は、Stripe の AI がサブスクリプション登録の流れに大きな影響を与える可能性があると考えました。Stripe 決済ソリューションに組み込まれた AI モデルは、従来のような固定ルールは使いません。代わりに、それぞれの決済ごとに、どの決済手段をどの順番で表示するかを動的に決定します。これにより、ElevenLabs はよりパーソナライズされたユーザー体験を提供できるようになっています。
Stripe のプロダクトにより、ElevenLabs のさまざまな請求や支払い関連業務の効率化も実現。たとえば、入金管理や、顧客のアカウント登録プロセスをシンプルにできました。実際、ElevenLabs は、Stripe の各種実装をわずか 1 人のエンジニアで実現し、多様な請求・決済ワークフローの管理もその担当者だけで行っています。「もし、すべてのサブスクリプションインフラを自社で構築して、地域ごとに異なる決済対応をしなければならなかったとしたら、決済専任のエンジニアチームが必要だったでしょう」(Harries 氏)
高度な音声クローン技術を開発したことで、ElevenLabs は新たな機会を見いだしました。プロの声優のコミュニティーを支援し、ビジネスモデルに新たな収益源を加えるというものです。そこで、Stripe Connect を活用してマーケットプレイスを構築。声優が自分の声を商用プロジェクト用にクローンし、利用条件を設定します。ElevenLabs ユーザーがその声をプロジェクトで採用した場合、声優が報酬を受け取れるという仕組みです。Connect には、国際的な送金対応や、本人確認 (KYC) 件などの規制対応をはじめ、声優のアカウント登録を支援する機能が備わっています。たとえば、本人確認要件への準拠は、プラットフォームにとってアカウント登録時の大きな障壁になることがあります。ElevenLabs の場合は Stripe の機能を利用できたため、そのための開発や対応にかかる時間とリソースを節約し、その分を自社の基幹サービスである AI 音声プロジェクトに集中できました。
ElevenLabs は、多くの企業が ElevenLabs の Text to Speech (テキスト読み上げ) や Speech to Text (音声テキスト変換) モデルを使って、AI エージェントを構築していることを目の当たりにしました。しかし、これらの企業は、本番環境に移行するのに数カ月もかかっていて、毎回同じ基盤の構築を繰り返していることが多かったのです。そこで ElevenLabs は、顧客がより短期間で本番環境に導入できるよう、インフラ構築ではなく、エージェントのビジネスロジック開発に集中できるように、自社の会話型 AI 音声プラットフォームを立ち上げ。さらに、Stripe のエージェントツールキットを組み合わせることで、カスタマーサービスや営業のワークフローを AI エージェントが自動で完結できるようにしました。たとえば、企業の AI エージェントが、Stripe アカウントに接続して返金を行ったり、決済リンクを送って取引を完了させたりできます。「会話型 AI エージェントの最大の変化として、単に質問に答える形から、特定のアクションを自律的に実行できる方向へ進化することになるでしょう」(Harries 氏)
ElevenLabs を競合他社より常に一歩先へ導くパートナー
最初は 11 種類の音声からスタートした ElevenLabs ですが、現在ではプラットフォーム上で 5,000種類以上の音声を提供しています。この成長には、同社の高度なマーケットプレイスの存在も大きく貢献しています。このプラットフォームでは、声優に対して累計で 400 万ドル以上の報酬が支払われており、中には月に 1 万ドル以上の収入を得る声優もいます。
すでに、ElevenLabs のプラットフォーム上では 55 万体以上の AI エージェントが作られています。しかし、これはほんの始まりに過ぎません。本当に会話ができるボットや、自律的なエージェント型ワークフローが可能にするユースケースの数を考えると、今後はさらに利用が広がると見られています。ElevenLabs は、Text to Speech (テキスト読み上げ) や吹き替え機能の対応言語も拡充し続けており、現在では英語、フランス語、スペイン語のほか、新たに加わったクロアチア語やタミル語など 33 言語に対応しています。
Harries 氏は、AI 音声分野での競争を F1 レースに例えています。あらゆる企業が、先頭ポジションを確保するために、次の技術革新や画期的な製品を探し求めている状況だと言います。そのため、ElevenLabs のイノベーションのペースが減速することは当分ないだろうと考えています。そして、Stripeを、その継続的なイノベーションの重要なパートナーとして見ています。
「Stripe を通じて、決済規模をさらに拡大し、より多くの声優への報酬支払いを実現し、より多くの国や決済手段への対応を進めていけることを大変楽しみにしています」と、Harries 氏は語っています。
We started about two and a half years ago, and we are now a unicorn. We have hundreds of thousands of self-service subscribers and enterprises like Perplexity, Time magazine, and Bertelsmann using our platform. All these payments have been handled by our first engineer setting up Stripe.
Supporting subscriptions, payouts, and agentic workflows with one billing engineer
ElevenLabs started with 11 human-like AI voices. Unlike previous robotic AI voices, ElevenLabs technology replicates the nuances of age, accent, gender, intonation, and other factors that make each human voice unique. That realism, combined with the platform’s ability to gauge emotion from textual clues, made ElevenLabs’ Text to Speech engine a hit among creators looking to voice video scripts, podcasts, news reports, audiobooks, and almost any other type of audio or video content.
ElevenLabs chose Stripe Billing to get started easily, iterate rapidly, and seamlessly scale its subscription service for voice-to-text tools for content creators and publishers. The ease of working with the Stripe API and SDK made the team confident they could quickly build multiple pricing tiers with virtually no engineering time dedicated to the task. Billing’s flexibility also meant the company could scale its subscription offerings to accommodate larger customers as it rolled out enterprise-scale products such as a full-fledged audio production studio and dubbing services.
With Stripe’s global reach, ElevenLabs was able to instantly accept subscribers from all over the world, and the company used Stripe’s Optimized Checkout Suite to design a simple, effective subscription sign-up page for the global audience. For example, the company embedded the prebuilt Checkout form on its page, which made it easy to offer digital wallets and local payment methods such as Apple Pay, Google Pay, and Revolut Pay with no additional coding required. ElevenLabs also added Stripe’s accelerated checkout solution, Link, to enable customers to autofill their saved payment information anywhere across the Link network. Optimized Checkout Suite users benefit from an uplift in conversion rates, and Link’s easy, faster checkout experience now accounts for 20% of ElevenLabs’ payments. By running Stripe on AWS, ElevenLabs is supported by built-in AI tools to localize, personalize, and optimize the buying experience for its customers.
As an AI company, ElevenLabs saw the potential for Stripe’s AI to make a significant impact on the subscriber journey. Instead of relying on rigid rules, the AI models built into the Optimized Checkout Suite dynamically determine which payment methods to display in what order for every checkout, helping ElevenLabs provide a more personalized user experience.
Stripe products also enabled ElevenLabs to efficiently manage a range of billing and payment tasks, such as managing payouts and simplifying the onboarding process. In fact, ElevenLabs accomplished its Stripe integrations and is managing its various billing and payment workflows with just one engineer.
If we had to do all the subscription infrastructure in-house to handle all our different geographic regions, I’d expect we’d need a full engineering team dedicated purely to payments.
When ElevenLabs developed sophisticated voice cloning technology, the company saw an opportunity to support the professional voice actor community and add another new layer to its business model. Using Stripe Connect, ElevenLabs created a marketplace where actors can clone their voices for commercial projects, set terms, and receive payouts any time an ElevenLabs user selects their voice for a project. Connect offered ready-to-use capabilities to handle voice actor onboarding, including supporting international payouts and managing regulatory hurdles such as Know Your Customer (KYC) requirements. For instance, compliance with KYC rules can pose a considerable hurdle for platforms throughout the onboarding process. Stripe’s features again saved development time and resources that ElevenLabs could dedicate to its core audio AI projects.
ElevenLabs saw many companies using their Text to Speech and Speech to Text models to build AI agents. The companies often took months to get in production and were rebuilding the same underlying stack. So ElevenLabs launched their own platform to create a Conversational AI voice for customers to get to production quicker and focus on building the agent business logic rather than infrastructure. With the Stripe agent toolkit, ElevenLabs’ agent platform could enable agents to complete customer service or sales workflows. For example, a business’s AI agent could reach into its Stripe account to issue a refund or complete a transaction by sending out a checkout link. “The biggest shift in conversational AI agents is going to be from just pure question answering, to now using their own autonomy to execute certain actions,” said Harries.
A partner to keep ElevenLabs ahead of the competition
Building on those first 11 voices, ElevenLabs now has more than 5,000 voices available on its platform—driven in part by its advanced marketplace. The platform has paid out more than $4 million to voice actors, with some top earners making more than $10,000 a month.
Already, users have made more than 550,000 AI agents on the platform, which is just the start, considering the number of use cases enabled by truly conversational bots and agentic workflows. ElevenLabs also continues to add more languages to its Text to Speech and dubbing capabilities, which now supports 33 languages ranging from English, French, and Spanish to newer additions such as Croatian and Tamil.
Harries likens the competition in the AI audio space to Formula 1, where every company is looking for the next technology iteration or breakthrough product to power it to the front of the field. As a result, he doesn’t expect the pace of innovation to slow anytime soon for ElevenLabs. And he sees Stripe as a key partner for continuing that innovation.
I’m excited to keep scaling up much more volume of payments through Stripe, [making] many more millions of payments to voice actors on our platform, and expanding into far more countries and payment options.