Nachdem sie ihre Jugend im Polen kurz nach der Jahrtausendwende verbracht hatten, waren Mati Staniszewski und Piotr Dabkowski allergisch gegen die schlecht synchronisierten Filme, die sie jahrelang hatten ertragen müssen. Das Budget für Synchronisierungen ins Polnische ist relativ gering, weshalb viele Filme gerne komplett von einem einzigen Sprecher „synchronisiert“ werden, der alle Sprechrollen auf einmal übernimmt und dabei meist Tiefe, sprachliche Nuancen und Feingefühl vermissen lässt.
Als beide dann später Karriere in der Technologiebranche machten, waren diese Kindheitserinnerungen noch recht frisch und brachten sie auf eine Idee: das Problem der unerträglich schlechten Synchronisation – und bei dieser Gelegenheit noch viele weitere – mit realistischen, gefühlsstarken und kontextsensiblen künstlichen Stimmen aus der Welt zu schaffen.
Diese Idee mündete 2022 in der Gründung von ElevenLabs, das die neuesten Entwicklungen in KI und Deep Learning zur Erschaffung künstlicher Stimmen nutzt, die der menschlichen sehr nahe kommen (und die sogar lachen können). Dieser Durchbruch katapultierte das noch junge Unternehmen an die Speerspitze der KI-Sprachtechnologie. Mittlerweile wächst das Produktangebot von ElevenLabs immer weiter und ermöglicht die Transkription von Audio- und Videoinhalten, die Gestaltung von Figurenstimmen, ein Übersetzungs- und Synchronisationsstudio und einen ganzen Werkzeugkasten für KI-Bots für den direkten Kundenkontakt.
Um mit diesen Produkten Geld zu verdienen und das weitere Unternehmenswachstums abzusichern, brauchte es einen ähnlich versierten Zahlungspartner. Also wandte sich ElevenLabs mit seinen Standorten in London und New York 2023 an Stripe, um gemeinsam ein Pauschalabonnement für seine KI-Sprachtools auf den Markt zu bringen. Seitdem setzt ElevenLabs bei der Einführung von Unternehmensdienstleistungen und der Betreuung seines dynamischen Geschäftsmodells ganz auf die große Produkttiefe von Stripe. So konnte das Unternehmen selbst ehrgeizige Vorhaben wie einen eigenen Marktplatz umsetzen, auf dem professionelle Sprecher jeglicher Couleur ihre Stimme für gewerbliche Nutzung lizenzieren können.
„Wir existieren gerade einmal zweieinhalb Jahre und trotzdem sind wir schon ein waschechtes Einhorn“, freut sich Luke Harries, der bei ElevenLabs für das geschäftliche Wachstum zuständig ist. „Unsere Plattform wird von hunderttausenden SB-Abonnenten und Unternehmen wie Perplexity, dem Time-Magazin und Bertelsmann verwendet. Alle Zahlungen laufen dabei über genau einen IT-Ingenieur – und natürlich Stripe.“
Abonnements, Auszahlungen und Agenten aus einer Hand
Den Anfang machten bei ElevenLabs menschenähnliche KI-Stimmen. Im Gegensatz zu früheren Ansätzen bildet die Technologie von ElevenLabs dabei auch Alter, Akzent, Geschlecht, Tonfall und andere unverwechselbare Facetten der menschlichen Sprache nach. Diese Realitätsnähe und die Fähigkeit, aus textuellen Hinweisen auf Gefühle zu schließen, machen die Sprachsynthese von ElevenLabs zu einer beliebten Wahl für alle, die Videoskripte, Podcasts, Nachrichtenmeldungen, Hörbücher und so gut wie alle anderen Formen von Ton- und Bildinhalten einsprechen lassen wollen.
Um schnell ein Abonnementangebot für Content-Ersteller und Verlage zu entwickeln, zu erproben und ohne großen Aufwand zu skalieren, entschied sich ElevenLabs für Stripe Billing. Mit der benutzerfreundlichen API und SDK von Stripe konnte das Team praktisch ohne Programmieraufwand in kürzester Zeit mehrere Tarifstufen einrichten. Außerdem ermöglichte die hohe Flexibilität von Billing die Skalierung des Abonnementangebots, als ElevenLabs Unternehmensdienstleistungen wie Tonstudio- und Synchronisationsdienste einführte und somit auch Großkunden zu betreuen hatte.
Dank der globalen Reichweite von Stripe konnte ElevenLabs von Beginn an Abonnentinnen und Abonnenten aus aller Welt aufnehmen. Dazu wurde mit der Suite zur Optimierung des Bezahlvorgangs eine simple aber wirksame Anmeldeseite für ein internationales Publikum erstellt. Dabei bette das Unternehmen etwa das vorkonfigurierte Bezahlformular, um unter anderem digitale Wallets und lokale Zahlungsmethoden wie Apple Pay, Google Pay und Revolut Pay ohne zusätzlichen Programmieraufwand anzuzeigen. Außerdem übernahm ElevenLabs den beschleunigten Bezahlvorgang von Link, der gespeicherte Kundendaten im gesamten Link-Netzwerk automatisch vorausfüllen kann. Die Suite zur Optimierung des Bezahlvorgangs erhöht die Konversionsrate, und über den beschleunigten Link-Bezahlvorgang läuft bereits jede fünfte Zahlung, die ElevenLabs erhält.
Als KI-Unternehmen erkannte ElevenLabs in der Stripe-KI Potenzial für eine deutliche Verbesserung seiner Abonnementprozesse. Anstatt auf starre Regeln zu setzen, ermitteln die in die Suite eingebetteten KI-Modelle dynamisch, welche Zahlungsmethoden im jeweiligen Bezahlvorgang in welcher Reihenfolge angezeigt werden sollen. So sorgt ElevenLabs für eine noch individuellere Nutzererfahrung.
Mit den Produkten von Stripe gelang es ElevenLabs auch, etliche Abrechnungs- und Zahlungsabläufe wie die Bearbeitung von Auszahlungen und die Vereinfachung des Onboarding-Verfahrens effizienter zu gestalten. Das Beste daran: Für die Stripe-Integration und die Steuerung seiner diversen Abrechnungs- und Zahlungsprozesse beschäftigt das Unternehmen gerade einmal einen einzigen IT-Ingenieur. „Müssten wir uns intern um die gesamte Abonnementinfrastruktur für alle Länder kümmern, bräuchten wir vermutlich ein eigenes IT-Team nur für Zahlungen“, freut sich Harries.
Als ElevenLabs dann eine neue Technologie entwickelte, die einzelne Stimmen täuschend echt nachbilden kann, erkannte das Unternehmen eine Chance, professionelle Sprecherinnen und Sprecher einzubinden und sein Geschäftsmodell zu erweitern. Also wurde mit Stripe Connect ein eigener Marktplatz geschaffen, auf dem Schauspieler/innen ihre Stimmen für gewerbliche Zwecke „klonen“ lassen, Nutzungsbedingungen aufstellen und sich dafür bezahlen lassen können, wenn jemand ihre Stimme für gewerbliche Zwecke nutzt. Connect übernimmt dabei mit seinen vorkonfigurierten Funktionen das Onboarding der Sprecher/innen, ermöglicht Zahlungen aus dem Ausland und sichert die Erfüllung regulatorischer Vorgaben etwa mit Blick auf die verpflichtenden Kundenlegitimitätsprüfungen (KYC). Deren Erfüllung kann sich beim Onboarding für Plattformen nämlich als echte Herausforderung erweisen. Doch auch hier sorgte Stripe mit seinen vielfältigen Funktionen wieder für eine deutliche Zeit- und Ressourcenersparnis, die ElevenLabs mehr Spielraum für die Umsetzung wichtiger KI-Audioprojekte verschaffte.
ElevenLabs bemerkte bald, dass viele Unternehmen seine Sprach- und Textsynthese zur Erstellung von KI-Agenten verwenden. Die dauert oft mehrere Monate und erfolgt meist unter Verwendung derselben Technologien. Also brachte ElevenLabs eine eigene Plattform für die KI-Gesprächsführung auf den Markt, die das Verfahren beschleunigt und Kapazitäten zur Aufstellung einer Geschäftslogik freisetzt, da für die erforderliche Infrastruktur ja bereits gesorgt ist. Mit dem Agentenbaukasten von Stripe versetzte ElevenLabs die über die Plattform erstellten Agenten in die Lage, Aufgaben in der Kundenbetreuung und im Vertrieb zu übernehmen. So können sie beispielsweise auf das Stripe-Konto des jeweiligen Unternehmens zugreifen und dort Rückerstattungen veranlassen oder Zahlungslinks versenden. „Die größte Veränderung bei KI-Agenten wird sein, dass sie nicht mehr einfach nur Fragen beantworten, sondern eigenständig bestimmte Handlungen durchführen können“, meint Harries.
Partnerschaft sichert die Wettbewerbsposition von ElevenLabs
Aus den anfangs gerade einmal elf Stimmen sind inzwischen über 5.000 geworden, die ElevenLabs auf seiner Plattform anbietet und von denen ein Gutteil auf seinen Marktplatz entfällt. Bislang wurden über vier Millionen Dollar an die Sprecher/innen ausbezahlt, wobei die Topverdiener/innen über 10.000 USD pro Monat einstreichen.
Inzwischen haben die Nutzer/innen mehr als 550.000 KI-Agenten auf der Plattform erstellt. Doch das ist wohl nur der Anfang, wenn man sich die vielen Einsatzmöglichkeiten vor Augen führt, die gesprächssichere Bots und Agenten eröffnen. Abgesehen davon ergänzt ElevenLabs Sprachsynthese und Synchronisationen laufend um weitere Sprachen. So sind unter den insgesamt 33 Sprachen neben Englisch, Französisch und Spanisch auch exotischere wie Kroatisch oder Tamilisch.
Harries vergleicht die Wettbewerbssituation bei KI-Audiotools mit der Formel 1, wo es ebenfalls darum gehe, sich mit der neuesten Technik oder einem bahnbrechenden Produkt einen Vorteil zu verschaffen. Dementsprechend geht er auch nicht davon aus, dass sich das Innovationstempo von ElevenLabs in nächster Zeit verlangsamen wird. Und in Stripe sieht er einen Schlüsselpartner für den weiteren Innovationskurs seines Unternehmens.
„Ich freue mich schon darauf, unser Zahlungsvolumen mit Stripe weiter zu steigern, die Sprecher/innen auf unserer Plattform auch in Zukunft gut zu bezahlen und uns neue Länder und Zahlungsmöglichkeiten zu erschließen“, resümiert Harries.
We started about two and a half years ago, and we are now a unicorn. We have hundreds of thousands of self-service subscribers and enterprises like Perplexity, Time magazine, and Bertelsmann using our platform. All these payments have been handled by our first engineer setting up Stripe.
Supporting subscriptions, payouts, and agentic workflows with one billing engineer
ElevenLabs started with 11 human-like AI voices. Unlike previous robotic AI voices, ElevenLabs technology replicates the nuances of age, accent, gender, intonation, and other factors that make each human voice unique. That realism, combined with the platform’s ability to gauge emotion from textual clues, made ElevenLabs’ Text to Speech engine a hit among creators looking to voice video scripts, podcasts, news reports, audiobooks, and almost any other type of audio or video content.
ElevenLabs chose Stripe Billing to get started easily, iterate rapidly, and seamlessly scale its subscription service for voice-to-text tools for content creators and publishers. The ease of working with the Stripe API and SDK made the team confident they could quickly build multiple pricing tiers with virtually no engineering time dedicated to the task. Billing’s flexibility also meant the company could scale its subscription offerings to accommodate larger customers as it rolled out enterprise-scale products such as a full-fledged audio production studio and dubbing services.
With Stripe’s global reach, ElevenLabs was able to instantly accept subscribers from all over the world, and the company used Stripe’s Optimized Checkout Suite to design a simple, effective subscription sign-up page for the global audience. For example, the company embedded the prebuilt Checkout form on its page, which made it easy to offer digital wallets and local payment methods such as Apple Pay, Google Pay, and Revolut Pay with no additional coding required. ElevenLabs also added Stripe’s accelerated checkout solution, Link, to enable customers to autofill their saved payment information anywhere across the Link network. Optimized Checkout Suite users benefit from an uplift in conversion rates, and Link’s easy, faster checkout experience now accounts for 20% of ElevenLabs’ payments. By running Stripe on AWS, ElevenLabs is supported by built-in AI tools to localize, personalize, and optimize the buying experience for its customers.
As an AI company, ElevenLabs saw the potential for Stripe’s AI to make a significant impact on the subscriber journey. Instead of relying on rigid rules, the AI models built into the Optimized Checkout Suite dynamically determine which payment methods to display in what order for every checkout, helping ElevenLabs provide a more personalized user experience.
Stripe products also enabled ElevenLabs to efficiently manage a range of billing and payment tasks, such as managing payouts and simplifying the onboarding process. In fact, ElevenLabs accomplished its Stripe integrations and is managing its various billing and payment workflows with just one engineer.
If we had to do all the subscription infrastructure in-house to handle all our different geographic regions, I’d expect we’d need a full engineering team dedicated purely to payments.
When ElevenLabs developed sophisticated voice cloning technology, the company saw an opportunity to support the professional voice actor community and add another new layer to its business model. Using Stripe Connect, ElevenLabs created a marketplace where actors can clone their voices for commercial projects, set terms, and receive payouts any time an ElevenLabs user selects their voice for a project. Connect offered ready-to-use capabilities to handle voice actor onboarding, including supporting international payouts and managing regulatory hurdles such as Know Your Customer (KYC) requirements. For instance, compliance with KYC rules can pose a considerable hurdle for platforms throughout the onboarding process. Stripe’s features again saved development time and resources that ElevenLabs could dedicate to its core audio AI projects.
ElevenLabs saw many companies using their Text to Speech and Speech to Text models to build AI agents. The companies often took months to get in production and were rebuilding the same underlying stack. So ElevenLabs launched their own platform to create a Conversational AI voice for customers to get to production quicker and focus on building the agent business logic rather than infrastructure. With the Stripe agent toolkit, ElevenLabs’ agent platform could enable agents to complete customer service or sales workflows. For example, a business’s AI agent could reach into its Stripe account to issue a refund or complete a transaction by sending out a checkout link. “The biggest shift in conversational AI agents is going to be from just pure question answering, to now using their own autonomy to execute certain actions,” said Harries.
A partner to keep ElevenLabs ahead of the competition
Building on those first 11 voices, ElevenLabs now has more than 5,000 voices available on its platform—driven in part by its advanced marketplace. The platform has paid out more than $4 million to voice actors, with some top earners making more than $10,000 a month.
Already, users have made more than 550,000 AI agents on the platform, which is just the start, considering the number of use cases enabled by truly conversational bots and agentic workflows. ElevenLabs also continues to add more languages to its Text to Speech and dubbing capabilities, which now supports 33 languages ranging from English, French, and Spanish to newer additions such as Croatian and Tamil.
Harries likens the competition in the AI audio space to Formula 1, where every company is looking for the next technology iteration or breakthrough product to power it to the front of the field. As a result, he doesn’t expect the pace of innovation to slow anytime soon for ElevenLabs. And he sees Stripe as a key partner for continuing that innovation.
I’m excited to keep scaling up much more volume of payments through Stripe, [making] many more millions of payments to voice actors on our platform, and expanding into far more countries and payment options.