Nachdem sie ihre Jugend im Polen kurz nach der Jahrtausendwende verbracht hatten, waren Mati Staniszewski und Piotr Dabkowski allergisch gegen die schlecht synchronisierten Filme, die sie jahrelang hatten ertragen müssen. Das Budget für Synchronisierungen ins Polnische ist relativ gering, weshalb viele Filme gerne komplett von einem einzigen Sprecher „synchronisiert“ werden, der alle Sprechrollen auf einmal übernimmt und dabei meist Tiefe, sprachliche Nuancen und Feingefühl vermissen lässt.
Als beide dann später Karriere in der Technologiebranche machten, waren diese Kindheitserinnerungen noch recht frisch und brachten sie auf eine Idee: das Problem der unerträglich schlechten Synchronisation – und bei dieser Gelegenheit noch viele weitere – mit realistischen, gefühlsstarken und kontextsensiblen künstlichen Stimmen aus der Welt zu schaffen.
Diese Idee mündete 2022 in der Gründung von ElevenLabs, das die neuesten Entwicklungen in KI und Deep Learning zur Erschaffung künstlicher Stimmen nutzt, die der menschlichen sehr nahe kommen (und die sogar lachen können). Dieser Durchbruch katapultierte das noch junge Unternehmen an die Speerspitze der KI-Sprachtechnologie. Mittlerweile wächst das Produktangebot von ElevenLabs immer weiter und ermöglicht die Transkription von Audio- und Videoinhalten, die Gestaltung von Figurenstimmen, ein Übersetzungs- und Synchronisationsstudio und einen ganzen Werkzeugkasten für KI-Bots für den direkten Kundenkontakt.
Um mit diesen Produkten Geld zu verdienen und das weitere Unternehmenswachstums abzusichern, brauchte es einen ähnlich versierten Zahlungspartner. Also wandte sich ElevenLabs mit seinen Standorten in London und New York 2023 an Stripe, um gemeinsam ein Pauschalabonnement für seine KI-Sprachtools auf den Markt zu bringen. Seitdem setzt ElevenLabs bei der Einführung von Unternehmensdienstleistungen und der Betreuung seines dynamischen Geschäftsmodells ganz auf die große Produkttiefe von Stripe. So konnte das Unternehmen selbst ehrgeizige Vorhaben wie einen eigenen Marktplatz umsetzen, auf dem professionelle Sprecher jeglicher Couleur ihre Stimme für gewerbliche Nutzung lizenzieren können.
„Wir existieren gerade einmal zweieinhalb Jahre und trotzdem sind wir schon ein waschechtes Einhorn“, freut sich Luke Harries, der bei ElevenLabs für das geschäftliche Wachstum zuständig ist. „Unsere Plattform wird von hunderttausenden SB-Abonnenten und Unternehmen wie Perplexity, dem Time-Magazin und Bertelsmann verwendet. Alle Zahlungen laufen dabei über genau einen IT-Ingenieur – und natürlich Stripe.“
Abonnements, Auszahlungen und Agenten aus einer Hand
Den Anfang machten bei ElevenLabs menschenähnliche KI-Stimmen. Im Gegensatz zu früheren Ansätzen bildet die Technologie von ElevenLabs dabei auch Alter, Akzent, Geschlecht, Tonfall und andere unverwechselbare Facetten der menschlichen Sprache nach. Diese Realitätsnähe und die Fähigkeit, aus textuellen Hinweisen auf Gefühle zu schließen, machen die Sprachsynthese von ElevenLabs zu einer beliebten Wahl für alle, die Videoskripte, Podcasts, Nachrichtenmeldungen, Hörbücher und so gut wie alle anderen Formen von Ton- und Bildinhalten einsprechen lassen wollen.
Um schnell ein Abonnementangebot für Content-Ersteller und Verlage zu entwickeln, zu erproben und ohne großen Aufwand zu skalieren, entschied sich ElevenLabs für Stripe Billing. Mit der benutzerfreundlichen API und SDK von Stripe konnte das Team praktisch ohne Programmieraufwand in kürzester Zeit mehrere Tarifstufen einrichten. Außerdem ermöglichte die hohe Flexibilität von Billing die Skalierung des Abonnementangebots, als ElevenLabs Unternehmensdienstleistungen wie Tonstudio- und Synchronisationsdienste einführte und somit auch Großkunden zu betreuen hatte.
Dank der globalen Reichweite von Stripe konnte ElevenLabs von Beginn an Abonnentinnen und Abonnenten aus aller Welt aufnehmen. Dazu wurde mit der Suite zur Optimierung des Bezahlvorgangs eine simple aber wirksame Anmeldeseite für ein internationales Publikum erstellt. Dabei bette das Unternehmen etwa das vorkonfigurierte Bezahlformular, um unter anderem digitale Wallets und lokale Zahlungsmethoden wie Apple Pay, Google Pay und Revolut Pay ohne zusätzlichen Programmieraufwand anzuzeigen. Außerdem übernahm ElevenLabs den beschleunigten Bezahlvorgang von Link, der gespeicherte Kundendaten im gesamten Link-Netzwerk automatisch vorausfüllen kann. Die Suite zur Optimierung des Bezahlvorgangs erhöht die Konversionsrate, und über den beschleunigten Link-Bezahlvorgang läuft bereits jede fünfte Zahlung, die ElevenLabs erhält.
Als KI-Unternehmen erkannte ElevenLabs in der Stripe-KI Potenzial für eine deutliche Verbesserung seiner Abonnementprozesse. Anstatt auf starre Regeln zu setzen, ermitteln die in die Suite eingebetteten KI-Modelle dynamisch, welche Zahlungsmethoden im jeweiligen Bezahlvorgang in welcher Reihenfolge angezeigt werden sollen. So sorgt ElevenLabs für eine noch individuellere Nutzererfahrung.
Mit den Produkten von Stripe gelang es ElevenLabs auch, etliche Abrechnungs- und Zahlungsabläufe wie die Bearbeitung von Auszahlungen und die Vereinfachung des Onboarding-Verfahrens effizienter zu gestalten. Das Beste daran: Für die Stripe-Integration und die Steuerung seiner diversen Abrechnungs- und Zahlungsprozesse beschäftigt das Unternehmen gerade einmal einen einzigen IT-Ingenieur. „Müssten wir uns intern um die gesamte Abonnementinfrastruktur für alle Länder kümmern, bräuchten wir vermutlich ein eigenes IT-Team nur für Zahlungen“, freut sich Harries.
Als ElevenLabs dann eine neue Technologie entwickelte, die einzelne Stimmen täuschend echt nachbilden kann, erkannte das Unternehmen eine Chance, professionelle Sprecherinnen und Sprecher einzubinden und sein Geschäftsmodell zu erweitern. Also wurde mit Stripe Connect ein eigener Marktplatz geschaffen, auf dem Schauspieler/innen ihre Stimmen für gewerbliche Zwecke „klonen“ lassen, Nutzungsbedingungen aufstellen und sich dafür bezahlen lassen können, wenn jemand ihre Stimme für gewerbliche Zwecke nutzt. Connect übernimmt dabei mit seinen vorkonfigurierten Funktionen das Onboarding der Sprecher/innen, ermöglicht Zahlungen aus dem Ausland und sichert die Erfüllung regulatorischer Vorgaben etwa mit Blick auf die verpflichtenden Kundenlegitimitätsprüfungen (KYC). Deren Erfüllung kann sich beim Onboarding für Plattformen nämlich als echte Herausforderung erweisen. Doch auch hier sorgte Stripe mit seinen vielfältigen Funktionen wieder für eine deutliche Zeit- und Ressourcenersparnis, die ElevenLabs mehr Spielraum für die Umsetzung wichtiger KI-Audioprojekte verschaffte.
ElevenLabs bemerkte bald, dass viele Unternehmen seine Sprach- und Textsynthese zur Erstellung von KI-Agenten verwenden. Die dauert oft mehrere Monate und erfolgt meist unter Verwendung derselben Technologien. Also brachte ElevenLabs eine eigene Plattform für die KI-Gesprächsführung auf den Markt, die das Verfahren beschleunigt und Kapazitäten zur Aufstellung einer Geschäftslogik freisetzt, da für die erforderliche Infrastruktur ja bereits gesorgt ist. Mit dem Agentenbaukasten von Stripe versetzte ElevenLabs die über die Plattform erstellten Agenten in die Lage, Aufgaben in der Kundenbetreuung und im Vertrieb zu übernehmen. So können sie beispielsweise auf das Stripe-Konto des jeweiligen Unternehmens zugreifen und dort Rückerstattungen veranlassen oder Zahlungslinks versenden. „Die größte Veränderung bei KI-Agenten wird sein, dass sie nicht mehr einfach nur Fragen beantworten, sondern eigenständig bestimmte Handlungen durchführen können“, meint Harries.
Partnerschaft sichert die Wettbewerbsposition von ElevenLabs
Aus den anfangs gerade einmal elf Stimmen sind inzwischen über 5.000 geworden, die ElevenLabs auf seiner Plattform anbietet und von denen ein Gutteil auf seinen Marktplatz entfällt. Bislang wurden über vier Millionen Dollar an die Sprecher/innen ausbezahlt, wobei die Topverdiener/innen über 10.000 USD pro Monat einstreichen.
Inzwischen haben die Nutzer/innen mehr als 550.000 KI-Agenten auf der Plattform erstellt. Doch das ist wohl nur der Anfang, wenn man sich die vielen Einsatzmöglichkeiten vor Augen führt, die gesprächssichere Bots und Agenten eröffnen. Abgesehen davon ergänzt ElevenLabs Sprachsynthese und Synchronisationen laufend um weitere Sprachen. So sind unter den insgesamt 33 Sprachen neben Englisch, Französisch und Spanisch auch exotischere wie Kroatisch oder Tamilisch.
Harries vergleicht die Wettbewerbssituation bei KI-Audiotools mit der Formel 1, wo es ebenfalls darum gehe, sich mit der neuesten Technik oder einem bahnbrechenden Produkt einen Vorteil zu verschaffen. Dementsprechend geht er auch nicht davon aus, dass sich das Innovationstempo von ElevenLabs in nächster Zeit verlangsamen wird. Und in Stripe sieht er einen Schlüsselpartner für den weiteren Innovationskurs seines Unternehmens.
„Ich freue mich schon darauf, unser Zahlungsvolumen mit Stripe weiter zu steigern, die Sprecher/innen auf unserer Plattform auch in Zukunft gut zu bezahlen und uns neue Länder und Zahlungsmöglichkeiten zu erschließen“, resümiert Harries.