Ayant grandi en Pologne au début des années 2000, Mati Staniszewski et Piotr Dabkowski n'avaient d'autre choix que de regarder des films mal doublés. Comme le budget consacré au doublage de films étrangers en polonais est restreint, la plupart des films ne disposaient que d'un doubleur récitant les répliques de tous les personnages sans profondeur, nuance ou émotion.
Ces souvenirs d'enfance n'ont jamais quitté ces deux amis, même au début de leur carrière dans la technologie, si bien qu'ils ont fini par faire germer une idée dans leur esprit : et s'il était possible de mettre fin aux mauvais doublages (et autres problèmes) en créant des voix synthétisées à la fois réalistes, émouvantes et conscientes du contexte ?
C'est de cette idée qu'est née ElevenLabs, dont le lancement a eu lieu en 2022, la première entreprise à créer des voix artificielles capables d'imiter le langage (et même le rire) humain en exploitant les progrès de l'IA et de l'apprentissage profond. Grâce à cette avancée, la start-up s'est retrouvée à l'avant-garde de la technologie d'IA audio. Aujourd'hui, ElevenLabs propose une gamme de produits de plus en plus étendue, qui comprend un moteur de synthèse vocale pour le contenu audio et vidéo, des outils de conception vocale pour développer des personnages, un studio de sous-titrage et de doublage et une boîte à outils pour créer des agents conversationnels capables d'interagir avec les clients.
Pour monétiser ses produits tout en se développant, l'entreprise avait besoin d'un partenaire de services de paiement lui aussi à la pointe de l'innovation. ElevenLabs, qui est basée à Londres et à New York, a approché Stripe en 2023 pour le lancement d'abonnements à tarif fixe pour ses outils d'IA audio. Depuis, ElevenLabs s'est appuyée sur la gamme de produits de Stripe pour proposer des services professionnels et soutenir son business model en rapide évolution. À titre d'exemple, elle a profité des services de Stripe pour mener à bien des projets majeurs, comme sa marketplace sur laquelle des comédiens et comédiennes de doublage peuvent mettre leur voix à disposition pour une utilisation commerciale.
« Nous nous sommes lancés il y a deux ans et demi, et nous avons aujourd'hui le statut de licorne, a fait remarquer Luke Harries, responsable de la stratégie de croissance chez ElevenLabs. Des centaines de milliers d'abonnés en libre-service et d'entreprises comme Perplexity, Time Magazine et Bertelsmann utilisent notre plateforme. Tous ces paiements ont été gérés par notre ingénieur principal en adoptant Stripe. »
Prise en charge des abonnements, virements et flux agentiques à l'aide d'un ingénieur de la facturation
ElevenLabs a commencé avec 11 voix d'IA imitant la voix humaine. Contrairement aux anciennes voix d'IA robotiques, la technologie d'ElevenLabs reproduit les nuances liées à l'âge, à l'accent, au sexe, à l'intonation et à d'autres facteurs qui rendent chaque voix humaine unique. Ce réalisme, associé à la capacité de la plateforme à identifier les émotions à partir d'indices textuels, a contribué au succès du moteur de synthèse vocale d'ElevenLabs auprès des créateurs qui cherchaient à mettre à l'oral des scripts vidéo, des podcasts, des bulletins d'informations, des livres audio et n'importe quel autre contenu audio et vidéo.
ElevenLabs a choisi Stripe Billing pour démarrer facilement, itérer rapidement et développer sans encombre son service d'abonnement aux outils de transcription pour les éditeurs et les créateurs de contenu. Compte tenu de la facilité d'utilisation des API et des SDK de Stripe, l'équipe d'ElevenLabs n'avait aucun doute qu'elle pourrait rapidement créer plusieurs niveaux de tarification sans qu'il ne soit nécessaire d'y consacrer beaucoup d'efforts d'ingénierie. De plus, grâce à la flexibilité de Billing, l'entreprise a pu adapter son offre d'abonnement à un plus grand nombre de clients à mesure qu'elle déployait des produits à grande échelle, tels qu'un véritable studio de production audio et des services de doublage.
Grâce à la portée mondiale de Stripe, ElevenLabs a pu immédiatement accepter des abonnés dans le monde entier. Elle a également adopté la suite d'outils de paiement optimisée pour concevoir une page de souscription d'abonnement simple et efficace destinée à son public international. Par exemple, l'entreprise a intégré le formulaire de paiement préconfiguré Checkout afin de proposer facilement des wallets et des moyens de paiement locaux comme Apple Pay, Google Pay et Revolut Pay, sans avoir à rédiger de code. ElevenLabs a aussi ajouté Link, la solution de paiement accéléré de Stripe, pour permettre à sa clientèle de saisir automatiquement ses informations de paiement enregistrées sur l'ensemble du réseau Link. La suite d'outils de paiement optimisée améliore le taux de conversion de ses utilisateurs, et l'expérience de paiement simple et rapide de Link représente aujourd'hui 20 % des paiements reçus par ElevenLabs.
Puisqu'ElevenLabs est une entreprise d'IA, elle n'a eu aucun mal à percevoir l'impact considérable que l'IA de Stripe pourrait avoir sur le parcours des abonnés. Plutôt que d'utiliser des règles rigides, les modèles d'IA intégrés à la suite d'outils de paiement optimisée déterminent de manière dynamique quels moyens de paiement afficher et dans quel ordre pour chaque paiement, aidant ainsi ElevenLabs à offrir une expérience davantage personnalisée à ses utilisateurs.
Les produits Stripe ont également permis à ElevenLabs de gérer efficacement différentes tâches de facturation et de paiement, comme la gestion des virements et la simplification du processus d'inscription. En effet, ElevenLabs a confié l'intégration des solutions Stripe ainsi que la gestion des flux de facturation et de paiement à un seul ingénieur. « Si nous devions créer toute l'infrastructure d'abonnement en interne pour gérer toutes les différentes zones géographies, nous aurions sûrement besoin d'une équipe d'ingénieurs uniquement dédiée aux paiements », a observé M. Harries.
Lors du développement de sa technologie avancée de clonage vocal, ElevenLabs a vu qu'elle pouvait soutenir la communauté des comédiens et comédiennes de doublage tout en ajoutant une nouvelle corde à son arc. À l'aide de Stripe Connect, elle a créé une marketplace sur laquelle les doubleurs et doubleuses peuvent cloner leur voix pour des projets commerciaux, définir des conditions et recevoir de l'argent à chaque fois qu'un utilisateur d'ElevenLabs choisit leur voix pour un projet. Connect lui a fourni des fonctionnalités prêtes à l'emploi pour gérer l'inscription des doubleurs et doubleuses, notamment avec la prise en charge des virements internationaux et la gestion des complexités réglementaires, telles que les exigences KYC (Know Your Customer). Par exemple, la conformité aux règles KYC peut entraver l'inscription des plateformes. Les fonctionnalités de Stripe ont une nouvelle fois permis à ElevenLabs de gagner du temps et d'économiser des ressources en matière de développement, qu'elle a pu à la place dédier à ses projets d'IA audio.
ElevenLabs a remarqué que de nombreuses entreprises utilisaient ses modèles de synthèse vocale et de transcription pour créer des agents d'IA. Celles-ci n'arrivaient au stade de production qu'au bout de plusieurs mois et elles recréaient toujours la même pile sous-jacente. ElevenLabs a donc décidé de lancer sa propre plateforme de création d'IA vocale conversationnelle pour que sa clientèle puisse entrer plus rapidement en production et se consacrer au développement de la logique métier de l'agent plutôt qu'à la création de son infrastructure. Grâce à la boîte à outils des agents de Stripe, la plateforme d'ElevenLabs a pu produire des agents pour s'occuper du service client ou des flux de ventes. Par exemple, l'agent d'IA d'une entreprise pouvait accéder à son compte Stripe pour émettre un remboursement ou effectuer une transaction en envoyant un lien de paiement. « Les agents d'IA conversationnelle vont connaître leur plus gros changement à ce jour, en ne se contentant pas de répondre à des questions, mais en utilisant leur propre autonomie pour réaliser certaines actions », a déclaré M. Harries.
Un partenaire pour devancer la concurrence
ElevenLabs, qui proposait 11 voix à ses débuts, en possède désormais plus de 5 000 sur sa plateforme, en partie grâce à sa marketplace de pointe. Les doubleurs et doubleuses ont reçu plus de 4 millions de dollars de la part de la plateforme et certaines voix les plus populaires rapportent jusqu'à 10 000 $ par mois à leurs propriétaires.
À ce jour, les utilisateurs ont déjà créé plus de 550 000 agents d'IA sur la plateforme, et ce chiffre devrait continuer à augmenter si l'on tient compte du nombre de cas d'utilisation rendus possibles par les robots conversationnels et les flux de travail agentiques. En parallèle, ElevenLabs continue d'enrichir la bibliothèque de langues de ses fonctionnalités de synthèse vocale et de doublage, avec désormais 33 langues prises en charge dont l'anglais, le français et l'espagnol, ainsi que des langues moins répandues comme le croate ou le tamoul.
Luke Harries compare la concurrence dans le secteur de l'IA audio à la Formule 1, où chaque entreprise recherche la nouvelle itération technologique ou le dernier produit innovant pour prendre la pole position. De ce fait, il ne s'attend pas à ce que le rythme d'innovation ralentisse pour ElevenLabs, mais voit Stripe comme un partenaire clé pour poursuivre dans cette direction.
« J'ai hâte de traiter d'encore plus grands volumes de transactions avec Stripe, en [envoyant] des millions de paiements supplémentaires aux doubleurs qui utilisent notre plateforme et en accédant à encore plus de pays avec de nouvelles options de paiement », s'est enthousiasmé M. Harries.