Ein Interview mit dem Mitgründer von PhotoRoom

Matthieu Rouif spricht über die praktische Anwendung der Magie von KI in der Werbe- und Resale-Fotografie – und darüber, wie man in einem dynamischen Umfeld fokussiert bleibt.

Noch bevor Bildgeneratoren wie Midjourney und DALL-E für Schlagzeilen sorgten, war das in Paris ansässige Start-up PhotoRoom schon zu einer KI-Erfolgsgeschichte geworden. Das Unternehmen, 2020 von dem ehemaligen GoPro-Produktmanager Matthieu Rouif und dem Ingenieur für maschinelles Lernen Eliot Andres gegründet, bot zunächst eine App zur Entfernung von Hintergründen an, die sofort ein Hit bei Online-Händlern/Händlerinnen wurde, die eine effiziente Möglichkeit zur Bearbeitung von Produktbildern benötigten.

Die App des Unternehmens wurde seitdem in 28 Sprachen veröffentlicht, mehr als 40 Millionen Mal heruntergeladen und auch in Web- und API-Formaten bereitgestellt. Sie wurde um mehrere Tools erweitert, darunter eine KI-gesteuerte „Sofort-Hintergrund“-Komponente, die benutzerdefinierte Hintergrundbilder aus textlichen und visuellen Vorgaben generiert. Einzelhändler/innen und kleine Unternehmen können mit PhotoRoom hochwertige Produktbilder anfertigen, die bis vor Kurzem noch Tausende von Dollar an Aufnahme- und Bearbeitungskosten erfordert hätten. (Ein PhotoRoom-Pro-Abonnement kostet 9,99 US-Dollar pro Monat und Nutzer/in).

PhotoRoom nutzt Stripe seit 2021 und gab im November 2022 eine neue Investitionsrunde über 19 Millionen US-Dollar bekannt. Stripe spricht mit Rouif darüber, wie ein Ausflug zu McDonald's sein Unternehmen verändert hat, warum er glaubt, dass Bildanpassung im Zuge der wachsenden Personalisierung des globalen Handels immer wichtiger wird, und wie er inmitten der starken Dynamik der KI-Branche fokussiert bleibt.

Eliot Andres und Matthieu Rouif, Mitgründer von PhotoRoom

Warum sollte die Bildbearbeitung durch KI für einzelne Händler/innen wichtig genug sein, um eine spezielle App oder einen Abo-Service zu nutzen?

Heute vertreiben Millionen von Menschen weltweit Produkte oder haben ihr eigenes Geschäft. Was ihre Kundinnen und Kunden beim Kauf sehen, ist ein Bild, meist auf einem Mobiltelefon. Etwa 72 % des E-Commerce-Geschäfts läuft mobil ab. Selbst Unternehmen, die in einem Ladengeschäft verkaufen, brauchen Bilder auf Google Maps oder Instagram, um die Kundschaft zu erreichen.

PhotoRoom verwandelt diese Fotos in Bilder, die nicht nur ansprechend sind, sondern auch Vertrauen erwecken. Wir stellen uns die Frage, wie man das beste Bildmaterial erstellt, um das Produkt zu präsentieren und das Vertrauen der Kundinnen und Kunden zu gewinnen.

Apropos Vertrauen und Authentizität: Ein häufiger Kritikpunkt an KI-Bildern ist, dass sie zu poliert oder glanzvoll aussehen. Ist das ein Problem für Sie?

Als wir vor ein paar Jahren eine Demo präsentierten, sagten einige unserer Partner/innen, PhotoRoom liefere „praktische KI“. Midjourney und DALL-E wirken sehr ästhetisch, aber, wie Sie sagen, zu schön, um wahr zu sein. Unsere generative KI dreht sich um das Produkt – vielleicht nur mit einem weißen Hintergrund, einem einfachen Schatten und einer Reflexion auf der Oberfläche. Aber wir verändern kein einziges Pixel des Produkts selbst. Wir nehmen ein Produktfoto, entfernen den Hintergrund und generieren alle anderen Pixel neu, nicht aber das Produkt. Für die Händler/innen ist es sehr wichtig, dass die Gesamtqualität des Produkts, einschließlich seiner Mängel, erhalten bleibt. Und den Rest generieren wir neu, um es realistisch aussehen zu lassen. Wir machen minimalistische generative KI, könnte man sagen.

LLMs (Large Language Models) erfahren momentan viel Aufmerksamkeit. Haben diese Fortschritte Einfluss auf Ihre Arbeit?

Worüber ich mich wirklich freue und wovon ich glaube, dass es sich in den kommenden Monaten weiterentwickeln wird, ist das, was in der Branche als „multimodaler Input“ bezeichnet wird. Die Idee ist, dass man Produktfotos sowie Text eingibt, um zu beschreiben, was man sehen möchte, und dann ein Ergebnis erhält, das beide Eingaben kombiniert. Bis jetzt waren alle Modelle nur eine modale Bild- oder Texteingabe oder Text-zu-Bild. Bei Befragungen der Nutzer/innen haben wir festgestellt, dass reine Texteingaben auf einem Smartphone zu lange dauern und dass die Leute Angst davor haben, auf einer leeren Seite bei null anfangen zu müssen, weil sie nicht wissen, was sie schreiben sollen.

Sie haben getwittert, dass es für PhotoRoom wichtig ist, über einen eigenen ML-Stack zu verfügen. Können Sie das erklären?

PhotoRoom baut auf grundlegenden Generierungsmodellen wie Stable Diffusion auf, bietet aber einen Mehrwert durch das Feedback der Nutzer/innen. Was ist für sie wichtig? Ist es hohe Qualität oder Geschwindigkeit? Welche Art von Hardware-Beschleunigung möchten sie einsetzen? Mit einem starken Team für maschinelles Lernen lassen sich Produktentscheidungen treffen, um das Ergebnis für Ihre Endnutzer/innen zu optimieren.

Was wünschen sich also Ihre Nutzer/innen, die sich wahrscheinlich von den durchschnittlichen Nutzer/innen unterscheiden?

Wir wissen, dass unsere Nutzer/innen Qualität wollen. Im E-Commerce ist es das Ziel, alles 100%ig richtig zu machen. Wenn Sie als E-Commerce-Anbieter/in 10.000 Bilder bearbeiten, dann bedeuten ein oder zwei Prozent Fehler schon Hunderte von Fotos, die Sie manuell nachbearbeiten müssen, auch wenn die einzelne Korrektur einfach ist. Es lohnt sich also, ein oder zwei Sekunden zusätzliche Bearbeitungszeit in Kauf zu nehmen und sehr große Transformationsmodelle mit maschinellem Lernen einzubeziehen, um ein perfektes Ergebnis zu erhalten. Mit einem Standard-Stack ist das nicht möglich.

Wie kam es zur Zusammenarbeit mit Stripe?

Wir haben mit mobilen Apps angefangen und haben über den App Store und den Play Store abgerechnet. Aber wir wollten überall präsent sein und unsere Kund/innen sowohl mobil als auch im Internet erreichen. Daher war Stripe für uns die beste Lösung. Es weckt Vertrauen und ist für Entwickler/innen sehr einfach einzurichten. Auch hat Stripe Tax uns die Entscheidung für Stripe sehr leicht gemacht, denn wir vertreiben weltweit und müssen in jedem Land die geltenden Bestimmungen einhalten. Außerdem schätzten wir die Idee, die Beziehung zu unseren Kundinnen und Kunden selbst zu gestalten.

Könnten Sie sich vorstellen, in Zukunft Geschäfte mit großen Unternehmen zu machen?

Einer unserer Gründe für die Wahl von Stripe war, dass wir auf eine API umsteigen wollten. Im November letzten Jahres haben wir eine API zur Hintergrundentfernung gestartet. Und nun verfügt die API über eine generative KI, wie wir sie in unserer App haben, sodass wir nun Gespräche, mit großen E-Commerce-Websites und Marktplätzen aufnehmen können, die den Prozess automatisieren möchten.

Ich denke, dass PhotoRoom mit seinem großen Publikum an Producerinnen und Producern einzigartig ist. Wir können auf ihr Feedback bauen, um die Qualität unseres Algorithmus zu verbessern. Damit können wir zu größeren Unternehmen gehen und das Qualitätsniveau erreichen, das diese erwarten. Die Millionen von Nutzerinnen und Nutzern der mobilen App sind eine großartige Bühne für uns, um neue Technologien zu testen, Feedback zu sammeln und dann die Qualität für größere E-Commerce-Marktplätze zu verbessern.

Viele KI-Start-ups glauben, dass ihre Produkte die wichtigsten Bereiche unseres Lebens verändern können. Hat PhotoRoom solche Ambitionen?

Wir möchten Ihnen bei allem helfen, was Sie für den Handel brauchen, der visuell abläuft. Ich denke, wir gehen im E-Commerce in eine Richtung, in der man als Händler/in verschiedene visuelle Darstellungen für verschiedene Personas erstellen kann. Sagen wir, Sie verkaufen Möbel – Sie können eine moderne Einrichtung zeigen oder ein uriges Wohnzimmer, um ein und dasselbe Produkt zu präsentieren. Und Sie können diese verschiedenen Bilder verschiedenen Nutzerinnen und Nutzern zeigen, sogar abhängig von der Tageszeit. Wir möchten beispielsweise A/B-Tests für Bilder und visuelle Elemente durchführen. Und wir möchten Ihnen dann sagen können, mit welchem Bild Sie an welche Ihrer Kundinnen und Kunden am besten verkaufen, und Ihnen helfen, es zu erstellen.

Sie befinden sich inmitten einer der wohl aufregendsten und schnelllebigsten technologischen Revolutionen, die es je gab. Wie fühlt es sich an, als Unternehmer etwas aufzubauen, das mit Hochgeschwindigkeit skaliert – angesichts der Art und Weise, wie die globale Wirtschaft KI annimmt?

Ich fühle mich wie ein Fünfjähriger an Weihnachten. Ich weiß nicht, welches Geschenk ich zuerst auspacken soll. In solchen Situationen kann man sich leicht ablenken lassen und jede Woche etwas anderes entwickeln. Glücklicherweise gelingt es meinem Mitgründer Eliot hervorragend, uns fokussiert zu halten. Wir konzentrieren uns auf die Handelsfotografie und führen eine Liste mit Dingen, die wir nicht jedes Quartal entwickeln werden. Wir verpassen zwar einige Gelegenheiten, wie beispielsweise KI-Avatare, aber das würde uns nicht weiterbringen und hat uns auch davor bewahrt, uns im Hype der generativen KI zu verlieren.

Ich bin alt genug, dass ich schon während der letzten Revolution, der „mobilen“, in die Tech-Branche eingestiegen bin. Ich habe den ersten iOS-Kurs in Stanford besucht und 2009 an der Entwicklung der ersten App mitgearbeitet, mit der man Ansichtskarten von einem Smartphone aus verschicken konnte. Die Menschen wollten sich gegenseitig Urlaubsbilder schicken – aber der Versand von Postkarten per Smartphone war ein Fehlschlag. Instagram war der Hit. Die wichtigste Erkenntnis aus dieser Erfahrung war für mich, dass man nicht alte Dinge mit neuer Technologie umsetzen sollte, sondern neue Dinge mit neuer Technologie.