Entrevista com o cofundador da PhotoRoom
Matthieu Rouif fala das aplicações práticas da IA na fotografia comercial e sobre como manter o foco nessa área em rápida expansão.
Antes mesmo da popularização de geradores de imagens como Midjourney e DALL E, a startup parisiense PhotoRoom já era um caso de sucesso com IA. Lançada em 2020 por Matthieu Rouif, ex-gerente de produto da GoPro, e Eliot Andres, engenheiro de machine learning, a empresa ofereceu inicialmente um aplicativo para remoção de planos de fundo, que fez sucesso imediato entre vendedores online que precisavam editar imagens de produtos com eficiência.
O aplicativo da empresa já foi localizado em 28 idiomas, com mais de 40 milhões de downloads e versões para web e API. Ele já foi aprimorado com diversas outras ferramentas, como o "fundo instantâneo" feito por IA, que cria planos de fundo personalizados a partir de instruções em texto ou imagens. Vendedores particulares e pequenas empresas podem oferecer seus produtos com arte de qualidade que custaria milhares de dólares em equipes de fotografia e edição até pouco tempo atrás (a assinatura PhotoRoom Pro custa US$ 9,99 ao mês por usuário).
A PhotoRoom é usuária da Stripe desde 2021 e anunciou em novembro de 2022 uma nova rodada de investimentos de US$ 19 milhões. A Stripe conversou com Rouif sobre uma ida ao McDonald’s que mudou os rumos de sua empresa, por que ele acredita que a geração personalizada de imagens ficará mais importante com a personalização do comércio global e como ele mantém o foco no decorrer da fase atual de aceleração no desenvolvimento de IA.
Por que a edição de fotos com IA é importante a ponto de levar um vendedor individual a usar um aplicativo especial ou pagar uma assinatura?
Há centenas de milhões de pessoas no mundo hoje que vendem produtos ou têm negócios próprios — e os clientes delas só têm acesso às imagens, geralmente em um celular. 72% do e-commerce acontece no celular. Até empresas com lojas físicas precisam de imagens no Google Maps ou no Instagram para atrair clientes.
O PhotoRoom transforma essas imagens em fotos bonitas, que também inspiram confiança e transmitam a essência do produto. Esse é o grande desafio.
Falando em confiança e autenticidade, uma crítica frequente às imagens de IA é que parecem arrumadinhas ou brilhantes demais. Para você, isso é um problema?
Alguns comentários de parceiros, quando fizemos uma demonstração há alguns anos, foi que a PhotoRoom oferece "IA útil". Midjourney e DALL E têm resultados esteticamente agradáveis, mas, como vocês disseram, tudo parece bom demais para ser verdade. Nossa IA criativa trabalha com o produto. Pode ser só um fundo branco com uma sombra simples e algum reflexo, mas não tocamos em nenhum pixel do produto em si. Tiramos a foto dele, removemos o plano de fundo e geramos todos os outros pixels, sem alterar um pixel do produto propriamente dito. Para revendedores, é muito importante que a qualidade e os defeitos do produto sejam mantidos. Nós mexemos no resto, criando uma imagem realista. Pode-se dizer que trabalhamos com IA minimalista.
Os grandes modelos de linguagem estão no centro das atenções. Essas novidades se conectam ao que você faz?
O que mais me empolga, e acho que é o que vai rolar nos próximos meses, é o que chamamos de alimentação multimodal. Para nós, seria a ideia de inserir fotos de um produto e também algum material escrito para gerar um resultado que integre os dois conteúdos. Até agora, todos os modelos são unimodais: a entrada é uma imagem, um texto ou um texto que se transforma em imagem. Nas entrevistas com usuários, percebemos que sugestões somente com texto demoram demais no smartphone. Além disso, as pessoas têm "medo da página em branco", ou seja, ficam sem saber o que escrever quando precisam começar do nada.
Em um tuíte, você disse que era importante que a PhotoRoom tivesse seu próprio sistema de machine learning. Poderia explicar?
O caso da PhotoRoom é que ela se baseia em modelos pioneiros de geração, como o Stable Diffusion, mas agregamos valor a partir do feedback de usuários. O que é importante para eles? Qualidade ou velocidade? Que tipo de aceleração de hardware eles desejam? Uma equipe robusta de machine learning permite fazer opções os produtos e otimizar o resultado para nossos usuários finais.
O que seus usuários esperam que seria especificamente diferente de uma pessoa comum?
Sabemos que nossos usuários querem qualidade. Em e-commerce, o objetivo é 100% de acerto. Se você cria 10.000 imagens para sua loja de e-commerce, um erro de um ou dois por cento representa centenas de fotos que será preciso editar manualmente, mesmo que cada correção seja simples. Então, se o processamento demorar mais um ou dois segundos porque acrescentamos modelos de transformação muitos grandes ao machine learning, valerá a pena se o resultado ficar perfeito. Mas isso não é possível com um sistema comprado pronto.
Como começou a parceria com a Stripe?
Começamos com aplicativos móveis e o faturamento pela App Store e pela Play Store, mas também queríamos conquistar onipresença nos smartphones e na Web. A Stripe era a melhor solução para esse objetivo. Ela inspira confiança e é muito fácil de configurar para os desenvolvedores. O Stripe Tax também pesou bastante na nossa decisão, pois vendemos para o mundo todo e precisamos entender o sistema de cada país. Além disso, damos valor à ideia de termos o controle do relacionamento com o cliente.
Você acredita que, no futuro, poderá trabalhar com grandes multinacionais?
Na verdade, um dos motivos de termos escolhido a Stripe foi passar a trabalhar com uma API. Em novembro passado, lançamos uma API para remoção de planos de fundo. Agora ela funciona com IA criativa, como já temos no aplicativo, então estamos começando a abordar grandes sites e marketplaces de e-commerce que queiram automatizar o processo.
Para mim, a PhotoRoom é especial porque tem todo esse público de produtores e pode usar o feedback para melhorar a qualidade do algoritmo, passando então a trabalhar com empresas maiores com o nível de qualidade que elas exigem. As dezenas de milhões de usuários do aplicativo móvel nos permitem ter um playground para testar novas tecnologias, receber feedback e melhorar a qualidade para marketplaces maiores de e-commerce.
Muitas startups de IA acreditam que seus próprios produtos podem revolucionar as áreas mais fundamentais da nossa vida. A PhotoRoom tem essa ambição?
Gostaríamos de ajudar em qualquer necessidade comercial que envolva questões visuais, e acho que existe uma tendência no e-commerce em que o comerciante pode criar visuais diferentes para cada persona. Por exemplo, vendedores de móveis podem mostrar um ambiente moderno ou uma sala aconchegante para apresentar o mesmo produto. Cada um desses ambientes pode ser vinculado a um tipo de usuário ou a uma hora do dia. Uma das nossas ideias é fazer testes A/B para imagens e ambientações. Mostramos para você qual imagem vende melhor para cada cliente e ajudamos a criar as identidades visuais.
Vocês estão bem no meio dessa revolução tecnológica que provavelmente é uma das mais incríveis e aceleradas já observadas. Como empreendedores, o que vocês sentem ao criar algo que cresce vertiginosamente, considerando como as empresas do mundo todo estão adotando a IA?
A sensação é de voltei a ter cinco anos e estamos no Natal. Não sei qual presente eu abro primeiro. Nessas situações, é fácil se distrair e começar a investir em uma coisa nova por semana. Por sorte, meu sócio Eliot consegue manter nosso foco. Estamos nos concentrando em fotografia comercial, e temos uma lista de coisas que não vamos fazer em cada trimestre. Podemos perder algumas oportunidades, como os avatares de IA, mas essa não é nossa missão e assim evitamos nos envolver em toda a loucura da IA criativa.
Comecei a trabalhar com tecnologia durante a última revolução, a do smartphone, então faz um bom tempo que estou no mercado. Eu estava na primeira aula da Stanford sobre o iOS e ajudei a criar o primeiro aplicativo que mandava cartões postais pelo smartphone, em 2009. As pessoas queriam mandar fotos das férias, mas a ideia acabou não dando certo. Foi o Instagram que pegou. Com essa experiência, aprendi sobre a importância de não tentar replicar coisas antigas com tecnologias novas; temos que usar tecnologias novas para criar coisas novas.