Entrevista con el cofundador de PhotoRoom

Matthieu Rouif habla sobre las aplicaciones prácticas de la IA en la fotografía comercial y sobre cómo mantener el foco en un sector que está creciendo a un ritmo vertiginoso.

Incluso antes de que generadores de imágenes como Midjourney y DALL·E empezasen a acaparar titulares, la startup PhotoRoom establecida en París ya era una IA con mucho éxito. La oferta inicial de la empresa, que lanzaron en 2020 el antiguo gestor de producto de GoPro, Mattieu Rouif, y el ingeniero de machine learning, Eliot Andres, era una aplicación de eliminación del fondo que se convirtió en un éxito inmediato entre los vendedores de Internet que necesitaban un modo eficiente de editar imágenes de productos.

Desde entonces, la aplicación de la empresa ha introducido 28 idiomas, se ha descargado más de 40 millones de veces y se ha replicado en formato web y API. Se ha mejorado con varias herramientas más, como un componente de «fondo instantáneo» impulsado por IA que crea imágenes de fondo personalizadas a partir de indicaciones textuales y visuales. Los vendedores independientes y las pequeñas empresas que usan PhotoRoom pueden generar imágenes de productos de alta calidad que hasta hace poco habrían costado miles de dólares en procesos de fotografía y edición. Nota: una suscripción de PhotoRoom Pro cuesta 9,99 $ al mes por usuario.

PhotoRoom ha sido usuario de Stripe desde 2021 y anunció una nueva ronda de inversión de 19 millones de dólares en noviembre de 2022. Stripe habló con Rouif sobre cómo un viaje a McDonald's cambió el curso de su negocio, por qué cree que la personalización de imágenes adquirirá más importancia cuando el comercio internacional se vuelva más personalizado y cómo mantiene el foco en medio de la intensa aceleración del sector de las IA.

Eliot Andres y Matthieu Rouif, cofundadores de PhotoRoom

¿Por qué la edición de fotografías con IA es tan importante como para que los vendedores necesiten una aplicación o servicio de suscripción especializados?

Hoy en día, hay cientos de millones de personas en el mundo que venden productos o que tienen su propia empresa. Lo que ven sus clientes cuando compran es una imagen, por lo general en el móvil, ya que cerca del 72 % del e-commerce se realiza a través de este medio. Incluso las empresas que venden desde una tienda física necesitan imágenes en Google Maps o Instagram para atraer a los clientes.

Lo que PhotoRoom hace es lograr que esas imágenes no solo sean más bonitas, sino que también inspiren confianza. Lo que nos preguntamos es cómo se crea el mejor elemento visual y la mejor imagen para mostrar qué es el producto y transmitir confianza a los clientes.

Hablando de confianza y autenticidad, una crítica frecuente de las imágenes de IA es que parecen demasiado pulidas o brillantes. ¿A ti te preocupa?

Algunos de los comentarios de nuestros socios cuando presentamos una demostración hace algunos años fue decir que PhotoRoom hace «IA útil». Midjourney y DALL·E son muy estéticas, pero, como has dicho, demasiado buenas para parecer reales. Por ello, nuestra IA generativa se centra en el producto, quizás solo un fondo blanco con una sombra sencilla y un reflejo en una superficie. Pero nosotros no tocamos ni un píxel del producto, lo que hacemos es hacerle una fotografía, eliminar el fondo y regenerar los otros píxeles, pero no el producto. Es muy importante para los vendedores mantener la calidad completa y todos los defectos del producto. Y después regeneramos lo demás para que se vea realista. Supongo que hacemos una IA generativa minimalista.

Las pymes están captando mucha atención ahora mismo. ¿Esas ventajas influyen en tu trabajo?

Lo que me emociona mucho ahora mismo y que creo que va a comenzar en los próximos meses es lo que la industria llama entrada multimodal. En nuestro caso, la idea sería que introdujeses una fotografía del producto y también algo de texto para describir lo que te gustaría ver y después conseguirías un resultado que combinaría ambos. Y hasta ahora todos los modelos tienen un único modal: salida de imagen, entrada de texto o texto a imagen. Al realizar entrevistas a los usuarios, hemos descubierto que se tarda mucho tiempo en redactar mensajes de solo texto en un smartphone y existe cierto miedo a la página en blanco, como cuando se debe empezar desde cero, la gente no sabe qué escribir.

Tuiteaste que para PhotoRoom es importante poseer su propia pila de ML. ¿Podrías explicarlo?

El caso de PhotoRoom es que nos basamos en modelos básicos de generación como Stable Diffusion, pero añadimos valor utilizando los comentarios de los usuarios. ¿Qué es importante para ellos: la alta calidad o la velocidad? ¿Qué tipo de aceleración de hardware quieres? Contar con un equipo muy fuerte de machine learning te permite tomar decisiones de productos para optimizar el resultado para tus usuarios finales.

¿Y qué quieren tus usuarios en concreto que podría ser diferente de lo que pide una persona típica?

Sabemos que nuestros usuarios quieren calidad. En el e-commerce el objetivo es acertar al 100 %. Si estás procesando unas 10.00 imágenes como propietario de un e-commerce, entonces un error en el 1 % o el 2 % implica cientos de fotografías que tendrás que editar manualmente, aunque cada corrección sea sencilla a nivel individual. Por ello, para tener un resultado perfecto, vale la pena tardar uno o dos segundos más en el tiempo de procesamiento y añadir modelos de transformación muy grandes de machine learning. Y si quitas tu pila de la estantería, no puedes hacer lo anterior.

¿Cómo empezaste a trabajar con Stripe?

Empezamos con las aplicaciones de móviles y realizábamos la facturación a través de la App Store y la Play Store, pero también queríamos ser omnipresentes, ofrecer servicio a las personas tanto por el móvil como en la web y Stripe era la mejor solución para nosotros. Nos inspira confianza y es muy sencilla de configurar como desarrollador. Stripe Tax también nos ayudó mucho al tomar la decisión de utilizar Stripe, porque vendemos en el mercado internacional y necesitamos entender cómo funciona cada país. Además, lo que más valoramos es la idea de controlar la relación con el cliente.

¿En el futuro te ves haciendo negocios con empresas?

En realidad, una de las razones por las que nos decantamos por Stripe es que queríamos pasarnos a una API. Y el pasado noviembre lanzamos una API de eliminación de fondo, que ahora tiene IA generativa como la que tenemos en nuestra aplicación, por lo que estamos empezando a hablar con los sitios web y marketplaces más importantes de e-commerce que desean automatizar el proceso.

Creo que PhotoRoom es bastante singular, en el sentido de que tenemos este gran público de productores y podemos utilizar sus comentarios para mejorar la calidad de nuestro algoritmo; después podemos acercarnos a empresas más grandes y ofrecer el nivel de calidad que exigen. Decenas de millones de usuarios en la aplicación móvil constituyen un terreno de juego increíble para que probemos la nueva tecnología, recibamos comentarios y mejoremos la calidad para los marketplaces de e-commerce más grandes.

Muchas startups de IA creen que sus productos son capaces de transformar lo más básico de nuestras vidas. ¿PhotoRoom tiene ese tipo de ambición?

Nos gustaría ayudarte con cualquier cosa que necesites para el comercio que sea visual y creo que vamos en una dirección en el e-commerce que, como comerciante, te permite crear distintos elementos visuales para diferentes perfiles. Digamos que vendes muebles y puedes mostrar una configuración de diseño moderno o crear una sala de estar acogedora para presentar el mismo producto. Además, podrías presentar estos distintos elementos visuales a diferentes usuarios, incluso dependiendo del momento del día. Por ejemplo, nos gustaría profundizar en las pruebas A/B para imágenes y elementos visuales. Queremos decirte con qué imagen venderás mejor para cada uno de tus clientes y después te ayudaremos a crearla.

Estás en plena vorágine de lo que probablemente es una de las revoluciones más emocionantes y rápidas que han tenido lugar. ¿Cómo te sientes, como emprendedor, al construir algo que crece a la velocidad de la luz, teniendo en cuenta el modo en que las empresas de todo el mundo están aceptando la inteligencia artificial?

Me siento como un niño de 5 años el día de Reyes: no sé qué regalo abrir primero. En estas situaciones, es fácil distraerse y empezar a desarrollar algo diferente cada semana. Por suerte, mi cofundador Eliot hace un excelente trabajo manteniéndonos centrados. Nos enfocamos en la fotografía comercial y elaboramos una lista de cosas que no desarrollaremos cada trimestre. Aunque nos perdamos algunas oportunidades, como los avatares de IA, no serviría para nuestros objetivos, y eso nos ha salvado de quedarnos atrapados en la locura de la IA generativa.

He vivido lo suficiente con la tecnología como para haber empezado durante la última revolución, la de los móviles. Asistí a la primera clase de iOS en Standford y ayudé a crear la primera aplicación diseñada para enviar postales desde un smartphone en 2009. La gente quería enviar imágenes de sus vacaciones a los demás, pero no se podían enviar postales desde un smartphone. Instagram fue un gran éxito, y lo que me llevé de esa experiencia fue la importancia de no desarrollar cosas antiguas con tecnología nueva, sino cosas nuevas con tecnología nueva.