Solicite una demostración

White Paper

IA y Machine Learning para fotografía: ¿qué ofrece a los consumidores?

5 de marzo de 2020  michel lacaille

Primero ubiquemos la inteligencia artificial (IA), el aprendizaje automático, las redes neuronales profundas... a menudo, esos términos se usan indistintamente, pero en esencia, son como bloques de construcción. AI es el término general para cualquier software de computadora que hace algo "inteligente", como sugiere su nombre. Machine Learning es un subconjunto de AI en el que define criterios de éxito que luego permiten que la máquina cree y complete tareas. Más profundo aún (¡juego de palabras!) Son las redes neuronales profundas (o aprendizaje profundo), que es un subconjunto del aprendizaje automático. Para las imágenes fotográficas, estas redes son un conjunto de algoritmos que han establecido nuevos récords de precisión para muchas cuestiones, como el reconocimiento, la edición y el procesamiento de imágenes. En principio, la IA significa múltiples cosas y, por lo general, es más un medio para un fin que un fin en sí mismo.

Figura 2: ¿Cuáles son los principales casos de uso de IA en su empresa? (% de encuestados)

Hoy en día, la tecnología de IA está causando sensación en muchos sectores, incluidos los bienes de consumo y el comercio minorista. En gran medida, la mayoría de los sectores informan que los casos de uso de IA en sus negocios se vinculan con la atención y el soporte al cliente, creando conectividad y volviéndose eficientes para responder a las necesidades del cliente.

Cuando se trata de la creación de productos fotográficos, hay algunas áreas en las que la IA es una herramienta excelente para lograr valor y mejorar la experiencia del cliente y otras áreas en las que la IA aún requiere una financiación importante y consideraciones de desarrollo complejas. Estos son algunos ejemplos del valor de la IA en nuestro dominio:

  • La extracción de contexto y el reconocimiento de cara/contenido permite identificar personas, averiguar qué hay en la foto, cómo se sienten las personas, detectar zonas de interés para el recorte automático. Google Photo es un gran ejemplo de aprendizaje automático en el trabajo
  • Calidad y pertinencia de las fotos y mejora automática de imágenes para sugerencias automáticas después de subir fotos. Productos como Perfectly Clear by EyeQ o Adobe Lightroom reflejan esto.
  • La agrupación de fotos relacionadas permite una mejor narración al evitar poner fotos de dos eventos diferentes en la misma página ( Nota importante : esto suele servir mejor y es más barato por fecha de toma y agrupación delta, en lugar de IA)
  • Etiquetado geográfico de imágenes mediante el análisis del contenido de las fotos (es decir, los píxeles, no los metadatos), incluso sin sistemas GPS integrados, para componer fácilmente proyectos de viaje.
  • Filtros como "embellecimiento" automático, efectos artísticos, etc. ahora son ofrecidos por la mayoría de los fabricantes en el software de la cámara y muchas aplicaciones
  • Bots de chat y soporte automatizado para brindar ayuda en función de las preguntas frecuentes.
  • Creación automática de proyectos , como el diseño automático, aunque en este caso la IA aún no es el candidato ganador en comparación con los scripts codificados existentes o un diseñador humano, excepto en los casos más simples en los que los algoritmos tradicionales a menudo pueden hacer un trabajo razonable por menos dinero.

En resumen, actualmente en fotografía, el rendimiento de la IA está optimizado para la creación y edición de imágenes; los algoritmos están diseñados principalmente para simplificar y mejorar la calidad de la imagen y el proceso de edición, por imagen o como grupo/categoría. 

Actualmente, el equipo de Investigación y Desarrollo de Mediaclip está investigando enfoques creíbles y económicos para seleccionar grandes conjuntos de imágenes de múltiples dispositivos (teléfonos, cámaras) y entornos de archivo (Google Photo, Facebook, computadora) y crear contenido lógico complejo, como un fotolibro. Nuestras investigaciones tienen como objetivo descubrir cómo la IA puede crear un valor real y medible para los dueños de negocios y los consumidores al mejorar el proceso de selección de fotografías y brindar un mejor contexto para la creación automatizada de productos, sin dejar de guiarse por las decisiones de diseño y una variedad de expertos. La IA todavía tiene costos financieros y ambientales significativos, y las métricas más importantes para rastrear son cómo afecta las tasas de conversión y la satisfacción del usuario.

¿Puede la IA interpretar la percepción humana para selecciones de fotos y proyectos?

El software de edición de IA contiene conjuntos de instrucciones sobre la calidad óptima de una imagen, en términos de contenido, reproducción, densidad, iluminación e incluso recorte. Estas instrucciones se han ensamblado bajo un conjunto específico de algoritmos; estos conjuntos de instrucciones se basan en 150 años de experiencia fotográfica y control de calidad.

Por ejemplo, el equipo de Luminar AI indica que colaboraron con los mejores fotógrafos para entrenar su software de red neuronal, por lo que es casi como si cada imagen fuera analizada por este equipo de expertos en fotografía. Sin embargo, el resultado final puede no ser del agrado del usuario y la decisión final de aceptar la corrección debe tomarse por imagen, ya que el software puede malinterpretar el contenido de la imagen y su impacto deseado en la historia. 

Seleccionar fotos y completar un proyecto personalizado es el nombre del juego tanto para los minoristas como para los consumidores. Al mismo tiempo, queremos garantizar la mejor experiencia para nuestros usuarios y asegurarnos de que tengan el mayor grado de control, transparencia y eficiencia mientras trabajan en proyectos más complicados y de alto compromiso, como los álbumes de fotos. La IA y el aprendizaje automático deberían eventualmente ayudar al proceso creativo, pero no actualmente.

¿Por qué? Porque insertar estos algoritmos complejos y de alto nivel para la mejor selección de imágenes, contenido agradable y narración precisa requiere un análisis informático especial, múltiples escaneos y la clasificación de cada imagen en un conjunto seleccionado. Estos esfuerzos consumen mucho tiempo y requieren recursos informáticos costosos en la actualidad.

Es necesario integrar un conjunto sustancial de instrucciones diversificadas (línea de tiempo, metadatos, reconocimiento facial, juicio de buen comportamiento, descifrar entre imágenes útiles e inútiles), todo lo cual debe evaluarse a partir de un gran conjunto de datos de imagen del consumidor para proponer un Selección automática de imágenes agradable y eficiente con un solo clic. Actualmente, la mayoría de los sitios de comercio electrónico no cuentan con estos recursos. Nick Burns , un científico de datos, sostiene que no importa qué tan buenos sean los modelos de IA, simplemente están a la par con los datos que están disponibles para ellos.

Por lo tanto, usar la IA y el aprendizaje automático para realizar la selección de contenido de imágenes en un conjunto pequeño e incluso grande de imágenes que transmitirán la emoción y la historia exactas previstas aún puede ser bastante desafiante. Por ejemplo, en una serie de retratos, el reconocimiento facial es importante sin lugar a dudas. Pero, ¿el sujeto está guiñando o parpadeando? ¿Está bien posicionado el sujeto? ¿O todos están sonriendo en una foto grupal? Si no, ¿qué imagen es la mejor para seleccionar? En otras circunstancias, ciertos criterios establecidos que brindan el "conocimiento" a la IA pueden no ser óptimos para la memoria real. Por ejemplo, una foto con poca luz puede transmitir la sensación correcta y no debe rechazarse ni corregirse automáticamente, o ciertas "imperfecciones" en el tema le dan su carácter/individualidad y no deben suavizarse. Debido a matices como estos, las selecciones propuestas y las correcciones de imagen aún deben ser confirmadas por el usuario.

Como parte de nuestros esfuerzos de investigación y desarrollo, estamos experimentando con las posibilidades de integración de estos sofisticados algoritmos desde una perspectiva económica y tecnológica. Nuestro proceso para lograr una selección óptima de imágenes con un solo clic se revisa regularmente para garantizar que ofrezca el mejor escenario posible para nuestros clientes, sus consumidores y el proceso en general. Actualmente, nuestro enfoque radica en mejorar los algoritmos que simplifican y optimizan el contenido de diseños de página complejos. En nuestro análisis, esto produce un ROI más alto para el negocio y una experiencia de usuario final más intuitiva.

En resumen, AI Deep Neural Networks requeriría años de análisis de datos sobre las percepciones del usuario de imágenes o recuerdos, además de su intención y comportamiento, para ser lo suficientemente eficiente para sugerencias de proyectos e imágenes complejas con un solo clic . Las capas y la profundidad de una mente humana al tomar decisiones (entre otras cosas) son sin duda más sofisticadas que la IA y es poco probable que se repliquen fácilmente en un futuro próximo.

Inteligencia artificial versus desarrollo de software tradicional para lograr proyectos fotográficos automatizados con un solo clic (como fotolibros) en 2021

Como discutimos anteriormente, la IA y el aprendizaje automático hacen un gran trabajo para ayudar a administrar y mejorar las imágenes (es decir, correcciones automáticas, agrupación de sujetos, reconocimiento facial / de objetos, etc.) Las funciones que ofrece el software respaldado por IA están mejorando y pueden abordar más problemas a una velocidad asombrosa. Muchas soluciones de personalización de productos lo utilizan para enriquecer las experiencias de los usuarios. En situaciones en las que las imágenes ya están disponibles para el análisis, como en soluciones de archivo como Google Photo o aplicaciones móviles donde las fotos ya están en un solo dispositivo, la IA proporciona un valor extraordinario para catalogar las colecciones de imágenes de los usuarios de manera significativa y útil. En algunos casos, incluso pueden usar esa catalogación para proponer productos con opciones de diseño limitadas.

La opción de diseño limitada es el problema central aquí. La IA es una excelente herramienta para extraer un subconjunto significativo de imágenes de una colección más grande y puede ayudar a adivinar una secuencia cuando hay un contexto común, como una boda o una sesión de fotos. Sin embargo, la IA no se utiliza para crear un diseño de calidad o para aprovechar al máximo las imágenes. 

¿Por qué no deberíamos usar IA para el diseño de productos también?

Para responder a esta pregunta, comparemos la inteligencia artificial con el desarrollo de software "normal" realizado por desarrolladores experimentados. Ambos enfoques proporcionan un marco de herramientas para permitir potencialmente diseños de edificios, pero ninguno sabe nada sobre diseño. La inteligencia artificial, más específicamente el aprendizaje automático, puede descubrir cómo hacer algo en función de grandes conjuntos de datos y criterios de éxito. Crear datos significativos y ajustar lo que se considera un "diseño exitoso" es extremadamente costoso y requiere mucho tiempo. Donde la IA brilla es en escenarios donde no es trivial codificar lo que constituye una buena implementación. Sin embargo, en el caso de diseñar un libro, podemos codificar lo que constituye buenas decisiones de diseño. Los expertos en diseño pueden proporcionar márgenes seguros y normalizados, así como reglas de diseño basadas en el contenido y la estética, e implementarlos por una fracción del costo, sin dejar de ofrecer variedad. Claro, el tema negro con una foto por página funciona, pero seguir ofreciendo contenido nuevo, interesante y relevante a los usuarios sigue siendo mucho más rentable con las herramientas tradicionales.

Pero al final, no tenemos que elegir entre la inteligencia artificial y el desarrollo de software tradicional. Ambos se pueden utilizar en la construcción de grandes soluciones. Por ejemplo, podemos usar las fortalezas de la inteligencia artificial de hoy para alimentar los algoritmos tradicionales con información significativa, como si una foto tiene una mayor relevancia que otra, sin que necesariamente determine dónde debe estar esa foto en una página.

Actualmente, el uso de la inteligencia artificial en todo su potencial está restringido por su costo total de propiedad. Es un desafío conectar económicamente todos los componentes básicos necesarios para aprovechar al máximo todos estos datos. Los costos de licencia, los requisitos informáticos, el rendimiento más bajo y la disminución de los ingresos finales son barreras clave para la adopción a gran escala.

Una pregunta realista que deberíamos hacernos como industria es si todas esas características que trae la inteligencia artificial son realmente necesarias. En teoría, tener fotos agrupadas por colores, descartar imágenes en función de la calidad y usar metadatos avanzados para tomar decisiones de diseño es excelente y crea presentaciones increíbles, pero ¿realmente impulsarán la venta ? ¿Qué hará que el cliente se entusiasme, e incluso entenderá lo que está pasando? ¿Deberíamos educar a los usuarios finales sobre lo que la IA puede aportarles, o simplemente deberíamos simplificarles las cosas?

Todavía tenemos que defender las funciones de inteligencia artificial individuales, de modo que invertir en ellas en este momento pueda generar ingresos y mejorar la experiencia del usuario hoy. A la velocidad con la que suceden las innovaciones en inteligencia artificial, podemos esperar que las posibilidades "financieramente viables" sigan creciendo. También podemos esperar más datos sobre lo que funciona y lo que no para que las inversiones puedan justificarse.

Exploremos también por qué la estética del proyecto propuesto por IA es importante y se presenta como una barrera clave para la adopción generalizada. Imagina que un sistema de IA actual tuviera que crear un fotolibro a partir de tus fotos. ¿Le dejarías elegir qué fotos lo harán (o no) sin mirarlas también? ¿Confiarías en él para adivinar si se trata de un regalo, una ceremonia de boda o un simple recuerdo familiar? ¿Te conformarías solo con páginas en negro e imágenes centradas? ¿Le gustaría elegir cuánto quiere pagar por ese producto y el nivel de calidad del papel, la encuadernación, etc.? Y, quizás lo más importante, ¿crees que esas respuestas podrían ser las mismas para todos ?

La creación de productos completamente automatizada requiere algoritmos de discriminación predeterminados, que pueden basarse en "lo que generalmente funciona" o en una entrada cuidadosamente seleccionada por parte del usuario. Entonces, ¿puede la IA elegir una secuencia estética lógica sin algunas instrucciones contextuales del consumidor? Bueno, sí, siempre y cuando estés de acuerdo con un libro genérico. E incluso entonces, hacer un libro genérico con el desarrollo de software tradicional será mucho más barato y más fácil de mejorar a medida que aprenda sobre su mercado específico.

La IA puede ayudar a administrar grandes conjuntos de datos y tomar decisiones automatizadas, como clasificar imágenes y comprender qué hay en una imagen, pero nuevamente, a un alto costo y con demoras adicionales desde el punto de vista del usuario debido a la carga de trabajo informática requerida, especialmente en el contexto de una tienda de comercio electrónico. Analizar un gran conjunto de fotos cargadas para reagruparlas, categorizarlas y colocarlas en una secuencia agradable en los sitios web puede sumar fácilmente unos cuantos dólares por libro creado, independientemente de si se ordenó o no. ¿Vale la pena el riesgo financiero por los ingresos adicionales? Considera lo siguiente:

  1. Cuando los compradores ingresan a un sitio y cargan grandes cantidades de imágenes para sus proyectos, pero en promedio el 20 % termina sin comprar, la empresa incurrirá en costos informáticos que no se compensarán en su totalidad con las ventas.
  2. El análisis de cargas voluminosas de fotos puede llevar varios minutos. Los consumidores perciben este “crujido” como un retraso significativo en la producción. Los consumidores de hoy en día, impulsados por la velocidad, no aceptan demoras, incluso cuando lo justifica un análisis complejo, y estas demoras afectan las tasas de conversión.
  3. El costo de ingeniería de encadenar e iniciar estos componentes básicos de IA para crear diseños sugeridos automáticamente es muy alto. Dado que los recursos necesarios cambian constantemente, el conocimiento, la tecnología y los futuros requisitos de ingeniería son escasos y costosos.

Si bien Mediaclip evalúa constantemente la IA y otras tecnologías progresivas, descubrimos que es más flexible y rentable escribir algoritmos que realicen tareas inteligentes como reagrupar fotos, generar temas de productos agradables, optimizar escenarios de diseño de libros y, de manera interesante, colocar una o varias imágenes respetando su relación de contenido de imagen en cada página/superficie individual, todo a un precio razonable y con el apoyo de un diseño experto, manteniendo la variedad que esperan los consumidores.

Por qué Mediaclip no se subirá al “tren del bombo” de la IA… todavía

El equipo de I+D de Mediaclip experimenta constantemente con diferentes opciones para lograr fotolibros enriquecidos que cuenten una historia al permitir que los usuarios se expresen mientras equilibran el tiempo que lleva crearlos. Vemos muchas técnicas hoy que nos ayudarán a usar la IA de muchas maneras muy útiles, pero no encontramos una solución que pueda reemplazar diseños y algoritmos cuidadosamente elaborados de una manera rentable .

Hay cosas específicas que aún tenemos que ver antes de recomendar la IA como un motor central para la personalización del producto:

Creación de diseños y diseños atractivos : nuestro sistema de diseño inteligente ya permite diseños ricos e interesantes que se adaptan a todo tipo de eventos de la vida y estilos de productos. Los usuarios pueden reorganizar y recomponer fácilmente sus páginas en función de los mejores diseños posibles para sus necesidades. Los servicios de inteligencia de imágenes existentes pueden ayudar a mejorar automáticamente las imágenes o recortarlas automáticamente cuando el diseño lo requiera, por ejemplo, cuando se utiliza contenido con licencia. Todo esto está actualmente disponible sin usar herramientas basadas en IA.

Rentabilidad : actualmente existen dos métodos para proporcionar un servicio basado en IA; IA de cliente (normalmente disponible en dispositivos móviles para escanear la biblioteca de imágenes de un usuario) e IA basada en servidor. Existen excelentes soluciones para proporcionar recomendaciones de productos en un dispositivo móvil; sin embargo, ambos métodos pueden ser mucho más costosos que sus contrapartes que no son de IA. Nota: creemos que (específicamente) para el descubrimiento de fotos y las capacidades de curación de las aplicaciones móviles, la IA ofrece opciones muy sólidas para considerar hoy.

Control sobre el resultado. La IA, más específicamente el aprendizaje automático, es excelente para adivinar un método que reproducirá lo que le das de comer. Sin embargo, esto también reduce en gran medida su capacidad para ajustar y adaptar el algoritmo a sus necesidades. Si cree que una imagen debe manejarse de manera ligeramente diferente, o si su equipo de diseño quisiera tomar una decisión de diseño específica basada en la orientación de una imagen, se verán severamente limitados.

Pudimos crear demostraciones impresionantes utilizando soluciones existentes e ideas de creación de prototipos utilizando software propietario y de código abierto. Sin embargo, nuestros esfuerzos de desarrollo se centran en las tasas de conversión, la satisfacción del usuario y el aumento de los ingresos para nuestros clientes y socios, no en hacer escaparates "geniales". No estamos satisfechos con las soluciones actuales y no podemos recomendar subirnos al barco de la IA todavía. Sin embargo, creemos que este es un campo que vale la pena dedicarle tiempo e inversión, ya que los costos asociados disminuyen y las ofertas mejoran.

En conclusión, creemos que la IA es una herramienta extraordinaria, aunque costosa, para ayudar a la curación de fotos en dispositivos móviles y en sitios de alojamiento de fotos. También puede proporcionar información significativa sobre el contenido del usuario y ayudar a impulsar la forma en que se presenta y se comunica con los usuarios en su sitio. Sin embargo, estos conocimientos y beneficios tienen un costo que aún no lo convierte en una decisión 'obvia'. Tenga en cuenta que la inteligencia artificial no es una función; no hace nada por sí mismo. Es un método que puede resolver categorías específicas de problemas de manera eficiente. ¿Recuerdas el dicho, “cuando tienes un martillo, todo parece un clavo?” Bueno, en esta conversación, la IA es un martillo de demolición ; es una herramienta extremadamente útil para tener en su cobertizo, pero no lo ayudará a decorar .

Las limitaciones de las soluciones de IA actuales no son despreciables. Sacrificar la elección y el estilo en favor de la inteligencia de diseño, cuando esa inteligencia ya está disponible a una fracción del costo de la codificación tradicional, hace que la IA sea una opción menos atractiva por ahora. Por supuesto, puede haber usuarios pioneros de la tecnología que no se sientan disuadidos por ciertos niveles de riesgo empresarial al utilizar soluciones basadas en IA para la inteligencia de diseño. Nosotros también creemos en la IA y es simplemente cuestión de tiempo hasta que descubramos una forma rentable de utilizar sus capacidades de una manera que sea beneficiosa tanto para nuestros clientes como para sus compradores.

Ahora, no nos malinterpreten, estamos encantados con la gran cantidad de posibilidades de la inteligencia artificial. Estamos asombrados por los nuevos desarrollos constantes y solo podemos imaginar oportunidades positivas en el futuro. Sin embargo, sería irresponsable recomendar el uso de soluciones basadas en IA en este momento, ya que aún no son opciones económicamente viables para usar en proyectos a gran escala en comparación con los enfoques tradicionales que producen los mismos resultados. Estamos ansiosos por descubrir más investigaciones y experimentos basados en datos sobre características específicas basadas en IA que nuestros clientes puedan aplicar a su propio sector comercial y personas de usuario. Continuaremos trabajando en la evaluación de soluciones e investigando el efecto en métricas importantes como las tasas de conversión y la satisfacción del usuario.

Por supuesto, la elección es suya para decidir si AI responde a las necesidades de su negocio y/o las demandas de sus compradores a pesar de su alto costo actual. Sin embargo, olvídese de las exageraciones de marketing: la diligencia debida es tan crucial aquí como en cualquier otra empresa comercial.