MM Labs descubre los sesgos del reconocimiento de imágenes

Escrito por
Labs.Monks

¿Ves lo que yo veo? El juego "Yo espío" es un excelente ejercicio de percepción, en el que los jugadores se turnan para adivinar un objeto en el que se ha fijado alguien del grupo. Y al igual que un jugador puede fijarse en un objeto que a otro le pasa totalmente desapercibido, las inteligencias artificiales también pueden fijarse en cosas totalmente distintas en una misma foto. Con la esperanza de ver a través de los ojos de la IA, MediaMonks Labsha desarrollado una herramienta que enfrenta a los principales servicios de reconocimiento de imágenes para comparar lo que cada uno ve en la misma imagen.

El reconocimiento de imágenes es cuando se entrena a una IA para identificar o sacar conclusiones de lo que representa una imagen. Algunos programas de reconocimiento de imágenes intentan identificar todo lo que hay en una foto, como cuando un teléfono organiza automáticamente las fotos sin que el usuario tenga que etiquetarlas manualmente. Otros son más especializados, como el software de reconocimiento facial entrenado para reconocer no sólo un rostro, sino quizá incluso la identidad de la persona.

Este tipo de tecnología dota a su marca de ojos, permitiéndole reaccionar contextualmente al entorno que rodea al usuario. Ya se trate de identificar posibles problemas de salud antes de una visita al médico o de identificar distintas especies de plantas, el reconocimiento de imágenes es una poderosa herramienta que difumina aún más la frontera entre el usuario y la máquina. "En el mercado, la comodidad es importante", afirma Geert Eichhorn, Director de Innovación de MediaMonks. "Si es más fácil, la gente está dispuesta a cogerlo y probarlo. Esto tiene el potencial de ser así de sencillo, porque sólo hay que apuntar con el teléfono y pulsar un botón"

Pensamientos de monje Con el reconocimiento de imágenes, su producto en la estantería de la tienda o en el mundo puede convertirse en desencadenante de experiencias atractivas.

Geert Eichhorn

Director de Innovación y Head de Labs

Incluso podrías transformar cualquier objeto de marca en una búsqueda del tesoro. "Lo que Pokemon Go hizo con las ubicaciones GPS, esto puede hacerlo con cualquier objeto", dice Eichhorn. "Su producto en el estante de la tienda o en el mundo puede convertirse en desencadenantes de experiencias convincentes"

Descubriendo el sesgo de la IA

Para ser una tecnología tan fácil de usar, es fácil olvidar la mecánica del reconocimiento de imágenes y cómo funciona. Por desgracia, esto conduce a una experiencia desigual entre los usuarios que puede tener implicaciones muy poderosas: la mayoría de los algoritmos de reconocimiento facial siguen teniendo dificultades para reconocer los rostros de las personas negras en comparación con los blancos, por ejemplo.

¿Por qué ocurre esto? Los modelos de reconocimiento de imágenes sólo pueden identificar aquello para lo que han sido entrenados. ¿Cómo va a saber una IA la diferencia entre razas de perros si nunca se las han identificado? Al igual que los humanos sacan conclusiones basadas en sus experiencias, los modelos de reconocimiento de imágenes interpretarán la misma imagen de formas diferentes en función de su conjunto de datos. La preocupación en torno a este tipo de sesgo es doble.

En primer lugar, está la ya mencionada preocupación de que pueda proporcionar una experiencia desigual a los usuarios, especialmente cuando se trata de reconocimiento facial. Los desarrolladores deben asegurarse de alimentar su experiencia con un modelo capaz de reconocer a un público diverso.

Como vemos en la imagen de arriba, Google está buscando cosas contextuales en la foto del evento, mientras que Amazon está muy seguro de que hay una persona allí.

En segundo lugar, las marcas y los desarrolladores deben considerar detenidamente qué modelo es el que mejor se adapta a su caso de uso; una aplicación que proporcione el recuento de calorías de un plato con solo hacer una foto no será muy útil si no puede diferenciar entre distintos tipos de comida. "Si tenemos una idea o nuestro cliente quiere detectar algo, tenemos que ver qué tecnología utilizar: ¿hay un servicio que lo detecta mejor o creamos uno propio?", dice Eichhorn.

Ver donde la IA no ve con claridad

La tecnología de aprendizaje automático funciona dentro de una caja negra, y nadie sabe qué modelo es el mejor para detectar lo que hay en una imagen. Como tecnólogos, nuestro equipo de MediaMonks Labs no se conforma con hacer suposiciones, así que han creado una herramienta que ofrece una visión de lo que ven varios de los principales servicios de reconocimiento de imágenes cuando ven la misma imagen, una al lado de la otra. "El objetivo es descubrir los sesgos de los servicios de reconocimiento de imágenes y comprenderlos mejor", explica Eichhorn. "También muestra el potencial de lo que se podría conseguir, dada la cantidad de datos que se pueden extraer de una imagen"

Funciona así. La herramienta enumera los objetos y acciones detectados por Google Cloud Vision, Amazon Rekognition y Baidu AI, junto con la confianza de cada IA en lo que ve. Jugando con la herramienta, los usuarios pueden observar diferencias en lo que cada modelo responde, o no. Por ejemplo, Google Cloud Vision puede centrarse más en detalles contextuales, como lo que ocurre en una foto, mientras que Amazon Rekognition se centra más en las personas y las cosas.

Pensamientos de monje Con esta herramienta, queremos descorrer el telón para mostrar a la gente cómo funciona esta tecnología.

Geert Eichhorn

Director de Innovación y Head de Labs

Esto también muestra la variedad de cosas que puede reconocer el software, y cada una de ellas puede tener implicaciones creativas interesantes: el contenido de color del entorno de un usuario, por ejemplo, puede funcionar como desencadenante del estado de ánimo. Por ejemplo, hemos colaborado con DDB y la aerolínea Lufthansa para crear una aplicación web basada en Cloud Vision que recomienda un destino de viaje en función del entorno fotografiado por el usuario. Por ejemplo, una foto de una hamburguesa puede devolver una recomendación para probar comida más sana en uno de los mercados flotantes de Bangkok.

Es interesante pensar en el proyecto de Lufthansa en el contexto de esta herramienta, porque para ampliarla al mercado chino fue necesario cambiar el reconocimiento de imágenes de Cloud Vision a otro sistema, ya que los productos de Google no se utilizan en el país. Esto dio al equipo la oportunidad de buscar en otros servicios como Baidu y AliYun, lo que les llevó a probar la precisión y el tiempo de respuesta de cada uno de ellos. Muestra en términos muy reales por qué y cómo una marca haría uso de una herramienta de comparación de este tipo.

"No todo el mundo puede ser como Google o Apple, que pueden entrenar sus sistemas basándose en el volumen de fotos que los usuarios suben a sus servicios cada día", dice Eichhorn. "Con esta herramienta, queremos descorrer el telón para mostrar a la gente cómo funciona esta tecnología" Con una mejor comprensión de cómo se entrena el aprendizaje automático, las marcas pueden prever mejor las nuevas experiencias innovadoras que pretenden dar vida con el reconocimiento de imágenes.

Related
Pensamiento

Acelera nuestro corazón digital

Reciba nuestro boletín con inspiración sobre las últimas tendencias, proyectos y mucho más.

Gracias por inscribirte

Continue exploring

Media.Monks necesita la información de contacto que usted nos facilita para ponerse en contacto con usted en relación con nuestros productos y servicios. Puede darse de baja de estas comunicaciones en cualquier momento. Para obtener información sobre cómo darse de baja, así como nuestras prácticas de privacidad y el compromiso de proteger su privacidad, por favor revise nuestra Política de Privacidad.

Descubriendo el sesgo de la IA

Ver donde la IA no ve con claridad

RelatedPensamiento

Acelera nuestro corazón digital

Gracias por inscribirte

Related
Pensamiento