Escolha seu idioma

Escolha seu idioma

O site foi traduzido para Portuguese, Brazil com a ajuda de humanos e IA

Despedimento

MM Labs Descobre os Vieses do Reconhecimento de Imagem

5 minutos de leitura
Profile picture for user Labs.Monks

Escrito por
Labs.Monks

MM Labs Uncovers the Biases of Image Recognition

Você vê o que eu vejo? O jogo "eu espio" é um excelente exercício de percepção, onde os jogadores se revezam para adivinhar um objeto que alguém do grupo tenha notado. E, assim como o foco de um jogador pode estar em um objeto totalmente despercebido por outro, as inteligências artificiais também podem perceber coisas completamente diferentes em uma única foto. Esperando ver através dos olhos da IA, a MediaMonks Labs desenvolveu uma ferramenta que coloca os principais serviços de reconhecimento de imagem uns contra os outros para comparar o que cada um deles vê na mesma imagem - tenteaqui.

O reconhecimento de imagem é quando uma IA é treinada para identificar ou tirar conclusões sobre o que uma imagem representa. Alguns softwares de reconhecimento de imagem tentam identificar tudo em uma foto, como um telefone organiza automaticamente as fotos sem que o usuário tenha que etiquetá-las manualmente. Outros são mais especializados, como os softwares de reconhecimento facial treinados para reconhecer não apenas um rosto, mas talvez até mesmo a identidade da pessoa.

Este tipo de tecnologia dá a sua marca olhos, permitindo que ela reaja contextualmente ao ambiente ao redor do usuário. Seja identificando possíveis problemas de saúde antes da visita de um médico ou identificando diferentes espécies de plantas, o reconhecimento de imagem é uma ferramenta poderosa que esbate ainda mais a fronteira entre usuário e máquina. "No mercado, a conveniência é importante", diz Geert Eichhorn, Diretor de Inovação da MediaMonks. "Se for mais fácil, as pessoas estão dispostas a pegar e tentar". Isto tem o potencial de ser assim tão simples, pois basta apontar o telefone e apertar um botão"

Pensamentos do monge Com o reconhecimento da imagem, seu produto na prateleira da loja ou no mundo pode se tornar o gatilho de experiências convincentes.
m
Portrait of Geert Eichhorn
nk

Você poderia até transformar qualquer objeto de marca em uma caça ao tesouro. "O que Pokemon Go fez para a localização GPS, isto pode fazer para qualquer objeto", diz Eichhorn. "Seu produto na prateleira da loja ou no mundo pode se tornar gatilhos para experiências convincentes"

Descobrindo o Bias em AI

Para uma tecnologia tão simples de usar, é fácil esquecer a mecânica do reconhecimento de imagem e como ela funciona. Infelizmente, isto leva a uma experiência desigual entre os usuários que pode ter implicações muito poderosas: a maioria dos algoritmos de reconhecimento facial ainda luta para reconhecer os rostos dos negros em comparação com os dos brancos, por exemplo.

Por que isso acontece? Os modelos de reconhecimento de imagem só podem identificar o que é treinado para ver. Como uma IA deve saber a diferença entre raças de cães se nunca foram identificadas para ela? Assim como os humanos tiram conclusões baseadas em suas experiências, os modelos de reconhecimento de imagem interpretam a mesma imagem de maneiras diferentes com base em seu conjunto de dados. A preocupação em torno deste tipo de preconceito é dupla.

Primeiro, há a preocupação acima mencionada de que ela pode proporcionar uma experiência desigual para os usuários, particularmente quando se trata de reconhecimento facial. Os desenvolvedores devem assegurar-se de que eles possam alimentar sua experiência com um modelo capaz de reconhecer um público diversificado.

Screen Shot 2019-10-30 at 4.53.04 PM

Como vemos na imagem acima, o Google está procurando por coisas contextuais na foto do evento, enquanto a Amazon tem muita certeza de que há uma pessoa lá.

Em segundo lugar, as marcas e os desenvolvedores devem considerar cuidadosamente qual modelo suporta melhor seu caso de uso; um aplicativo que forneça a contagem de calorias de um prato ao tirar uma foto não será muito útil se não puder diferenciar entre os diferentes tipos de alimentos. "Se tivermos uma idéia ou se nosso cliente quiser detectar algo, temos que olhar qual tecnologia usar - é um serviço melhor para detectar isso, ou fazemos o nosso próprio?" diz Eichhorn.

Vendo onde a IA não vê olho-a-olho

A tecnologia de aprendizagem de máquinas funciona dentro de uma caixa preta, e qualquer um adivinha qual modelo é o melhor para detectar o que está em uma imagem. Como tecnólogos, nossa equipe do MediaMonks Labs não se contenta em fazer suposições, então eles construíram uma ferramenta que oferece um vislumbre do que vários dos principais serviços de reconhecimento de imagem vêem quando vêem a mesma imagem, lado a lado. "O objetivo para isso é descobrir o preconceito nos serviços de reconhecimento de imagem e compreendê-los melhor", diz Eichhorn. "Ele também mostra o potencial do que você poderia alcançar, dada a quantidade de dados que você pode extrair de uma imagem"

É assim que funciona". A ferramenta lista os objetos e ações detectados pelo Google Cloud Vision, Amazon Rekognition e Baidu AI, juntamente com a confiança de cada AI no que ela vê. Brincando com a ferramenta, os usuários podem observar diferenças no que cada modelo responde - ou não responde. Por exemplo, o Google Cloud Vision pode se concentrar mais em detalhes contextuais, como o que está acontecendo em uma foto, onde o Amazon Rekognition está mais focado em pessoas e coisas.

Pensamentos do monge Com esta ferramenta, queremos puxar a cortina para trás para mostrar às pessoas como esta tecnologia funciona.
m
Portrait of Geert Eichhorn
nk

Isto também mostra a variedade de coisas que podem ser reconhecidas pelo software, e cada uma delas pode ter implicações criativas emocionantes: o conteúdo de cores do ambiente de um usuário, por exemplo, pode funcionar como um gatilho de humor. Colaboramos com a DDB e a companhia aérea Lufthansa na construção de um aplicativo da Web alimentado pela Cloud Vision, por exemplo, que recomenda um destino de viagem com base no ambiente fotografado pelo usuário. Por exemplo, uma foto de um hambúrguer pode retornar uma recomendação para experimentar comida mais saudável em um dos mercados flutuantes de Bangkok.

O projeto da Lufthansa é interessante de se pensar no contexto desta ferramenta, pois sua expansão para o mercado chinês exigiu a mudança do reconhecimento da imagem da Cloud Vision para outra coisa, já que os produtos do Google não são utilizados no país. Isto deu à equipe a oportunidade de analisar outros serviços como Baidu e AliYun, levando-os a testar a precisão e o tempo de resposta de cada um deles. Ele mostra em termos muito reais o porquê e como uma marca faria uso de tal ferramenta de comparação.

"Nem todos podem ser como o Google ou a Apple, que podem treinar seus sistemas com base no volume de fotos que os usuários carregam em seus serviços todos os dias", diz Eichhorn. "Com esta ferramenta, queremos puxar a cortina para trás para mostrar às pessoas como esta tecnologia funciona" Com uma melhor compreensão de como a aprendizagem da máquina é treinada, as marcas podem visualizar melhor as novas experiências inovadoras que pretendem trazer à vida com o reconhecimento da imagem.

Conteúdos Relacionados

Faça nosso coração digital bater mais rápido

Receba nossa newsletter com inspiração sobre as últimas tendências, projetos e muito mais.

Obrigado por se inscrever!

Continue exploring

Os monges precisam das informações de contato que você nos fornece para entrar em contato com você sobre nossos produtos e serviços. Você pode cancelar sua inscrição nestas comunicações a qualquer momento. Para obter informações sobre como cancelar sua inscrição, bem como nossas práticas de privacidade e compromisso com a proteção de sua privacidade, favor rever nossa Política de Privacidade.

Escolha seu idioma

Escolha seu idioma

O site foi traduzido para Portuguese, Brazil com a ajuda de humanos e IA

Despedimento