Identificando preconceitos em visão computacional

Uma forma mais científica de falar sobre preconceitos é separando suas causas em vieses conscientes e inconscientes. Os vieses inconscientes são aqueles que afetam nosso julgamento de forma inconsciente, como o nome deixa claro. É através dos vieses inconscientes, por exemplo, que a gente primeiro decide como vai abordar um cachorro que a gente não conhece. A abordagem terá mais chance de sucesso se considerar o que a gente pensa sobre a personalidade de diferentes raças de cachorro.

Na era da inteligência artificial, os algoritmos podem carregar consigo alguns dos vieses inconscientes de quem os desenvolveu. Não é como se os algoritmos fossem intrinsecamente enviesados, nem como se os programadores fizessem isso intencionalmente, mas devido a essa natureza inconsciente, é possível que os datasets contenham vieses não prontamente identificáveis. Por exemplo, se o algoritmo ficar responsável por decidir como devemos abordar um pitbull ou um labrador, e se ele foi treinado com informações enviesadas onde o pitbull é desproporcionalmente retratado como violento e o labrador como dócil, ele não vai levar em consideração outras características daquele animal em particular que possam chegar em uma decisão mais precisa.

Para ajudar a identificar este problema na área de visão computacional, pesquisadores da Universidade de Princeton desenvolveram uma ferramenta chamada REVISE (REvealing VIsual biaSEs, ou revelando vieses visuais), que analisa datasets de imagens para a presença de potenciais vieses. Disponível em formato open-source, o REVISE se baseia em métodos estatísticos para procurar por vieses baseados em três tipos: objeto, gênero e geografia. Junto com as imagens, a ferramenta considera anotações e medidas como a contagem de objetos, a presença conjunta de pessoas e objetos, e a origem geográfica das imagens, revelando os padrões que se distanciam das distribuições medianas esperadas em datasets não enviesados. Em um dos exemplos apresentados, o REVISE foi capaz de demonstrar um vies potencial de gênero em um dataset contendo pessoas e o instrumento musical órgão: homens eram geralmente retratados tocando o instrumento, enquanto que mulheres apenas estavam co-presentes.

Nem sempre vieses presentes em datasets são nocivos: às vezes, eles representam uma tendência de fato real. Imagens mostrando zebras listradas e cavalos não-listrados vão ser apontadas como enviesadas, mas este vies representada um fato que, inclusive, é essencial para o bom desempenho de um algoritmo classificador. Depois que o REVISE identifica os vieses, cabe ao desenvolvedor analisar o que fazer com isso. De certa forma, é como se o papel da ferramenta fosse trazer à consciência estes vieses até então inconscientes presentes nas imagens, para que o cérebro possa analisar, com suas funções mais elevadas, o que fazer a seguir. Em outro exemplo, o REVISE mostrou que objetos como aviões, camas e pizzas são geralmente representados grandes em datasets de imagens, em comparação aos demais objetos. Isto pode gerar um modelo que tenha dificuldade em identificar aviões em fotografias tiradas a uma distância maior. Este é um caso onde seria interessante tomar uma medida corretiva para que o dataset seja uma representação melhor da realidade, já que o objetivo de um modelo treinado com estes dados poderia muito bem ser analisar o mundo real.

No final das contas, descobrir os vieses presentes nos dados é fundamental para garantir que os algoritmos treinados com eles tenham o melhor desempenho possível. Este desempenho pode ser algo trivial como classificar objetos, mas também pode ter impactos sociais relevantes. Conforme delegamos à inteligência artificial tarefas associadas ao tratamento de pessoas, é importante termos como saber o que ocorre por baixo dos panos. Desta forma, a inteligência artificial pode até se tornar importante aliada na garantia de decisões mais justas.