O movimento ativista Black Lives Matter (em português, Vidas Negras Importam) trouxe à tona a discussão da prática do racismo pelas instituições públicas ou privadas, que, de forma indireta, promovem a exclusão ou o preconceito. Primeiramente, vamos definir alguns conceitos. O preconceito abarca uma miríade de discriminações que vão além da raça e envolvem gênero, local de origem, orientação sexual e classe social, entre outros aspectos. Sendo assim, o racismo é uma das muitas faces do preconceito.

Pensando em uma discriminação institucional, temos como exemplo aquela que faz com que em nossas empresas, segundo dados do IBGE (Instituto Brasileiro de Geografia e Estatística), mulheres recebam cerca de 20% menos do que os homens em condições similares.

Agora, vamos a uma discussão que avança no mercado de tecnologia: atualmente, uma das áreas mais populares da Inteligência Artificial é o Machine Learning ou Aprendizado de Máquina, cujo programa de computador aprende com a experiência captada a partir de padrões de dados históricos das organizações. E se nossos dados forem racistas, misóginos ou discriminatórios em relação à profissão ou residência? Nesse momento, entramos na seara dos algoritmos com vieses, ou seja, que possuem uma distorção sistemática.

O Compas, software amplamente utilizado em tribunais americanos para aplicação de sentenças, é um exemplo de sistema discriminatório. Um estudo independente realizado pela ONG Propublica revelou que, no sistema, os negros tinham o dobro de chances de serem classificados como possíveis reincidentes de crimes violentos em comparação aos brancos.

Da mesma forma, em 2014, a Amazon utilizou um algoritmo de seleção de currículos que priorizava candidatos do sexo masculino em detrimento do feminino. É muito comum também os birôs de crédito que têm utilizado dados de CEP ou profissão como fonte de dados para concessão de crédito. Esse viés leva a negativas de créditos para a população que reside em áreas consideradas periféricas, ou seja, uma tendência discriminatória.

Normalmente, esses problemas decorrem da construção de modelos sem conhecimento e sem a correção de vieses ocultos, o que pode levar a resultados distorcidos, tendenciosos ou mesmo errados, reforçando estigmas sociais, econômicos e raciais, além de institucionalizá-los com o requinte de parecerem resultados científicos, já que são baseados em modelos matemáticos.

A grande discussão é que o caráter discriminatório do Aprendizado de Máquina não advém apenas de dados históricos, como também de outros vieses. Podemos citar três aspectos que podem influenciar. Um deles é o viés de amostragem, que ocorre quando a amostra analisada pelo algoritmo é incompleta ou não representa o ambiente no qual ele será executado. Um artigo do MIT, por exemplo, demonstrou falhas em mecanismos de reconhecimento facial, no qual a proporção entre imagens de homens chega a ser 75% e de brancos, 80%, implicando diversos erros para o reconhecimento de mulheres e outras etnias.

Já o viés de preconceito se refere a modelos treinados por dados influenciados por estereótipos ou fatores culturais. Por exemplo, modelos de reconhecimento de imagem treinados com homens em escritórios e mulheres cozinhando, assim como de concessão de crédito que penalizam profissões mais operacionais ou periferias. Neste caso, o uso do CEP pode perpetuar a exclusão social.

Outra possibilidade é o viés é do observador, que traz para a análise de dados eventuais preconceitos do profissional de dados, como resultados que associam homens com escritórios e mulheres com cozinhas. Ele compartilha dessa visão de mundo e sociedade. Logo, esse é o resultado que ele espera encontrar nos dados.

Detectar e corrigir vieses nos dados não é fácil. Porém, um começo promissor reside em conhecer os dados, a sua qualidade e proporcionalidade amostral, assim como ter pensamento crítico sobre fatores históricos e sociais que podem influenciar os dados, assim como o uso de diversidade nos times de desenvolvimento. Trazer visões e experiências diferentes aos projetos é um bom começo para o uso correto dos algoritmos de aprendizado de máquina.

Marcelo Costa é analista de dados e Rodrigo Kramper é líder da prática de Advanced Data and Analytics Solutions na ICTS Protiviti

Pode te interessar

Cinco passos para adotar inteligência artificial no atendimento ao consumidor

Os desafios da Inteligência Artificial

Tecnologia para impulsionar a experiência do cliente bancário