Um algoritmo de aprendizado de máquina é tão bom quanto os dados nos quais ele é treinado. Infelizmente, um conjunto de dados de treinamento massivo e popular do MIT ensinou vários algoritmos a usar insultos racistas e misóginos.

O MIT acabou de derrubar o banco de dados ofensivo, 80 milhões de imagens minúsculas, para obter o saneamento necessário, informa o The Register . O conjunto de dados foi usado para treinar a IA de reconhecimento de imagem desde 2008, mas nunca foi investigado por conteúdo racista ou ofensivo, o que significa que uma importante fonte de viés algorítmico estava voando sob o radar.

A IA aprende a interpretar e identificar objetos nas imagens depois de analisar milhares de imagens que já foram rotuladas. No conjunto de dados do MIT, milhares de fotos de negros – e de macacos – foram rotuladas com a palavra N. Imagens de mulheres foram rotuladas com insultos misóginos. Após ser treinada nesses dados, a IA pode perpetuar esses preconceitos no mundo real .

“Está claro que deveríamos examiná-los manualmente”, disse o cientista da computação e engenheiro elétrico do MIT Antonio Torralba ao The Register . “Por isso, pedimos sinceras desculpas. De fato, colocamos o conjunto de dados offline, para que as imagens e categorias ofensivas possam ser removidas. ”

Mas o MIT esclareceu que o conjunto de dados desapareceu para sempre.

Depois de tentar filtrar as imagens ofensivas, o MIT decidiu que a tarefa é simplesmente muito difícil para os seres humanos – há simplesmente muitas fotos para verificar. “Portanto, a inspeção manual, mesmo que seja viável, não garante que as imagens ofensivas possam ser completamente removidas”, diz uma declaração do MIT .

Fonte: Futurismo