LinkedIn investe em treinamento de IA para transcrever imagens em textos

Ferramenta vai funcionar explicando em texto as imagens publicadas para pessoas com deficiências audiovisuais

LinkedIn publicou em seu blog de engenharia (escrito em inglês) um estudo feito por seu departamento de inteligência artificial  sobre o desenvolvimento de uma IA capaz de gerar automaticamente descrições em texto nas imagens publicadas por usuários.  A ideia é que essa tecnologia seja implementada dentro da plataforma.

Já faz um tempo que o feed de notícias da rede social não é povoado apenas por conteúdo em texto, mas também por imagens. E, apesar desse recurso em geral enriquecer a mensagem que o usuário deseja transmitir, o formato dificulta a vida de quem possui alguma deficiência visual ou conexão de baixa qualidade, já que esse público só consegue acessar a parte em texto da postagem.

Já é possível inserir essa descrição de foram manual ao fazer o upload de uma imagem, mas como a maioria não opta por incluir o texto, a plataforma está trabalhando em um sistema que consiga oferecer alternativas que representem com fidelidade o que está sendo retratado na foto.

Para essa missão, o LinkedIn usou a solução Analyze API, disponibilizada pelo Microsoft Cognitive Services, que é capaz de gerar várias descrições a partir do upload de uma imagem.

Criar uma solução capaz de descrever uma imagem ainda é uma tarefa bastante trabalhosa dentro do universo de inteligência artificial. Isso porque, para conseguir um resultado de qualidade, o sistema requer uma base de dados gigantesca e supervisão humana para apontar quais modelos estão corretos e os que precisam ser descartados.

E essa tarefa ficou ainda mais complicada para o LinkedIn, pois ele lida com objetos que, em geral, não são inclusos nas bases de dados que já existem para a criação dessas IAs, como slides, flipcharts  e telões.

Como a Analyze API também foi treinada com uma base mais geral, o primeiro passo da equipe foi realizar uma série de testes para entender o quão capaz o sistema é de processar corretamente uma imagem corporativa.

Para isso, criaram uma “pontuação de confiança” usada pela equipe, que avaliava de forma manual alguns dos registros apresentados pela aplicação, para depois afinar o sistema.

Próximos passos

Após a rodada inicial de testes, já foi possível alcançar resultados muito bons quando se fala em descrever grupos, pessoas se apresentando e cenários internos.

Porém, a equipe ainda está trabalhando para aprimorar os resultados mais específicos relacionados ao conteúdo do LinkedIn e eliminar ao máximo possível a chance de algum conteúdo apresentar uma legenda muito equivocada. Quando esse passo estiver concluído, são grandes as chances de que o recurso seja integrado dentro da rede social.

Fonte: itmidia.com