Pesquisadores da Índia desenvolveram Deepfake que poderia traduzir Filmes e Séries

Daniel Porcides

4 anos atrás

A população online da Índia não é muito diferente do Brasil. Ambos os países são compostos por uma população que consome cerca de 2 à 3 horas por dia de conteúdos em vídeo, sendo um dos principais formatos consumidos em todo o mundo.

No Brasil, em 2018, foi confirmado pela plataforma de compartilhamento de vídeos que população online brasileira passa uma média de 19 horas por semana no YouTube para consumo de conteúdo. De acordo com o The Times of India, cada pessoa que compõe a população indiana assiste uma média de 2 horas de conteúdo em vídeo por dia. Muito parecido, concorda?

Ambos os públicos tem preferência no formato de vídeo, fazendo com que se tornem alvos fáceis de uma das tecnologias mais perigosas do século XXI, o Deepfake.

O que é a tecnologia de Deepfake?

Se você não sabe o que é deepfake, a tecnologia se refere a vídeos manipulados ou outras representações digitais produzidas por inteligência artificial avançada, que produzem imagens e sons fabricados que parecem reais. Através de reconhecimento facial e aplicação de máscaras, a tecnologia consegue manipular o visual de vídeos e confundir telespectadores de forma sutil.

Em dezembro de 2019, essa técnica foi matéria de um dos episódios do programa Conversando com Bial da Rede Globo, onde o apresentador mostrou a eficácia visual da tecnologia, utilizando a face de Galvão Bueno e Arnaldo César Coelho:

À partir dessa manipulação de vídeo, é possível fazer qualquer pessoa dizer qualquer coisa. Possuindo um alto risco com o uso indevido da imagem de celebridades através de conteúdos falsos e principalmente o impacto imediato em ambientes políticos, a tecnologia que envolve a criação do deepfake parece sempre ser vista um olhar pessimista.

Pesquisadoras da Índia desenvolveram Deepfake Positivo

LipGAN foi o nome dado para a tecnologia desenvolvida por pesquisadores indianos, que traduz áudios e textos, sincronizando informações com vídeos.

De acordo com o site The Next Web, pesquisadores do International Institute of Information Technology (Instituto Internacional de Tecnologia da Informação) da cidade de Hyderabad, na Índia, desenvolveram um novo modelo de Inteligência Artificial que traduz e sincroniza labialmente um vídeo de um idioma para outro, com grande precisão.

Abaixo, uma demonstração do estudo Towards Automatic Face-to-Face Translation, que defende a utilização positiva da tecnologia de deepfake, inicialmente adicionando movimento em imagens, com áudios em Inglês e Hindi (idioma utilizado por 70% dos indianos). Em seguida, veja uma aplicação na cena do filme Harry Potter e a Câmara Secreta, apresentando uma utilização segura e inteligente, capaz de revolucionar o mercado de filmes e séries:

Para tornar a demonstração possível, pesquisadores indianos desenvolveram uma nova Rede Contraditória Regenerativa, ou Generative Adversarial Networks (GAN) chamada LipGAN, um algoritmo capaz de reconhecer padrões e sincronizar tecnologias que possam replicar as informações aprendidas ao longo do processo.

Além de imitar movimentos dos lábios através de análise de texto, aplicando alterações em vídeo original, a tecnologia pode corrigir os movimentos dos lábios em filmes dublados.

Como funciona o Deepfake do Instituto em Hyderabad?

Para traduzir vídeos, a tecnologia utiliza reconhecimento de fala para transcrever o texto do conteúdo. Em seguida, é aplicado um modelo especializado em idiomas índicos para traduzir o texto, por exemplo, de inglês para hindi. Em seguida, o modelo de reconhecimento de fala o converte em voz e aplica as movimentações em vídeo através da Inteligência Artificial que faz o mapeamento facial da imagem ou vídeo. A maior dificuldade no momento é aplicar o efeito em vários rostos ao mesmo tempo.

De acordo com o professor C. V. Jawahar, da IIIT Hyderabad, a tecnologia irá auxiliar na produção de conteúdos em vários idiomas, através de um modelo de tradução mais preciso que o Google Tradutor. Segundo o pesquisador, existem vídeos criados pela MIT e outras instituições que são inacessíveis a um grande público indiano, simplesmente porque eles não conseguem compreender o(s) sotaque(s) da Índia.

O grande diferencial dessa tecnologia é a capacidade traduzir textos de vários idiomas, no exemplo acima sendo do Inglês para o Hindi, oferecendo uma alternativa internacional para a dublagem cinematográfica. Não é a primeira vez que uma tecnologia é feita com o intuito de afetar um dos maiores setores do entretenimento, visto que em 2018 a Tencent apresentou seu projeto de inserir propagandas em filmes e séries.

Segundo a Cisco, em 2020, 80% do conteúdo consumido será em vídeo

Em pesquisa feita em 2016, a Cisco, empresa estadunidense líder mundial em TI e sistemas de rede, foi feita uma estimativa de que o consumo de conteúdo em 2020 seria 80% em vídeo, fazendo com que seja um dos anos de maior impacto no formato. Nesse momento, a aplicação da tecnologia pode se tornar uma das principais preocupações do Facebook durante as eleições do EUA em 2020, por exemplo.

Na plataforma do AAA Inovação, em agosto de 2019, Ricardo Amorim avisou profissionais AAA sobre a criação da tecnologia deepfake, através da notícia sobre a Samsung, que havia criado um software capaz de produzir vídeos falsos (e realistas) com uma única foto de perfil do Facebook:

Os membros do AAA Inovação estão sempre informados sobre as novidades de inovação, tecnologia e negócios da índia, Brasil e do mundo, através da plataforma de vídeos com vídeos exclusivos enviados todos os dias, através de assinatura mensal ou anual:

A iniciativa do grupo de pesquisadores da Índia oferece uma nova utilização da tecnologia em volta do deepfake, sendo capaz de trazer benefícios para o mercado cinematográfico, ao invés de ser utilizada para prejudicar celebridades e autoridades políticas.