IA da Nvidia produz videoconferências de alta qualidade com baixo tráfego de dados

A Nvidia se tornou famosa por fabricar processadores gráficos para jogos, mas a capacidade destes processadores realizarem cálculos computacionais em paralelo logo fez com que a empresa dedicasse boa parte de seu trabalho para o desenvolvimento de chips e processos relacionados ao treinamento de redes neurais. Neste mês, eles anunciaram um novo software chamado Maxine, que é capaz de gerar vídeos com alta resolução a partir de streamings muito mais leves transmitidos pela internet. A intenção do projeto é diminuir a quantidade de informação trafegando pela rede para a realização de chamadas por vídeo, que se tornaram extremamente populares desde o início da pandemia do novo coronavírus.

A empresa divulgou que o Maxine funciona usando pontos chave da imagem original, capturada pela câmera de origem, denotando a posição de alguns atributos importantes do rosto. São apenas estes pontos que são transmitidos, o que diminui a taxa de transferência por um fator de 10. No computador de destino, o software usa estes pontos e uma única imagem em alta resolução da pessoa, transmitida no início da chamada, para recriar seus movimentos. Isto é possível graças ao uso de uma rede neural generativa condicionada, que foi treinada para transferir movimentos de um vídeo para outra imagem estática. Como o treinamento é independente da pessoa analisada, o algoritmo pode depois ser aplicado para animar imagens de qualquer pessoa.

Instead of transmitting an image for every frame, Maxine sends keypoint data that allows the receiving computer to re-create the face using a neural network.
Na esquerda, demonstração dos pontos chave identificados e transmitidos pela internet. Na direita, a reconstrução do rosto na mesma posição no dispositivo de destino. Créditos: Nvidia.

Não foram fornecidos muitos detalhes sobre o funcionado do algoritmo, mas a Nvidia disse que este trabalho é uma extensão de um artigo publicado em 2019, que tratou exatamente da transferência de movimentos faciais do vídeo de uma pessoa para a imagem estática de outra. A maior diferença para o modelo atual é a utilização dos pontos chave ao invés de um vídeo para gerar os movimentos na imagem estática.

Além de permitir a realização de chamadas com alta resolução, a técnica ainda permite fazer pequenas edições no vídeo, como reorientar a direção dos olhos (para a direção da câmera, por exemplo), a posição da cabeça, ou até substituir a pessoa por um avatar animado.

O Nvidia Maxine não está sendo lançado como um produto comercial, mas sim como um kit de desenvolvimento para empresas de videoconferência. Uma das razões é que o computador de destino deve ter um processador gráfico potente parar gerar as imagens sem latência. Por enquanto, empresas interessadas podem, por exemplo, processar as imagens na nuvem com finalidades diversas, diminuindo parte da taxa de transferência, mas conforme os hardwares pessoais vão se tornando mais robustos, logo será possível realizar toda a operação de geração no destino, aliviando drasticamente o tráfego de dados. Se a tendência de realizar videoconferências se mantiver após a pandemia, o Maxine terá vida longa.

Sobre o autor

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.