Universidade chinesa desenvolve chip híbrido otimizado para inteligência geral artificial

Apesar do enorme avanço alcançado na área de inteligência artificial, ainda estamos muito longe do que os profissionais do meio chamam de inteligência geral artificial (AGI, sigla em inglês): a capacidade de máquinas entenderem e aprenderem qualquer tarefa intelectual que um humano pode. Um dos principais percalços nesse desenvolvimento se deve ao hardware disponível. Ainda que o software tenha evoluído para implementar soluções baseadas em sistemas biológicos – como as redes neurais -, os chips responsáveis por implementar as operações não foram desenvolvidos com essa finalidade. É comum os desenvolvedores fazerem uso de GPUs para treinar modelos, mas nem eles foram desenvolvidos especificamente para isso.

Na área de pesquisa, duas abordagens têm guiado os projetos de AGI. A primeira é baseada na neurociência, e tenta imitar o córtex cerebral, se baseando em observações de uma interação estreita entre memória e computação, uma rica dinâmica espaço-temporal, esquemas de codificação baseadas em picos de ativação dos neurônios e várias regras de aprendizagem, que são geralmente representadas como redes neurais de pico (spiking neural networks, SNN). A segunda é baseada na ciência da computação, envolvendo algoritmos explícitos a serem executados em computadores. Nesse campo, os algoritmos de redes neurais artificiais (artificial neural networks, ANN), inspirados em parte no córtex em termos de complexidade espacial, têm feito enorme progresso na realização de tarefas específicas como classificação de imagens, reconhecimento de fala e processamento de linguagem. Entretanto, essas duas abordagens têm se mostrado capacitadas apenas para resolver subproblemas em domínios específicos, onde os dados são abundantes. Para resolver problemas dinâmicos mais complexos, onde os dados podem ser incertos ou incompletos como é natural de muitos sistemas, uma nova solução deve ser pensada. Um sistema projetado para AGI deve ser capaz de oferecer suporte para quatro características principais: redes neurais vastas e complexas, capazes de representar relações espaciais, temporais e espaço-temporais; topologias de rede hierárquicas, multigranulares e multidomínio, sem que sejam limitadas a uma estrutura de rede especializada; uma ampla base de modelos, algoritmos e esquemas de codificação de informação; e cooperação entre múltiplas redes neurais especializadas, que sejam projetadas para tarefas diferentes, em processamento paralelo.

Tendo isso em consideração, um time de pesquisadores da Universidade Tsinghua, em Pequim, acaba de publicar seu trabalho onde apresenta o chip Tianjic. O novo hardware implementa estruturas físicas para otimizar o funcionamento de partes específicas do design de SNNs e ANNs, ao mesmo tempo em que fornece componentes para processar suas partes comuns. Esse design deu origem a um núcleo funcional unificado, batizado de FCore. O chip contém uma estrutura de múltiplos núcleos, ordenados em uma rede bidimensional, suportados por memória localizada espalhada para comunicação rápida e eficiente.

Comparando com uma GPU, o chip Tianjic alcançou uma eficiência energética da ordem de 10.000 vezes maior para o processamento de SNNs; seu pior desempenho, processando redes neurais convolucionais (CNNs), ainda assim foi 12 vezes mais eficiente. A estrutura híbrida do chip também foi responsável por ganhos na precisão de algoritmos, já que permite a abordagem do problema através de dois paradigmas peculiares. O potencial do chip foi demonstrado na construção de uma bicicleta autônoma, equipada com sensores de balanço, de velocidade, sonoros e visuais, e motores para se mover e fazer curvas. Fazendo uso de algoritmos versáteis como uma CNN para processamento de imagens e detecção de objetos, uma CANN (rede neural de atrator contínuo) para seguir um alvo humano, uma SNN para reconhecimento de comandos de voz, e uma MLP (rede de perceptrons multicamada) para equilíbrio e controle de direção, a bicicleta foi capaz de passar por cima de lombadas, evitar obstáculos quando necessário, realizar a detecção de objetos em tempo real, seguir um guia humano em um ambiente natural, responder a comandos de voz, perceber o ambiente visualmente para se manter na direção correta, e realizar a integração de informações multimodais para tomar decisões imediatas. Essas várias estruturas de rede foram integradas em uma máquina de estado neural (NSM), que recebe os sinais das redes individuais e proporciona sinais orientados à ação. Um protótipo da bicicleta em movimento pode ser visto no vídeo:

Trabalhos como esse podem ser o início de uma nova revolução na área ainda emergente da inteligência artificial, aproximando ainda mais as capacidades decisórias das máquinas daquelas que nós possuímos.