Framework batizado de Early-Bird Train permite treinar redes neurais grandes com 10% do custo computacional tradicional

As redes neurais profundas têm alcançado desempenhos cada vez maiores, graças em parte à utilização de arquiteturas maiores, com mais parâmetros. Entretanto, isto também eleva o custo computacional, e com ele o consumo energético necessário para atingir precisões elevadas. Uma das formas de mitigar este impacto é o processo chamado de poda progressiva e treinamento, que propõe treinar um modelo grande por completo, “podar” os neurônios que não estão sendo relevantes para a tarefa, e então retreinar o modelo “podado” para fortificar as conexões remanescentes e assim restaurar a performance. Este processo pode ser repetido várias vezes, até que o modelo esteja de um tamanho adequado. Mas, apesar de reduzir o consumo computacional na etapa de inferência, este método pode até elevar os custos durante o treinamento, por necessitar de novas épocas nas redes podadas.

Na linha de obter modelos podados, um trabalho publicado ano passado revelou que redes densas inicializadas aleatoriamente contêm pequenas sub-redes consistentes capazes de performar tão bem quanto a rede inteira, quando treinadas separadamente. Os autores chamaram essas sub-redes de winning tickets (bilhetes premiados, tradução livre). Entretanto, num primeiro momento, esta descoberta não ajudou na economia de recursos, já que os winning tickets só poderiam ser descobertos pelo processo de poda progressiva, depois que a rede densa já tenha sido treinada.

No final de abril, na 8a. Conferência Internacional sobre Representações de Aprendizagem (International Conference on Learning Representations, ICLR), pesquisadores associados às Universidades Rice e Texas A&M, nos Estados Unidos, apresentaram um novo método preenchendo esta lacuna. Eles demonstraram que winning tickets podem ser identificados nas etapas iniciais do treinamento, que eles chamaram por isso de early-bird (EB) tickets (bilhetes antecipados, tradução livre). A emergência dos EB tickets é identificada através de uma nova métrica, chamada de mask distance (distância de máscara, tradução livre), que leva este nome porque as sub-redes geradas pelo processo de poda são versões mascaradas da rede neural inteira (onde os neurônios podados recebem valor de máscara 0, e os demais recebem valor 1). O retreinamento desses EB tickets leva a desempenhos comparáveis ou até melhores do que aqueles alcançados pelo treinamento tradicional da rede neural inteira, mas em apenas 10% do tempo. No caso da rede convolucional ResNet, treinada no dataset ImageNet, o novo método reduziu o consumo energético em até 75%, ao mesmo tempo em que melhorou a precisão em até 2,3%.

Com base neste estudo, os autores propõem um framework para treinamento chamado EB Train, encapsulando as etapas desenvolvidas para obter os benefícios relatados no trabalho, entre eles uma economia energética que pode chegar a 80%. O artigo e o código estão disponíveis para acesso público.