Transformers em PLN (parte 2 de 2): estrutura e funcionamento da rede

Neste artigo apresento como o conceito de atenção é implementado na estrutura do transformer, quais são as principais etapas que envolvem uma tarefa do tipo seq2seq nessa estrutura, e por que os transformers têm desbancado mesmo as versões mais recentes de RNNs.