A grande notícia da última semana no mundo da inteligência artificial foi o lançamento do GPT-4. Além de obter melhores resultados nos principais benchmarks em comparação com a versão 3.5, esta é a primeira iteração do modelo da empresa OpenAI com capacidade multimodal, podendo receber como input tanto textos quanto imagens.
O GPT-4 é o último passo em um processo que começou há cerca de dois anos, quando a OpenAI, em parceria com a Azure da Microsoft, reconstruiu todo seu processo de deep learning, incluindo o desenvolvimento de um supercomputador feito para suas necessidades. A geração da versão 3.5 do modelo foi o primeiro teste nesse novo sistema. Para o lançamento da versão 4, os últimos 6 meses foram dedicados à tarefa de alinhar o modelo aos princípios a que a empresa adere. O resultado, segundo eles, são os melhores obtidos até agora em questão de veracidade, condução e manutenção dentro de limites de segurança.
Em questão de qualidade dos resultados, o GPT-4 é considerado mais confiável, criativo, e capaz de entender instruções muito mais sutis que sua versão anterior. Estas diferenças são mensuradas pelo seu desempenho em vários benchmarks da área de processamento de linguagem natural, mas também avaliando como ele se sai em testes desenvolvidos para humanos, como por exemplo exames de conselhos profissionais. Como exemplo, o GPT-4 ficou entre os 10% mais bem colocados em um exame da ordem, enquanto que o GPT-3.5 havia ficado entre os 10% piores colocados.
No modo multimodal, o GPT-4 é capaz de responder perguntas relacionadas às imagens que recebe, inclusive integrando seu conhecimento de mundo ao que não pode ser prontamente deduzido da imagem em si. Por exemplo, se você apresentar uma foto de uma pessoa segurando balões e perguntar o que vai acontecer caso alguém corte os cordões, o modelo responde que os balões sairão voando.
A empresa é cautelosa ao deixar claro que, apesar dos desempenhos impressionantes, o modelo ainda tem muitas limitações. Por exemplo, ainda não foi possível eliminar vieses inclusos nos dados de treinamento, nem assegurar que as respostas são verdadeiras. Entretanto, os desenvolvedores continuam trabalhando com o objetivo de assegurar que as próximas iterações serão cada vez melhores também nesses quesitos.
Por enquanto, a capacidade de processar textos do GPT-4 será colocada à disposição do público interessado através do ChatGPT e da API da empresa. O processamento de imagens ainda está sendo preparado em conjunto com um parceiro.
Toda a trajetória relacionada ao desenvolvimento desse novo marco da inteligência artificial está relatado na página oficial do projeto, onde também é possível acessar o artigo publicado, testar a ferramenta no ChatGPT e entrar na fila de espera para uso da API.
Muito Legal seu artigo professor.
Que bom que gostou 🙂