SAM: Meta apresenta primeiro modelo fundacional para segmentação universal de imagens

Um dos gargalos das aplicações que dependem de visão computacional é a segmentação, definida de uma forma ampla como a rotulagem de cada pixel de uma imagem para, no final, determinar a presença e a posição de objetos. Duas abordagens principais dominaram as técnicas de segmentação até aqui. Uma delas é um processo iterativo que requer a presença de uma pessoa como guia, refinando uma máscara. A outra é um processo automático, mas que limita os resultados para classes pré-definidas, requer uma coleção grande de dados anotados manualmente e depende de requisitos computacionais pesados.

Uma grande novidade na área foi apresentada pela Meta na semana passada. SAM (Segment Anything Model, ou “modelo para segmentar qualquer coisa” em tradução livre) é uma solução que na prática, funciona como uma generalização das duas formas clássicas de segmentar imagens. Por um lado, ele é capaz de segmentar uma variedade ilimitada de objetos – mesmo objetos que ele não viu durante o treinamento. Por outro, ele possui uma interface na forma de prompts, apresentados como cliques, caixas de seleção, texto e outros, onde o usuário pode dar feedback e guiar o processo, se precisar realizar uma tarefa específica. O resultado é uma abordagem que livra os usuários de produzirem seus próprios dados de segmentação para realizar fine-tuning de um modelo que já esteja disponível. Isso confere ao SAM a flexibilidade de se ajustar rapidamente para realizar novas tarefas e analisar imagens e vídeos de outros domínios, sem a necessidade de treinamento adicional, paradigma que é chamado na área de inteligência artificial de zero-shot transfer, ou transferência sem dados.

O modelo em si é apenas parte do projeto Segment Anything, que também inclui um dataset contendo 1 bilhão de máscaras, o maior dataset da categoria segundo a Meta, que precisou ser criado para que o modelo atingisse sua performance superior. A empresa está disponibilizado o dataset para pesquisadores e o modelo para qualquer usuário interessado.

A empresa acredita que o SAM pode no futuro fazer parte de soluções em diferentes domínios. Relacionado à pesquisa em inteligência artificial, por exemplo, ele pode integrar sistemas maiores para ajudar os computadores a entender o mundo através de canais multimodais de detecção de informação. Para criadores de conteúdo, o modelo pode fazer parte de pacotes de edição de imagens. Em estudos científicos, ele pode auxiliar o acompanhamento de fenômenos naturais localizando e rastreando animais e objetos.

Maiores informações sobre o projeto, exemplos de utilização e os materiais disponíveis para consulta podem ser visualizados na postagem de apresentação no blog da Meta.

Sobre o autor

1 comentário em “SAM: Meta apresenta primeiro modelo fundacional para segmentação universal de imagens”

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.