Responder a: Tokenização de nomes próprios compostos

Home Fóruns Fórum Mineração de Emoção em Textos com Python e NLTK Tokenização de nomes próprios compostos Responder a: Tokenização de nomes próprios compostos

#40469

Olá João, uma opção é usar a biblioteca SpaCy, que possui suporte para a língua portuguesa e inclui um modelo treinado para reconhecer entidades nomeadas, como nomes próprios. Veja um exemplo abaixo:

!python -m spacy download pt_core_news_sm

import spacy

nlp = spacy.load('pt_core_news_sm')

texto = "José da Silva e João de Souza nasceram no Rio de Janeiro"

# Tokenização e reconhecimento de entidades nomeadas
doc = nlp(texto)

# Obtendo os tokens e suas classes gramaticais
tokens = [token.text for token in doc]

print(tokens)

entidades = [ent.text for ent in doc.ents]

print(entidades)