Home › Fóruns › Fórum Mineração de Emoção em Textos com Python e NLTK › Tokenização de nomes próprios compostos › Responder a: Tokenização de nomes próprios compostos
15 de maio de 2023 às 09:05 #40469
Mestre
Olá João, uma opção é usar a biblioteca SpaCy, que possui suporte para a língua portuguesa e inclui um modelo treinado para reconhecer entidades nomeadas, como nomes próprios. Veja um exemplo abaixo:
!python -m spacy download pt_core_news_sm import spacy nlp = spacy.load('pt_core_news_sm') texto = "José da Silva e João de Souza nasceram no Rio de Janeiro" # Tokenização e reconhecimento de entidades nomeadas doc = nlp(texto) # Obtendo os tokens e suas classes gramaticais tokens = [token.text for token in doc] print(tokens) entidades = [ent.text for ent in doc.ents] print(entidades)