- This topic has 1 reply, 2 voices, and was last updated 3 years ago by .
Viewing 2 posts - 1 through 2 (of 2 total)
Viewing 2 posts - 1 through 2 (of 2 total)
- You must be logged in to reply to this topic.
Home › Forums › Fórum Mineração de Emoção em Textos com Python e NLTK › Tokenização de nomes próprios compostos
Bom dia
Estou tentando tokenizar um texto que possui nomes próprios e preciso de uma biblioteca que faça isso para a língua portuguesa:
Por exemplo: “José da Silva e João de Souza nasceram no Rio de Janeiro”, após tokenizado deveria ficar assim:
‘José da Silva’, ‘e’, ‘João de Souza’ , ‘nasceram’, ‘no’, ‘Rio de Janeiro’
Olá João, uma opção é usar a biblioteca SpaCy, que possui suporte para a língua portuguesa e inclui um modelo treinado para reconhecer entidades nomeadas, como nomes próprios. Veja um exemplo abaixo:
!python -m spacy download pt_core_news_sm
import spacy
nlp = spacy.load('pt_core_news_sm')
texto = "José da Silva e João de Souza nasceram no Rio de Janeiro"
# Tokenização e reconhecimento de entidades nomeadas
doc = nlp(texto)
# Obtendo os tokens e suas classes gramaticais
tokens = [token.text for token in doc]
print(tokens)
entidades = [ent.text for ent in doc.ents]
print(entidades)