- Este tópico contém 1 resposta, 2 vozes e foi atualizado pela última vez 1 ano, 6 meses atrás por .
Visualizando 2 posts - 1 até 2 (de 2 do total)
Visualizando 2 posts - 1 até 2 (de 2 do total)
- Você deve fazer login para responder a este tópico.
Home › Fóruns › Fórum Mineração de Emoção em Textos com Python e NLTK › Tokenização de nomes próprios compostos
Bom dia
Estou tentando tokenizar um texto que possui nomes próprios e preciso de uma biblioteca que faça isso para a língua portuguesa:
Por exemplo: “José da Silva e João de Souza nasceram no Rio de Janeiro”, após tokenizado deveria ficar assim:
‘José da Silva’, ‘e’, ‘João de Souza’ , ‘nasceram’, ‘no’, ‘Rio de Janeiro’
Olá João, uma opção é usar a biblioteca SpaCy, que possui suporte para a língua portuguesa e inclui um modelo treinado para reconhecer entidades nomeadas, como nomes próprios. Veja um exemplo abaixo:
!python -m spacy download pt_core_news_sm import spacy nlp = spacy.load('pt_core_news_sm') texto = "José da Silva e João de Souza nasceram no Rio de Janeiro" # Tokenização e reconhecimento de entidades nomeadas doc = nlp(texto) # Obtendo os tokens e suas classes gramaticais tokens = [token.text for token in doc] print(tokens) entidades = [ent.text for ent in doc.ents] print(entidades)