Tokenização de nomes próprios compostos | IA Expert Academy

Tagged: Extração das palavras de todas as frases (Pré-processamento dos textos)

This topic has 1 reply, 2 voices, and was last updated 3 years, 2 months ago by Fábio Spak.

Viewing 2 posts - 1 through 2 (of 2 total)

Author

Posts
12 de maio de 2023 at 10:49 #40464
João Alexandre Bonin de Mello
Participant
Bom dia

Estou tentando tokenizar um texto que possui nomes próprios e preciso de uma biblioteca que faça isso para a língua portuguesa:

Por exemplo: “José da Silva e João de Souza nasceram no Rio de Janeiro”, após tokenizado deveria ficar assim:

‘José da Silva’, ‘e’, ‘João de Souza’ , ‘nasceram’, ‘no’, ‘Rio de Janeiro’
15 de maio de 2023 at 09:05 #40469
Fábio Spak
Participant
Olá João, uma opção é usar a biblioteca SpaCy, que possui suporte para a língua portuguesa e inclui um modelo treinado para reconhecer entidades nomeadas, como nomes próprios. Veja um exemplo abaixo:
```
!python -m spacy download pt_core_news_sm

import spacy

nlp = spacy.load('pt_core_news_sm')

texto = "José da Silva e João de Souza nasceram no Rio de Janeiro"

# Tokenização e reconhecimento de entidades nomeadas
doc = nlp(texto)

# Obtendo os tokens e suas classes gramaticais
tokens = [token.text for token in doc]

print(tokens)

entidades = [ent.text for ent in doc.ents]

print(entidades)
```
Author

Posts

Viewing 2 posts - 1 through 2 (of 2 total)

You must be logged in to reply to this topic.