Responder a: Tokenização de nomes próprios compostos

Home Fóruns Fórum Mineração de Emoção em Textos com Python e NLTK Tokenização de nomes próprios compostos Responder a: Tokenização de nomes próprios compostos

#40469
Fábio Spak
Participante

    Olá João, uma opção é usar a biblioteca SpaCy, que possui suporte para a língua portuguesa e inclui um modelo treinado para reconhecer entidades nomeadas, como nomes próprios. Veja um exemplo abaixo:

    !python -m spacy download pt_core_news_sm
    
    import spacy
    
    nlp = spacy.load('pt_core_news_sm')
    
    texto = "José da Silva e João de Souza nasceram no Rio de Janeiro"
    
    # Tokenização e reconhecimento de entidades nomeadas
    doc = nlp(texto)
    
    # Obtendo os tokens e suas classes gramaticais
    tokens = [token.text for token in doc]
    
    print(tokens)
    
    entidades = [ent.text for ent in doc.ents]
    
    print(entidades)