Tokenização de nomes próprios compostos

Home Fóruns Fórum Mineração de Emoção em Textos com Python e NLTK Tokenização de nomes próprios compostos

Visualizando 2 posts - 1 até 2 (de 2 do total)
  • Autor
    Posts
  • #40464

    Bom dia

    Estou tentando tokenizar um texto que possui nomes próprios e preciso de uma biblioteca que faça isso para a língua portuguesa:

    Por exemplo: “José da Silva e João de Souza nasceram no Rio de Janeiro”, após tokenizado deveria ficar assim:

    ‘José da Silva’, ‘e’, ‘João de Souza’ , ‘nasceram’,  ‘no’,  ‘Rio de Janeiro’

    #40469
    Fábio Spak
    Participante

    Olá João, uma opção é usar a biblioteca SpaCy, que possui suporte para a língua portuguesa e inclui um modelo treinado para reconhecer entidades nomeadas, como nomes próprios. Veja um exemplo abaixo:

    !python -m spacy download pt_core_news_sm
    
    import spacy
    
    nlp = spacy.load('pt_core_news_sm')
    
    texto = "José da Silva e João de Souza nasceram no Rio de Janeiro"
    
    # Tokenização e reconhecimento de entidades nomeadas
    doc = nlp(texto)
    
    # Obtendo os tokens e suas classes gramaticais
    tokens = [token.text for token in doc]
    
    print(tokens)
    
    entidades = [ent.text for ent in doc.ents]
    
    print(entidades)
Visualizando 2 posts - 1 até 2 (de 2 do total)
  • Você deve fazer login para responder a este tópico.