Tokenização de nomes próprios compostos

Home Fóruns Fórum Mineração de Emoção em Textos com Python e NLTK Tokenização de nomes próprios compostos

Visualizando 2 posts - 1 até 2 (de 2 do total)
  • Autor
    Posts
  • #40464

    Bom dia

    Estou tentando tokenizar um texto que possui nomes próprios e preciso de uma biblioteca que faça isso para a língua portuguesa:

    Por exemplo: “José da Silva e João de Souza nasceram no Rio de Janeiro”, após tokenizado deveria ficar assim:

    ‘José da Silva’, ‘e’, ‘João de Souza’ , ‘nasceram’,  ‘no’,  ‘Rio de Janeiro’

    #40469
    Fábio Spak
    Participante

      Olá João, uma opção é usar a biblioteca SpaCy, que possui suporte para a língua portuguesa e inclui um modelo treinado para reconhecer entidades nomeadas, como nomes próprios. Veja um exemplo abaixo:

      !python -m spacy download pt_core_news_sm
      
      import spacy
      
      nlp = spacy.load('pt_core_news_sm')
      
      texto = "José da Silva e João de Souza nasceram no Rio de Janeiro"
      
      # Tokenização e reconhecimento de entidades nomeadas
      doc = nlp(texto)
      
      # Obtendo os tokens e suas classes gramaticais
      tokens = [token.text for token in doc]
      
      print(tokens)
      
      entidades = [ent.text for ent in doc.ents]
      
      print(entidades)
    Visualizando 2 posts - 1 até 2 (de 2 do total)
    • Você deve fazer login para responder a este tópico.