Como posso pré-processar texto NLP no spacy

Home Forums Fórum Processamento de Linguagem Natural com spaCy e Python Como posso pré-processar texto NLP no spacy

Viewing 2 posts - 1 through 2 (of 2 total)
  • Author
    Posts
  • #34515
    Shin
    Participant

      Gostaria de transformar as letras em minúsculas, remover caracteres especiais, remover números de todas as frases em uma determinada coluna. Como faço isso no spacy?

      #34530
      Denny Ceccon
      Moderator

        Olá Shin,

        Você nem precisa do spacy, pode fazer uma função como a seguir:

        def clean_text(text):
            text = text.lower()
            words = text.split()
            keep = ['.', ',', '!', '?'] # supondo que quer manter alguma pontuação
            clean_words = []
            for word in words:
                clean_word = ''.join([c for c in word if c.isalpha() or c in keep]) # isalpha retorna True se o caractere for alfabético
                if clean_word is not '': # algumas palavras vão estar vazias, podemos ignorá-las
                    clean_words.append(clean_word)
            return ' '.join(clean_words)

        Exemplo:

        clean_text('Olá, bom dia @Shin! Você tem 1 minuto?')
        # olá, bom dia shin! você tem minuto?
        • This reply was modified 2 years, 11 months ago by Denny Ceccon.
      Viewing 2 posts - 1 through 2 (of 2 total)
      • You must be logged in to reply to this topic.