Como posso pré-processar texto NLP no spacy

Home Fóruns Fórum Processamento de Linguagem Natural com spaCy e Python Como posso pré-processar texto NLP no spacy

Visualizando 2 posts - 1 até 2 (de 2 do total)
  • Autor
    Posts
  • #34515
    Shin
    Participante

      Gostaria de transformar as letras em minúsculas, remover caracteres especiais, remover números de todas as frases em uma determinada coluna. Como faço isso no spacy?

      #34530
      Denny Ceccon
      Moderador

        Olá Shin,

        Você nem precisa do spacy, pode fazer uma função como a seguir:

        def clean_text(text):
            text = text.lower()
            words = text.split()
            keep = ['.', ',', '!', '?'] # supondo que quer manter alguma pontuação
            clean_words = []
            for word in words:
                clean_word = ''.join([c for c in word if c.isalpha() or c in keep]) # isalpha retorna True se o caractere for alfabético
                if clean_word is not '': # algumas palavras vão estar vazias, podemos ignorá-las
                    clean_words.append(clean_word)
            return ' '.join(clean_words)

        Exemplo:

        clean_text('Olá, bom dia @Shin! Você tem 1 minuto?')
        # olá, bom dia shin! você tem minuto?
        • Esta resposta foi modificada 1 ano, 11 meses atrás por Denny Ceccon.
      Visualizando 2 posts - 1 até 2 (de 2 do total)
      • Você deve fazer login para responder a este tópico.