Como posso pré-processar texto NLP no spacy

Home Fóruns Fórum Processamento de Linguagem Natural com spaCy e Python Como posso pré-processar texto NLP no spacy

Visualizando 2 posts - 1 até 2 (de 2 do total)
  • Autor
    Posts
  • #34515
    Shin
    Participante

    Gostaria de transformar as letras em minúsculas, remover caracteres especiais, remover números de todas as frases em uma determinada coluna. Como faço isso no spacy?

    #34530
    Denny Ceccon
    Moderador

    Olá Shin,

    Você nem precisa do spacy, pode fazer uma função como a seguir:

    def clean_text(text):
        text = text.lower()
        words = text.split()
        keep = ['.', ',', '!', '?'] # supondo que quer manter alguma pontuação
        clean_words = []
        for word in words:
            clean_word = ''.join([c for c in word if c.isalpha() or c in keep]) # isalpha retorna True se o caractere for alfabético
            if clean_word is not '': # algumas palavras vão estar vazias, podemos ignorá-las
                clean_words.append(clean_word)
        return ' '.join(clean_words)

    Exemplo:

    clean_text('Olá, bom dia @Shin! Você tem 1 minuto?')
    # olá, bom dia shin! você tem minuto?
    • Esta resposta foi modificada 1 ano, 11 meses atrás por Denny Ceccon.
Visualizando 2 posts - 1 até 2 (de 2 do total)
  • Você deve fazer login para responder a este tópico.