- Este tópico contém 1 resposta, 2 vozes e foi atualizado pela última vez 2 anos, 7 meses atrás por .
Visualizando 2 posts - 1 até 2 (de 2 do total)
Visualizando 2 posts - 1 até 2 (de 2 do total)
- Você deve fazer login para responder a este tópico.
Home › Fóruns › Fórum Processamento de Linguagem Natural com spaCy e Python › Como posso pré-processar texto NLP no spacy
Marcado: Marcação POS (part-of-speech)
Gostaria de transformar as letras em minúsculas, remover caracteres especiais, remover números de todas as frases em uma determinada coluna. Como faço isso no spacy?
Olá Shin,
Você nem precisa do spacy, pode fazer uma função como a seguir:
def clean_text(text): text = text.lower() words = text.split() keep = ['.', ',', '!', '?'] # supondo que quer manter alguma pontuação clean_words = [] for word in words: clean_word = ''.join([c for c in word if c.isalpha() or c in keep]) # isalpha retorna True se o caractere for alfabético if clean_word is not '': # algumas palavras vão estar vazias, podemos ignorá-las clean_words.append(clean_word) return ' '.join(clean_words)
Exemplo:
clean_text('Olá, bom dia @Shin! Você tem 1 minuto?') # olá, bom dia shin! você tem minuto?