- This topic has 1 reply, 2 voices, and was last updated 2 years, 11 months ago by .
Viewing 2 posts - 1 through 2 (of 2 total)
Viewing 2 posts - 1 through 2 (of 2 total)
- You must be logged in to reply to this topic.
Home › Forums › Fórum Processamento de Linguagem Natural com spaCy e Python › Como posso pré-processar texto NLP no spacy
Tagged: Marcação POS (part-of-speech)
Gostaria de transformar as letras em minúsculas, remover caracteres especiais, remover números de todas as frases em uma determinada coluna. Como faço isso no spacy?
Olá Shin,
Você nem precisa do spacy, pode fazer uma função como a seguir:
def clean_text(text): text = text.lower() words = text.split() keep = ['.', ',', '!', '?'] # supondo que quer manter alguma pontuação clean_words = [] for word in words: clean_word = ''.join([c for c in word if c.isalpha() or c in keep]) # isalpha retorna True se o caractere for alfabético if clean_word is not '': # algumas palavras vão estar vazias, podemos ignorá-las clean_words.append(clean_word) return ' '.join(clean_words)
Exemplo:
clean_text('Olá, bom dia @Shin! Você tem 1 minuto?') # olá, bom dia shin! você tem minuto?