Pré-processamento dos textos – remoção das tags HTML