- This topic has 5 replies, 3 voices, and was last updated 2 years, 1 month ago by .
Viewing 6 posts - 1 through 6 (of 6 total)
Viewing 6 posts - 1 through 6 (of 6 total)
- You must be logged in to reply to this topic.
Home › Forums › Fórum Sumarização de Textos com Processamento de Linguagem Natural › Dúvida Tokenização
Seria possível tokenizar uma publicação separando as sentenças por virgula e não ponto?
https://i.ibb.co/c1xJWDb/Publica-o.png
Estou utilizando dados públicos e me deparei com esse problema, o arquivo não tem “ponto” para separa as sentenças,
somente virgulas, como eu poderia fazer um resumo dela, utilizando as mesmas técnicas das aulas?
Grato desde já!
Olá Flávio, na sequência da vídeo aula é utilizado o sent_tokenize, chegou a fazer um teste?
Fabio
Olá Fábio, desde já obrigado por ter respondido.
O teste foi feito sim, porem como falado anteriormente, o texto não possui “ponto final”, somente “virgulas”.
Quando eu tento tokenizar por sentenças o texto por inteiro aparentemente fica como uma sentença somente (Eu presumo).
O que causa resultados diferentes do conteúdo da aula. Tentei testar com algo real para ver como ficaria, um resumo de uma publicação jurídica.

Alguma sugestão do que posso estar fazendo de errado?
Grato!
Olá Flávio, você pode tentar substituir as vírgulas por ponto e em seguida realizar a tokenização. Veja nesse link como fazer isso nesse link. Adicionalmente, encontrei essa página do NLTK com diversos recursos relacionados a essa etapa.
Fabio
Muito obrigado Fábio.
Qualquer outra dúvida é só avisar!