Home › Fóruns › Fórum Sumarização de Textos com Processamento de Linguagem Natural › Dúvida Tokenização
- Este tópico contém 5 respostas, 3 vozes e foi atualizado pela última vez 4 meses, 3 semanas atrás por Jones Granatyr.
- AutorPosts
- 10 de maio de 2021 às 21:37 #28847
Seria possível tokenizar uma publicação separando as sentenças por virgula e não ponto?
https://i.ibb.co/c1xJWDb/Publica-o.png
Estou utilizando dados públicos e me deparei com esse problema, o arquivo não tem “ponto” para separa as sentenças,
somente virgulas, como eu poderia fazer um resumo dela, utilizando as mesmas técnicas das aulas?
Grato desde já!
10 de maio de 2021 às 22:56 #28848Olá Flávio, na sequência da vídeo aula é utilizado o sent_tokenize, chegou a fazer um teste?
Fabio
11 de maio de 2021 às 21:43 #28871Olá Fábio, desde já obrigado por ter respondido.
O teste foi feito sim, porem como falado anteriormente, o texto não possui “ponto final”, somente “virgulas”.
Quando eu tento tokenizar por sentenças o texto por inteiro aparentemente fica como uma sentença somente (Eu presumo).
O que causa resultados diferentes do conteúdo da aula. Tentei testar com algo real para ver como ficaria, um resumo de uma publicação jurídica.
Alguma sugestão do que posso estar fazendo de errado?
Grato!
- Esta resposta foi modificada 3 anos, 4 meses atrás por Flávio Henrique de Oliveira.
- Esta resposta foi modificada 3 anos, 4 meses atrás por Flávio Henrique de Oliveira.
11 de maio de 2021 às 22:05 #28874Olá Flávio, você pode tentar substituir as vírgulas por ponto e em seguida realizar a tokenização. Veja nesse link como fazer isso nesse link. Adicionalmente, encontrei essa página do NLTK com diversos recursos relacionados a essa etapa.
Fabio
11 de maio de 2021 às 22:23 #28875Muito obrigado Fábio.
13 de maio de 2024 às 10:06 #44803Qualquer outra dúvida é só avisar!
- AutorPosts
- Você deve fazer login para responder a este tópico.