Dúvida Tokenização | IA Expert Academy

Tagged: Tokenização de Sentenças (aula 7) - Algoritmo baseado em frequência

This topic has 5 replies, 3 voices, and was last updated 2 years, 2 months ago by Jones Granatyr.

Viewing 6 posts - 1 through 6 (of 6 total)

Author

Posts
10 de maio de 2021 at 21:37 #28847
Flávio Henrique de Oliveira
Participant
Seria possível tokenizar uma publicação separando as sentenças por virgula e não ponto?

https://i.ibb.co/c1xJWDb/Publica-o.png

Estou utilizando dados públicos e me deparei com esse problema, o arquivo não tem “ponto” para separa as sentenças,

somente virgulas, como eu poderia fazer um resumo dela, utilizando as mesmas técnicas das aulas?

Grato desde já!
10 de maio de 2021 at 22:56 #28848
Fábio Spak
Participant
Olá Flávio, na sequência da vídeo aula é utilizado o sent_tokenize, chegou a fazer um teste?

Fabio
11 de maio de 2021 at 21:43 #28871
Flávio Henrique de Oliveira
Participant
Olá Fábio, desde já obrigado por ter respondido.

O teste foi feito sim, porem como falado anteriormente, o texto não possui “ponto final”, somente “virgulas”.

Quando eu tento tokenizar por sentenças o texto por inteiro aparentemente fica como uma sentença somente (Eu presumo).

O que causa resultados diferentes do conteúdo da aula. Tentei testar com algo real para ver como ficaria, um resumo de uma publicação jurídica.

Alguma sugestão do que posso estar fazendo de errado?

Grato!
- This reply was modified 5 years, 2 months ago by Flávio Henrique de Oliveira.
- This reply was modified 5 years, 2 months ago by Flávio Henrique de Oliveira.
11 de maio de 2021 at 22:05 #28874
Fábio Spak
Participant
Olá Flávio, você pode tentar substituir as vírgulas por ponto e em seguida realizar a tokenização. Veja nesse link como fazer isso nesse link. Adicionalmente, encontrei essa página do NLTK com diversos recursos relacionados a essa etapa.

Fabio
11 de maio de 2021 at 22:23 #28875
Flávio Henrique de Oliveira
Participant
Muito obrigado Fábio.
13 de maio de 2024 at 10:06 #44803
Jones Granatyr
Keymaster
Qualquer outra dúvida é só avisar!
Author

Posts