Dúvida Tokenização

Visualizando 5 posts - 1 até 5 (de 5 do total)
  • Autor
    Posts
  • #28847

    Seria possível tokenizar uma publicação separando as sentenças por virgula e não ponto?

    https://i.ibb.co/c1xJWDb/Publica-o.png

    Estou utilizando dados públicos e me deparei com esse problema, o arquivo não tem “ponto” para separa as sentenças,

    somente virgulas, como eu poderia fazer um resumo dela, utilizando as mesmas técnicas das aulas?

     

    Grato desde já!

    #28848
    Fábio Spak
    Moderador

    Olá Flávio, na sequência da vídeo aula é utilizado o sent_tokenize, chegou a fazer um teste?

    Fabio

    #28871

    Olá Fábio, desde já obrigado por ter respondido.

    O teste foi feito sim, porem como falado anteriormente, o texto não possui “ponto final”, somente “virgulas”.

    Quando eu tento tokenizar por sentenças o texto por inteiro aparentemente fica como uma sentença somente (Eu presumo).

    O que causa resultados diferentes do conteúdo da aula. Tentei testar com algo real para ver como ficaria, um resumo de uma publicação jurídica.

    Alguma sugestão do que posso estar fazendo de errado?

     

    Grato!

     

    #28874
    Fábio Spak
    Moderador

    Olá Flávio, você pode tentar substituir as vírgulas por ponto e em seguida realizar a tokenização. Veja nesse link como fazer isso nesse link. Adicionalmente, encontrei essa página do NLTK com diversos recursos relacionados a essa etapa.

    Fabio

    #28875

    Muito obrigado Fábio.

Visualizando 5 posts - 1 até 5 (de 5 do total)
  • Você deve fazer login para responder a este tópico.