Extrair textos em arquivos no formato pdf

Home Fóruns Fórum Reconhecimento de Textos com OCR e Python Extrair textos em arquivos no formato pdf

Visualizando 2 posts - 1 até 2 (de 2 do total)
  • Autor
    Posts
  • #33130
    wagner_lima
    Participante

    Professor Jones,

    No curso Reconhecimento de Textos com OCR e Python, os exemplos envolvem a detecção de textos em imagens com arquivos em formato .jpg, .png etc. E no caso de arquivos em formato .pdf, como devemos fazer para extrair o texto das diversas páginas e consolidar tudo em um documento único com o conteúdo de todas essas páginas?

    Muito obrigado pela ajuda.

    Um abraço.

     

    #33495
    Gabriel Alves
    Moderador

    Olá Wagner!

    Para fazer o OCR direto em um arquivo PDF usando o Tesseract é um pouco mais diferente, mas você pode fazer assim: https://www.geeksforgeeks.org/python-reading-contents-of-pdf-using-ocr-optical-character-recognition/

    Também da para fazer conforme mostra esse código aqui: https://colab.research.google.com/github/ravi-annaswamy/tamil-ebook-recipes/blob/master/OCR_Tamil_PDFs_using_Tesseract.ipynb

    Como alternativa, você pode também fazer antes a conversão do PDF para um arquivo de imagem .jpg ou .png e depois criar um loop para percorrer todas essas fotos (após a conversão, seria 1 arquivo de imagem para cada página do seu PDF). E por fim bastaria agrupar todo esse conteúdo extraído em um documento único (da para fazer fácil isso através das funções usadas para escrever o texto em um documento).

Visualizando 2 posts - 1 até 2 (de 2 do total)
  • Você deve fazer login para responder a este tópico.