Home › Fóruns › Fórum Reconhecimento de Textos com OCR e Python › Extrair textos em arquivos no formato pdf
- Este tópico contém 1 resposta, 2 vozes e foi atualizado pela última vez 1 ano atrás por
Gabriel Alves.
- AutorPosts
- 16 de fevereiro de 2022 às 15:29 #33130
wagner_lima
ParticipanteProfessor Jones,
No curso Reconhecimento de Textos com OCR e Python, os exemplos envolvem a detecção de textos em imagens com arquivos em formato .jpg, .png etc. E no caso de arquivos em formato .pdf, como devemos fazer para extrair o texto das diversas páginas e consolidar tudo em um documento único com o conteúdo de todas essas páginas?
Muito obrigado pela ajuda.
Um abraço.
22 de fevereiro de 2022 às 08:06 #33495Gabriel Alves
MestreOlá Wagner!
Para fazer o OCR direto em um arquivo PDF usando o Tesseract é um pouco mais diferente, mas você pode fazer assim: https://www.geeksforgeeks.org/python-reading-contents-of-pdf-using-ocr-optical-character-recognition/
Também da para fazer conforme mostra esse código aqui: https://colab.research.google.com/github/ravi-annaswamy/tamil-ebook-recipes/blob/master/OCR_Tamil_PDFs_using_Tesseract.ipynb
Como alternativa, você pode também fazer antes a conversão do PDF para um arquivo de imagem .jpg ou .png e depois criar um loop para percorrer todas essas fotos (após a conversão, seria 1 arquivo de imagem para cada página do seu PDF). E por fim bastaria agrupar todo esse conteúdo extraído em um documento único (da para fazer fácil isso através das funções usadas para escrever o texto em um documento).
- AutorPosts
- Você deve fazer login para responder a este tópico.