Home › Forums › Fórum Reconhecimento de Textos com OCR e Python › Extrair textos em arquivos no formato pdf
- This topic has 3 replies, 3 voices, and was last updated 10 months, 3 weeks ago by Gabriel Alves. 
- AuthorPosts
- 16 de fevereiro de 2022 at 15:29 #33130Professor Jones, No curso Reconhecimento de Textos com OCR e Python, os exemplos envolvem a detecção de textos em imagens com arquivos em formato .jpg, .png etc. E no caso de arquivos em formato .pdf, como devemos fazer para extrair o texto das diversas páginas e consolidar tudo em um documento único com o conteúdo de todas essas páginas? Muito obrigado pela ajuda. Um abraço. 22 de fevereiro de 2022 at 08:06 #33495Olá Wagner! Para fazer o OCR direto em um arquivo PDF usando o Tesseract é um pouco mais diferente, mas você pode fazer assim: https://www.geeksforgeeks.org/python-reading-contents-of-pdf-using-ocr-optical-character-recognition/ Também da para fazer conforme mostra esse código aqui: https://colab.research.google.com/github/ravi-annaswamy/tamil-ebook-recipes/blob/master/OCR_Tamil_PDFs_using_Tesseract.ipynb Como alternativa, você pode também fazer antes a conversão do PDF para um arquivo de imagem .jpg ou .png e depois criar um loop para percorrer todas essas fotos (após a conversão, seria 1 arquivo de imagem para cada página do seu PDF). E por fim bastaria agrupar todo esse conteúdo extraído em um documento único (da para fazer fácil isso através das funções usadas para escrever o texto em um documento). 4 de dezembro de 2024 at 12:23 #46804Prof Jones, Teria como apresentar um exemplo de leitura de um documento de RG? Vi que nas imagens até tem uma, mas não encontrei um exemplo prático da leitura. Obrigado. 6 de dezembro de 2024 at 10:31 #46810Olá José! Respondi lá no outro tópico que criou, mas já que perguntou neste tópico deixo a resposta aqui também: Para fazer a leitura de um RG ou outro documento o segredo está em incorporar as técnicas de pré-processamento de imagem para que possa extrair o textos nas regiões específicas nesse documento, focando em antes extrair as localizações desses textos (regiões de interesse). Se desejar, pode antes fazer o teste com detectores de texto como o EAST para detectar as regiões onde os textos estão localizados, ou também testar com o EasyOCR (que já faz a detecção+reconhecimento). Em um dos projetos do curso é mostrado como fazer o scan de documentos, o que funciona para o caso desse tipo de documento também. Como adicional, você precisa apenas incorporar outras técnicas de pré-processamento de imagem para que possa extrair o textos nas regiões específicas nesse documento. A minha recomendação mesmo é seguir a lógica mostrada nesse artigo aqui, que explica exatamente uma maneira de como você pode criar um programa para ler melhor os campos de documentos (além disso, é disponibilizado o código fonte completo). Nesse exemplo do artigo ele usa uma CNH mas pode ser adaptado para RG pois o princípio é o mesmo, apenas alguns nomes e localizações de campos que mudam. 
- AuthorPosts
- You must be logged in to reply to this topic.