Home › Fóruns › Fórum Reconhecimento de Textos com OCR e Python › Extrair textos em arquivos no formato pdf
- Este tópico contém 3 respostas, 3 vozes e foi atualizado pela última vez 3 meses, 1 semana atrás por
Gabriel Alves.
- AutorPosts
- 16 de fevereiro de 2022 às 15:29 #33130
Professor Jones,
No curso Reconhecimento de Textos com OCR e Python, os exemplos envolvem a detecção de textos em imagens com arquivos em formato .jpg, .png etc. E no caso de arquivos em formato .pdf, como devemos fazer para extrair o texto das diversas páginas e consolidar tudo em um documento único com o conteúdo de todas essas páginas?
Muito obrigado pela ajuda.
Um abraço.
22 de fevereiro de 2022 às 08:06 #33495Olá Wagner!
Para fazer o OCR direto em um arquivo PDF usando o Tesseract é um pouco mais diferente, mas você pode fazer assim: https://www.geeksforgeeks.org/python-reading-contents-of-pdf-using-ocr-optical-character-recognition/
Também da para fazer conforme mostra esse código aqui: https://colab.research.google.com/github/ravi-annaswamy/tamil-ebook-recipes/blob/master/OCR_Tamil_PDFs_using_Tesseract.ipynb
Como alternativa, você pode também fazer antes a conversão do PDF para um arquivo de imagem .jpg ou .png e depois criar um loop para percorrer todas essas fotos (após a conversão, seria 1 arquivo de imagem para cada página do seu PDF). E por fim bastaria agrupar todo esse conteúdo extraído em um documento único (da para fazer fácil isso através das funções usadas para escrever o texto em um documento).
4 de dezembro de 2024 às 12:23 #46804Prof Jones,
Teria como apresentar um exemplo de leitura de um documento de RG? Vi que nas imagens até tem uma, mas não encontrei um exemplo prático da leitura.
Obrigado.
6 de dezembro de 2024 às 10:31 #46810Olá José! Respondi lá no outro tópico que criou, mas já que perguntou neste tópico deixo a resposta aqui também:
Para fazer a leitura de um RG ou outro documento o segredo está em incorporar as técnicas de pré-processamento de imagem para que possa extrair o textos nas regiões específicas nesse documento, focando em antes extrair as localizações desses textos (regiões de interesse). Se desejar, pode antes fazer o teste com detectores de texto como o EAST para detectar as regiões onde os textos estão localizados, ou também testar com o EasyOCR (que já faz a detecção+reconhecimento).
Em um dos projetos do curso é mostrado como fazer o scan de documentos, o que funciona para o caso desse tipo de documento também. Como adicional, você precisa apenas incorporar outras técnicas de pré-processamento de imagem para que possa extrair o textos nas regiões específicas nesse documento.
A minha recomendação mesmo é seguir a lógica mostrada nesse artigo aqui, que explica exatamente uma maneira de como você pode criar um programa para ler melhor os campos de documentos (além disso, é disponibilizado o código fonte completo). Nesse exemplo do artigo ele usa uma CNH mas pode ser adaptado para RG pois o princípio é o mesmo, apenas alguns nomes e localizações de campos que mudam.
- AutorPosts
- Você deve fazer login para responder a este tópico.