Extrair textos em arquivos no formato pdf

Tagged: OCR com Tesseract - Primeiro reconhecimento de texto

This topic has 3 replies, 3 voices, and was last updated 1 year, 7 months ago by Gabriel Alves.

Viewing 4 posts - 1 through 4 (of 4 total)

Author

Posts
16 de fevereiro de 2022 at 15:29 #33130
wagner_lima
Participant
Professor Jones,

No curso Reconhecimento de Textos com OCR e Python, os exemplos envolvem a detecção de textos em imagens com arquivos em formato .jpg, .png etc. E no caso de arquivos em formato .pdf, como devemos fazer para extrair o texto das diversas páginas e consolidar tudo em um documento único com o conteúdo de todas essas páginas?

Muito obrigado pela ajuda.

Um abraço.
22 de fevereiro de 2022 at 08:06 #33495
Gabriel Alves
Keymaster
Olá Wagner!

Para fazer o OCR direto em um arquivo PDF usando o Tesseract é um pouco mais diferente, mas você pode fazer assim: https://www.geeksforgeeks.org/python-reading-contents-of-pdf-using-ocr-optical-character-recognition/

Também da para fazer conforme mostra esse código aqui: https://colab.research.google.com/github/ravi-annaswamy/tamil-ebook-recipes/blob/master/OCR_Tamil_PDFs_using_Tesseract.ipynb

Como alternativa, você pode também fazer antes a conversão do PDF para um arquivo de imagem .jpg ou .png e depois criar um loop para percorrer todas essas fotos (após a conversão, seria 1 arquivo de imagem para cada página do seu PDF). E por fim bastaria agrupar todo esse conteúdo extraído em um documento único (da para fazer fácil isso através das funções usadas para escrever o texto em um documento).
4 de dezembro de 2024 at 12:23 #46804
José Henrique de Carvalho
Participant
Prof Jones,

Teria como apresentar um exemplo de leitura de um documento de RG? Vi que nas imagens até tem uma, mas não encontrei um exemplo prático da leitura.

Obrigado.
6 de dezembro de 2024 at 10:31 #46810
Gabriel Alves
Keymaster
Olá José! Respondi lá no outro tópico que criou, mas já que perguntou neste tópico deixo a resposta aqui também:

Para fazer a leitura de um RG ou outro documento o segredo está em incorporar as técnicas de pré-processamento de imagem para que possa extrair o textos nas regiões específicas nesse documento, focando em antes extrair as localizações desses textos (regiões de interesse). Se desejar, pode antes fazer o teste com detectores de texto como o EAST para detectar as regiões onde os textos estão localizados, ou também testar com o EasyOCR (que já faz a detecção+reconhecimento).

Em um dos projetos do curso é mostrado como fazer o scan de documentos, o que funciona para o caso desse tipo de documento também. Como adicional, você precisa apenas incorporar outras técnicas de pré-processamento de imagem para que possa extrair o textos nas regiões específicas nesse documento.

A minha recomendação mesmo é seguir a lógica mostrada nesse artigo aqui, que explica exatamente uma maneira de como você pode criar um programa para ler melhor os campos de documentos (além disso, é disponibilizado o código fonte completo). Nesse exemplo do artigo ele usa uma CNH mas pode ser adaptado para RG pois o princípio é o mesmo, apenas alguns nomes e localizações de campos que mudam.
Author

Posts

Viewing 4 posts - 1 through 4 (of 4 total)

You must be logged in to reply to this topic.