Código não identifica a palavra “begin”

Home Fóruns Fórum Reconhecimento de Textos com OCR e Python Código não identifica a palavra “begin”

Visualizando 2 posts - 1 até 2 (de 2 do total)
  • Autor
    Posts
  • #40813

    Segue em anexo as imagens. O algoritmo não conseguiu ler a palavra begin:

    #40819
    Gabriel Alves
    Moderador

      Olá Artur!

      Isso ocorre porque provavelmente em uma versão recente da biblioteca houve uma alteração pequena no algoritmo mas que foi o suficiente para influenciar no reconhecimento de algumas imagens mais “desafiadoras” (como essa, de um cenário natural). Para identificar agora a palavra BEGIN com essa imagem precisa mudar o parâmetro, deixando “psm 11” por exemplo consegue fazer o OCR do texto na caneca dessa imagem. O código fica assim então:

      config_tesseract = "--tessdata-dir tessdata --psm 11"
      resultado = pytesseract.image_to_data(rgb, config=config_tesseract, lang="por", output_type=Output.DICT)

      Nas aulas das próximas sessões verá formas melhores de reconhecer textos em cenários naturais, então nem se preocupe muito agora em ficar escolhendo o melhor parâmetro para pegar o texto usando o Tesseract. Há métodos mais eficazes nessas situações (como por exemplo, fazer a detecção do texto antes do OCR, ou usar outro algoritmo como o EasyOCR que já oferece a localização de texto embutida no comando), e lá nessas aulas vai ser explicado o porquê são melhores nesses casos.

    Visualizando 2 posts - 1 até 2 (de 2 do total)
    • Você deve fazer login para responder a este tópico.