Could not initialize tesseract.

Home Fóruns Fórum Reconhecimento de Textos com OCR e Python Could not initialize tesseract.

Visualizando 6 posts - 1 até 6 (de 6 do total)
  • Autor
    Posts
  • #30056
    Daniel Fernandes
    Participante

      Tentando realizar a ANPR em maquina local(W10), tive problema ao instalar o TesseractOCR.

      Ele é instalado aparentemente, adicionei o OCR ao path do sistema.

      Ele solicita que a pasta ‘tessdata’ seja colocada no ambiente como ‘TESSDATA_PREFIX’, porém, ao fazer isso, continua com o erro.

      Quanto ao codigo, é o mesmo codigo que está no colab.

      config_tesseract = "--tessdata-dir tessdata --psm 6"
      
      texto = pytesseract.image_to_string(placa, lang="por", config=config_tesseract)

      Obs.: O erro só ocorre se colocar a config como parametro do ‘image_to_string’

       

      Erro:Erro

       

      Variaveis de ambiente:

      Além dessa, o TesseractOCR também está no path

      Var env

      #30074
      Gabriel Alves
      Moderador

        Olá Daniel!

        O arquivo “por.traineddata” (e outros, caso esteja usando também outros idiomas) se encontram dentro desse diretório “tessdata“?

        Aliás, você mencionou que isso ocorre quando usa a função image_to_string, se usar a image_to_data funciona normal sem erros?

        Verifique também, se ao remover o “–tessdata-dir tessdata” do “config_tesseract” roda sem erros.

        #30097
        Daniel Fernandes
        Participante

          Olá

          Sim, o arquivo estava em “tessdata“.

          “image_to_data” da erro também.

          Removendo “–tessdata-dir tessdata” ele funciona normal.

           

          Uma dúvida, o que eu perco removendo “–tessdata-dir tessdata“?

           

          Versão dos packages, caso te ajudem a entender a incompatibilidade:

          pytesseract: 0.3.8
          
          tesseract-ocr: 4.1.0 de 2019-03-14 12:31
          #30153
          Gabriel Alves
          Moderador

            Olá, esse “–tessdata-dir tessdata“ é para indicar ao Tesseract que queremos usar os pacotes de linguagem que estão localizados na pasta “tessdata”. Durante o curso usamos esse método pois achamos melhor gerenciar os arquivos através desse diretório, pois além de funcionar melhor oferece mais controle. Mas na verdade é opcional, se você já fez a instalação do Tesseract pelo método tradicional então não é necessário indicar esse parâmetro, ao invés disso você pode instalar os pacotes das linguagens para OCR usando o comando !apt-get install tesseract-ocr-[codigo da linguagem]

            no caso para instalar o pacote para português ficaria !apt-get install tesseract-ocr-por

            (e pode usar !tesseract –list-langs para listar todos os pacotes instalados)

             

            #30154
            Daniel Fernandes
            Participante

              Entendi, muito obrigado pela atenção.

              #31669

              Eu gostaria de usar o config_tesseract, tem algo que possa fazer? estou com o mesmo erro

            Visualizando 6 posts - 1 até 6 (de 6 do total)
            • Você deve fazer login para responder a este tópico.