Could not initialize tesseract.

Home Fóruns Fórum Reconhecimento de Textos com OCR e Python Could not initialize tesseract.

Visualizando 6 posts - 1 até 6 (de 6 do total)
  • Autor
    Posts
  • #30056
    Daniel Fernandes
    Participante

    Tentando realizar a ANPR em maquina local(W10), tive problema ao instalar o TesseractOCR.

    Ele é instalado aparentemente, adicionei o OCR ao path do sistema.

    Ele solicita que a pasta ‘tessdata’ seja colocada no ambiente como ‘TESSDATA_PREFIX’, porém, ao fazer isso, continua com o erro.

    Quanto ao codigo, é o mesmo codigo que está no colab.

    config_tesseract = "--tessdata-dir tessdata --psm 6"
    
    texto = pytesseract.image_to_string(placa, lang="por", config=config_tesseract)

    Obs.: O erro só ocorre se colocar a config como parametro do ‘image_to_string’

     

    Erro:Erro

     

    Variaveis de ambiente:

    Além dessa, o TesseractOCR também está no path

    Var env

    #30074

    Olá Daniel!

    O arquivo “por.traineddata” (e outros, caso esteja usando também outros idiomas) se encontram dentro desse diretório “tessdata“?

    Aliás, você mencionou que isso ocorre quando usa a função image_to_string, se usar a image_to_data funciona normal sem erros?

    Verifique também, se ao remover o “–tessdata-dir tessdata” do “config_tesseract” roda sem erros.

    #30097
    Daniel Fernandes
    Participante

    Olá

    Sim, o arquivo estava em “tessdata“.

    “image_to_data” da erro também.

    Removendo “–tessdata-dir tessdata” ele funciona normal.

     

    Uma dúvida, o que eu perco removendo “–tessdata-dir tessdata“?

     

    Versão dos packages, caso te ajudem a entender a incompatibilidade:

    pytesseract: 0.3.8
    
    tesseract-ocr: 4.1.0 de 2019-03-14 12:31
    #30153

    Olá, esse “–tessdata-dir tessdata“ é para indicar ao Tesseract que queremos usar os pacotes de linguagem que estão localizados na pasta “tessdata”. Durante o curso usamos esse método pois achamos melhor gerenciar os arquivos através desse diretório, pois além de funcionar melhor oferece mais controle. Mas na verdade é opcional, se você já fez a instalação do Tesseract pelo método tradicional então não é necessário indicar esse parâmetro, ao invés disso você pode instalar os pacotes das linguagens para OCR usando o comando !apt-get install tesseract-ocr-[codigo da linguagem]

    no caso para instalar o pacote para português ficaria !apt-get install tesseract-ocr-por

    (e pode usar !tesseract –list-langs para listar todos os pacotes instalados)

     

    #30154
    Daniel Fernandes
    Participante

    Entendi, muito obrigado pela atenção.

    #31669

    Eu gostaria de usar o config_tesseract, tem algo que possa fazer? estou com o mesmo erro

Visualizando 6 posts - 1 até 6 (de 6 do total)
  • Você deve fazer login para responder a este tópico.