Home › Fóruns › Fórum Reconhecimento de Textos com OCR e Python › Could not initialize tesseract.
- Este tópico contém 5 respostas, 3 vozes e foi atualizado pela última vez 1 ano, 8 meses atrás por
Nycole dos Santos Xavier.
- AutorPosts
- 14 de agosto de 2021 às 15:19 #30056
Daniel Fernandes
ParticipanteTentando realizar a ANPR em maquina local(W10), tive problema ao instalar o TesseractOCR.
Ele é instalado aparentemente, adicionei o OCR ao path do sistema.
Ele solicita que a pasta ‘tessdata’ seja colocada no ambiente como ‘TESSDATA_PREFIX’, porém, ao fazer isso, continua com o erro.
Quanto ao codigo, é o mesmo codigo que está no colab.
config_tesseract = "--tessdata-dir tessdata --psm 6" texto = pytesseract.image_to_string(placa, lang="por", config=config_tesseract)
Obs.: O erro só ocorre se colocar a config como parametro do ‘image_to_string’
Erro:
Variaveis de ambiente:
Além dessa, o TesseractOCR também está no path
14 de agosto de 2021 às 15:36 #30074Gabriel Alves
MestreOlá Daniel!
O arquivo “por.traineddata” (e outros, caso esteja usando também outros idiomas) se encontram dentro desse diretório “tessdata“?
Aliás, você mencionou que isso ocorre quando usa a função image_to_string, se usar a image_to_data funciona normal sem erros?
Verifique também, se ao remover o “–tessdata-dir tessdata” do “config_tesseract” roda sem erros.
15 de agosto de 2021 às 11:28 #30097Daniel Fernandes
ParticipanteOlá
Sim, o arquivo estava em “tessdata“.
“image_to_data” da erro também.
Removendo “–tessdata-dir tessdata” ele funciona normal.
Uma dúvida, o que eu perco removendo “–tessdata-dir tessdata“?
Versão dos packages, caso te ajudem a entender a incompatibilidade:
pytesseract: 0.3.8 tesseract-ocr: 4.1.0 de 2019-03-14 12:31
22 de agosto de 2021 às 12:40 #30153Gabriel Alves
MestreOlá, esse “–tessdata-dir tessdata“ é para indicar ao Tesseract que queremos usar os pacotes de linguagem que estão localizados na pasta “tessdata”. Durante o curso usamos esse método pois achamos melhor gerenciar os arquivos através desse diretório, pois além de funcionar melhor oferece mais controle. Mas na verdade é opcional, se você já fez a instalação do Tesseract pelo método tradicional então não é necessário indicar esse parâmetro, ao invés disso você pode instalar os pacotes das linguagens para OCR usando o comando !apt-get install tesseract-ocr-[codigo da linguagem]
no caso para instalar o pacote para português ficaria !apt-get install tesseract-ocr-por
(e pode usar !tesseract –list-langs para listar todos os pacotes instalados)
22 de agosto de 2021 às 12:42 #30154Daniel Fernandes
ParticipanteEntendi, muito obrigado pela atenção.
8 de outubro de 2021 às 08:58 #31669Nycole dos Santos Xavier
ParticipanteEu gostaria de usar o config_tesseract, tem algo que possa fazer? estou com o mesmo erro
- AutorPosts
- Você deve fazer login para responder a este tópico.