Home › Forums › Fórum Reconhecimento de Textos com OCR e Python › Could not initialize tesseract.
- This topic has 6 replies, 3 voices, and was last updated 1 year, 5 months ago by Gabriel Alves. 
- AuthorPosts
- 14 de agosto de 2021 at 15:19 #30056Tentando realizar a ANPR em maquina local(W10), tive problema ao instalar o TesseractOCR. Ele é instalado aparentemente, adicionei o OCR ao path do sistema. Ele solicita que a pasta ‘tessdata’ seja colocada no ambiente como ‘TESSDATA_PREFIX’, porém, ao fazer isso, continua com o erro. Quanto ao codigo, é o mesmo codigo que está no colab. config_tesseract = "--tessdata-dir tessdata --psm 6" texto = pytesseract.image_to_string(placa, lang="por", config=config_tesseract) Obs.: O erro só ocorre se colocar a config como parametro do ‘image_to_string’ Erro: Variaveis de ambiente: Além dessa, o TesseractOCR também está no path 14 de agosto de 2021 at 15:36 #30074Olá Daniel! O arquivo “por.traineddata” (e outros, caso esteja usando também outros idiomas) se encontram dentro desse diretório “tessdata“? Aliás, você mencionou que isso ocorre quando usa a função image_to_string, se usar a image_to_data funciona normal sem erros? Verifique também, se ao remover o “–tessdata-dir tessdata” do “config_tesseract” roda sem erros. 15 de agosto de 2021 at 11:28 #30097Olá Sim, o arquivo estava em “tessdata“. “image_to_data” da erro também. Removendo “–tessdata-dir tessdata” ele funciona normal. Uma dúvida, o que eu perco removendo “–tessdata-dir tessdata“? Versão dos packages, caso te ajudem a entender a incompatibilidade: pytesseract: 0.3.8 tesseract-ocr: 4.1.0 de 2019-03-14 12:31 22 de agosto de 2021 at 12:40 #30153Olá, esse “–tessdata-dir tessdata“ é para indicar ao Tesseract que queremos usar os pacotes de linguagem que estão localizados na pasta “tessdata”. Durante o curso usamos esse método pois achamos melhor gerenciar os arquivos através desse diretório, pois além de funcionar melhor oferece mais controle. Mas na verdade é opcional, se você já fez a instalação do Tesseract pelo método tradicional então não é necessário indicar esse parâmetro, ao invés disso você pode instalar os pacotes das linguagens para OCR usando o comando !apt-get install tesseract-ocr-[codigo da linguagem] no caso para instalar o pacote para português ficaria !apt-get install tesseract-ocr-por (e pode usar !tesseract –list-langs para listar todos os pacotes instalados) 22 de agosto de 2021 at 12:42 #30154Entendi, muito obrigado pela atenção. 8 de outubro de 2021 at 08:58 #31669Eu gostaria de usar o config_tesseract, tem algo que possa fazer? estou com o mesmo erro 15 de maio de 2024 at 22:28 #44897Olá! Essa dúvida você havia postado em outro tópico, mas só para deixar respondido nesse também: Para fazer isso, basta usar esse comando para fazer o download do modelo !wget -O ./tessdata/por.traineddata https://github.com/tesseract-ocr/tessdata/blob/main/por.traineddata?raw=true Então, na sequência usar esse código: config_tesseract = ‘–tessdata-dir tessdata’ 
 texto = pytesseract.image_to_string(rgb, lang=’por’, config=config_tesseract)
- AuthorPosts
- You must be logged in to reply to this topic.