Home › Fóruns › Fórum Reconhecimento de Textos com OCR e Python › Could not initialize tesseract.
- Este tópico contém 6 respostas, 3 vozes e foi atualizado pela última vez 9 meses, 1 semana atrás por
Gabriel Alves.
- AutorPosts
- 14 de agosto de 2021 às 15:19 #30056
Tentando realizar a ANPR em maquina local(W10), tive problema ao instalar o TesseractOCR.
Ele é instalado aparentemente, adicionei o OCR ao path do sistema.
Ele solicita que a pasta ‘tessdata’ seja colocada no ambiente como ‘TESSDATA_PREFIX’, porém, ao fazer isso, continua com o erro.
Quanto ao codigo, é o mesmo codigo que está no colab.
config_tesseract = "--tessdata-dir tessdata --psm 6" texto = pytesseract.image_to_string(placa, lang="por", config=config_tesseract)
Obs.: O erro só ocorre se colocar a config como parametro do ‘image_to_string’
Erro:
Variaveis de ambiente:
Além dessa, o TesseractOCR também está no path
14 de agosto de 2021 às 15:36 #30074Olá Daniel!
O arquivo “por.traineddata” (e outros, caso esteja usando também outros idiomas) se encontram dentro desse diretório “tessdata“?
Aliás, você mencionou que isso ocorre quando usa a função image_to_string, se usar a image_to_data funciona normal sem erros?
Verifique também, se ao remover o “–tessdata-dir tessdata” do “config_tesseract” roda sem erros.
15 de agosto de 2021 às 11:28 #30097Olá
Sim, o arquivo estava em “tessdata“.
“image_to_data” da erro também.
Removendo “–tessdata-dir tessdata” ele funciona normal.
Uma dúvida, o que eu perco removendo “–tessdata-dir tessdata“?
Versão dos packages, caso te ajudem a entender a incompatibilidade:
pytesseract: 0.3.8 tesseract-ocr: 4.1.0 de 2019-03-14 12:31
22 de agosto de 2021 às 12:40 #30153Olá, esse “–tessdata-dir tessdata“ é para indicar ao Tesseract que queremos usar os pacotes de linguagem que estão localizados na pasta “tessdata”. Durante o curso usamos esse método pois achamos melhor gerenciar os arquivos através desse diretório, pois além de funcionar melhor oferece mais controle. Mas na verdade é opcional, se você já fez a instalação do Tesseract pelo método tradicional então não é necessário indicar esse parâmetro, ao invés disso você pode instalar os pacotes das linguagens para OCR usando o comando !apt-get install tesseract-ocr-[codigo da linguagem]
no caso para instalar o pacote para português ficaria !apt-get install tesseract-ocr-por
(e pode usar !tesseract –list-langs para listar todos os pacotes instalados)
22 de agosto de 2021 às 12:42 #30154Entendi, muito obrigado pela atenção.
8 de outubro de 2021 às 08:58 #31669Eu gostaria de usar o config_tesseract, tem algo que possa fazer? estou com o mesmo erro
15 de maio de 2024 às 22:28 #44897Olá! Essa dúvida você havia postado em outro tópico, mas só para deixar respondido nesse também:
Para fazer isso, basta usar esse comando para fazer o download do modelo
!wget -O ./tessdata/por.traineddata https://github.com/tesseract-ocr/tessdata/blob/main/por.traineddata?raw=true
Então, na sequência usar esse código:
config_tesseract = ‘–tessdata-dir tessdata’
texto = pytesseract.image_to_string(rgb, lang=’por’, config=config_tesseract) - AutorPosts
- Você deve fazer login para responder a este tópico.