Could not initialize tesseract.

Tagged: Projeto 3, Reconhecimento de Textos com OCR e Python

This topic has 6 replies, 3 voices, and was last updated 2 years, 1 month ago by Gabriel Alves.

Viewing 7 posts - 1 through 7 (of 7 total)

Author

Posts
14 de agosto de 2021 at 15:19 #30056
Daniel Fernandes
Participant
Tentando realizar a ANPR em maquina local(W10), tive problema ao instalar o TesseractOCR.

Ele é instalado aparentemente, adicionei o OCR ao path do sistema.

Ele solicita que a pasta ‘tessdata’ seja colocada no ambiente como ‘TESSDATA_PREFIX’, porém, ao fazer isso, continua com o erro.

Quanto ao codigo, é o mesmo codigo que está no colab.
```
config_tesseract = "--tessdata-dir tessdata --psm 6"

texto = pytesseract.image_to_string(placa, lang="por", config=config_tesseract)
```
Obs.: O erro só ocorre se colocar a config como parametro do ‘image_to_string’

Erro:

Variaveis de ambiente:

Além dessa, o TesseractOCR também está no path
14 de agosto de 2021 at 15:36 #30074
Gabriel Alves
Keymaster
Olá Daniel!

O arquivo “por.traineddata” (e outros, caso esteja usando também outros idiomas) se encontram dentro desse diretório “tessdata“?

Aliás, você mencionou que isso ocorre quando usa a função image_to_string, se usar a image_to_data funciona normal sem erros?

Verifique também, se ao remover o “–tessdata-dir tessdata” do “config_tesseract” roda sem erros.
15 de agosto de 2021 at 11:28 #30097
Daniel Fernandes
Participant
Olá

Sim, o arquivo estava em “tessdata“.

“image_to_data” da erro também.

Removendo “–tessdata-dir tessdata” ele funciona normal.

Uma dúvida, o que eu perco removendo “–tessdata-dir tessdata“?

Versão dos packages, caso te ajudem a entender a incompatibilidade:
```
pytesseract: 0.3.8

tesseract-ocr: 4.1.0 de 2019-03-14 12:31
```
22 de agosto de 2021 at 12:40 #30153
Gabriel Alves
Keymaster
Olá, esse “–tessdata-dir tessdata“ é para indicar ao Tesseract que queremos usar os pacotes de linguagem que estão localizados na pasta “tessdata”. Durante o curso usamos esse método pois achamos melhor gerenciar os arquivos através desse diretório, pois além de funcionar melhor oferece mais controle. Mas na verdade é opcional, se você já fez a instalação do Tesseract pelo método tradicional então não é necessário indicar esse parâmetro, ao invés disso você pode instalar os pacotes das linguagens para OCR usando o comando !apt-get install tesseract-ocr-[codigo da linguagem]

no caso para instalar o pacote para português ficaria !apt-get install tesseract-ocr-por

(e pode usar !tesseract –list-langs para listar todos os pacotes instalados)
22 de agosto de 2021 at 12:42 #30154
Daniel Fernandes
Participant
Entendi, muito obrigado pela atenção.
8 de outubro de 2021 at 08:58 #31669
Nycole dos Santos Xavier
Participant
Eu gostaria de usar o config_tesseract, tem algo que possa fazer? estou com o mesmo erro
15 de maio de 2024 at 22:28 #44897
Gabriel Alves
Keymaster
Olá! Essa dúvida você havia postado em outro tópico, mas só para deixar respondido nesse também:

Para fazer isso, basta usar esse comando para fazer o download do modelo

!wget -O ./tessdata/por.traineddata https://github.com/tesseract-ocr/tessdata/blob/main/por.traineddata?raw=true

Então, na sequência usar esse código:

config_tesseract = ‘–tessdata-dir tessdata’
texto = pytesseract.image_to_string(rgb, lang=’por’, config=config_tesseract)
Author

Posts