O que você aprenderá
- Utilizar as ferramentas Tesseract, EAST e EasyOCR para reconhecimento de caracteres
- Entender as diferenças entre o OCR em ambientes controlados e ambientes naturais
- Aplicar técnicas de pré-processamento de imagens para melhorar a qualidade das imagens, tais como: limiarização, inversão, redimensionamento, operações morfológicas e remoção de ruídos
- Utilizar a estrutura EAST aplicado em reconhecimento em cenários naturais
- Treinar um OCR do zero utilizando Deep Learning e Redes Neurais Convolucionais
- Reconhecer textos em imagens e vídeos
- Buscar termos específicos em imagens de um diretório
- Preparar imagens escaneadas para o reconhecimento de textos
- Tratar imagens de carros para a identificação de placas
Requisitos
- Lógica de programação, principalmente estruturas condicionais e de repetição
- Programação básica em Python
Descrição
Dentro da área da Visão Computacional existe a sub-área de Reconhecimento Ótico de Caracteres (ou OCR – Optical Character Recognition) que basicamente visa transformar imagens em textos. Em outras palavras, o OCR pode ser descrito como a conversão de imagens contendo texto digitado, escrito a mão ou impresso, em caracteres que uma máquina é capaz de entender. A imagem em questão pode ser um documento escaneado ou fotografado, na qual o texto é o principal objeto de interesse. Outro exemplo são imagens menos direcionadas, como uma fotografia de um cenário onde aparecem placas e fachadas.
Por meio do OCR, é possível converter documentos escaneados ou fotografados em textos que podem ser editados em qualquer ferramenta, como o Microsoft Word por exemplo. Outro exemplo de aplicação são os leitores automáticos de formulários, nos quais você pode enviar uma foto da sua CNH (carteira nacional de habilitação), RG (registro geral) ou cartão de crédito e o sistema consegue fazer a leitura de todos os seus dados. Um carro autônomo pode utilizar OCR para ler as placas de trânsito e um condomínio pode ler a placa do carro, verificar se consta na base de dados para então liberar o acesso ao pátio! Existe uma infinidade de aplicações que podem ser desenvolvidas!
E para levar você até essa área, neste curso você aprenderá na prática como utilizar várias bibliotecas de OCR para reconhecer textos em imagens e vídeos, tudo passo a passo e utilizando a linguagem Python! Vamos utilizar o Google Colab, ou seja, você não precisa se preocupar com instalações e configurações de bibliotecas em sua máquina, pois tudo será desenvolvido on-line utilizando as GPUs do Google! Além de utilizar ferramentas prontas, você também aprenderá como construir o seu próprio OCR do zero utilizando Deep Learning e Redes Neurais Convolucionais! Confira abaixo os principais tópicos que você aprenderá:
- Reconhecimento de textos em imagens e vídeos com Tesseract, EasyOCR e EAST
- Busca em imagens utilizando expressões regulares
- Técnicas para melhoria da qualidade das imagens, bem como: limiarização, inversão, escala de cinza, redimensionamento, remoção de ruídos e operações morfológicas
- Uso da arquitetura EAST e da biblioteca EasyOCR para melhor desempenho em cenários naturais
- Treinamento de um OCR do zero utilizando TensorFlow e modernas técnicas de Deep Learning com Redes Neurais Convolucionais
- Busca por ocorrências de textos em imagens
- Aplicação de técnicas de processamento de linguagem natural nos textos extraídos pelo OCR (nuvem de palavras e extração de entidades nomeadas)
- Como preparar imagens vindas de fotos e scanners
- Pré-processamento de imagens para extração e reconhecimento de placas de carros
Esses são somente alguns dos tópicos principais, e ao final do curso, você saberá tudo o que precisa para criar seus próprios projetos de reconhecimento de textos utilizando OCR!
Para quem é este curso
- Pessoas interessadas em OCR (Optical Character Recognition – Reconhecimento Ótico de Caracteres)
- Alunos de graduação e pós-graduação que cursam disciplinas de Computação Gráfica, Processamento Digital de Imagens ou Inteligência Artificial
- Cientistas de Dados que queiram aumentar seus conhecimentos em Visão Computacional
- Profissionais interessados em desenvolver soluções profissionais de reconhecimento ótico de caracteres
- Pessoas interessadas em criar o seu próprio OCR personalizado
Publicado em junho de 2021
Até o momento as informações foram repassadas de forma bastante clara.