Respostas no Fórum
- AutorPosts
Olá William,
No caso isso que citamos foi apenas uma ideia adicional, pois repare que nos exemplos de aula usamos no máximo 10 imagens positivas diferentes então é viável executar o comando 10 vezes (apenas alterando o parâmetro do nome da pasta). Já se for uma quantidade muito maior de imagens então ficaria ruim executar o comando tantas vezes, portanto para tornar o processo mais prático nós recomendamos criar um script onde você apenas informa os nomes das pastas (ou ainda, dois números, inicio e fim, por exemplo 1 e 10, já que as pastas vão de “positivas1” até “positivas10”) e o código automaticamente executa cada um dos comandos para cada uma das imagens diferentes.
Nós não temos aqui um código pronto de como fazer isso, mas se você precisa implementar vou te dar uma ideia. É bem simples na verdade, basta usar a biblioteca os do Python para executar comandos diretamente na linha de comandos, então você coloca esse comando que disponibilizamos em aula dentro de uma função no Python mesmo, só lembre de colocar uma variável no meio desse comando pois você vai ter que deixar o código dinâmico de modo que seja possível informar a ele quais os nomes das pastas (seja inserindo cada um dos nomes por extenso, ou seja através aquela forma mais prática que comentei que consiste em especificar o numero que inicia e o numero que termina). Aí basta fazer um loop para percorrer toda essa lista de pastas que você definiu e executar o comando de geração de positivas para cada iteração.
Caso tenha dúvidas de como executar essas funções, dê uma olhada aqui: https://janakiev.com/blog/python-shell-commands/
Olá Wagner!
Para fazer o OCR direto em um arquivo PDF usando o Tesseract é um pouco mais diferente, mas você pode fazer assim: https://www.geeksforgeeks.org/python-reading-contents-of-pdf-using-ocr-optical-character-recognition/
Também da para fazer conforme mostra esse código aqui: https://colab.research.google.com/github/ravi-annaswamy/tamil-ebook-recipes/blob/master/OCR_Tamil_PDFs_using_Tesseract.ipynb
Como alternativa, você pode também fazer antes a conversão do PDF para um arquivo de imagem .jpg ou .png e depois criar um loop para percorrer todas essas fotos (após a conversão, seria 1 arquivo de imagem para cada página do seu PDF). E por fim bastaria agrupar todo esse conteúdo extraído em um documento único (da para fazer fácil isso através das funções usadas para escrever o texto em um documento).
Olá Rafael!
Na verdade isso é uma coisa que depende muito do dataset com o qual você está trabalhando, pois está ligado às “características” do seu set de treinamento. Primeiramente, qual dataset você está tentando fazer transfer learning? E quantas imagens ele possui (pra treinamento e validação)?
Pois em alguns conjuntos é necessário ajustes mais complexos já que isso depende das características dos próprios dados (nesse caso, imagens).
Outra coisa: é possível aumentar a quantidade de imagens em seu dataset? Se sim, sugiro fazer esse experimento e realizar o treinamento novamente. Se a acurácia do set de validação está ruim significa que o modelo não está conseguindo aprender com os dados e extrair as features relevantes necessárias para ter um bom desempenho.
Revise o dataset e garanta que as imagens de treinamento sejam uma boa referência para que o modelo consiga prever o set de validação, pois não adianta as imagens de validação serem muito diferentes também e esperar que com poucos ajustes o modelo vai aprender a identificar bem esses padrões. Caso não possa capturar mais imagens, pode usar a técnica de Data Augmentation.
Minha recomendação então é fazer mais experimentos nessas camadas conforme você está fazendo – deixo como sugestão a leitura desse guia aqui que acho que vai te ajudar.
Além disso, o que vai melhorar os resultados é descongelar (unfreeze) as camadas do modelo. Esse método de manter as camadas congeladas garante uma melhora incrivel na velocidade de treinamento, porém fica muito limitado à acurácia, então se precisa melhorar essa acurácia – especialmente porque a precisão no set de validação está ruim – o mais indicado é testar isso (ou seja, diminuir as camadas congeladas e aumentar camadas treináveis).
Olá Israel!
Infelizmente não possuimos nenhum curso que aborde essa área, porém vou deixar abaixo alguns materiais que podem te ajudar. E a posição dos objetos você pode obter através das coordenadas das caixas delimitadoras, retornadas pela função que faz a predição na implementação com OpenCV.
- Documentação oficial – https://pyserial.readthedocs.io/en/latest/index.html (talvez já tenha tudo o que precisa)
- Artigo com explicação detalhada https://www.xanthium.in/linux-serial-port-programming-using-python-pyserial-and-arduino-avr-pic-microcontroller
- Explicação e exemplo com Arduino – https://www.youtube.com/watch?v=iKGYbMD3NT8
- Exemplo real – https://stackoverflow.com/questions/676172/full-examples-of-using-pyserial-package
Opa, então seria em média umas 85 fotos para cada classe. Isso se o dataset estiver bem balanceado, pois se tiver por exemplo classes com uma quantidade de fotos bem abaixo dessa média (ex: 10 fotos) isso será ainda outro problema, o ideal é que esteja bem distribuído e se tiver classes com poucas fotos será necessário completar com mais fotos (ou gerar amostras através de técnicas de sintetização de novas imagens) pois se não vai ocorrer muitas detecções incorretas para essas classes especialmente.
Como está sendo treinado uma quantidade de classes muito elevada (140 é até bem acima do MS COCO, que já tem bastante) então pode esperar que seja necessário treinar por mais tempo ainda para conseguir resultados melhores. Pois é conforme eu comentei, 17.000 embora pareça muito nesse caso é pouco considerando o número de classes (não há uma quantidade “certa” pois depende de algumas coisas como a complexidade dos objetos).
Enfim, a sugestão continua sendo treinar por mais tempo. Treine o máximo de tempo que for possível e use daquela dica que comentei para evitar um possível overfitting.
Se tiver muita disposição você poderia fazer um teste mais tarde: escolha apenas umas 5 classes e faça o treinamento do modelo com elas apenas. E depois compare os resultados obtidos, para verificar se a precisão melhora mesmo com uma quantidade de iterações menor (5.000 pelo menos), o que é o esperado. Se ainda assim continuar com resultados ruins então o problema é outro e não adianta treinar o modelo de 140 classes por mais tempo. Não creio que seja isso pois você seguiu as formulas para definir os valores do arquivo de config e imagino que as imagens de treinamento são boas e abrangentes, mas se por um acaso no teste com 5 classes continuar com uma assertividade próxima dessa sua atual então tem que verificar com mais calma o que mais pode ser; rever os passos e se as imagens de treinamento são o suficiente para o modelo aprender a detectar bem esses mesmos objetos nos cenários reais que você está testando (pois se for muito diferente em ambiente/iluminação/ângulo então a rede não entregará resultados tão bons como esperado).
29 de dezembro de 2021 às 09:35 em resposta a: Dúvida sobre os parâmetros W e H na criação do vetor das imagens positivas #32806Olá Gerson!
Os parâmetros -w e -h do comando opencv_createsamples para geração do vetor servem para definir o tamanho final das imagens do cascade. Na etapa anterior você pode ter usado por exemplo outros tamanhos de largura e altura para a criação das amostras (também com o comando opencv_createsamples), pois você poderia por exemplo criar amostras com tamanhos maiores, só que ao treinar pode ter preferido usar um tamanho um pouco menor, já que você pode querer reduzir esse tamanho para demorar menos tempo no treinamento. Então você poderia fazer isso, embora recomendamos definir um tamanho inicial e usar ele com os 3 comandos.
Ou seja, nessa etapa da criação do vetor o tamanho escolhido através dos parâmetros -w e -h é definido com o tamanho final do cascade e portanto esses valores devem ser o mesmos usados na etapa seguinte (com o comando de treinamento).
Olá Bismarck!
Antes de tudo seria bom saber mais ou menos quantas imagens de treinamento pra cada classe você adquiriu e está usando no treinamento. Embora 17.000 iterações possam parecer muito temos que lembrar que você está trabalhando com mais de 100 classes diferentes, que pro padrão já é algo bem elevado, então o número de iterações é relativamente pequeno se for considerar esse detalhe. Portanto pode deixar treinando por mais tempo se possível, enquanto notar que o mAP continua melhorando (no geral) e o loss diminuir pode deixar treinando.
Como será treinado com um número de iterações bastante elevado recomendo você testar o modelo não só com os pesos que foi treinado por mais tempo mas também com os penúltimos, já que é sempre bom verificar se não está ocorrendo overfitting de algum modo.Quanto aos parâmetros do arquivo de configuração (ex: filters, etc.), confirme se você definiu os valores usando aquelas fórmulas que mostramos em aula, ou se não então informe quais valores você usou.
Olá Emerson!
Você quer testar com outras imagens de treinamento, isso?
Para imagens de faces sugiro dar uma olhada nesse artigo https://analyticsindiamag.com/10-face-datasets-to-start-facial-recognition-projects/ – ele contém 10 bases de imagens de faces, que podem ser usadas para projetos de detecção ou de reconhecimento facial.
Já se procura datasets de imagens diversas (não de faces) então deixo abaixo mais dois artigos contendo alguns conjunto de imagens bastante interessantes
- Datasets bastante comuns – https://www.analyticsvidhya.com/blog/2018/03/comprehensive-collection-deep-learning-datasets/
- Outros datasets usados para projetos de machine learning – https://rubikscode.net/2021/07/19/top-23-best-public-datasets-for-practicing-machine-learning/
Olá!
Deveria aparecer sim, porém em alguns casos pode ser que nos primeiros ele não apareça e depois ele comece a mostrar logo nos próximos. Quando você executa, ele ficando atualizando os valores ou ele para? Tem que aparecer também as informações de cada iteração, conforme mostrado em aula.
Olá!
Esse mesmo curso (Detecção de Objetos com YOLO, Darknet, OpenCV e Python) mostra como fazer tudo isso, depois dê uma olhada na grade dele.
Mais especificamente, para saber como fazer a anotação (annotation) das suas próprias imagens veja a aula “Criação do seu dataset de imagens manualmente”. Essa aula está mais pro final do curso, mas antes disso já é mostrado detalhadamente como fazer todo o processo de conversão e criação do weights usando conjuntos de imagens já prontos. Caso deseje usar o dataset seu personalizado basta substituir as imagens usadas nas aulas por essas imagens geradas após a anotação.
Olá Nycole!
Esse erro ocorre quando o arquivo da fonte do texto (“calibri.ttf”) não foi devidamente carregado, ou ocorreu algum problema ao ler o arquivo. Verifique se o caminho fornecido para esse arquivo está correto e se ele se encontra exatamente no diretório especificado. Caso não consiga resolver me avise e mande o seu código completo de ambas as funções (ou melhor, se possível compartilhe o seu Colab pois pode haver outra coisa interferindo).
Olá Rafael!
Sobre o data augmentation com YOLO, só um comentário antes: a minha recomendação é sempre antes tentar buscar mais imagens do seu objeto, seja buscando em datasets de imagens na internet (como o ImageNet ou Open Images Dataset), ou, se o seu objeto for muito difícil de encontrar imagens (ou até mesmo “único”), recomenda-se tirar novas fotos – o que realmente pode ser trabalhoso. Na verdade buscar novas imagens no geral pode ser trabalhoso, mas com certeza compensa pois assim o modelo terá uma melhor acurácia e estará mais preparado para detectar o objeto em situações mais diferenciadas.
No entanto, caso buscar mais imagens não seja uma opção, então usar Data Augmentation pode ajudar muito. O bom é que o Darknet por padrão já usa essa técnica em seu funcionamento, em algumas etapas do treinamento do modelo pra YOLOv4. Tem mais informações sobre isso nesse artigo. Porém há uma coisa que ele não faz (a princípio) e você pode querer implementar à parte, que é a transformação por rotação.
Deixarei abaixo mais dois materiais sobre como poderia usar data augmentation em conjunto com o YOLO:
https://medium.com/predict/data-augmentation-for-custom-object-detection-15674966e0c8
https://colab.research.google.com/github/joheras/CLoDSA/blob/master/notebooks/CLODSA_YOLO.ipynb – Colab com código de exemplo, que mostra um modo como fazer o augmentation já no formato usado pelo YOLO (para as coordenadas das caixas delimitadoras do arquivo de anotação).
Olá Nycole!
Você conseguiria passar a mensagem de erro completa? Porque na verdade no seu print infelizmente falta a parte da mensagem que mostraria o erro de fato, está mostrando apenas a linha de código onde ocorreu o erro. Se puder passar a mensagem completa vou conseguir te auxiliar melhor. Mas talvez nem precise, dê uma olhada no Colab oficial da seção: https://colab.research.google.com/drive/1mS01T2ljMRsh00_gN7OQPdXFdM6urPrj?usp=sharing
Esse código em questão está lá onde diz “Buscando informações específicas na imagem”. Eu acabei de testar aqui e executou sem problemas. Se após conferir você ver que o código da função “escreve_texto” está igual ao código da aula e mesmo assim o erro persistir então acredito que a melhor hipótese para a causa do erro seja algum problema ao ler o arquivo “calibri.ttf”, então dê uma olhada se ele foi colocado no diretório corretamente. Se mesmo assim não conseguir resolver me avise e se possível mande a mensagem de erro completa.
2 de outubro de 2021 às 22:25 em resposta a: Arquivo de exemplo aula: BÔNUS 6: Transfer Learning com VGG16 #31614Disponha!
Olá Diogenes!
Para acessar um diretório você precisa colocar o comando “cd” antes de informar o nome da pasta, por isso ele dá erro de comando não reconhecido.
Ou seja, basta digitar “cd [nome do diretório]”. Aí você escolhe se vai informar o caminho relativo ou absoluto. Se quiser saber mais sobre o cd e outros comandos sugiro dar uma olhada aqui: https://www.infowester.com/tutdos.php
Sobre não conseguir baixar o notepad++, qual erro aparece para você?
- AutorPosts