Aprendizagem por reforço melhora desempenho dos sistemas de auto-navegação de balões estratosféricos

Os balões estratosféricos são equipamentos não tripulados que costumam ficar estacionados na alta atmosfera para fazer medições ou conduzir experimentos. Para produzir medidas relevantes, eles devem manter uma distância horizontal máxima da estação à qual estão atrelados, corrigindo constantemente sua posição. Isto costuma ser alcançado alterando a altura dos balões, para que eles usem as próprias correntes de vento presentes para se deslocar horizontalmente até a posição correta. Entretanto, a estabilidade deste posicionamento é complicada pelo comportamento relativamente caótico do vento nesta altitude. Sistemas de auto-navegação já são empregados com este objetivo, mas eles fazem uso excessivo de bateria, comprometendo as outras tarefas que o balão deve desempenhar.

Um novo sistema desenvolvido por pesquisadores do Google emprega inteligência artificial para tornar este processo mais eficiente. O trabalho usou registros históricos de ventos, suas observações locais e previsões, e trajetórias de voo projetadas, para treinar uma rede neural de aprendizagem por reforço na hora de decidir se o balão deve subir, descer ou permanecer em sua altura atual. Entretanto, este não é um problema de aprendizagem clássico, pois os dados relativos ao vento são esparsos, tornando difícil decidir as melhores ações a tomar, sobretudo sobre ações que devem ser preditas para o futuro imediato. Neste quesito, os pesquisadores usaram a técnica de data augmentation, adicionando aos dados disponíveis um ruído gerado aleatoriamente, preenchendo as informações com dados plausíveis para que o algoritmo pudesse treinar em todas as situações possíveis. O algoritmo ainda teve que levar em consideração limitantes associados às propriedades incertas do agente, o próprio balão, como seus movimentos internos, a administração de energia e o ciclo de vida da bateria, que não costumam ser relevantes em cenários de aprendizagem por reforço.

O sistema foi testado em vários balões, posicionados em diferentes alturas, ao redor do mundo, incluindo um experimento controlado de 39 dias sobre o Oceano Pacífico. O desempenho do algoritmo foi superior ao dos algoritmos que estes balões já usavam, ainda se mostrando mais robusto à diversidade natural dos ventos estratosféricos.

A complexidade do problema investigado faz com que o trabalho tenha potencial aplicação nos sistemas de auto-navegação dos balões atmosféricos, mas também tem valor como desenvolvimento teórico na aplicação de aprendizagem por reforço para resolver problemas reais, onde os métodos convencionais e a intervenção humana podem não ser suficientes.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.