Método permite alto desempenho de algoritmos de aprendizagem por reforço mesmo com dados imperfeitos

O novo método adicionou incerteza aos dados de entrada do algoritmo de aprendizagem por reforço, que foi capaz de incorporar estas incertezas no processo de decisão para tomar a melhor ação mesmo no pior cenário possível, aquele representado por dados maximamente perturbados.