Resumo |
Em Robótica, um problema em aberto de ampla aplicabilidade é a navegação de ambientes semiestruturados - que incluem objetos estáticos e outros dinâmicos - sem a existência de mapas, pois descreve a situação que ocorre com maior frequência no emprego de robôs em aplicações tanto acadêmicas quanto industriais. Neste contexto, uma abordagem de sucesso no estado da arte são modelos de aprendizado profundo por reforço. Neles, redes neurais artificiais são treinadas de modo supervisionado a partir das interações com o ambiente, que fornece recompensas positivas ou negativas mediante deliberação de ações a partir do estado conhecido. Como objetivos gerais, o presente trabalho busca avaliar o impacto da modelagem de representação sensorial na performance de agentes de aprendizado por reforço quando aplicados na tarefa de navegação em ambiente semiestruturado. Em termos específicos, este projeto avalia métodos de agregação das leituras de sensor LiDAR de forma comparativa para um mesmo modelo de aprendizado profundo por reforço, a partir de plataformas de simulação adotadas como padrão de pesquisa internacionalmente. A partir dos equipamentos disponíveis no Núcleo de Especialização de Robótica (NERo-UFV), foi selecionado o robô móvel terrestre de tipo uniciclo Pioneer-3DX como agente, anexado a um sensor LiDAR com abertura de 270º como os equipamentos padrão para realização da tarefa de navegação. As capturas de profundidade foram delimitadas entre 45º e 225º (180º frontais ao robô), lidas de 1° em 1°, e divididas em 4, 5, 6 e 10 setores, amostrando-se pelo valor da moda, da média e da menor distância. Por exemplo, para o caso da amostragem da média de 4 setores, foi calculada a média das leituras entre 0º e 44º como primeiro setor, 45º a 89º como segundo setor, e assim por diante, similarmente para cada técnica de agregação. Como estados do agente, foram utilizadas a orientação atual e desejada, as distâncias mensuradas em cada setor. As ações do agente foram limitadas à seguir em linha reta, realizar uma curva para direita ou para esquerda (também com pequena velocidade linear, sem girar somente em torno do próprio eixo, evitando estados replicados). Todos os métodos de representação foram aplicados em modelos de aprendizado profundo baseados em valor. Para coleta dos dados, foi empregado o simulador Gazebo com ROS, aplicando treinos com limite de épocas determinado empiricamente, a partir da necessidade de episódios de treino exigida para convergência de cada método de representação sensorial. Com relação a métricas de comparação, foi avaliada a evolução de recompensa e taxa de sucesso por episódio, de forma similar à literatura, entendendo-se que uma convergência mais rápida indica melhor performance do dado tipo de representação tendo sido fixado o modelo de aprendizado. As diferenças e particularidades de cada método de agregação são tabuladas e discutidas qualitativa e quantitativamente no trabalho, com base nos resultados obtidos. |