Uso de coñecemento externo na aprendizaxe por reforzo dun comportamento visual en robótica móbil

Loading...
Thumbnail Image

Identifiers

Publication date

Authors

Limia García, Xan

Other responsabilities

Universidade da Coruña. Facultade de Informática

Journal Title

Bibliographic citation

Type of academic work

Abstract

[Resumo]: Neste traballo desenvolvemos un sistema que permite introducir coñecemento externo en métodos de aprendizaxe por reforzo aplicados a comportamentos visuais. Centrámonos unicamente en algoritmos con estados e accións discretas. Como novidade, propoñemos un espazo de estados dinámico, de modo que o axente poida crear estados segundo o considere necesario. Tamén propoñemos un mecanismo para determinar o reforzo empregando unicamente os datos de entrada (a imaxe dunha cámara). Para recoller o coñecemento previo propoñemos gardar a información relevante (imaxes e velocidades) mentres un usuario tele-opera o robot para executar o comportamento desexado. Posteriormente definimos o conxunto de accións discretas para a tarefa analizando as velocidades gardadas. A través dun estudio das imaxes almacenadas fixamos o limiar de distancia entre estados. Por simplicidade, neste traballo empregamos a distancia euclidiana. Analizando todas as imaxes tamén podemos definir unha máscara que identifique as zonas máis relevantes da imaxe. Implementamos dous métodos de aprendizaxe. Primeiro, un algoritmo de acción supervisada onde o usuario indica a acción a executar cada vez que se xera un novo estado. Segundo, un algoritmo Q-Learning clásico. Para introducir coñecemento previo no aprendizaxe tamén probamos dous métodos. O primeiro define un conxunto de estados iniciais a partir da información almacenada durante a tele-operación (Off-Policy). O segundo utiliza os pares estado-acción creados durante un adestramento previo con acción supervisada (Transfer Learning). Nesta memoria mostramos un resumen das probas máis relevantes para dous comportamentos: seguir liña e seguir carril. Ambos foron implementados en simulación cun Turtlebot3 en Gazebo. O comportamento seguir liña tamén foi probado nun Turtlebot3 real. Os resultados mostran que os mecanismos propostos para recoller coñecemento previo e incorporalo á aprendizaxe por reforzo conseguen acelerar o tempo de aprendizaxe e facelo máis robusto.
[Abstract]: In this work, we develop a system that allows introducing external knowledge in reinforcement learning methods applied to visual behaviors. We focus only on algorithms with discrete states and actions. As a novelty, we propose a dynamic state space, so that the agent can create states as it deems necessary. We also propose a mechanism to determine reinforcement using only the input data (a camera image). To collect prior knowledge, we propose to store the relevant information (images and velocities) while a user teleoperates the robot to execute the desired behavior. Subsequently, we define a set of discrete actions for the task by analyzing the saved velocities. Through a study of the stored images, we set a distance threshold between states. For simplicity, in this work we use the Euclidean distance. By analyzing all the images, we can also define a mask that identifies the most relevant areas of the image. We implement two learning methods. First, a supervised action algorithm where the user indicates the action to execute each time a new state is generated. Second, a classical QLearning algorithm. To introduce prior knowledge into learning, we also tested two methods. The first one defines a set of initial states from the information stored during teleoperation (off-policy). The second uses the state-action pairs created during a previous training with supervised action (Transfer Learning). In this report, we show a summary of the most relevant tests for two behaviors: line following and lane following. Both were implemented in simulation with a Turtlebot3 in Gazebo. The line following behavior was also tested on a real Turtlebot3. The results show that the proposed mechanisms for collecting prior knowledge and incorporating it into reinforcement learning succeed in speeding up the learning time and making it more robust.

Description

Editor version

Rights

Atribución 3.0 España
Atribución 3.0 España

Except where otherwise noted, this item's license is described as Atribución 3.0 España