Uso de coñecemento externo na aprendizaxe por reforzo dun comportamento visual en robótica móbil

Limia García, Xan

Uso de coñecemento externo na aprendizaxe por reforzo dun comportamento visual en robótica móbil

UDC.coleccion	Traballos académicos	es_ES
UDC.tipotrab	TFG	es_ES
UDC.titulacion	Grao en Enxeñaría Informática	es_ES
dc.contributor.advisor	Vázquez, Carlos
dc.contributor.author	Limia García, Xan
dc.contributor.other	Universidade da Coruña. Facultade de Informática	es_ES
dc.date.accessioned	2024-10-07T12:39:03Z
dc.date.embargoEndDate	2025-04-07	es_ES
dc.date.embargoLift	2025-04-07
dc.date.issued	2024-02
dc.description.abstract	[Resumo]: Neste traballo desenvolvemos un sistema que permite introducir coñecemento externo en métodos de aprendizaxe por reforzo aplicados a comportamentos visuais. Centrámonos unicamente en algoritmos con estados e accións discretas. Como novidade, propoñemos un espazo de estados dinámico, de modo que o axente poida crear estados segundo o considere necesario. Tamén propoñemos un mecanismo para determinar o reforzo empregando unicamente os datos de entrada (a imaxe dunha cámara). Para recoller o coñecemento previo propoñemos gardar a información relevante (imaxes e velocidades) mentres un usuario tele-opera o robot para executar o comportamento desexado. Posteriormente definimos o conxunto de accións discretas para a tarefa analizando as velocidades gardadas. A través dun estudio das imaxes almacenadas fixamos o limiar de distancia entre estados. Por simplicidade, neste traballo empregamos a distancia euclidiana. Analizando todas as imaxes tamén podemos definir unha máscara que identifique as zonas máis relevantes da imaxe. Implementamos dous métodos de aprendizaxe. Primeiro, un algoritmo de acción supervisada onde o usuario indica a acción a executar cada vez que se xera un novo estado. Segundo, un algoritmo Q-Learning clásico. Para introducir coñecemento previo no aprendizaxe tamén probamos dous métodos. O primeiro define un conxunto de estados iniciais a partir da información almacenada durante a tele-operación (Off-Policy). O segundo utiliza os pares estado-acción creados durante un adestramento previo con acción supervisada (Transfer Learning). Nesta memoria mostramos un resumen das probas máis relevantes para dous comportamentos: seguir liña e seguir carril. Ambos foron implementados en simulación cun Turtlebot3 en Gazebo. O comportamento seguir liña tamén foi probado nun Turtlebot3 real. Os resultados mostran que os mecanismos propostos para recoller coñecemento previo e incorporalo á aprendizaxe por reforzo conseguen acelerar o tempo de aprendizaxe e facelo máis robusto.	es_ES
dc.description.abstract	[Abstract]: In this work, we develop a system that allows introducing external knowledge in reinforcement learning methods applied to visual behaviors. We focus only on algorithms with discrete states and actions. As a novelty, we propose a dynamic state space, so that the agent can create states as it deems necessary. We also propose a mechanism to determine reinforcement using only the input data (a camera image). To collect prior knowledge, we propose to store the relevant information (images and velocities) while a user teleoperates the robot to execute the desired behavior. Subsequently, we define a set of discrete actions for the task by analyzing the saved velocities. Through a study of the stored images, we set a distance threshold between states. For simplicity, in this work we use the Euclidean distance. By analyzing all the images, we can also define a mask that identifies the most relevant areas of the image. We implement two learning methods. First, a supervised action algorithm where the user indicates the action to execute each time a new state is generated. Second, a classical QLearning algorithm. To introduce prior knowledge into learning, we also tested two methods. The first one defines a set of initial states from the information stored during teleoperation (off-policy). The second uses the state-action pairs created during a previous training with supervised action (Transfer Learning). In this report, we show a summary of the most relevant tests for two behaviors: line following and lane following. Both were implemented in simulation with a Turtlebot3 in Gazebo. The line following behavior was also tested on a real Turtlebot3. The results show that the proposed mechanisms for collecting prior knowledge and incorporating it into reinforcement learning succeed in speeding up the learning time and making it more robust.	es_ES
dc.description.traballos	Traballo fin de grao (UDC.FIC). Enxeñaría Informática. Curso 2023/2024	es_ES
dc.identifier.uri	http://hdl.handle.net/2183/39475
dc.language.iso	glg	es_ES
dc.rights	Atribución 3.0 España	es_ES
dc.rights.accessRights	open access	es_ES
dc.rights.uri	http://creativecommons.org/licenses/by/3.0/es/	*
dc.rights.uri	http://creativecommons.org/licenses/by/3.0/es/
dc.subject	Coñecemento externo	es_ES
dc.subject	Aprendizaxe por reforzo	es_ES
dc.subject	Q-Learning	es_ES
dc.subject	Aprendizaxe por transferencia	es_ES
dc.subject	Comportamento visual	es_ES
dc.subject	Turtlebot3	es_ES
dc.subject	External knowledge	es_ES
dc.subject	Reinforcement learning	es_ES
dc.subject	Transfer Learning	es_ES
dc.subject	Visual behavior	es_ES
dc.title	Uso de coñecemento externo na aprendizaxe por reforzo dun comportamento visual en robótica móbil	es_ES
dc.type	bachelor thesis
dspace.entity.type	Publication
relation.isAdvisorOfPublication	dbc2be8e-6741-46b3-a22e-b648eae643d4
relation.isAdvisorOfPublication.latestForDiscovery	dbc2be8e-6741-46b3-a22e-b648eae643d4

Files

Original bundle

Now showing 1 - 1 of 1

Name:: LimiaGarcia_Xan_TFG_2024.pdf
Size:: 10.46 MB
Format:: Adobe Portable Document Format
Description:: TFG EI

Download

Collections

Traballos académicos (FIC)