Uso de coñecemento externo na aprendizaxe por reforzo dun comportamento visual en robótica móbil

UDC.coleccionTraballos académicoses_ES
UDC.tipotrabTFGes_ES
UDC.titulacionGrao en Enxeñaría Informáticaes_ES
dc.contributor.advisorVázquez, Carlos
dc.contributor.authorLimia García, Xan
dc.contributor.otherUniversidade da Coruña. Facultade de Informáticaes_ES
dc.date.accessioned2024-10-07T12:39:03Z
dc.date.embargoEndDate2025-04-07es_ES
dc.date.embargoLift2025-04-07
dc.date.issued2024-02
dc.description.abstract[Resumo]: Neste traballo desenvolvemos un sistema que permite introducir coñecemento externo en métodos de aprendizaxe por reforzo aplicados a comportamentos visuais. Centrámonos unicamente en algoritmos con estados e accións discretas. Como novidade, propoñemos un espazo de estados dinámico, de modo que o axente poida crear estados segundo o considere necesario. Tamén propoñemos un mecanismo para determinar o reforzo empregando unicamente os datos de entrada (a imaxe dunha cámara). Para recoller o coñecemento previo propoñemos gardar a información relevante (imaxes e velocidades) mentres un usuario tele-opera o robot para executar o comportamento desexado. Posteriormente definimos o conxunto de accións discretas para a tarefa analizando as velocidades gardadas. A través dun estudio das imaxes almacenadas fixamos o limiar de distancia entre estados. Por simplicidade, neste traballo empregamos a distancia euclidiana. Analizando todas as imaxes tamén podemos definir unha máscara que identifique as zonas máis relevantes da imaxe. Implementamos dous métodos de aprendizaxe. Primeiro, un algoritmo de acción supervisada onde o usuario indica a acción a executar cada vez que se xera un novo estado. Segundo, un algoritmo Q-Learning clásico. Para introducir coñecemento previo no aprendizaxe tamén probamos dous métodos. O primeiro define un conxunto de estados iniciais a partir da información almacenada durante a tele-operación (Off-Policy). O segundo utiliza os pares estado-acción creados durante un adestramento previo con acción supervisada (Transfer Learning). Nesta memoria mostramos un resumen das probas máis relevantes para dous comportamentos: seguir liña e seguir carril. Ambos foron implementados en simulación cun Turtlebot3 en Gazebo. O comportamento seguir liña tamén foi probado nun Turtlebot3 real. Os resultados mostran que os mecanismos propostos para recoller coñecemento previo e incorporalo á aprendizaxe por reforzo conseguen acelerar o tempo de aprendizaxe e facelo máis robusto. es_ES
dc.description.abstract[Abstract]: In this work, we develop a system that allows introducing external knowledge in reinforcement learning methods applied to visual behaviors. We focus only on algorithms with discrete states and actions. As a novelty, we propose a dynamic state space, so that the agent can create states as it deems necessary. We also propose a mechanism to determine reinforcement using only the input data (a camera image). To collect prior knowledge, we propose to store the relevant information (images and velocities) while a user teleoperates the robot to execute the desired behavior. Subsequently, we define a set of discrete actions for the task by analyzing the saved velocities. Through a study of the stored images, we set a distance threshold between states. For simplicity, in this work we use the Euclidean distance. By analyzing all the images, we can also define a mask that identifies the most relevant areas of the image. We implement two learning methods. First, a supervised action algorithm where the user indicates the action to execute each time a new state is generated. Second, a classical QLearning algorithm. To introduce prior knowledge into learning, we also tested two methods. The first one defines a set of initial states from the information stored during teleoperation (off-policy). The second uses the state-action pairs created during a previous training with supervised action (Transfer Learning). In this report, we show a summary of the most relevant tests for two behaviors: line following and lane following. Both were implemented in simulation with a Turtlebot3 in Gazebo. The line following behavior was also tested on a real Turtlebot3. The results show that the proposed mechanisms for collecting prior knowledge and incorporating it into reinforcement learning succeed in speeding up the learning time and making it more robust.es_ES
dc.description.traballosTraballo fin de grao (UDC.FIC). Enxeñaría Informática. Curso 2023/2024es_ES
dc.identifier.urihttp://hdl.handle.net/2183/39475
dc.language.isoglges_ES
dc.rightsAtribución 3.0 Españaes_ES
dc.rights.accessRightsopen accesses_ES
dc.rights.urihttp://creativecommons.org/licenses/by/3.0/es/*
dc.rights.urihttp://creativecommons.org/licenses/by/3.0/es/
dc.subjectCoñecemento externoes_ES
dc.subjectAprendizaxe por reforzoes_ES
dc.subjectQ-Learninges_ES
dc.subjectAprendizaxe por transferenciaes_ES
dc.subjectComportamento visuales_ES
dc.subjectTurtlebot3es_ES
dc.subjectExternal knowledgees_ES
dc.subjectReinforcement learninges_ES
dc.subjectTransfer Learninges_ES
dc.subjectVisual behaviores_ES
dc.titleUso de coñecemento externo na aprendizaxe por reforzo dun comportamento visual en robótica móbiles_ES
dc.typebachelor thesis
dspace.entity.typePublication
relation.isAdvisorOfPublicationdbc2be8e-6741-46b3-a22e-b648eae643d4
relation.isAdvisorOfPublication.latestForDiscoverydbc2be8e-6741-46b3-a22e-b648eae643d4

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
LimiaGarcia_Xan_TFG_2024.pdf
Size:
10.46 MB
Format:
Adobe Portable Document Format
Description:
TFG EI