Docuchat: Implementación de un sistema de pregunta-respuesta basado en generación aumentada por recuperación y modelos de lenguaje

UDC.coleccionTraballos académicos
UDC.tipotrabTFG
UDC.titulacionGrao en Enxeñaría Informática
dc.contributor.advisorLópez Cabaleiros, Iván
dc.contributor.advisorAlonso, Miguel A.
dc.contributor.advisorVilares, Jesús
dc.contributor.authorPajón Area, Pablo
dc.contributor.otherUniversidade da Coruña. Facultade de Informática
dc.date.accessioned2025-11-06T16:00:20Z
dc.date.available2025-11-06T16:00:20Z
dc.date.issued2025-09
dc.description.abstract[Resumen]: Este trabajo presenta un asistente conversacional basado en Generación Aumentada por Recuperación (RAG por sus siglas en inglés) para consultar repositorios documentales que combina búsqueda semántica con generación de respuestas en Grandes Modelos de Lenguaje (LLMs por sus siglas en inglés) locales. El sistema toma como entrada un repositorio de documentos (p. ej., PDF/MS Word), los divide en fragmentos, crea representaciones vectoriales y, ante cada pregunta del usuario, recupera los pasajes más relevantes para componer una respuesta fundamentada en el propio corpus. Además, desde el chat se pueden invocar utilidades externas para ampliar capacidades más allá de la lectura y resumen de documentos. Se ofrece un prototipo completo con despliegue automatizado en la nube y modos de acceso seguros, pensado para pasar de pruebas a demostraciones sin cambios de arquitectura.
dc.description.abstract[Abstract]: This work presents a conversational assistant based on Retrieval-Augmented Generation (RAG) for querying document repositories that combines semantic retrieval with answer generation using local Large Language Models (LLMs). The system takes as input a repository of documents (e.g., PDF/MS Word), segments them into chunks, builds vector representations, and, at query time, retrieves the most relevant passages to ground responses in the source corpus. From the chat, users can also invoke external utilities to extend capabilities beyond simple reading and summarization. We deliver a complete prototype with automated cloud deployment and secure access modes, designed to transition from testing to demonstrations without architectural changes.
dc.description.traballosTraballo fin de grao (UDC.FIC). Enxeñaría Informática. Curso 2024/2025
dc.identifier.urihttps://hdl.handle.net/2183/46325
dc.language.isospa
dc.rightsAttribution 4.0 Internationalen
dc.rights.accessRightsopen access
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/
dc.subjectGeneración Aumentada por Recuperación
dc.subjectBúsqueda semántica
dc.subjectModelos de lenguaje de gran tamaño
dc.subjectBases de datos vectoriales
dc.subjectMCP
dc.subjectRetrieval-augmented generation
dc.subjectSemantic search
dc.subjectLarge language models
dc.subjectVector databases
dc.titleDocuchat: Implementación de un sistema de pregunta-respuesta basado en generación aumentada por recuperación y modelos de lenguaje
dc.typebachelor thesis
dspace.entity.typePublication
relation.isAdvisorOfPublication1318edb8-3967-465c-a267-146624c05837
relation.isAdvisorOfPublication3313b723-2288-4d9d-b0e7-32732c9c78d5
relation.isAdvisorOfPublication.latestForDiscovery1318edb8-3967-465c-a267-146624c05837

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
PajonArea_Pablo_TFG_2025.pdf
Size:
2.2 MB
Format:
Adobe Portable Document Format