Docuchat: Implementación de un sistema de pregunta-respuesta basado en generación aumentada por recuperación y modelos de lenguaje

Pajón Area, Pablo

Use this link to cite:

https://hdl.handle.net/2183/46325

Docuchat: Implementación de un sistema de pregunta-respuesta basado en generación aumentada por recuperación y modelos de lenguaje

Files

PajonArea_Pablo_TFG_2025.pdf (2.2 MB)

Identifiers

URI: https://hdl.handle.net/2183/46325

Publication date

2025-09

Authors

Pajón Area, Pablo

Advisors

López Cabaleiros, Iván

Alonso, Miguel A.

Vilares, Jesús

Other responsabilities

Universidade da Coruña. Facultade de Informática

Type of academic work

TFG

Academic degree

Grao en Enxeñaría Informática

Abstract

[Resumen]: Este trabajo presenta un asistente conversacional basado en Generación Aumentada por Recuperación (RAG por sus siglas en inglés) para consultar repositorios documentales que combina búsqueda semántica con generación de respuestas en Grandes Modelos de Lenguaje (LLMs por sus siglas en inglés) locales. El sistema toma como entrada un repositorio de documentos (p. ej., PDF/MS Word), los divide en fragmentos, crea representaciones vectoriales y, ante cada pregunta del usuario, recupera los pasajes más relevantes para componer una respuesta fundamentada en el propio corpus. Además, desde el chat se pueden invocar utilidades externas para ampliar capacidades más allá de la lectura y resumen de documentos. Se ofrece un prototipo completo con despliegue automatizado en la nube y modos de acceso seguros, pensado para pasar de pruebas a demostraciones sin cambios de arquitectura.
[Abstract]: This work presents a conversational assistant based on Retrieval-Augmented Generation (RAG) for querying document repositories that combines semantic retrieval with answer generation using local Large Language Models (LLMs). The system takes as input a repository of documents (e.g., PDF/MS Word), segments them into chunks, builds vector representations, and, at query time, retrieves the most relevant passages to ground responses in the source corpus. From the chat, users can also invoke external utilities to extend capabilities beyond simple reading and summarization. We deliver a complete prototype with automated cloud deployment and secure access modes, designed to transition from testing to demonstrations without architectural changes.

Keywords

Generación Aumentada por Recuperación Búsqueda semántica Modelos de lenguaje de gran tamaño Bases de datos vectoriales MCP Retrieval-augmented generation Semantic search Large language models Vector databases

Rights

Attribution 4.0 International

Collections

Traballos académicos (FIC)

Full item page

Except where otherwise noted, this item's license is described as Attribution 4.0 International

Docuchat: Implementación de un sistema de pregunta-respuesta basado en generación aumentada por recuperación y modelos de lenguaje

Files

Identifiers

Publication date

Authors

Advisors

Other responsabilities

Journal Title

Bibliographic citation

Type of academic work

Academic degree

Abstract

Description

Keywords

Editor version

Rights

Collections