Estudio del rendimiento de la recuperación documental con RAG y modelos de lenguaje de gran escala

Alonso, Miguel A.Vilares, JesúsMéndez Llatas, PabloDelgado Ferreiro, SantiagoUniversidade da Coruña. Facultade de Informática2025-08-072025-08-072025-06https://hdl.handle.net/2183/45594[Resumen]: Este Trabajo de Fin de Grado desarrolla dos herramientas complementarias para mejorar la gestión y recuperación de información y evaluar el rendimiento de modelos de lenguaje de gran escala (LLM). La primera es un sistema de Recuperación Aumentada por Generación (RAG) accesible mediante una API REST. Los documentos se procesan con OCR, se segmentan en fragmentos de texto y se indexan en un almacén vectorial. En tiempo real, los fragmentos más relevantes se recuperan y se combinan en un prompt que alimenta un modelo de lenguaje, generando respuestas fundamentadas. Todo el flujo —desde la carga y extracción de texto hasta la consulta en lenguaje natural— se presenta al usuario mediante una interfaz web intuitiva. La segunda herramienta es un módulo de evaluación de rendimiento de LLMs basado en Locust. Mide métricas clave como latencia total, tokens por segundo y tiempo hasta el primer token mediante simulaciones de usuarios concurrentes. Los resultados se consolidan en informes comparativos que facilitan la identificación del modelo óptimo según el número de usuarios y la configuración de GPU. Este enfoque permite seleccionar la solución más eficiente para despliegues en entornos productivos.[Abstract]: This Final Degree Project develops two complementary tools to enhance information management and assess the performance of large language models (LLM). The first is a Retrieval-Augmented Generation (RAG) system exposed via a REST API. Documents are OCR-processed, split into text fragments, and indexed in a vector store. At query time, the most relevant fragments are retrieved and assembled into a prompt that drives a language model to produce evidence-based answers. The entire pipeline—from document ingestion and text extraction to natural language querying—is delivered through an intuitive web interface. The second tool is an LLM performance evaluation module built with Locust. By simulating concurrent users, it measures key metrics such as total latency, tokens per second, and time to first token. Results are aggregated into comparative reports that help identify the optimal model based on user load and GPU configuration. This approach guides the selection of the most efficient solution for production deployments.spaAttribution 4.0 Internationalhttp://creativecommons.org/licenses/by/4.0/Recuperación Aumentada por Generación (RAG)Modelos de Lenguaje de Gran Escala (LLMs)Gestión documentalBúsqueda semánticaIndexación y recuperación de documentos (Faiss, R2R)OCR y fragmentación de textoArquitectura REST (FastAPI, PostgreSQL, MinIO, Kafka)Pruebas de rendimiento y escalabilidad (Locust, TTFT)Ética y regulación de IA generativaRetrieval-Augmented Generation (RAG)Large Language Models (LLMs)Document managementSemantic searchDocument indexing and retrieval (Faiss, R2R)OCR and text chunkingREST architecture (FastAPI, PostgreSQL, MinIO, Kafka)Performance and scalability testing (Locust, TTFT)enerative AI ethics and regulationEstudio del rendimiento de la recuperación documental con RAG y modelos de lenguaje de gran escalabachelor thesisopen access