Construcción de un dataset de consultas médicas y generación y búsqueda de respuestas mediante web crawling y grandes modelos de lenguaje

Parapar, JavierEirís García, MartaUniversidade da Coruña. Facultade de Informática2025-11-122025-11-122025-09https://hdl.handle.net/2183/46434[Resumen]: Cada vez más personas buscan en la web respuestas a dudas de salud, pero la calidad desigual de las fuentes y la desinformación sanitaria complican la toma de decisiones seguras. Este Trabajo Fin de Grado (TFG) construye un corpus de preguntas y respuestas clínicas a partir de portales verificados, mediante web crawling, y evalúa tres estrategias de recuperación de información para question answering (QA) en el dominio sanitario. Más concretamente, se implementan los siguiente métodos: (i) recuperación léxica con BM25, (ii) recuperación semántica con vectores densos, y (iii) una estrategia de Retrieval Augmented Generation (RAG), que combina recuperación con la decisión final de un Large Language Model (LLM). Además, el conjunto de datos construido se unifica bajo un esquema común (tópico, URL, fecha de actualización, texto clínico) y se analiza de forma exploratoria. La evaluación emplea métricas de Recall@k en la búsqueda de respuestas, BLEU/ROUGE en generación y un LLM juez que valora exactitud clínica, coherencia y trazabilidad. La propuesta ofrece respuestas contrastadas y trazables, y establece un marco reproducible para comparar métodos de recuperación y generación en entornos clínicos.[Abstract]: More and more people turn to the web for answers to health questions, but uneven source quality and health misinformation make safe decision-making difficult. This Trabajo Fin de Grado (TFG) builds a corpus of clinical question-answer pairs from verified portals via web crawling, and evaluates three information retrieval strategies for question answering (QA) in the medical domain. More specifically, three methods are implemented: (i) lexical retrieval with BM25, (ii) semantic retrieval with dense vectors, and (iii) a Retrieval-Augmented Generation (RAG) strategy that combines retrieval with a final decision by a Large Language Model (LLM). In addition, the constructed dataset is unified under a common schema (topic, URL, last updated date, clinical text) and analyzed exploratorily. The evaluation uses Recall@k for answer retrieval, BLEU/ROUGE for generation, and an LLM judge that assesses clinical accuracy, coherence, and traceability. The proposal delivers vetted, traceable answers and establishes a reproducible framework to compare retrieval and generation methods in clinical settings.spaAttribution-NonCommercial 4.0 Internationalhttp://creativecommons.org/licenses/by-nc/4.0/Modelos de Lenguaje de Gran Tamaño (LLMs)Búsqueda de información sanitaria para consumidoresGeneración aumentada con recuperación (RAG)Búsqueda semánticaBúsqueda de respuestasLarge Language Models (LLMs)Consumer health searchRetrieval-augmented generation (RAG)Semantic searchAnswer retrievalConstrucción de un dataset de consultas médicas y generación y búsqueda de respuestas mediante web crawling y grandes modelos de lenguajebachelor thesisopen access