Use this link to cite:
https://hdl.handle.net/2183/46434 Construcción de un dataset de consultas médicas y generación y búsqueda de respuestas mediante web crawling y grandes modelos de lenguaje
Loading...
Identifiers
Publication date
Authors
Advisors
Other responsabilities
Journal Title
Bibliographic citation
Type of academic work
Academic degree
Abstract
[Resumen]: Cada vez más personas buscan en la web respuestas a dudas de salud, pero la calidad desigual de las fuentes y la desinformación sanitaria complican la toma de decisiones seguras. Este Trabajo Fin de Grado (TFG) construye un corpus de preguntas y respuestas clínicas a partir de portales verificados, mediante web crawling, y evalúa tres estrategias de recuperación de información para question answering (QA) en el dominio sanitario. Más concretamente, se implementan los siguiente métodos: (i) recuperación léxica con BM25, (ii) recuperación semántica con vectores densos, y (iii) una estrategia de Retrieval Augmented Generation (RAG), que combina recuperación con la decisión final de un Large Language Model (LLM). Además, el conjunto de datos construido se unifica bajo un esquema común (tópico, URL, fecha de actualización, texto clínico) y se analiza de forma exploratoria. La evaluación emplea métricas de Recall@k en la búsqueda de respuestas, BLEU/ROUGE en generación y un LLM juez que valora exactitud clínica, coherencia y trazabilidad. La propuesta ofrece respuestas contrastadas y trazables, y establece un marco reproducible para comparar métodos de recuperación y generación en entornos clínicos.
[Abstract]: More and more people turn to the web for answers to health questions, but uneven source quality and health misinformation make safe decision-making difficult. This Trabajo Fin de Grado (TFG) builds a corpus of clinical question-answer pairs from verified portals via web crawling, and evaluates three information retrieval strategies for question answering (QA) in the medical domain. More specifically, three methods are implemented: (i) lexical retrieval with BM25, (ii) semantic retrieval with dense vectors, and (iii) a Retrieval-Augmented Generation (RAG) strategy that combines retrieval with a final decision by a Large Language Model (LLM). In addition, the constructed dataset is unified under a common schema (topic, URL, last updated date, clinical text) and analyzed exploratorily. The evaluation uses Recall@k for answer retrieval, BLEU/ROUGE for generation, and an LLM judge that assesses clinical accuracy, coherence, and traceability. The proposal delivers vetted, traceable answers and establishes a reproducible framework to compare retrieval and generation methods in clinical settings.
[Abstract]: More and more people turn to the web for answers to health questions, but uneven source quality and health misinformation make safe decision-making difficult. This Trabajo Fin de Grado (TFG) builds a corpus of clinical question-answer pairs from verified portals via web crawling, and evaluates three information retrieval strategies for question answering (QA) in the medical domain. More specifically, three methods are implemented: (i) lexical retrieval with BM25, (ii) semantic retrieval with dense vectors, and (iii) a Retrieval-Augmented Generation (RAG) strategy that combines retrieval with a final decision by a Large Language Model (LLM). In addition, the constructed dataset is unified under a common schema (topic, URL, last updated date, clinical text) and analyzed exploratorily. The evaluation uses Recall@k for answer retrieval, BLEU/ROUGE for generation, and an LLM judge that assesses clinical accuracy, coherence, and traceability. The proposal delivers vetted, traceable answers and establishes a reproducible framework to compare retrieval and generation methods in clinical settings.
Description
Keywords
Modelos de Lenguaje de Gran Tamaño (LLMs) Búsqueda de información sanitaria para consumidores Generación aumentada con recuperación (RAG) Búsqueda semántica Búsqueda de respuestas Large Language Models (LLMs) Consumer health search Retrieval-augmented generation (RAG) Semantic search Answer retrieval
Editor version
Rights
Attribution-NonCommercial 4.0 International







