Construcción de un dataset de consultas médicas y generación y búsqueda de respuestas mediante web crawling y grandes modelos de lenguaje

UDC.coleccionTraballos académicos
UDC.tipotrabTFG
UDC.titulacionGrao en Ciencia e Enxeñaría de Datos
dc.contributor.advisorParapar, Javier
dc.contributor.authorEirís García, Marta
dc.contributor.otherUniversidade da Coruña. Facultade de Informática
dc.date.accessioned2025-11-12T13:35:29Z
dc.date.available2025-11-12T13:35:29Z
dc.date.issued2025-09
dc.description.abstract[Resumen]: Cada vez más personas buscan en la web respuestas a dudas de salud, pero la calidad desigual de las fuentes y la desinformación sanitaria complican la toma de decisiones seguras. Este Trabajo Fin de Grado (TFG) construye un corpus de preguntas y respuestas clínicas a partir de portales verificados, mediante web crawling, y evalúa tres estrategias de recuperación de información para question answering (QA) en el dominio sanitario. Más concretamente, se implementan los siguiente métodos: (i) recuperación léxica con BM25, (ii) recuperación semántica con vectores densos, y (iii) una estrategia de Retrieval Augmented Generation (RAG), que combina recuperación con la decisión final de un Large Language Model (LLM). Además, el conjunto de datos construido se unifica bajo un esquema común (tópico, URL, fecha de actualización, texto clínico) y se analiza de forma exploratoria. La evaluación emplea métricas de Recall@k en la búsqueda de respuestas, BLEU/ROUGE en generación y un LLM juez que valora exactitud clínica, coherencia y trazabilidad. La propuesta ofrece respuestas contrastadas y trazables, y establece un marco reproducible para comparar métodos de recuperación y generación en entornos clínicos.
dc.description.abstract[Abstract]: More and more people turn to the web for answers to health questions, but uneven source quality and health misinformation make safe decision-making difficult. This Trabajo Fin de Grado (TFG) builds a corpus of clinical question-answer pairs from verified portals via web crawling, and evaluates three information retrieval strategies for question answering (QA) in the medical domain. More specifically, three methods are implemented: (i) lexical retrieval with BM25, (ii) semantic retrieval with dense vectors, and (iii) a Retrieval-Augmented Generation (RAG) strategy that combines retrieval with a final decision by a Large Language Model (LLM). In addition, the constructed dataset is unified under a common schema (topic, URL, last updated date, clinical text) and analyzed exploratorily. The evaluation uses Recall@k for answer retrieval, BLEU/ROUGE for generation, and an LLM judge that assesses clinical accuracy, coherence, and traceability. The proposal delivers vetted, traceable answers and establishes a reproducible framework to compare retrieval and generation methods in clinical settings.
dc.description.traballosTraballo fin de grao (UDC.FIC). Ciencia e enxeñaría de datos. Curso 2024/2025
dc.identifier.urihttps://hdl.handle.net/2183/46434
dc.language.isospa
dc.rightsAttribution-NonCommercial 4.0 Internationalen
dc.rights.accessRightsopen access
dc.rights.urihttp://creativecommons.org/licenses/by-nc/4.0/
dc.subjectModelos de Lenguaje de Gran Tamaño (LLMs)
dc.subjectBúsqueda de información sanitaria para consumidores
dc.subjectGeneración aumentada con recuperación (RAG)
dc.subjectBúsqueda semántica
dc.subjectBúsqueda de respuestas
dc.subjectLarge Language Models (LLMs)
dc.subjectConsumer health search
dc.subjectRetrieval-augmented generation (RAG)
dc.subjectSemantic search
dc.subjectAnswer retrieval
dc.titleConstrucción de un dataset de consultas médicas y generación y búsqueda de respuestas mediante web crawling y grandes modelos de lenguaje
dc.typebachelor thesis
dspace.entity.typePublication
relation.isAdvisorOfPublicationfef1a9cb-e346-4e53-9811-192e144f09d0
relation.isAdvisorOfPublication.latestForDiscoveryfef1a9cb-e346-4e53-9811-192e144f09d0

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
EirisGarcia_Marta_TFG_2025.pdf
Size:
9.03 MB
Format:
Adobe Portable Document Format