Desarrollo y evaluación de sistemas basados en modelos de lenguaje para respuesta automática a preguntas en ciencias de la salud

Correa Guillen, Alexis

Desarrollo y evaluación de sistemas basados en modelos de lenguaje para respuesta automática a preguntas en ciencias de la salud

UDC.coleccion	Traballos académicos
UDC.tipotrab	TFG
UDC.titulacion	Grao en Ciencia e Enxeñaría de Datos
dc.contributor.advisor	Vilares, David
dc.contributor.advisor	Gómez-Rodríguez, Carlos
dc.contributor.author	Correa Guillen, Alexis
dc.contributor.other	Universidade da Coruña. Facultade de Informática
dc.date.accessioned	2025-11-10T18:13:06Z
dc.date.available	2025-11-10T18:13:06Z
dc.date.issued	2025-02
dc.description.abstract	[Resumen]: Evaluar modelos de lenguaje en dominios que requieren razonamiento complejo es un desafío clave en procesamiento de lenguaje natural. Aunque han demostrado gran capacidad en múltiples tareas, su rendimiento en contextos especializados sigue siendo una cuestión abierta. Presentamos HEAD-QA V2, una versión ampliada de un conjunto de datos basado en los exámenes de acceso al sistema de Formación Sanitaria Especializada en España. Contiene más de 12 000 preguntas de opción múltiple en seis disciplinas biomédicas, incluidas preguntas multimodales con imágenes, y ha sido traducido automáticamente del español al inglés, italiano, ruso y gallego. Para evaluar estos modelos, realizamos experimentos con LLMs de distintos tamaños y múltiples estrategias de inferencia. Analizamos tres enfoques: (i) prompting, que guía la generación mediante instrucciones; (ii) Retrieval-Augmented Generation (RAG), que proporciona contexto adicional con fragmentos de libros; y (iii) selección basada en probabilidades, que evita la generación de texto y elige la respuesta según las puntuaciones del modelo. Los resultados indican que el modelo es el principal factor en el desempeño, mientras que estrategias avanzadas de inferencia no solo carecen de mejoras significativas, sino que a veces lo perjudican. Estos hallazgos consolidan HEAD-QA V2 como un recurso clave para la investigación en procesamiento de lenguaje natural en dominios especializados, proporcionando un entorno desafiante para evaluar modelos.
dc.description.abstract	[Abstract]: Evaluating language models in domains requiring complex reasoning is a key challenge in natural language processing. While they have demonstrated strong capabilities across multiple tasks, their performance in specialized contexts remains an open question. We present HEAD-QA V2, an expanded version of a dataset based on the entrance exams for Spain’s Specialized Health Training system. It contains more than 12 000 multiple-choice questions across six biomedical disciplines, including multimodal questions with images, and has been automatically translated from Spanish into English, Italian, Russian, and Galician. To evaluate these models, we conducted experiments with LLMs of various sizes and multiple inference strategies. We analyzed three approaches: (i) prompting, which guides generation through instructions; (ii) Retrieval-Augmented Generation (RAG), which provides additional context using book excerpts; and (iii) probability-based selection, which avoids text generation and selects the answer based on the model’s assigned scores.Results indicate that model choice is the primary performance factor, while advanced inference strategies not only fail to provide significant improvements but sometimes degrade performance. These findings establish HEAD-QA V2 as a key resource for natural language processing research in specialized domains, providing a challenging environment for model evaluation.
dc.description.traballos	Traballo fin de grao (UDC.FIC). Ciencia e enxeñaría de datos. Curso 2024/2025
dc.identifier.uri	https://hdl.handle.net/2183/46383
dc.language.iso	spa
dc.rights	Attribution 4.0 International	en
dc.rights.accessRights	open access
dc.rights.uri	http://creativecommons.org/licenses/by/4.0/
dc.subject	Modelos de lenguaje grandes
dc.subject	Inferencia
dc.subject	Evaluación de modelos
dc.subject	Biomedicina
dc.subject	Large Language Models
dc.subject	Inference
dc.subject	Model evaluation
dc.subject	Biomedicine
dc.title	Desarrollo y evaluación de sistemas basados en modelos de lenguaje para respuesta automática a preguntas en ciencias de la salud
dc.type	bachelor thesis
dspace.entity.type	Publication
relation.isAdvisorOfPublication	37dabbe9-f54f-43bb-960e-0bf3ac7e54eb
relation.isAdvisorOfPublication	e70a3969-39f6-4458-9339-3b71756fa56e
relation.isAdvisorOfPublication.latestForDiscovery	37dabbe9-f54f-43bb-960e-0bf3ac7e54eb

Files

Original bundle

Now showing 1 - 1 of 1

Name:: CorreaGuillen_Alexis_TFG_2025.pdf
Size:: 7.11 MB
Format:: Adobe Portable Document Format

Download

Collections

Traballos académicos (FIC)