Use this link to cite:
https://hdl.handle.net/2183/45576 Evaluating and Fine-tuning Open-Source LLMs for Relevance Assessment in TREC Datasets
Loading...
Identifiers
Publication date
Authors
Domínguez Rodríguez, Juan
Advisors
Other responsabilities
Universidade da Coruña. Facultade de Informática
Journal Title
Bibliographic citation
Type of academic work
Academic degree
Abstract
[Abstract]: Information Retrieval (IR) has been a fundamental area in the field of computer science for many years, and it is the secret behind the working of search engines today. The central objective of IR systems is to retrieve and return the most relevant documents as the response to the query given by the user. To assess and enhance the performance of these systems, standard test collections are commonly used. These collections typically include a set of documents, queries, and human-provided relevance judgments that indicate the degree to which each document is relevant to each query. Such collections are crucial for assessing the quality of IR systems. Relevance judgments have traditionally been achieved by human experts, most frequently within the framework of benchmarking efforts such as TREC (Text REtrieval Conference). While human-based assessments deliver high-quality judgments, they also come with severe limitations in terms of high economic cost, high processing time, low scalability, and subjectivity of human judgment. Parallel to this, the rapid development of Generative Artificial Intelligence (GenAI), and particularly with Large Language Models (LLMs), is transforming most subfields of computer science. Such models, trained on vast amounts of textual data, are able to perform a wide range of activities hitherto requiring human-like reasoning and natural language understanding. This includes being able to decide upon the relevance of documents to queries, replicating the type of analytical decision-making typically associated with experienced human examiners. With the increasing accuracy and potential for generalization of state-of-the-art LLMs, such as those from the LLaMA or the GPT family, there exists a promising possibility of leveraging such models for automating relevance judgment in IR. The thesis explores the possibility of employing open-source LLMs as automated relevance judges with the aim of reducing the reliance on human judges without significantly compromising judgment quality. By defining a rigorous experimental setup (covering data preprocessing, prompt generation, inference pipelines, and evaluation metrics such as Mean Absolute Error (MAE), Area Under the Curve (AUC), and Kendall Tau correlation) it is quantified the alignment between LLM-generated judgments and those rendered by expert annotators in standard IR tracks. A companion web application is also developed to visualize disagreement patterns and facilitate comparative analysis between humans, LLMs, and ground truth labels. This research contributes to the overall research agenda of AI-assisted information retrieval, offering implications for the scalability, stability, and future potential of LLMs for essential evaluation tasks within the area of IR.
[Resumo]: A Recuperación de Información (IR) leva moitos anos sendo unha área fundamental no ámbito da informática, e é o segredo detrás do funcionamento dos motores de busca actuais. O obxectivo central dos sistemas de IR é recuperar e devolver os documentos máis relevantes como resposta á consulta realizada polo usuario. Para avaliar e mellorar o rendemento destes sistemas, utilízanse colecións estándar de proba. Istas coleccións tipicamente inclúen un conxunto de documentos, consultas, e xuízos de relevancia creados por humanos, que indican canto de relevante é un documento para cada consulta. As coleccións son cruciais para avaliar a calidade dos sistemas de IR. Tradicionalmente, estes xuízos de relevancia foron realizados por expertos humanos, frecuentemente no marco de iniciativas de avaliación como TREC (Text REtrieval Conference). Aínda que as avaliacións humanas proporcionan xuízos de alta calidade, tamén presentan limitacións importantes: elevado custo económico, tempo de procesamento longo, baixa escalabilidade e subxectividade inherente ao xuízo humano. Paralelamente, o desenvolvemento acelerado da Intelixencia Artificial Xenerativa (GenAI), e en particular dos Modelos de Linguaxe de Gran Tamaño (LLMs), está transformando a maioría das subáreas da informática. Estes modelos, adestrados con grandes volumes de datos textuais, son capaces de realizar unha ampla variedade de tarefas que antes requirían razoamento humano e comprensión da linguaxe natural. Entre estas tarefas atópase a capacidade de decidir sobre a relevancia de documentos respecto de consultas, replicando o tipo de toma de decisións analíticas propias de examinadores humanos experimentados. Coa crecente precisión e capacidade de xeneralización dos LLMs máis avanzados, como os das familias LLaMA ou GPT, preséntase unha oportunidade prometedora para empregar estes modelos na automatización dos xuízos de relevancia en IR. Esta tese explora a posibilidade de empregar LLMs de código aberto como xuíces automáticos de relevancia co obxectivo de reducir a dependencia dos avaliadores humanos sen comprometer significativamente a calidade dos xuízos. A través da definición dun marco experimental rigoroso, que abrangue o preprocesamento de datos (xeración de prompts, infraestruturas de inferencia e métricas de avaliación como o Erro Medio Absoluto (MAE), a Área Baixo a Curva (AUC) e a correlación de Kendall Tau) cuantifícase o grao de alineamento entre os xuízos xerados polos LLMs e os realizados por anotadores expertos en tarefas estándar de IR. Ademais, desenvólvese unha aplicación web complementaria que permite visualizar patróns de desacordo e facilitar a análise comparativa entre humanos, LLMs e as etiquetas de verdade terreal. Esta investigación contribúe á axenda científica da recuperación de información asistida por IA, ofrecendo implicacións sobre a escalabilidade, estabilidade e potencial futuro dos LLMs para tarefas esenciais de avaliación no ámbito da IR.
[Resumo]: A Recuperación de Información (IR) leva moitos anos sendo unha área fundamental no ámbito da informática, e é o segredo detrás do funcionamento dos motores de busca actuais. O obxectivo central dos sistemas de IR é recuperar e devolver os documentos máis relevantes como resposta á consulta realizada polo usuario. Para avaliar e mellorar o rendemento destes sistemas, utilízanse colecións estándar de proba. Istas coleccións tipicamente inclúen un conxunto de documentos, consultas, e xuízos de relevancia creados por humanos, que indican canto de relevante é un documento para cada consulta. As coleccións son cruciais para avaliar a calidade dos sistemas de IR. Tradicionalmente, estes xuízos de relevancia foron realizados por expertos humanos, frecuentemente no marco de iniciativas de avaliación como TREC (Text REtrieval Conference). Aínda que as avaliacións humanas proporcionan xuízos de alta calidade, tamén presentan limitacións importantes: elevado custo económico, tempo de procesamento longo, baixa escalabilidade e subxectividade inherente ao xuízo humano. Paralelamente, o desenvolvemento acelerado da Intelixencia Artificial Xenerativa (GenAI), e en particular dos Modelos de Linguaxe de Gran Tamaño (LLMs), está transformando a maioría das subáreas da informática. Estes modelos, adestrados con grandes volumes de datos textuais, son capaces de realizar unha ampla variedade de tarefas que antes requirían razoamento humano e comprensión da linguaxe natural. Entre estas tarefas atópase a capacidade de decidir sobre a relevancia de documentos respecto de consultas, replicando o tipo de toma de decisións analíticas propias de examinadores humanos experimentados. Coa crecente precisión e capacidade de xeneralización dos LLMs máis avanzados, como os das familias LLaMA ou GPT, preséntase unha oportunidade prometedora para empregar estes modelos na automatización dos xuízos de relevancia en IR. Esta tese explora a posibilidade de empregar LLMs de código aberto como xuíces automáticos de relevancia co obxectivo de reducir a dependencia dos avaliadores humanos sen comprometer significativamente a calidade dos xuízos. A través da definición dun marco experimental rigoroso, que abrangue o preprocesamento de datos (xeración de prompts, infraestruturas de inferencia e métricas de avaliación como o Erro Medio Absoluto (MAE), a Área Baixo a Curva (AUC) e a correlación de Kendall Tau) cuantifícase o grao de alineamento entre os xuízos xerados polos LLMs e os realizados por anotadores expertos en tarefas estándar de IR. Ademais, desenvólvese unha aplicación web complementaria que permite visualizar patróns de desacordo e facilitar a análise comparativa entre humanos, LLMs e as etiquetas de verdade terreal. Esta investigación contribúe á axenda científica da recuperación de información asistida por IA, ofrecendo implicacións sobre a escalabilidade, estabilidade e potencial futuro dos LLMs para tarefas esenciais de avaliación no ámbito da IR.
Description
Keywords
Generative AI LLM Information Retrieval Relevance Assesment Natural Language Processing Fine-tuning Text Retrieval Conference Big Data Machine Learning Open Source IA Xenerativa LLM Recuperación da información Xuicios de relevancia Procesamento da linguaxe natural Fine-tuning Text Retrieval Conference Aprendizaxe máquina Código aberto
Editor version
Rights
Attribution-NonCommercial-ShareAlike 4.0 International







