Desarrollo de algoritmos de pooling basados en re-ranking de contenidos por relevancia
Use this link to cite
http://hdl.handle.net/2183/25613
Except where otherwise noted, this item's license is described as Atribución-NoComercial-SinDerivadas 4.0 España
Collections
Metadata
Show full item recordTitle
Desarrollo de algoritmos de pooling basados en re-ranking de contenidos por relevanciaAuthor(s)
Directors
Barreiro García, ÁlvaroParapar, Javier
Date
2020Center/Dept./Entity
Enxeñaría informática, Grao enDescription
Traballo fin de grao (UDC.FIC). Enxeñaría informática. Curso 2019/2020Abstract
[Abstract]
These days, Information Retrieval Systems are becoming more and more important. These
systems provide information to the user based on previous queries; these queries can be quite
varied, from the weather there’ll be tomorrow to the time a movie will be played or the definition
of a word. The amount of available information is quite massive, which makes effectiveness
and efficiency very important to these systems. Given the task at hand, finding
information in a collection of documents, the information retrieval system would output the
documents sorted so that those most relevant to the user’s query are at the top.
Traditionally, information retrieval systems have been evaluated using benchmarks, consisting
of documents, queries and relevant assessments. At first, the collections to be assessed
were small, so it was viable for the assessors to read all the documents within, in order to
assess said collection. From the TREC( Text Retrieval Conference) onward, collections grew
noticeably in size, making the task of assessing them harder, which meant assessing the entire
collection was no longer a viable approach. To solve this problem, a new technique, named
pooling, appeared, which creates a pool of the top k documents belonging to all the systems
involved in a competition, after these systems have all run the same queries on the same documents.
Once the pool has been created, it is presented to the assessors in a random order so
that their relevance to the query can be assessed. TREC has always followed the aforementioned
strategy, but some other algorithms have been implemented by researchers, which do
not present the documents sorted in a random order but do so in some specific order instead,
such as MTF(Move to Front), and which don’t use the content of the documents, but their order
within each ranking.
This idea is the basis for this project, whose purpose is the creation of a new pooling algorithm
that would make use of the content of the documents. The process is as follows: each
time an assessor marks a document as relevant for a given query, the documents are reranked
using a relevance model before being once again presented to the assessor. [Resumen] En la actualidad, los Sistemas de Recuperación de Información son cada vez más importantes. Dichos sistemas proporcionan a un usuario información en base a una consulta previamente enviada, esas consultas pueden ser muy variadas, como por ejemplo el tiempo que va hacer mañana, la hora a la que emiten una película en el cine, la definición de una palabra, etc. La cantidad de información existente es extremadamente extensa y por lo tanto es muy importante que dichos sistemas sean lo más eficaces y eficientes posibles. Considerando la tarea central, encontrar información en un conjunto de documentos, la respuesta de un sistema de recuperación será una ordenación de los mismos, con el objetivo principal de proporcionar al usuario los documentos más relevantes para una consulta en las primeras posiciones del ranking. Tradicionalmente, para evaluar los sistemas de recuperación se han usado benchmarks, formados por conjuntos de documentos, consultas y juicios de relevancia. Las primeras colecciones a evaluar tenían un tamaño pequeño y por lo tanto los asesores podían llevar a cabo la lectura de todos los documentos, lo cual hacía viable evaluar toda la colección. A partir de TREC (Text Retrieval Conference), las colecciones empezaron a crecer notablemente y por tanto la tarea de los asesores se complicó, volviendo inviable llevar a cabo una evaluación de toda la colección. Para solucionar este problema surge una técnica denominada pooling, la cual consiste en crear un pool con el top k de documentos pertenecientes a todos los sistemas participantes en una competición, dichos sistemas han ejecutado todos las mismas queries sobre los mismos documentos. Una vez creado el pool se presenta a los asesores en un orden arbitrario y los evalúan para determinar si son relevantes o no para la consulta enviada. TREC siempre ha usado la estrategia aquí mencionada, pero algunos investigadores han implementado otros algoritmos, los cuales no presentan los documentos en un orden arbitrario sino que lo hacen en un orden determinado, como por ejemplo MTF(Move to Front), los cuales no utilizan el contenido de los documentos, sino que el orden de los documentos en cada ranking. A partir de esta idea es donde surge el proyecto que se presenta a continuación, donde vamos a crear un nuevo algoritmo de pooling, el cual utiliza el contenido de los documentos. El procedimiento a seguir es el siguiente: cada vez que un asesor marca un documento como relevante para una consulta, se produce un re-ranking de los documentos utilizando un modelo de relevancia y se presenta los documentos al asesor con el nuevo orden generado.
Keywords
Recuperación información
Relevancia
Ranking
Pooling
Evaluación
Indexación
Modelos de lenguaje
Information retrieval
Relevance
Evaluation
Indexing
Language models
Relevancia
Ranking
Pooling
Evaluación
Indexación
Modelos de lenguaje
Information retrieval
Relevance
Evaluation
Indexing
Language models
Rights
Atribución-NoComercial-SinDerivadas 4.0 España