Desarrollo de algoritmos de pooling basados en re-ranking de contenidos por relevancia

Penela Fernández, Jessica

View/Open

J.Penela_Fernández_Desarrollo_de_algoritmos_de_pooling_2020.pdf (1.138Mb)

Use this link to cite

http://hdl.handle.net/2183/25613

Except where otherwise noted, this item's license is described as Atribución-NoComercial-SinDerivadas 4.0 España

Collections

Enxeñaría informática, Grao en [526]

Metadata

Show full item record

Title

Desarrollo de algoritmos de pooling basados en re-ranking de contenidos por relevancia

Author(s)

Penela Fernández, Jessica

Directors

Barreiro García, Álvaro
Parapar, Javier

Date

2020

Center/Dept./Entity

Enxeñaría informática, Grao en

Description

Traballo fin de grao (UDC.FIC). Enxeñaría informática. Curso 2019/2020

Abstract

[Abstract] These days, Information Retrieval Systems are becoming more and more important. These systems provide information to the user based on previous queries; these queries can be quite varied, from the weather there’ll be tomorrow to the time a movie will be played or the definition of a word. The amount of available information is quite massive, which makes effectiveness and efficiency very important to these systems. Given the task at hand, finding information in a collection of documents, the information retrieval system would output the documents sorted so that those most relevant to the user’s query are at the top. Traditionally, information retrieval systems have been evaluated using benchmarks, consisting of documents, queries and relevant assessments. At first, the collections to be assessed were small, so it was viable for the assessors to read all the documents within, in order to assess said collection. From the TREC( Text Retrieval Conference) onward, collections grew noticeably in size, making the task of assessing them harder, which meant assessing the entire collection was no longer a viable approach. To solve this problem, a new technique, named pooling, appeared, which creates a pool of the top k documents belonging to all the systems involved in a competition, after these systems have all run the same queries on the same documents. Once the pool has been created, it is presented to the assessors in a random order so that their relevance to the query can be assessed. TREC has always followed the aforementioned strategy, but some other algorithms have been implemented by researchers, which do not present the documents sorted in a random order but do so in some specific order instead, such as MTF(Move to Front), and which don’t use the content of the documents, but their order within each ranking. This idea is the basis for this project, whose purpose is the creation of a new pooling algorithm that would make use of the content of the documents. The process is as follows: each time an assessor marks a document as relevant for a given query, the documents are reranked using a relevance model before being once again presented to the assessor.

[Resumen] En la actualidad, los Sistemas de Recuperación de Información son cada vez más importantes. Dichos sistemas proporcionan a un usuario información en base a una consulta previamente enviada, esas consultas pueden ser muy variadas, como por ejemplo el tiempo que va hacer mañana, la hora a la que emiten una película en el cine, la definición de una palabra, etc. La cantidad de información existente es extremadamente extensa y por lo tanto es muy importante que dichos sistemas sean lo más eficaces y eficientes posibles. Considerando la tarea central, encontrar información en un conjunto de documentos, la respuesta de un sistema de recuperación será una ordenación de los mismos, con el objetivo principal de proporcionar al usuario los documentos más relevantes para una consulta en las primeras posiciones del ranking. Tradicionalmente, para evaluar los sistemas de recuperación se han usado benchmarks, formados por conjuntos de documentos, consultas y juicios de relevancia. Las primeras colecciones a evaluar tenían un tamaño pequeño y por lo tanto los asesores podían llevar a cabo la lectura de todos los documentos, lo cual hacía viable evaluar toda la colección. A partir de TREC (Text Retrieval Conference), las colecciones empezaron a crecer notablemente y por tanto la tarea de los asesores se complicó, volviendo inviable llevar a cabo una evaluación de toda la colección. Para solucionar este problema surge una técnica denominada pooling, la cual consiste en crear un pool con el top k de documentos pertenecientes a todos los sistemas participantes en una competición, dichos sistemas han ejecutado todos las mismas queries sobre los mismos documentos. Una vez creado el pool se presenta a los asesores en un orden arbitrario y los evalúan para determinar si son relevantes o no para la consulta enviada. TREC siempre ha usado la estrategia aquí mencionada, pero algunos investigadores han implementado otros algoritmos, los cuales no presentan los documentos en un orden arbitrario sino que lo hacen en un orden determinado, como por ejemplo MTF(Move to Front), los cuales no utilizan el contenido de los documentos, sino que el orden de los documentos en cada ranking. A partir de esta idea es donde surge el proyecto que se presenta a continuación, donde vamos a crear un nuevo algoritmo de pooling, el cual utiliza el contenido de los documentos. El procedimiento a seguir es el siguiente: cada vez que un asesor marca un documento como relevante para una consulta, se produce un re-ranking de los documentos utilizando un modelo de relevancia y se presenta los documentos al asesor con el nuevo orden generado.

Keywords

Recuperación información
Relevancia
Ranking
Pooling
Evaluación
Indexación
Modelos de lenguaje
Information retrieval
Relevance
Evaluation
Indexing
Language models

Rights

Atribución-NoComercial-SinDerivadas 4.0 España