Aplicación de Técnicas de Recuperación de Información y Aprendizaje Automático a la Minería de Opiniones

Corujo Muíña, Manuel

View/Open

CorujoMuina_Manuel_TFG_2022.pdf (1.407Mb)

Use this link to cite

http://hdl.handle.net/2183/31941

Except where otherwise noted, this item's license is described as Atribución 3.0 España

Collections

Traballos académicos (FIC) [716]

Metadata

Show full item record

Title

Aplicación de Técnicas de Recuperación de Información y Aprendizaje Automático a la Minería de Opiniones

Author(s)

Corujo Muíña, Manuel

Directors

Alonso, Miguel A.
Vilares, Jesús

Date

2022

Center/Dept./Entity

Universidade da Coruña. Facultade de Informática

Description

Traballo fin de grao (UDC.FIC). Enxeñaría Informática. Curso 2021/2022

Abstract

[Resumen]: La Minería de Opiniones, también conocida como Análisis de Sentimientos, se dedica al estudio de opiniones y sentimientos expresados en textos. Se encuentra enmarcada dentro del área de estudio del Procesamiento de Lenguaje Natural. Este proyecto en concreto consiste en identificar la polaridad (positiva o negativa) de un conjunto de textos extraídos de una red social, Twitter. Las investigaciones en este campo han aumentado en los últimos años gracias a la mayor disponibilidad de recursos de evaluación con los que se puede trabajar. Así, actualmente resulta sencillo encontrar multitud de textos, independientemente de la temática. El hecho de poder filtrar los tuits en base a rangos de edad, geografía o hashtag (etiquetas señaladas con #), permite la realización de estudios poblacionales, de especial interés en el ámbito de, por ejemplo, la política y el marketing, al hacer posible conocer de forma automática la opinión que genera un producto entre la comunidad de usuarios. Al contrario que en otras aproximaciones más clásicas, en este trabajo no se utilizarán las palabras de los textos como atributos, sino que tan solo se utilizarán un conjunto de atributos derivados del ranking producido por un motor de búsqueda en respuesta a una consulta, donde esta consulta es el texto cuya polaridad queremos conocer. De este modo, el funcionamiento del sistema es el siguiente: En primer lugar, se usa un motor de búsqueda para, a partir de un conjunto de textos (tuits) cuya polaridad es ya conocida, construir un índice. Con el mismo motor de búsqueda y utilizando el texto que se quiere clasificar como consulta, lanzamos esta contra el motor de búsqueda, lo que devolverá un ranking con los tuits del índice más similares a aquel a clasificar. A partir de este ranking se extraen una serie de atributos que serán los que posteriormente utilice el clasificador para determinar la polaridad del texto. Como clasificadores se han utilizado distintos algoritmos de aprendizaje supervisado, como Máquinas de Soporte Vectorial, árboles de decisión o Naïve-Bayes.

[Abstract]: Opinion Mining, also known as Sentiment Analysis, is devoted to the study of opinions and emotions expressed in texts. It is framed within the study area of the Natural Language Processing. This particular project consists of the identification of the polarity (positive or negative) of a sample of texts extracted from a social network, namely Twitter. Research in this field has been increasing in recent years due to the growing number of texts that can be analysed as the use of social networks has expanded. Thus, it is currently easy to find a large number of texts, regardless of the subject matter. Due to the possibility of being able to filter tweets based on age ranges, geography or hashtag (labels marked with #), among others, these investigations are highly useful for fields such as politics. Furthermore, said research can also prove to be very convenient in the business world, as they allow to automatically determine the opinion generated by a product among the public. This paper will not consider the words in the texts as attributes, instead only 24 attributes derived from the ranking produced by a Search Engine in response to a consulta will be employed. This consulta is the text to be classified. As such, the system works as follows: A SE is used to build an index based on a set of texts. With the same SE and using the text to classify as a consulta, the index created is consulted, which will generate a ranking of the tweets in the index that are most similar to the consulta. From this ranking, 24 attributes are extracted, which will later be the ones that the classifier uses to determine the polarity of the text. Different supervised learning algorithms have been used as classifiers, such as Support Vector Machines, decision trees or Naïve-Bayes.

Keywords

Minería de opiniones
Recuperación de información
Aprendizaje automático
Procesamiento de lenguaje natural
Opinion mining
Information retrieval
Machine learning
Natural language processing

Rights

Atribución 3.0 España