Aplicación de Técnicas de Recuperación de Información y Aprendizaje Automático a la Minería de Opiniones
Use este enlace para citar
http://hdl.handle.net/2183/31941Colecciones
Metadatos
Mostrar el registro completo del ítemTítulo
Aplicación de Técnicas de Recuperación de Información y Aprendizaje Automático a la Minería de OpinionesAutor(es)
Directores
Alonso, Miguel A.Vilares, Jesús
Fecha
2022Centro/Dpto/Entidad
Universidade da Coruña. Facultade de InformáticaDescripción
Traballo fin de grao (UDC.FIC). Enxeñaría Informática. Curso 2021/2022Resumen
[Resumen]: La Minería de Opiniones, también conocida como Análisis de Sentimientos, se dedica al estudio
de opiniones y sentimientos expresados en textos. Se encuentra enmarcada dentro del
área de estudio del Procesamiento de Lenguaje Natural. Este proyecto en concreto consiste
en identificar la polaridad (positiva o negativa) de un conjunto de textos extraídos de una red
social, Twitter.
Las investigaciones en este campo han aumentado en los últimos años gracias a la mayor
disponibilidad de recursos de evaluación con los que se puede trabajar. Así, actualmente resulta
sencillo encontrar multitud de textos, independientemente de la temática. El hecho de
poder filtrar los tuits en base a rangos de edad, geografía o hashtag (etiquetas señaladas con
#), permite la realización de estudios poblacionales, de especial interés en el ámbito de, por
ejemplo, la política y el marketing, al hacer posible conocer de forma automática la opinión
que genera un producto entre la comunidad de usuarios.
Al contrario que en otras aproximaciones más clásicas, en este trabajo no se utilizarán las
palabras de los textos como atributos, sino que tan solo se utilizarán un conjunto de atributos
derivados del ranking producido por un motor de búsqueda en respuesta a una consulta, donde
esta consulta es el texto cuya polaridad queremos conocer. De este modo, el funcionamiento
del sistema es el siguiente: En primer lugar, se usa un motor de búsqueda para, a partir de un
conjunto de textos (tuits) cuya polaridad es ya conocida, construir un índice. Con el mismo
motor de búsqueda y utilizando el texto que se quiere clasificar como consulta, lanzamos
esta contra el motor de búsqueda, lo que devolverá un ranking con los tuits del índice más
similares a aquel a clasificar. A partir de este ranking se extraen una serie de atributos que
serán los que posteriormente utilice el clasificador para determinar la polaridad del texto.
Como clasificadores se han utilizado distintos algoritmos de aprendizaje supervisado, como
Máquinas de Soporte Vectorial, árboles de decisión o Naïve-Bayes. [Abstract]: Opinion Mining, also known as Sentiment Analysis, is devoted to the study of opinions
and emotions expressed in texts. It is framed within the study area of the Natural Language
Processing. This particular project consists of the identification of the polarity (positive or
negative) of a sample of texts extracted from a social network, namely Twitter.
Research in this field has been increasing in recent years due to the growing number of
texts that can be analysed as the use of social networks has expanded. Thus, it is currently
easy to find a large number of texts, regardless of the subject matter. Due to the possibility of
being able to filter tweets based on age ranges, geography or hashtag (labels marked with #),
among others, these investigations are highly useful for fields such as politics. Furthermore,
said research can also prove to be very convenient in the business world, as they allow to
automatically determine the opinion generated by a product among the public.
This paper will not consider the words in the texts as attributes, instead only 24 attributes
derived from the ranking produced by a Search Engine in response to a consulta will be employed.
This consulta is the text to be classified. As such, the system works as follows: A
SE is used to build an index based on a set of texts. With the same SE and using the text to
classify as a consulta, the index created is consulted, which will generate a ranking of the
tweets in the index that are most similar to the consulta. From this ranking, 24 attributes are
extracted, which will later be the ones that the classifier uses to determine the polarity of the
text. Different supervised learning algorithms have been used as classifiers, such as Support
Vector Machines, decision trees or Naïve-Bayes.
Palabras clave
Minería de opiniones
Recuperación de información
Aprendizaje automático
Procesamiento de lenguaje natural
Opinion mining
Information retrieval
Machine learning
Natural language processing
Recuperación de información
Aprendizaje automático
Procesamiento de lenguaje natural
Opinion mining
Information retrieval
Machine learning
Natural language processing
Derechos
Atribución 3.0 España