Detección de linguaxe misóxino e xenófobo en redes sociais mediante aprendizaxe máquina
Use this link to cite
http://hdl.handle.net/2183/27273
Except where otherwise noted, this item's license is described as Atribución-NoComercial-SinDerivadas 3.0 España
Collections
Metadata
Show full item recordTitle
Detección de linguaxe misóxino e xenófobo en redes sociais mediante aprendizaxe máquinaAuthor(s)
Directors
Carneiro Díaz, Víctor ManuelFernández Iglesias, Diego
Date
2020-09Center/Dept./Entity
Enxeñaría informática, Grao enDescription
Traballo fin de grao (UDC.FIC). Enxeñaría informática. Curso 2019/2020Abstract
[Resumo] Co incremento do uso das redes sociais, xurde a necesidade de ter todo máis controlado para
evitar casos de abuso verbal, discriminación, acoso… Twitter é unha rede social que funciona
mediante o envío posts de usuarios, e na que xorden moitos debates e discusións, polo que é
bastante habitual ver este tipo de problemáticas.
O obxectivo principal deste traballo é a clasificación de posts de Twitter, para comprobar
se conteñen linguaxe despectivo ou expresións de odio cara as mulleres e inmigrantes. Para
isto empréganse técnicas de machine learning seguindo a metodoloxía CRISP-DM, a cal consta
de 6 fases.
Seguindo as fases desta metodoloxía, analízase e compréndese o dataset que contén os
datos, para posteriormente poder obter as características que emprega o algoritmo de Random
Forest para a creación do modelo. Para validar este modelo empréganse varios métodos de
validación, co fin de obter o modelo que presente mellores resultados.
Despois de todo este proceso e axustar o modelo o mellor posible, chegamos a unha das
últimas fases, a avaliación, na cal se aplican distintas métricas para obter os resultados. Cabe
destacar que o mellor resultado que se acada é un 78.16% para a métrica de precisión, mellorando
ata un 13.16% as precisións obtidas no estado do arte. [Abstract] With the increase in the use of social networks, the need airises to have everything more
controlled to avoid cases of verbal abuse, discrimination, harassment… Twitter is a social
network that works by sending user posts, and in which many debates an discussions, so it is
quite common to see such problems.
The main objective of this work is the classification of Twitter posts, to check if they
contain derogatory language or expressions of hatred towards women and immigrants. For
this, machine learning techniques are used following the CRISP-DM methodology, which
consists of 6 phases.
Following the phases of this methodology, the dataset containing the data is analyzed and
understood, in order to subsequently be able to obtain the characteristics used by the Random
Forest algorithm for the creation of the model. To validate this model several validation
methods are used in order to obtain the model that presents better results.
After all this process and adjusting the model as best as possible, we come to one of the
last phases, the evaluation, in which different metrics are applied to get the results. It is worth
noting that the best result is 78.16% for the precision metric, improving the accuracy obtained
in the state of the art to 13.16%.
Keywords
Aprendizaxe máquina
Random forest
Algoritmos de similitude
Árbores de decisión
Clasificación
Validación cruzada
Machine language
Similarity algorithms
Decision trees
Classification
Cross Validation
Random forest
Algoritmos de similitude
Árbores de decisión
Clasificación
Validación cruzada
Machine language
Similarity algorithms
Decision trees
Classification
Cross Validation
Rights
Atribución-NoComercial-SinDerivadas 3.0 España