Amosando o Lado Escuro das redes sociais: desenvolvemento do primeiro corpus en lingua galega para a detección de misoxinia en Twitter e Mastodon

Use this link to cite
http://hdl.handle.net/2183/33351
Except where otherwise noted, this item's license is described as Atribución-NoComercial-CompartirIgual 3.0 España
Collections
Metadata
Show full item recordTitle
Amosando o Lado Escuro das redes sociais: desenvolvemento do primeiro corpus en lingua galega para a detección de misoxinia en Twitter e MastodonAuthor(s)
Directors
Castro Souto, Laura M.Date
2023Center/Dept./Entity
Universidade da Coruña. Facultade de InformáticaDescription
Traballo fin de grao (UDC.FIC). Enxeñaría informática. Curso 2022/2023Abstract
[Resumo] O presente Traballo Fin de Grao constitúe un proxecto de investigación que ten como obxectivo
o desenvolvemento do primeiro corpus en lingua galega para a detección de misoxinia
en Twitter e Mastodon. Buscamos recoller e analizar datos lingüísticos en galego presentes
nestas redes sociais co fin de comprender e identificar a manifestación da misoxinia na comunicación
dixital. O proceso de desenvolvemento do corpus consta de varias etapas. Comeza
coa recollida dos datos en galego a través das plataformas de Twitter e Mastodon, seguido pola
selección e normalización dos textos. A continuación, realizamos unha limpeza exhaustiva
dos datos para preparalos para a análise e estudo posterior. Un aspecto destacado deste proxecto
é a aplicación de técnicas de aprendizaxe automática para adestrar modelos capaces de
identificar e clasificar de forma precisa a presenza de misoxinia nos textos analizados. Estes
modelos contribuirán á detección temperá da misoxinia, permitindo intervir e previr comportamentos
prexudiciais. O corpus resultante será estruturado e organizado de forma eficiente,
facilitando a consulta e análise por parte de equipos de investigación con interese en abordar
diversos aspectos da lingua galega relacionados coa misoxinia. A dispoñibilidade deste corpus
proporcionará unha valiosa fonte de datos para afondar na comprensión deste fenómeno
na comunidade galegofalante. En resumo, o desenvolvemento deste corpus en lingua galega
para a detección de misoxinia en Twitter e Mastodon representa un avance significativo na
investigación científica, permitindo a análise sistemática e exhaustiva dos datos lingüísticos
en galego relacionados con este fenómeno. Este proxecto contribuirá á creación dunha sociedade
máis inclusiva, fomentando o respecto e a igualdade na comunicación dixital en lingua
galega. [Abstract] The present Bachelor’s Thesis constitutes a research project aimed at developing the first
corpus in the Galician language for the detection of misogyny on Twitter and Mastodon. We
aim to collect and analyze linguistic data written in Galician on these social media platforms
in order to understand and identify the manifestation of misogyny in digital communication.
The corpus development process consists of several stages. It begins with the collection of
data in Galician from Twitter and Mastodon platforms, followed by the selection and normalization
of the Galician texts. Subsequently, a thorough data cleaning is performed to prepare
them for further analysis and study. An important aspect of this project is the application
of Machine Learning techniques to train models capable of accurately identifying and classifying
the presence of misogyny in the analyzed texts. These models will contribute to the
early detection of misogyny, enabling intervention and prevention of harmful behaviors. The
resulting corpus will be structured and organized in an efficient manner, facilitating its consultation
and analysis by researchers interested in addressing various aspects of the Galician
language related to misogyny. The availability of this corpus will provide a valuable source of
data to deepen the understanding of this phenomenon in the Galician-speaking community.
In summary, the development of this Galician language corpus for the detection of misogyny
on Twitter and Mastodon represents a significant advancement in scientific research, allowing
for systematic and comprehensive analysis of linguistic data related to this phenomenon
in Galician. This project will contribute to the creation of a more inclusive society, promoting
respect and equality in digital communication in the Galician language.
Keywords
Misoxinia
Corpus
Aprendizaxe automática
Procesamento de linguaxe natural
Galego
Misogyny
Machine learning
Natural language processing
Galician
Twitter
Mastodon
Corpus
Aprendizaxe automática
Procesamento de linguaxe natural
Galego
Misogyny
Machine learning
Natural language processing
Galician
Mastodon
Rights
Atribución-NoComercial-CompartirIgual 3.0 España