Amosando o Lado Escuro das redes sociais: desenvolvemento do primeiro corpus en lingua galega para a detección de misoxinia en Twitter e Mastodon

Álvarez Crespo, Lucía María

Ver/abrir

AlvarezCrespo_LuciaMaria_TFG_2023.pdf (1.574Mb)

Use este enlace para citar

http://hdl.handle.net/2183/33351

A non ser que se indique outra cousa, a licenza do ítem descríbese como Atribución-NoComercial-CompartirIgual 3.0 España

Coleccións

Traballos académicos (FIC) [715]

Metadatos

Mostrar o rexistro completo do ítem

Título

Amosando o Lado Escuro das redes sociais: desenvolvemento do primeiro corpus en lingua galega para a detección de misoxinia en Twitter e Mastodon

Autor(es)

Álvarez Crespo, Lucía María

Director(es)

Castro Souto, Laura M.

Data

2023

Centro/Dpto/Entidade

Universidade da Coruña. Facultade de Informática

Descrición

Traballo fin de grao (UDC.FIC). Enxeñaría informática. Curso 2022/2023

Resumo

[Resumo] O presente Traballo Fin de Grao constitúe un proxecto de investigación que ten como obxectivo o desenvolvemento do primeiro corpus en lingua galega para a detección de misoxinia en Twitter e Mastodon. Buscamos recoller e analizar datos lingüísticos en galego presentes nestas redes sociais co fin de comprender e identificar a manifestación da misoxinia na comunicación dixital. O proceso de desenvolvemento do corpus consta de varias etapas. Comeza coa recollida dos datos en galego a través das plataformas de Twitter e Mastodon, seguido pola selección e normalización dos textos. A continuación, realizamos unha limpeza exhaustiva dos datos para preparalos para a análise e estudo posterior. Un aspecto destacado deste proxecto é a aplicación de técnicas de aprendizaxe automática para adestrar modelos capaces de identificar e clasificar de forma precisa a presenza de misoxinia nos textos analizados. Estes modelos contribuirán á detección temperá da misoxinia, permitindo intervir e previr comportamentos prexudiciais. O corpus resultante será estruturado e organizado de forma eficiente, facilitando a consulta e análise por parte de equipos de investigación con interese en abordar diversos aspectos da lingua galega relacionados coa misoxinia. A dispoñibilidade deste corpus proporcionará unha valiosa fonte de datos para afondar na comprensión deste fenómeno na comunidade galegofalante. En resumo, o desenvolvemento deste corpus en lingua galega para a detección de misoxinia en Twitter e Mastodon representa un avance significativo na investigación científica, permitindo a análise sistemática e exhaustiva dos datos lingüísticos en galego relacionados con este fenómeno. Este proxecto contribuirá á creación dunha sociedade máis inclusiva, fomentando o respecto e a igualdade na comunicación dixital en lingua galega.

[Abstract] The present Bachelor’s Thesis constitutes a research project aimed at developing the first corpus in the Galician language for the detection of misogyny on Twitter and Mastodon. We aim to collect and analyze linguistic data written in Galician on these social media platforms in order to understand and identify the manifestation of misogyny in digital communication. The corpus development process consists of several stages. It begins with the collection of data in Galician from Twitter and Mastodon platforms, followed by the selection and normalization of the Galician texts. Subsequently, a thorough data cleaning is performed to prepare them for further analysis and study. An important aspect of this project is the application of Machine Learning techniques to train models capable of accurately identifying and classifying the presence of misogyny in the analyzed texts. These models will contribute to the early detection of misogyny, enabling intervention and prevention of harmful behaviors. The resulting corpus will be structured and organized in an efficient manner, facilitating its consultation and analysis by researchers interested in addressing various aspects of the Galician language related to misogyny. The availability of this corpus will provide a valuable source of data to deepen the understanding of this phenomenon in the Galician-speaking community. In summary, the development of this Galician language corpus for the detection of misogyny on Twitter and Mastodon represents a significant advancement in scientific research, allowing for systematic and comprehensive analysis of linguistic data related to this phenomenon in Galician. This project will contribute to the creation of a more inclusive society, promoting respect and equality in digital communication in the Galician language.

Palabras chave

Misoxinia
Corpus
Aprendizaxe automática
Procesamento de linguaxe natural
Galego
Misogyny
Machine learning
Natural language processing
Galician
Twitter
Mastodon

Dereitos

Atribución-NoComercial-CompartirIgual 3.0 España