Exposing sexist speech online: development of an NLP-powered Discord bot for sexism detection in social media

Gómez-Rodríguez, CarlosPuertas Pérez, SergioUniversidade da Coruña. Facultade de Informática2025-08-072025-08-072025-06https://hdl.handle.net/2183/45593[Abstract]: The present bachelor’s thesis pursues the goal of leading scientific research into a fairer society along the objective number 5 of the SDG (Sustainable Development Goals): gender equality. It aims to raise awareness about those users who post sexist comments on social media that really damage all the improvements on the subject of gender equality that we are currently achieving. More in detail, the objective is to design, train and deploy an AI-powered bot for the online platform Discord. The procedure followed in this project can be divided into 5 main steps. Firstly, there needs to be a process of exploration of the web to gather datasets containing the appropriate content: a piece of text and a label (sexist/non-sexist). After confirming that the source of the data is reliable and the format is suitable, a second step of data analysis is performed: inter-class balance, noisy data detection or sequence length predominance are some factors that will determine the performance of the model. With this information taken into consideration, we clean the data from unwanted characters, also considering spelling error checking and normalization of special terms. Once the data is clean, and for the sake of performance, a final process of data augmentation is done, trying to balance the amount of sexist/non-sexist samples and, above all, avoiding term bias. The next and third big step is to build, train, and evaluate a robust AI model which can correctly classify unseen input based on the data on which it was trained and correctly classify single messages as “sexist” or “non-sexist”. Then, the fourth step is to expand the capabilities of the model by including it in a Machine Learning Pipeline with a component based on Natural Language Processing, which can understand conversation flow and can analyze the context to increase accuracy on real-life interactions. At the fifth and final step, the Pipeline is deployed into a Discord bot, an easy and accessible way of approaching the model to everybody, which enables a multilingual and direct user-model interaction and fast response. In a nutshell, my project presents an advancement in the pursuit of more socially conscious scientific research, which not only sets a precedent for future research and improvement but also involves a real tool. This tool can make a difference in social media communities, avoiding the reactionary and negationist wave that is growing all around the world.[Resumo]: O presente traballo de fin de grao persegue o obxectivo de dirixir a investigación científica cara a unha sociedade máis xusta co gaio do obxectivo número 5 dos ODS (Obxectivos de Desenvolvemento Sostible): igualdade de xénero. Pretende concienciar sobre aqueles usuarios que publican comentarios sexistas nas redes sociais que realmente prexudican todas as melloras en materia de igualdade de xénero nas que nos atopamos envoltos actualmente. Máis en detalle, o obxectivo é deseñar, adestrar e despregar un bot potenciado por intelixencia artificial para a plataforma en liña Discord. O procedemento levado acabo neste proxecto pódese dividir en 5 pasos principais. En primeiro lugar, é necesario levar a cabo un proceso de exploración da web para recompilar conxuntos de datos que conteñan o contido adecuado: un fragmento de texto e unha etiqueta (sexista/non sexista). Tras confirmar que a fonte dos datos é fiable e o formato adecuado, realízase un segundo paso de análise dos datos: o equilibrio entre clases, a detección de datos ruidosos ou o predominio de certas lonxitudes de secuencias son algúns dos factores que determinarán o rendemento do noso modelo. Tendo en conta esta información, limpamos os datos de caracteres non desexados, considerando tamén a comprobación de erros ortográficos e a normalización de termos especiais. Unha vez limpos os datos, e en aras do rendemento, realízase un último proceso de aumento de datos, tentando equilibrar a cantidade de mostras sexistas frente a non sexistas e, sobre todo, evitando o sesgo de clase de certos termos. O seguinte e terceiro gran paso é construír, adestrar e avaliar un modelo robusto de IA que poida clasificar correctamente textos non vistos baseándose nos datos cos que foi adestrado e clasificar correctamente as mensaxes como “sexistas” ou “non sexistas”. O cuarto paso comprendría a expansión das capacidades do modelo, incluíndoo nunhaMachine Learning Pipeline cunha estrutura de datos baseada en Procesamento da Linguaxe Natural que poida entender o fluxo da conversación para poder analizar o contexto e aumentar a precisión. No quinto e último paso, o Pipeline desprégase nun Discord bot, unha forma fácil e accesible de achegar o modelo a todo o mundo que permite unha interacción usuario-modelo multilenguaje e directa e unha resposta rápida. En resumo, o meu proxecto presenta un avance na procura dunha investigación científica máis social e non só senta un precedente para futuras investigacións e melloras, senón que involucra unha ferramenta real que pode marcar a diferenza en materia de igualdade nas comunidades de redes sociais ante a onda reaccionaria e negacionista que está a crecer en todo o mundo.engAttribution 4.0 Internationalhttp://creativecommons.org/licenses/by/4.0/Artificial IntelligenceText ClassificationNatural Language ProcessingConversational graphSexismDiscordIntelixencia ArtificialClasificación de textosProcesamiento da Linguaxe NaturalGrafo conversacionalSexismoExposing sexist speech online: development of an NLP-powered Discord bot for sexism detection in social mediabachelor thesisopen access