Use this link to cite:
http://hdl.handle.net/2183/42038 On the impact of syntactic infusion for gender categorization across contextual dimensions
Loading...
Identifiers
Publication date
Authors
Advisors
Other responsabilities
Journal Title
Bibliographic citation
Veiga Menéndez, I., Muñoz-Ortiz, A., & Vilares, D. (2025). On the Impact of Syntactic Infusion for Gender Categorization Across Contextual Dimensions. Procesamiento del Lenguaje Natural, 74, 159-178. DOI 10.26342/2025-74-11
Type of academic work
Academic degree
Abstract
[Abstract]: This paper investigates how incorporating syntactic information can enhance the categorization of text into multiple gender dimensions, defined by our own
identity (as category), the person we are addressing (to category), or the individual
we are discussing (about category). Specifically, we explore the use of dependency
grammars to integrate explicit syntactic embeddings while leveraging the strengths
of pre-trained masked language models (MLMs). Our goal is to determine if dependency grammars add value beyond the implicit syntactic understanding already
captured by MLMs. We begin by establishing a baseline using standard MLMs.
Next, we propose a neural architecture that explicitly integrates dependency-based
structures into this baseline, enabling a comparative analysis of performance and
variations. Finally, in addition to evaluating the results, we analyzed the training dynamics of the two proposed variants to provide additional insights into their
behavior during the fine-tuning stage. Explicit syntactic information boosts performance in single-task setups, though its gains fade in multitask scenarios.
[Resumen]: Este artículo investiga cómo incorporar información sintáctica puede mejorar la clasificación de textos en múltiples dimensiones de género, definidas por nuestra propia identidad (categoría as), la persona a la que nos dirigimos (categoría to) o el individuo del que se habla (categoría about). En concreto, exploramos el uso de gramáticas de dependencias para integrar representaciones sintácticas explícitas, complementando las representaciones de modelos de lenguaje enmascarados preentrenados (MLMs). Nuestro objetivo es determinar si las gramáticas de dependencias aportan algo más allá de la comprensión sintáctica implícita ya capturada por los MLMs. Para ello, primero establecemos un modelo base usando un MLM estándar. A continuación, proponemos una arquitectura neuronal que integra en este modelo estructuras basadas en dependencias de forma explícita, permitiendo comparar el rendimiento y las variaciones. Finalmente, evaluamos los resultados y analizamos las dinámicas de entrenamiento de las dos variantes propuestas para ofrecer información adicional sobre su comportamiento durante la etapa de ajuste fino. La información sintáctica explícita mejora el rendimiento en configuraciones de tarea única, aunque sus beneficios disminuyen en escenarios multitarea.
[Resumen]: Este artículo investiga cómo incorporar información sintáctica puede mejorar la clasificación de textos en múltiples dimensiones de género, definidas por nuestra propia identidad (categoría as), la persona a la que nos dirigimos (categoría to) o el individuo del que se habla (categoría about). En concreto, exploramos el uso de gramáticas de dependencias para integrar representaciones sintácticas explícitas, complementando las representaciones de modelos de lenguaje enmascarados preentrenados (MLMs). Nuestro objetivo es determinar si las gramáticas de dependencias aportan algo más allá de la comprensión sintáctica implícita ya capturada por los MLMs. Para ello, primero establecemos un modelo base usando un MLM estándar. A continuación, proponemos una arquitectura neuronal que integra en este modelo estructuras basadas en dependencias de forma explícita, permitiendo comparar el rendimiento y las variaciones. Finalmente, evaluamos los resultados y analizamos las dinámicas de entrenamiento de las dos variantes propuestas para ofrecer información adicional sobre su comportamiento durante la etapa de ajuste fino. La información sintáctica explícita mejora el rendimiento en configuraciones de tarea única, aunque sus beneficios disminuyen en escenarios multitarea.
Description
Editor version
Rights
©2025 Sociedad Española para el Procesamiento del Lenguaje Natural







