Primeros pasos hacia la corrección gramatical y ortográfica en gallego con LLM mediante la creación de conjuntos de datos sintéticos

[Resumen] Este trabajo aborda la corrección gramatical del gallego mediante modelos de lenguaje, sistemas entrenados con grandes colecciones de texto capaces de generar y transformar oracio- nes. Ante la falta de corpus anotados, se recurrió a la creación de datos sintéticos, ejemplos construidos artificialmente para simular errores y correcciones. Se diseñaron dos conjuntos: el Dataset A, con oraciones que incluyen uno o dos errores breves y tipificados acompañados de explicación, y el Dataset B, elaborado en dos etapas, primero con variantes correctas generadas a partir de oraciones de referencia y después con errores añadidos de forma controlada junto a un registro de cambios. Ambos se usaron para ajustar un modelo multilingüe, cuya evaluación mostró el potencial de los datos sintéticos para entrenar correctores en gallego.
[Abstract] This work addresses grammatical error correction in Galician using language models, sys- tems trained on large text collections capable of generating and transforming sentences. Given the lack of annotated corpora, synthetic data were created, i.e., examples artificially construc- ted to simulate errors and corrections. Two datasets were designed: Dataset A, with sentences containing one or two brief, typified errors accompanied by an explanation, and Dataset B, deve- loped in two stages, first with correct variants generated from reference sentences and then with errors added in a controlled way together with a record of changes. Both were used to fine-tune a multilingual model, whose evaluation showed the potential of synthetic data to train grammar correctors in Galician.

Keywords

Corrección gramatical Gallego Modelos de lenguaje Datos sintéticos Evaluación automática Grammar error correction Galician Language models Synthetic data Automatic evaluation

Rights

Os titulares dos dereitos de autor autorizan a visualización do contido desta obra a través de Internet, así como a súa reprodución, gravación en soporte informático ou impresión para uso privado ou con fins de investigación. En ningún caso se permite o uso lucrativo deste documento. Estes dereitos afectan tanto ao resumo da obra como ao seu contido. Los titulares de los derechos de propiedad intelectual autorizan la visualización del contenido de este trabajo a través de Internet, así como su reproducción, grabación en soporte informático o impresión para su uso privado o con fines de investigación. En ningún caso se permite el uso lucrativo de este documento. Estos derechos afectan tanto al resumen del trabajo como a su contenido.

Collections

Traballos académicos (FFIL)

Full item page