Creación de un treebank de dependencias universales mediante recursos existentes para lenguas próximas: el caso del gallego
Use este enlace para citar
http://hdl.handle.net/2183/19272Coleccións
- GI-LYS - Artigos [51]
Metadatos
Mostrar o rexistro completo do ítemTítulo
Creación de un treebank de dependencias universales mediante recursos existentes para lenguas próximas: el caso del gallegoData
2016-09Cita bibliográfica
García, Marcos; Gómez-Rodríguez, Carlos and Alonso Pardo, Miguel A. Creación de un treebank de dependencias universales mediante recursos existentes para lenguas próximas: el caso del gallego, Procesamiento del Lenguaje Natural, 57:pp. 33-40, 2016.
Resumo
[Resumen] En este trabajo presentamos una nueva estrategia para crear treebanks de lenguas con pocos recursos para el análisis sintáctico. El método consiste en la adaptación y combinación de diferentes treebanks anotados con dependencias universales de variedades lingüísticas próximas, con el objetivo de entrenar un analizador sintáctico para la lengua elegida, en nuestro caso el gallego. Durante el proceso de selección y adaptación de los treebanks de origen, analizamos el impacto de propiedades de tres niveles diferentes: (i) la distancia entre las lenguas de origen y destino, (ii) la adaptación de características léxico-ortográficas, y (iii) las directrices de anotación entre los treebanks. Usando la estrategia propuesta, entrenamos un analizador sintáctico estadístico para etiquetar, con resultados prometedores y sin datos previos de gallego, un pequeño corpus de esta lengua. La corrección manual de este corpus, usado como gold-standard, nos permitió probar la eficacia del método propuesto.
Palabras chave
Análisis sintáctico
Treebank
Dependencias universales
Gallego (Lengua)
Treebank
Dependencias universales
Gallego (Lengua)
Versión do editor
ISSN
1135-5948