Skip navigation
  •  Inicio
  • UDC 
    • Cómo depositar
    • Políticas del RUC
    • FAQ
    • Derechos de autor
    • Más información en INFOguías UDC
  • Listar 
    • Comunidades
    • Buscar por:
    • Fecha de publicación
    • Autor
    • Título
    • Materia
  • Ayuda
    • español
    • Gallegan
    • English
  • Acceder
  •  Español 
    • Español
    • Galego
    • English
  
Ver ítem 
  •   RUC
  • Facultade de Filoloxía
  • Investigación (FFIL)
  • Ver ítem
  •   RUC
  • Facultade de Filoloxía
  • Investigación (FFIL)
  • Ver ítem
JavaScript is disabled for your browser. Some features of this site may not work without it.

Assessment of Pre-Trained Models Across Languages and Grammars

Thumbnail
Ver/Abrir
Muñoz_Ortiz_2023_Assessment_pre-trained_models_across_lang_gram.pdf (1.925Mb)
Use este enlace para citar
http://hdl.handle.net/2183/36572
Atribución 3.0 España
Excepto si se señala otra cosa, la licencia del ítem se describe como Atribución 3.0 España
Colecciones
  • Investigación (FFIL) [877]
Metadatos
Mostrar el registro completo del ítem
Título
Assessment of Pre-Trained Models Across Languages and Grammars
Autor(es)
Muñoz-Ortiz, Alberto
Vilares, David
Gómez-Rodríguez, Carlos
Fecha
2023-11
Cita bibliográfica
Alberto Muñoz-Ortiz, David Vilares, and Carlos Gómez-Rodríguez. 2023. Assessment of Pre-Trained Models Across Languages and Grammars. In Proceedings of the 13th International Joint Conference on Natural Language Processing and the 3rd Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics (Volume 1: Long Papers), pages 359–373, Nusa Dua, Bali. Association for Computational Linguistics.
Resumen
[Absctract]: We present an approach for assessing how multilingual large language models (LLMs) learn syntax in terms of multi-formalism syntactic structures. We aim to recover constituent and dependency structures by casting parsing as sequence labeling. To do so, we select a few LLMs and study them on 13 diverse UD treebanks for dependency parsing and 10 treebanks for constituent parsing. Our results show that: (i) the framework is consistent across encodings, (ii) pre-trained word vectors do not favor constituency representations of syntax over dependencies, (iii) sub-word tokenization is needed to represent syntax, in contrast to character-based models, and (iv) occurrence of a language in the pretraining data is more important than the amount of task data when recovering syntax from the word vectors.
Palabras clave
Syntax learning
Sequence labeling
Subword tokenization
Pre-trained word vectors
Language occurrence in pretraining data
 
Descripción
Bali, Indonesia. November, 1-4 2023.
Versión del editor
https://aclanthology.org/2023.ijcnlp-main.23/
Derechos
Atribución 3.0 España

Listar

Todo RUCComunidades & ColeccionesPor fecha de publicaciónAutoresTítulosMateriasGrupo de InvestigaciónTitulaciónEsta colecciónPor fecha de publicaciónAutoresTítulosMateriasGrupo de InvestigaciónTitulación

Mi cuenta

AccederRegistro

Estadísticas

Ver Estadísticas de uso
Sherpa
OpenArchives
OAIster
Scholar Google
UNIVERSIDADE DA CORUÑA. Servizo de Biblioteca.    DSpace Software Copyright © 2002-2013 Duraspace - Sugerencias