El corpus de aprendices japoneses CELEN y su aplicación a la docencia y la investigación en ELE

Valverde, Pilar2026-03-042026-03-042023Valverde, Pilar (2023). El corpus de aprendices japoneses CELEN y su aplicación a la docencia y la investigación en ELE. TEISEL. Tecnologías para la investigación en segundas lenguas, 3, pp. 1-31. http://doi.org/10.1344/teisel.v3.428982696-676Xhttps://hdl.handle.net/2183/47573[Abstract] This paper presents the CELEN corpus (https://ske.li/qqr), a collection of texts written by Japanese L1 speakers with different levels of proficiency in Spanish as a foreign language, from level A1 to level C2 of the CEFR. The data comes from (1) universities in Japan, where Spanish can be studied as a foreign language subject or as a major, and (2) contexts of real interaction on the Internet such as electronic blogs and forums. Version 1.2 (April 2023) is composed of 6,196 texts written by 1,035 learners, with a total of 658,467 words. In section 1 we briefly review the situation of Spanish as a foreign language in Japan and the existing learner corpora. In section 2 we describe the main features of the corpus, the data collection and annotation process and the search interface. In section 3 we exemplify various types of searches (concordances, collocations, word lists and n-grams) applied to linguistic phenomena relevant in the teaching and research of Spanish: the use of se, prepositions, gender agreement, word order, verbal collocations, lexical frequency, and pos-tag sequences. This is an open resource, that is updated periodically, and we hope that other teachers and researchers can include their texts in it and offer the scientific community a wide sample of texts from Japanese learners of Spanish. A detailed user guide is available on the project website (https://sites.google.com/view/celen) and parts of the corpus can be downloaded in full under a CC BY-NC 4.0 license.[Resumen] En este artículo se presenta el Corpus de ELE en Japón, CELEN (https://ske.li/qqr), una colección de textos escritos por hablantes de japonés (L1) con distintos grados de dominio del español como lengua extranjera, desde el nivel A1 hasta el nivel C2 del MCER. Los datos proceden de (1) universidades en Japón, donde el español se estudia como asignatura de lengua extranjera o como carrera, y (2) contextos de interacción real en Internet, como blogs electrónicos y foros. La versión 1.2, de abril de 2023, consta de 6.196 textos escritos por 1.035 aprendices, con un total de 658.467 palabras. En el apartado 1 se resume brevemente la situación del español en Japón y los corpus de aprendices existentes. En el apartado 2 se describen las características principales de CELEN, el proceso de recogida y anotación de los datos y la interfaz de consulta. En el apartado 3 se ilustra su uso con varios tipos de búsquedas (concordancias, colocaciones, listas de palabras y n-gramas), aplicadas a fenómenos lingüísticos relevantes en la docencia o la investigación en ELE: el uso de se, las preposiciones, la concordancia de género, el orden de palabras, las colocaciones verbales, la frecuencia léxica o las secuencias de categorías gramaticales más frecuentes. Se trata de un recurso abierto, que se actualiza periódicamente, y esperamos que otros profesores e investigadores puedan albergar sus textos en él para ofrecer a la comunidad científica una amplia muestra de aprendices japoneses de español. En la página web del proyecto (https://sites.google.com/view/celen) se puede consultar la guía de uso detallada y descargar íntegramente algunas partes del corpus bajo una licencia CC BY-NC 4.0.[Resum] En aquest article es presenta el corpus d’ELE al Japó, CELEN (https://ske.li/qqr), una col·lecció de textos escrits per parlants de japonès com a primera llengua amb diversos graus de domini de l’espanyol com a llengua estrangera, des del nivell A1 fins al nivell C2 del MCER. Les dades procedeixen de (1) universitats dels Japó, on l’espanyol s’estudia com a assignatura de llengua estrangera o com a carrera, y (2) àmbits d’interacció real a Internet com blogs electrònics y fòrums. La versió 1.2, d'abril de 2023, consta de 6.196 textos escrits per 1.035 aprenents, en total 658.467 paraules. A l'apartat 1 es resum breument la situació de l'espanyol al Japó i els corpus d'aprenents existents. A l'apartat 2 es descriuen les característiques principals de CELEN, el procés de recollida i anotació de les dades i la interfície de consulta. A l'apartat 3 se n’il·lustra el seu ús amb diversos tipus de cerques (concordances, col·locacions, llistes de paraules i n-grames) aplicades a alguns fenòmens lingüístics rellevants en la docència o la investigació de l'espanyol com a llengua estrangera: l'ús del clític se, les preposicions, la concordança de gènere, l’ordre de paraules, les col·locacions verbals, la freqüència lèxica o les seqüències de categories gramaticals més freqüents. Es tracta d'un recurs obert, que s’actualitza periòdicament, i esperem que d’altres professors i investigadors puguin albergar-hi els seus textos per oferir a la comunitat científica una àmplia mostra d'aprenents japonesos d'espanyol. A la pàgina web del projecte (https://sites.google.com/view/celen) es pot consultar la guia d’ús detallada i descarregar íntegrament algunes parts del corpus sota una llicència CC BY-NC 4.0.spaAttribution 4.0 Internationalhttp://creativecommons.org/licenses/by/4.0/SpanishForeign languageLearner corpusWritingCorpus de aprendicesExpresión escritaEspañolLengua extranjeraEspanyolLlengua estrangeraCorpus d’aprenentsExpressió escritaEl corpus de aprendices japoneses CELEN y su aplicación a la docencia y la investigación en ELEjournal articleopen access