Segmentación de palabras en español mediante modelos del lenguaje basados en redes neuronales

Doval, Yerai; Gómez-Rodríguez, Carlos; Vilares, Jesús

dc.contributor.author	Doval, Yerai
dc.contributor.author	Gómez-Rodríguez, Carlos
dc.contributor.author	Vilares, Jesús
dc.date.accessioned	2017-07-14T14:03:01Z
dc.date.available	2017-07-14T14:03:01Z
dc.date.issued	2016-09
dc.identifier.citation	Yerai Doval, Carlos Gómez-Rodríguez and Jesús Vilares, Segmentación de palabras en español mediante modelos del lenguaje basados en redes neuronales, Procesamiento del Lenguaje Natural, 57:75-82, 2016	es_ES
dc.identifier.issn	1135-5948
dc.identifier.uri	http://hdl.handle.net/2183/19278
dc.description.abstract	[Resumen] En las plataformas de microblogging abundan ciertos tokens especiales como los hashtags o las menciones en los que un grupo de palabras se escriben juntas sin espaciado entre ellas; p.ej.: #añobisiesto o @ryanreynoldsnet. Debido a la forma en que se escriben este tipo de textos, este fenómeno de ensamblado de palabras puede aparecer junto a su opuesto, la segmentación de palabras, afectando a cualquier elemento del texto y dificultando su análisis. En este trabajo se muestra un enfoque algorítmico que utiliza como base un modelo del lenguaje —en nuestro caso concreto uno basado en redes euronales— para resolver el problema de la segmentación y ensamblado de palabras, en el que se trata de recuperar el espaciado estándar de las palabras que han sufrido alguna de estas transformaciones añadiendo o quitando espacios donde corresponda. Los resultados obtenidos son prometedores e indican que tras un mayor refinamiento del modelo del lenguaje se podrá sobrepasar al estado del arte.	es_ES
dc.description.abstract	[Abstract] In social media platforms special tokens abound such as hashtags and mentions in which multiple words are written together without spacing between them; e.g. #leapyear or @ryanreynoldsnet. Due to the way this kind of texts are written, this word assembly phenomenon can appear with its opposite, word segmentation, a ecting any token of the text and making it more di cult to perform analysis on them. In this work we show an algorithmic approach based on a language model \|in this case a neural model\| to solve the problem of the segmentation and assembly of words, in which we try to recover the standard spacing of the words that have su ered one of these transformations by adding or deleting spaces when necessary. The promising results indicate that after some further re nement of the language model it will be possible to surpass the state of the art.	es_ES
dc.description.sponsorship	Ministerio de Economía y Competitividad; FFI2014-51978-C2-1-R	es_ES
dc.description.sponsorship	Ministerio de Economía y Competitividad; FFI2014-51978-C2-2-R
dc.language.iso	spa	es_ES
dc.publisher	Sociedad Española para el Procesamiento del Lenguaje Natural	es_ES
dc.relation.uri	http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/5339	es_ES
dc.subject	Segmentación de palabras	es_ES
dc.subject	Ensamblado de palabras	es_ES
dc.subject	Español	es_ES
dc.subject	Modelos del lenguaje basados en redes neuronales	es_ES
dc.subject	Word segmentation	es_ES
dc.subject	Word assembly	es_ES
dc.subject	Spanish	es_ES
dc.subject	Neural language models	es_ES
dc.title	Segmentación de palabras en español mediante modelos del lenguaje basados en redes neuronales	es_ES
dc.title.alternative	Spanish word segmentation through neural language models	es_ES
dc.type	info:eu-repo/semantics/article	es_ES
dc.rights.access	info:eu-repo/semantics/openAccess	es_ES
UDC.journalTitle	Procesamiento del Lenguaje Natural	es_ES
UDC.issue	57	es_ES
UDC.startPage	75	es_ES
UDC.endPage	82	es_ES

Ficheiros no ítem

Nome:: Doval_Yerai_2016_Segmentacion_ ...
Tamaño:: 496.2Kb
Formato:: PDF

Ver/abrir

Este ítem aparece na(s) seguinte(s) colección(s)

GI-LYS - Artigos [51]

Mostrar o rexistro simple do ítem