Skip navigation
  •  Inicio
  • UDC 
    • Cómo depositar
    • Políticas do RUC
    • FAQ
    • Dereitos de Autor
    • Máis información en INFOguías UDC
  • Percorrer 
    • Comunidades
    • Buscar por:
    • Data de publicación
    • Autor
    • Título
    • Materia
  • Axuda
    • español
    • Gallegan
    • English
  • Acceder
  •  Galego 
    • Español
    • Galego
    • English
  
Ver ítem 
  •   RUC
  • Facultade de Filoloxía
  • Investigación (FFIL)
  • Ver ítem
  •   RUC
  • Facultade de Filoloxía
  • Investigación (FFIL)
  • Ver ítem
JavaScript is disabled for your browser. Some features of this site may not work without it.

Segmentación de palabras en español mediante modelos del lenguaje basados en redes neuronales

Thumbnail
Ver/abrir
Doval_Yerai_2016_Segmentacion_de_palabras_en_espanol_mediante_modelos_del_lenguaje_basados_en_redes_neuronales.pdf (496.2Kb)
Use este enlace para citar
http://hdl.handle.net/2183/19278
Coleccións
  • Investigación (FFIL) [885]
Metadatos
Mostrar o rexistro completo do ítem
Título
Segmentación de palabras en español mediante modelos del lenguaje basados en redes neuronales
Título(s) alternativo(s)
Spanish word segmentation through neural language models
Autor(es)
Doval, Yerai
Gómez-Rodríguez, Carlos
Vilares, Jesús
Data
2016-09
Cita bibliográfica
Yerai Doval, Carlos Gómez-Rodríguez and Jesús Vilares, Segmentación de palabras en español mediante modelos del lenguaje basados en redes neuronales, Procesamiento del Lenguaje Natural, 57:75-82, 2016
Resumo
[Resumen] En las plataformas de microblogging abundan ciertos tokens especiales como los hashtags o las menciones en los que un grupo de palabras se escriben juntas sin espaciado entre ellas; p.ej.: #añobisiesto o @ryanreynoldsnet. Debido a la forma en que se escriben este tipo de textos, este fenómeno de ensamblado de palabras puede aparecer junto a su opuesto, la segmentación de palabras, afectando a cualquier elemento del texto y dificultando su análisis. En este trabajo se muestra un enfoque algorítmico que utiliza como base un modelo del lenguaje —en nuestro caso concreto uno basado en redes euronales— para resolver el problema de la segmentación y ensamblado de palabras, en el que se trata de recuperar el espaciado estándar de las palabras que han sufrido alguna de estas transformaciones añadiendo o quitando espacios donde corresponda. Los resultados obtenidos son prometedores e indican que tras un mayor refinamiento del modelo del lenguaje se podrá sobrepasar al estado del arte.
 
[Abstract] In social media platforms special tokens abound such as hashtags and mentions in which multiple words are written together without spacing between them; e.g. #leapyear or @ryanreynoldsnet. Due to the way this kind of texts are written, this word assembly phenomenon can appear with its opposite, word segmentation, a ecting any token of the text and making it more di cult to perform analysis on them. In this work we show an algorithmic approach based on a language model |in this case a neural model| to solve the problem of the segmentation and assembly of words, in which we try to recover the standard spacing of the words that have su ered one of these transformations by adding or deleting spaces when necessary. The promising results indicate that after some further re nement of the language model it will be possible to surpass the state of the art.
 
Palabras chave
Segmentación de palabras
Ensamblado de palabras
Español
Modelos del lenguaje basados en redes neuronales
Word segmentation
Word assembly
Spanish
Neural language models
 
Versión do editor
http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/5339
ISSN
1135-5948

Listar

Todo RUCComunidades e colecciónsPor data de publicaciónAutoresTítulosMateriasGrupo de InvestigaciónTitulaciónEsta colecciónPor data de publicaciónAutoresTítulosMateriasGrupo de InvestigaciónTitulación

A miña conta

AccederRexistro

Estatísticas

Ver Estatísticas de uso
Sherpa
OpenArchives
OAIster
Scholar Google
UNIVERSIDADE DA CORUÑA. Servizo de Biblioteca.    DSpace Software Copyright © 2002-2013 Duraspace - Suxestións