Seeking robustness in a multilingual world: from pipelines to embeddings
Use este enlace para citar
http://hdl.handle.net/2183/24535
A non ser que se indique outra cousa, a licenza do ítem descríbese como Atribución-CompartirIgual 4.0 España
Coleccións
- Teses de doutoramento [2153]
Metadatos
Mostrar o rexistro completo do ítemTítulo
Seeking robustness in a multilingual world: from pipelines to embeddingsTítulo(s) alternativo(s)
Buscando robustez nun mundo multilingüe: de pipelines a embeddingsAutor(es)
Director(es)
Vilares, JesúsVilares, Manuel
Data
2019Resumo
[Abstract] In this dissertation, we study two approaches to overcome the challenges posed by processing
user-generated non-standard multilingual text content as it is found on the Web nowadays.
Firstly, we present a traditional discrete pipeline approach where we preprocess the
input text so that it can be more easily handled later by other systems. This implies dealing
first with the multilinguality concern by identifying the language of the input and, next,
managing the language-specific non-standard writing phenomena involved by means of text
normalization and word (re-)segmentation techniques.
Secondly, we analyze the inherent limitations of this type of discrete models, taking
us to an approach centred on the use of continuous word embedding models. In this
case, the explicit preprocessing of the input is replaced by the encoding of the linguistic
characteristics and other nuances of non-standard texts in the embedding space. We aim to
obtain continuous models that not only overcome the limitations of discrete models but also
align with the current state of the art in Natural Language Processing (NLP), dominated by
systems based on neural networks.
The results obtained after extensive experimentation showcase the capabilities of word
embeddings to effectively support the multilingual and non-standard phenomena of usergenerated
texts. Furthermore, all this is accomplished within a conceptually simple and
modular framework which does not sacrifice system integration. Such embedding models
can be readily used as a fundamental building block for state-of-the-art neural networks
which are, in turn, used in virtually any NLP task. [Resumen] En esta tesis estudiamos dos enfoques para abordar los desafíos planteados de cara al
procesamiento de contenidos textuales no estándar y multilingües generados por los usuarios
del tipo que se pueden encontrar en la Web a día de hoy.
En primer lugar, presentamos un enfoque tradicional basado en pipelines discretos en
el que el texto de entrada es preprocesado para facilitar su ulterior tratamiento por otros
sistemas. Esto implica abordar el problema del multilingüismo, primero, identificando el
idioma de la entrada para, seguidamente, tratar los fenómenos de escritura no estándar
específicos de dicho idioma presentes en la entrada. Para ello se aplicarán técnicas de
normalización del texto y (re-)segmentación de palabras.
En segundo lugar, analizamos las limitaciones inherentes a este tipo de modelos discretos,
lo cual nos conduce a un enfoque centrado en el empleo de modelos continuos basados
en word embeddings (i.e., representaciones vectoriales). En este caso, el preprocesamiento
expíıcito de la entrada es sustituido por la codificación de las características lingüísticas y
demás matices propios de los textos no estándar en el propio espacio de embedding (un
espacio vectorial). Nuestro objetivo es obtener modelos continuos que no sólo superen las
limitaciones de los modelos discretos, sino que también se alineen con el estado del arte
actual del Procesamiento de Lenguaje Natural (PLN), dominado por sistemas basados en
redes neuronales.
Los resultados obtenidos después de una extensa experimentación muestran la capacidad
de las word embeddings para dar un soporte efectivo por sí mismas a los fenómenos
multilingües y no estándar propios de los textos generados por usuarios. Además, todo
esto se logra dentro de un marco conceptual simple y modular que no necesita sacrificar la
integración de sistemas. Dichos modelos de word embeddings pueden emplearse fácilmente
como un elemento fundamental en redes neuronales de última generación que, a su vez,
son utilizadas en prácticamente cualquier tarea de PLN. [Resumo] Nesta tese estudamos dous enfoques para abordar os desafíos que presenta o procesamento de contidos textuais non estándar e multilingües xerado polos usuarios do tipo que se atopar na Web a día de hoxe.
En primeiro lugar, presentamos un enfoque tradicional baseado en pipelines discretos
nos que preprocesamos o texto de entrada para facilitar a seu posterior tratamento por
outros sistemas. Isto implica abordar o problema do multilingüismo, primeiro, identificando
a lingua de entrada para, seguidamente, tratar o resto dos fenómenos de escritura non
estándar específicos da lingua involucrados mediante técnicas de normalización do texto e
(re-)segmentación de palabras.
En segundo lugar, analizamos as limitacións inherentes a este tipo de modelos discretos,
o cal nos leva a un enfoque centrado no emprego de modelos continuos baseados en word
embeddings (i.e., representacións vectoriais). Neste caso, o preprocesamento explícito
da entrada substitúese pola codificación das características lingüísticas e demais matices
propios dos textos non estándar no espazo de embedding mesmo (un espazo vectorial). O
noso obxectivo é obter modelos continuos que non so superen as limitacións dos modelos
discretos, senón que tamén se aliñen co estado da arte actual do Procesamento da Linguaxe
Natural (PLN), dominado por sistemas baseados en redes neurais.
Os resultados obtidos tras unha ampla experimentación amosan a capacidade das word
embeddings para dar un soporte efectivo por si mesmas aos fenómenos multilingües e non
estándar propios de textos xerados por usuarios. Ademais, todo isto acádase dentro dun
marco conceptual simple e modular que non precisa sacrificar a integración de sistemas.
Estes modelos de word embeddings poden empregarse facilmente como un elemento
fundamental en redes neurais de ´ultima xeración que, á súa vez, utilízanse en practicamente
calquera tarefa de PLN.
Palabras chave
Procesamiento en lenguaje natural (Informática)
Ensamblado de palabras
Natural language processing
Word segmentation
Ensamblado de palabras
Natural language processing
Word segmentation
Descrición
Programa Oficial de Doutoramento en Computación. 5009V01
Dereitos
Atribución-CompartirIgual 4.0 España