Improvements to the performance and applicability of dependency parsing

Fernández-González, Daniel

Title

Author(s)

Fernández-González, Daniel

Directors

Gómez Rodríguez, Carlos
Vilares Ferro, Manuel

Date

2015

Center/Dept./Entity

Universidade da Coruña. Departamento de Computación

Abstract

[Resumen]Los analizadores de dependencias han generado un gran interés en las últimas décadas debido a su utilidad en un amplio rango de tareas de procesamiento de lenguaje natural. Estos utilizan grafos de dependencias para definir la estructura sintáctica de una oración dada. En particular, los algoritmos basados en transiciones proveen un análisis sintáctico de dependencias eficiente y preciso. Sin embargo, su principal inconveniente es que tienden a sufrir propagación de errores. Así, una decisión temprana tomada erróneamente podría posicionar el analizador en un estado incorrecto, causando más errores en futuras decisiones. Esta tesis se centra en mejorar la precisión de los analizadores basados en transiciones mediante la reducción del efecto de la propagación de errores, mientras mantienen su velocidad y eficiencia. Concretamente, proponemos cinco enfoques diferentes que han demostrado ser beneficiosos para su rendimiento, al aliviar la propagación de errores e incrementar su precisión. Además, hemos ampliado la utilidad de los analizadores de dependencias más allá de la construcción de grafos de dependencias. Presentamos una novedosa técnica que permite que estos sean capaces de construir representaciones de constituyentes. Esto cubriría la necesidad de la comunidad de procesamiento de lenguaje natural de disponer de un analizador eficiente capaz de proveer un árbol de constituyentes para representar la estructura sintáctica de las oraciones.

[Abstract]Dependency parsers have attracted a remarkable interest in the last two decades due to their usefulness in a wide range of natural language processing tasks. They employ a dependency graph to define the syntactic structure of a given sentence. In particular, transition-based algorithms provide accurate and efficient dependency syntactic analyses. However, the main drawback of these techniques is that they tend to suffer from error propagation. So, an early erroneous decision may place the parser into an incorrect state, causing more errors in future decisions. This thesis focuses on improving the accuracy of transition-based parsers by reducing the effect of error propagation, while preserving their speed and efficiency. Concretely, we propose five different approaches that proved to be beneficial for their performance, mitigating the presence of error propagation and boosting its accuracy. We also extend the usefulness of dependency parsers beyond building dependency graphs.We present a novel technique that allows these to build constituent representations. This meets the necessity of the natural language processing community to have an efficient parser able to provide constituent trees to represent the syntactic structure of sentences.

[Resumo]Os analizadores de dependencias xeraron gran interese nas últimas décadas debido á súa utilidade nun amplo rango de tarefas de procesamento da linguaxe natural. Estes utilizan grafos de dependencias para definir a estrutura sintáctica dunha oración dada. En particular, os algoritmos baseados en transicións provén un análise sintáctico de dependencias eficiente e preciso. Sen embargo, o seu principal inconveniente é que tenden a sufrir propagación de erros. Así, unha decisión temprana tomada erroneamente podería posicionar o analizador nun estado incorrecto, causando máis erros en futuras decisións. Esta tese centrase en mellorar a precisión dos analizadores baseados en transicións mediante a redución do efecto da propagación de erros, mentres manteñen a súa velocidade e eficiencia. Concretamente, propomos cinco diferentes enfoques que demostraron ser beneficiosos para o seu rendemento, ó aliviar a propagación de erros e incrementar a súa precisión. Ademais, ampliámo-la utilidade dos analizadores de dependencias máis alá da construción de grafos de dependencias. Presentamos unha novidosa técnica que permite que estes sexan capaces de construir representacións de constituíntes. Isto cubriría a necesidade da comunidade de procesamento da linguaxe natural de dispor dun analizador eficiente capaz de prover unha árbore de constituíntes para representar a estrutura sintáctica das oracións.

Keywords

Tratamiento automático de las lenguas naturales
Análisis automático (Lingüística)

Rights

Os titulares dos dereitos de propiedade intelectual autorizan a visualización do contido desta tese a través de Internet, así como a súa reproducción, gravación en soporte informático ou impresión para o seu uso privado e/ou con fins de estudo e de investigación. En nengún caso se permite o uso lucrativo deste documento. Estos dereitos afectan tanto ó resumo da tese como o seu contido Los titulares de los derechos de propiedad intelectual autorizan la visualización del contenido de esta tesis a través de Internet, así como su repoducción, grabación en soporte informático o impresión para su uso privado o con fines de investigación. En ningún caso se permite el uso lucrativo de este documento. Estos derechos afectan tanto al resumen de la tesis como a su contenido