Técnicas de análisis sintáctico robusto para la etiquetación del lenguaje natural

Ver/ abrir
Use este enlace para citar
http://hdl.handle.net/2183/12358Coleccións
- Teses de doutoramento [2221]
Metadatos
Mostrar o rexistro completo do ítemTítulo
Técnicas de análisis sintáctico robusto para la etiquetación del lenguaje naturalAutor(es)
Director(es)
Vilares Ferro, ManuelRajman, Martin
Data
2000Resumo
[Resumen] El objetivo último que persigue el Procesamiento del Lenguaje Natural es el perfecto análisis
y entendimiento de los lenguajes humanos. Actualmente, estamos todavía lejos de conseguir
este objetivo. Por esta razón, la mayoría de los esfuerzos de investigación de la lingiiística
computacional han sido dirigidos hacia tareas intermedias que dan sentido a alguna de las
múltiples características estructurales inherentes a los lenguajes, sin requerir un entendimiento
completo. Una de esas tareas es la asignación de categorías gramaticales a cada una de las
palabras del texto. Este proceso se denomina también etiquetación.
La eliminación de ambigiiedades es una tarea crucial durante el proceso de etiquetación de
un texto en lenguaje natural. Si tomamos aisladamente, por ejemplo, la palabra sobre, vemos
que puede tener varias categorías posibles en español: sustantivo, preposición o verbo. Sin
embargo, si examinamos el contexto en el que aparece dicha palabra, seguramente sólo una de
ellas es posible. Por otra parte, el interés se centra también en asignar una etiqueta a todas
aquellas palabras que aparecen en los textos, pero que no están presentes en nuestro diccionario,
y garantizar de alguna manera que ésa es la etiqueta correcta. Un buen rendimiento en esta fase
asegura la viabilidad de procesamientos posteriores tales como los análisis sintáctico y semántico.
Tradicionalmente, el problema de la etiquetación se aborda a partir de recursos lingiiísticos
bajo la forma de diccionarios y textos escritos, previamente etiquetados o no. Esta línea de
desarrollo se denomina lingiiística basada en corpus. Dichos textos se utilizan para ajustar
los parámetros de funcionamiento de los etiquetadores. Este proceso de ajuste se denomina
entrenamiento. Las técnicas tradicionales engloban métodos estocásticos, tales como los
modelos de Markov ocultos, los árboles de decisión o los modelos de máxima entropía, y
también aproximaciones basadas en reglas, tales como el aprendizaje de etiquetas basado en
transformaciones y dirigido por el error.
La mayoría de las herramientas basadas en estos paradigmas de etiquetación resultan ser de
propósito general, en el sentido de que pueden ser aplicadas a textos en cualquier idioma. Ésta es
una idea muy atractiva, pero surge la duda de si un etiquetador diseñado especialmente para una
lengua dada puede ofrecer mejores rendimientos o no. Por tanto, el primer objetivo del presente
trabajo consiste en implementar una nueva herramienta de etiquetación que permita integrar
información específica para el español, y posteriormente realizar una evaluación exhaustiva de
todos estos modelos. Este estudio es de gran interés ya en sí mismo, dado que los recursos
lingiiísticos disponibles para el español no abundan, y por tanto existen todavía muy pocas
cifras concretas que proporcionen una idea clara del comportamiento de los etiquetadores sobre
nuestro idioma.
Aún con todo esto, un pequeño porcentaje de palabras etiquetadas erróneamente (2-3%)
es una característica que está siempre presente en los sistemas de etiquetación puramente
estocásticos. Por esta razón, apoyamos la idea del uso de estos sistemas en combinación con
información sintáctica, esto es, con técnicas de análisis sintáctico robusto, y éste es precisamente el segundo de los objetivos del presente trabajo.
Cuando una frase es correcta, pero la gramática no es capaz de analizarla, todavía es posible
considerar los subárboles correspondientes a los análisis parciales de fragmentos válidos de la
frase. El posterior estudio de estos subárboles puede ser utilizado, por ejemplo, para completar
la gramática, generando automáticamente las reglas sintácticas necesarias para analizar la frase.
Éste es precisamente el objetivo más ambicioso del análisis sintáctico robusto. En nuestro
caso particular, resulta de especial interés la consideración de las etiquetas de las palabras
de dichos subárboles como información adicional de apoyo para las técnicas tradicionales de
etiquetación. La estrategia consiste en combinar esas subsecuencias de etiquetas para generar
varias etiquetaciones completas posibles de la frase en cuestión, y posteriormente aplicar un
filtro estadístico para elegir la secuencia global más probable. [Abstract] The ultimate goal of research on Natural Language Processing is to parse and understand human
languages. Currently, we are still far from achieving this goal. For this reason, much research
in computational linguistics has focussed on intermediate tasks that make sense of some of the
structure inherent in language without requiring complete understanding. One such task is
part-of-speech tagging, or simply tagging.
Elimination of lexical ambiguities is a crucial task during the process of tagging a text in
natural language. If we take in isolation, for instance, the word time, we can see that it has
several possible tags in English: substantive, adjective or verb. However, if we examine the
context in which the word appears, only one of the tags is possible. In addition, we are also
interested in being able to give a tag to all the words that appear in a text, but are not present in
our dictionary, and to guarantee somehow that this tag is the correct one. A good performance
at this stage will improve the viability of syntactic and semantic analysis.
Traditionally, the starting point for tagging is linguistic resources like dictionaries and
written texts, previously tagged or not. This research line is called corpus-based linguistics.
These corpora are used to tune the running parameters of the taggers. This tuning process
is called training. Traditional techniques involve stochastic methods, such as hidden Markov
models, decision trees or maximum entropy models, and also rule-based approaches, such as
transformation-based error-driven learning of tags.
Most tools based on these tagging paradigms are general purpose, to the eífect that they
can be applied to texts in any language. This is a very attractive idea, but begs the question
of whether a tagger specifically designed for a particular language is able to provide better
performance. Therefore, the first goal of the present work is to implement a new tagger able
to integrate specific information on Spanish, and then to perform an exhaustive evaluation of
all the above-mentioned models. This study is in itself very interesting, because there are very
few available linguistic resources for Spanish and very few concrete data about the behaviour of
taggers on our language.
However, a small percentage of wrongly tagged words (2-3%) is a feature that is always
present in pure stochastic taggers. For this reason we support the idea of using these in
combination with syntactic information, that is, with robust parsing techniques, and this is
the second goal of the present work.
When a sentence is correct and the grammar is not able to parse it, it is still possible to
consider all subtrees corresponding to all partial analyses of valid fragments of the sentence. A
later study of these subtrees can be used, for instance, to complete the grammar by automatically
generating all the syntactic rules we need to parse the sentence. This is in fact the most ambitious
goal in robust parsing. In our particular case, it is important to consider all the word tags of the
subtrees in question as additional information that can be useful for traditional techniques of
tagging. Our strategy combines these subsequences of tags in order to generate several complete taggings for a given sentence, and then applies a probabilistic filter to choose the most probable
one.
Palabras chave
Tratamiento automático de las lenguas naturales
Dereitos
Os titulares dos dereitos de propiedade intelectual autorizan a visualización do contido desta tese a través de Internet, así como a súa reproducción, gravación en soporte informático ou impresión para o seu uso privado e/ou con fins de estudo e de investigación. En nengún caso se permite o uso lucrativo deste documento. Estos dereitos afectan tanto ó resumo da tese como o seu contido Los titulares de los derechos de propiedad intelectual autorizan la visualización del contenido de esta tesis a través de Internet, así como su repoducción, grabación en soporte informático o impresión para su uso privado o con fines de investigación. En ningún caso se permite el uso lucrativo de este documento. Estos derechos afectan tanto al resumen de la tesis como a su contenido