Corpus lingüísticos estruturados de grandes dimensións: metodoloxía e sistemas de recuperación de información

Barcala Rodríguez, Francisco Mario

dc.contributor.advisor	Vilares Ferro, Manuel
dc.contributor.advisor	Graña Gil, Jorge
dc.contributor.author	Barcala Rodríguez, Francisco Mario
dc.contributor.other	Universidade da Coruña. Departamento de Computación	es_ES
dc.date.accessioned	2010-04-16T09:02:52Z
dc.date.available	2010-04-16T09:02:52Z
dc.date.issued	2009
dc.identifier.isbn	978-84-693-3268-9
dc.identifier.uri	http://hdl.handle.net/2183/7171
dc.description	Tese defendida o 12 de Febreiro de 2010 na Facultade de Informática da Universidade da Coruña	es_ES
dc.description.abstract	[Resumen] La reciente evolución de Internet ha permitido el acceso a un volumen de información enorme, pero toda esta no resulta útil si no existe una manera precisa de encontrar lo que se necesita en un momento dado, Por eso, casi paralelamente al crecimiento de Internet se han ido desarrollando sistemas de recuperación de información (RI) que permitían localizar la información relevante en cada caso, dando lugar a lo que hoy conocemos como buscadores. Pero uno de los principales problemas que presentan estos sistemas radica en que, en general, la información que utilizan está muy poco estructurada, lo que limita en cierto modo sus posibilidades: no se pueden delimitar secciones en los documentos, ni aplicar filtros de búsqueda, etc., es decir, solo se permite introducir una expresión de búsqueda que se intenta encontrar en toda la base documental. Debido a estas carencias, al mismo tiempo también se han ido desarrollando sistemas de RI que requerían que la información estuviera organizada de algún modo particular. Estos sistemas no están diseñados para hacer búsquedas en Internet en general, sino que actúan sobre un conjunto más grande o más pequeño de información disponible y ofrecen más oportunidades de búsqueda. Estas dos vertientes evolutivas, la de utilizar información desestructurada y la de tenerla organizada, llegaron a la actualidad propiciando la aparición de distintas herramientas de búsqueda. Por un lado, tenemos los buscadores de Internet, que permiten localizar documentos que satisfacen una búsqueda concreta y, por la otra, los sistemas que utilizan información estructurada, que cubren aspectos como la obtención de datos de clientes, facturación, control de stock, etc. Finalmente, incluso hai entornos que pueden combinar en diferente grado estas dos vertientes (herramientas de minería de datos, sistemas de predicción, etc.) En este trabajo tratamos un caso particular de los sistemas de RI que utilizan información estructurada: el de los sistemas lingüísticos que trabajan con grandes colecciones de documentos (corpus), lo que enmarca la presente tesis de doctorado dentro de la lingüística computacional y, más concretamente, en la lingüística de corpus. Aunque en este campo también hai un ámplio espectro de posibilidades, nos centramos en aquellos en los que la información que necesitan los usuarios, normalmente lingüistas, está relacionada con la frecuencia de ocurrencia de palabras o con la visualización de ejemplos en su contexto. La evolución de estos sistemas ha sido practicamente simultánea al desarrollo de la informática. Desde las primeras herramientas de búsqueda monolíticas que utilizaban colecciones textuales, consideradas ahora de reducidas dimensiones, se ha ido evolucionando gracias al incremento de la capacidad de los ordenadores, hasta los actuales sistemas de consulta a través de la red que manejan corpus de gran tamaño. Nos centramos en estos últimos, analizando las diferentes posibilidades y tecnologías disponibles actualmente para desarrollarlos pero, además, tambien hacemos una propuesta metodológica genérica para la creación de corpus, que son el sustento de datos de estos sistemas de RI. Ofrecemos, pues, una visión de conjunto que abarca, tanto la construcción de corpus como su posterior explotación, teniendo siempre en mente la utilización de los estándares más actuales. Además, ilustramos nuestras propuestas genéricas con su aplicación al caso concreto del Corpus de Referencia do Galego Actual (CORGA), desarrollado en el Centro Ramón Piñeiro para a Investigación en Humanidades, lo que permite aclarar cómo se concretan los conceptos abstractos en un caso práctico.	es_ES
dc.language.iso	glg	es_ES
dc.rights	Os titulares dos dereitos de propiedade intelectual autorizan a visualización do contido desta tese a través de Internet, así como a súa reproducción, gravación en soporte informático ou impresión para o seu uso privado e/ou con fins de estudo e de investigación. En nengún caso se permite o uso lucrativo deste documento. Estos dereitos afectan tanto ó resumo da tese como o seu contido Los titulares de los derechos de propiedad intelectual autorizan la visualización del contenido de esta tesis a través de Internet, así como su repoducción, grabación en soporte informático o impresión para su uso privado o con fines de investigación. En ningún caso se permite el uso lucrativo de este documento. Estos derechos afectan tanto al resumen de la tesis como a su contenido
dc.subject	Recuperación de la información	es_ES
dc.title	Corpus lingüísticos estruturados de grandes dimensións: metodoloxía e sistemas de recuperación de información	es_ES
dc.type	info:eu-repo/semantics/doctoralThesis	es_ES
dc.rights.access	info:eu-repo/semantics/openAccess	es_ES

Files in this item

Name:: BarcalaRodriguez_FranciscoMari ...
Size:: 2.656Mb
Format:: PDF

View/Open

This item appears in the following Collection(s)

Teses de doutoramento [2154]

Show simple item record