Ferramentas de Recuperación de Textos para Bibliotecas Dixitais: Lematización

View/ Open
Use this link to cite
http://hdl.handle.net/2183/2626Collections
Metadata
Show full item recordTitle
Ferramentas de Recuperación de Textos para Bibliotecas Dixitais: LematizaciónDate
2005Citation
Revista Galega de Filoloxía, 2005, 6: 73-90. ISSN 1576-2661
Abstract
[Resumo] Un dos servizos máis interesantes das bibliotecas dixitais é o que permite a busca de documentos
polo seu contido, quere dicir, o que permite buscar aqueles textos que traten dun
certo tema. Para que as bibliotecas poidan implementar servizos deste tipo é preciso que
existan recursos e ferramentas de recuperación de textos (corpora, dicionarios electrónicos,
lematizadores, analizadores morfolóxicos, etc.) desenvolvidas para o idioma en que estean
escritos os documentos da biblioteca.
A cantidade e a calidade dos recursos e ferramentas que estean desenvolvidos depende do
idioma de que se tratar. O inglés está á cabeceira de todos, e aquí na Península as bibliotecas
dixitais de textos escritos en galego son as que teñen máis complicado desenvolveren
servizos de busca por contido, xa que non existen até o momento as ferramentas e os recursos
de apoio apropiados.
Neste artigo presentamos unha ferramenta de recuperación de textos que foi desenvolvida para
o galego, grazas á colaboración de investigadores en Filoloxía Galego-Portuguesa e
Informática da Universidade da Coruña. Trátase dun lematizador que foi presentado por primeira
vez en 2002, e que nos últimos anos foi optimizado, completado e probado con corpora
de diferente natureza para ser usado en servizos de busca por contido de bibliotecas dixitais. [Abstract] The ability to search documents by content, i. e., to look for documents dealing with a
certain subject, is one of the most interesting services offered by a Digital Library. In order
to offer these services, digital libraries need resources and text retrieval tools (such as
corpora, electronic dictionaries, stemmers, or morphological analyzers), which must be
developed for the language in which the documents of the library are written.
The quantity and quality of the developed resources and tools depend on the used language.
English has always had a great advantage in this field. On the contrary, in the Iberian
Peninsula, Digital Libraries devoted to texts written in Galician have difficulties to develop
content search services, since there are not enough tools and resources to do these
implementations yet.
This paper shows a Text Retrieval tool for the Galician language, built through a collaboration
between Galician–Portuguese Philology and Computer Science researchers from the
University of A Corunna. This tool is a stemmer that was first introduced in 2002, and it
has been optimized, completed and tested during last years. We have used several different
corpora to perform the tests, in order to accurately incorporate content search services in
Digital Libraries.
Keywords
Bibliotecas dixitais
Recuperación de textos
Lematización
Digital libraries
Text retrieval
Stemming
Recuperación de textos
Lematización
Digital libraries
Text retrieval
Stemming
ISSN
1576-2661