Mostrar o rexistro simple do ítem

dc.contributor.advisorCacheda, Fidel
dc.contributor.advisorÁlvarez Díaz, Manuel
dc.contributor.authorPrieto Álvarez, Víctor Manuel
dc.contributor.otherUniversidade da Coruña. Departamento de Tecnoloxías da Información e as Comunicaciónses_ES
dc.date.accessioned2013-10-21T11:57:13Z
dc.date.available2013-10-21T11:57:13Z
dc.date.issued2013
dc.identifier.urihttp://hdl.handle.net/2183/11535
dc.description.abstract[Resumen] La Web constituye el mayor repositorio de información jamás construido. Por este motivo se hace imprescindible la utilización de buscadores web que permitan localizar la información apropiada en cada momento. Uno de los módulos de un buscador es el formado por los crawlers, programas software que aprovechan la estructura basada en hipervínculos de la Web, para recorrerla y crear un repositorio con los recursos web sobre el que poder realizar búsquedas. Pero el recorrido de la Web presenta numerosos desafíos para los crawlers, entre los que destacan: el tratamiento de la Web Oculta del lado cliente/servidor, la detección de páginas "basura" (Spam y Soft-404) o la actualización de contenidos. Las técnicas existentes para la detección de Web Spam y páginas Soft-404 presentan multitud de deficiencias tanto a nivel de eficacia como de eficiencia. Además, no han sido diseñadas para su uso en sistemas de crawling. Respecto al recrawling de la Web, los métodos existentes se centran en analizar la frecuencia de cambio de las páginas o el comportamiento de los buscadores para proponer políticas de recrawling. Estos estudios se basan en datos estadísticos que intentan aproximar el instante de modificación de las páginas. Esta tesis presenta el diseño de una arquitectura de búsqueda web que plantea soluciones a las problemáticas asociadas a recursos que no deben de ser procesados: porque no son útiles (Web Spam o páginas Soft-404) o porque no han cambiado desde la última vez que se accedió a ellos. En primer lugar presenta dos estudios para caracterizar la Web. El primero de ellos analiza la Web Oculta y su tratamiento por parte de los crawlers, y el segundo analiza la evolución en la Web de la edad y la similitud de las páginas, para su uso en el recrawling de los contenidos, y de otras características que ayuden en la detección de Web Spam y páginas Soft-404. Para la detección de páginas "basura", se proponen técnicas basadas en contenido, que permiten detectar Web Spam y páginas Soft-404 de forma más eficaz y eficiente que las presentes en la literatura. De este modo, el crawler no dedicará recursos a descargar, indexar y mostrar este tipo de páginas, mejorando la calidad de sus repositorios. Para la actualización de contenidos, se ha propuesto un sistema que permite detectar en "tiempo real" modificaciones en páginas web. Nuevamente, se mejora el rendimiento del crawler debido a que, por una parte, no procesará páginas que no hayan cambiado, y por otra parte, las páginas del repositorio serán más actuales.es_ES
dc.description.abstract[Resumo] A Web constitúe o maior repositorio de información xamais construído. Por ese motivo faise imprescindible a utilización de buscadores web que permitan localizar a información apropiada en cada intre. Un dos módulos dun buscador é o formado polos crawlers, programas software que aproveitan a estrutura baseada en hipervínculos da Web, para percorrela e crear un repositorio cos recursos web sobre os que poder facer búsquedas. Pero o percorrido da Web presenta numerosos desafíos para os crawlers, entre os que destacan: o tratamento da Web Oculta do lado cliente/servidor, a detección de páxinas "lixo" (Spam e Soft-404) ou a actualización de contidos. As técnicas existentes para a detección de Web Spam e páxinas Soft-404 presentan multitude de deficiencias tanto a nivel de eficacia coma de eficiencia. Ademais, non se deseñaron para o seu uso en sistemas de crawling. Respecto o recrawling da Web, os métodos existentes céntranse en analizar a frecuencia de cambio das páxinas ou o comportamento dos buscadores para propoñer políticas de recrawling. Estos estudos baséanse en datos estadísticos que intentan aproximar o instante da modificación das páxinas. Esta tese presenta o deseño dunha arquitectura de busca web que plantexa solucións ás problemáticas asociadas a recursos que non deben ser procesados: porque non son útiles (Web Spam e páxinas Soft-404) ou porque non cambiaron dende a última vez que se accedeu a eles. En primeiro lugar presenta dous estudos para caracterizar a Web. O primeiro deles analiza a Web Oculta e o seu tratamento por parte dos crawlers, e o segundo analiza a evolución na Web da idade e a similitude das páxinas, para o seu uso no recrawling de contidos, e doutras características que axuden na detección de Web Spam e páxinas Soft-404. Para a detección de páxinas "lixo", propóñense técnicas baseadas no contido, que permiten detectar Web Spam e páxinas Soft-404 de forma máis eficaz e eficiente que as presentes na literatura. Deste modo, o crawler non dedicará recursos a descargar, indexar e mostrar este tipo de páxinas, mellorando a calidade dos seus repositorios. Para a actualización de contidos, propúxose un sistema que permite detectar en "tempo real" modificacións en páxinas web. Novamente, mellórase o rendemento do crawler debido a que, por unha parte, non procesará páxinas que non cambiasen, e por outra parte, as páxinas do repositorio serán máis actuais.es_ES
dc.description.abstract[Abstract] A Web constitúe o maior repositorio de información xamais construído. Por ese motivo faise imprescindible a utilización de buscadores web que permitan localizar a información apropiada en cada intre. Un dos módulos dun buscador é o formado polos crawlers, programas software que aproveitan a estrutura baseada en hipervínculos da Web, para percorrela e crear un repositorio cos recursos web sobre os que poder facer búsquedas. Pero o percorrido da Web presenta numerosos desafíos para os crawlers, entre os que destacan: o tratamento da Web Oculta do lado cliente/servidor, a detección de páxinas "lixo" (Spam e Soft-404) ou a actualización de contidos. As técnicas existentes para a detección de Web Spam e páxinas Soft-404 presentan multitude de deficiencias tanto a nivel de eficacia coma de eficiencia. Ademais, non se deseñaron para o seu uso en sistemas de crawling. Respecto o recrawling da Web, os métodos existentes céntranse en analizar a frecuencia de cambio das páxinas ou o comportamento dos buscadores para propoñer políticas de recrawling. Estos estudos baséanse en datos estadísticos que intentan aproximar o instante da modificación das páxinas. Esta tese presenta o deseño dunha arquitectura de busca web que plantexa solucións ás problemáticas asociadas a recursos que non deben ser procesados: porque non son útiles (Web Spam e páxinas Soft-404) ou porque non cambiaron dende a última vez que se accedeu a eles. En primeiro lugar presenta dous estudos para caracterizar a Web. O primeiro deles analiza a Web Oculta e o seu tratamento por parte dos crawlers, e o segundo analiza a evolución na Web da idade e a similitude das páxinas, para o seu uso no recrawling de contidos, e doutras características que axuden na detección de Web Spam e páxinas Soft-404. Para a detección de páxinas "lixo", propóñense técnicas baseadas no contido, que permiten detectar Web Spam e páxinas Soft-404 de forma máis eficaz e eficiente que as presentes na literatura. Deste modo, o crawler non dedicará recursos a descargar, indexar e mostrar este tipo de páxinas, mellorando a calidade dos seus repositorios. Para a actualización de contidos, propúxose un sistema que permite detectar en "tempo real" modificacións en páxinas web. Novamente, mellórase o rendemento do crawler debido a que, por unha parte, non procesará páxinas que non cambiasen, e por outra parte, as páxinas do repositorio serán máis actuais.es_ES
dc.language.isospaes_ES
dc.rightsReconocimiento-NoComercial-SinObraDerivada 3.0 España
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/es/
dc.subjectMotores de búsqueda en Internetes_ES
dc.titleArquitectura optimizada para un motor de búsqueda web eficiente : crawling de contenido útil y actualizadoes_ES
dc.typeinfo:eu-repo/semantics/doctoralThesises_ES
dc.rights.accessinfo:eu-repo/semantics/openAccesses_ES


Ficheiros no ítem

Thumbnail
Thumbnail
Thumbnail
Thumbnail

Este ítem aparece na(s) seguinte(s) colección(s)

Mostrar o rexistro simple do ítem