Arquitectura optimizada para un motor de búsqueda web eficiente : crawling de contenido útil y actualizado

Prieto Álvarez, Víctor Manuel

Ver/abrir

PrietoAlvarez_VictorManuel_TD_2013.pdf (10.42Mb)

Use este enlace para citar

http://hdl.handle.net/2183/11535

A non ser que se indique outra cousa, a licenza do ítem descríbese como Reconocimiento-NoComercial-SinObraDerivada 3.0 España

Coleccións

Teses de doutoramento [2122]

Metadatos

Mostrar o rexistro completo do ítem

Título

Arquitectura optimizada para un motor de búsqueda web eficiente : crawling de contenido útil y actualizado

Autor(es)

Prieto Álvarez, Víctor Manuel

Director(es)

Cacheda, Fidel
Álvarez Díaz, Manuel

Data

2013

Centro/Dpto/Entidade

Universidade da Coruña. Departamento de Tecnoloxías da Información e as Comunicacións

Resumo

[Resumen] La Web constituye el mayor repositorio de información jamás construido. Por este motivo se hace imprescindible la utilización de buscadores web que permitan localizar la información apropiada en cada momento. Uno de los módulos de un buscador es el formado por los crawlers, programas software que aprovechan la estructura basada en hipervínculos de la Web, para recorrerla y crear un repositorio con los recursos web sobre el que poder realizar búsquedas. Pero el recorrido de la Web presenta numerosos desafíos para los crawlers, entre los que destacan: el tratamiento de la Web Oculta del lado cliente/servidor, la detección de páginas "basura" (Spam y Soft-404) o la actualización de contenidos. Las técnicas existentes para la detección de Web Spam y páginas Soft-404 presentan multitud de deficiencias tanto a nivel de eficacia como de eficiencia. Además, no han sido diseñadas para su uso en sistemas de crawling. Respecto al recrawling de la Web, los métodos existentes se centran en analizar la frecuencia de cambio de las páginas o el comportamiento de los buscadores para proponer políticas de recrawling. Estos estudios se basan en datos estadísticos que intentan aproximar el instante de modificación de las páginas. Esta tesis presenta el diseño de una arquitectura de búsqueda web que plantea soluciones a las problemáticas asociadas a recursos que no deben de ser procesados: porque no son útiles (Web Spam o páginas Soft-404) o porque no han cambiado desde la última vez que se accedió a ellos. En primer lugar presenta dos estudios para caracterizar la Web. El primero de ellos analiza la Web Oculta y su tratamiento por parte de los crawlers, y el segundo analiza la evolución en la Web de la edad y la similitud de las páginas, para su uso en el recrawling de los contenidos, y de otras características que ayuden en la detección de Web Spam y páginas Soft-404. Para la detección de páginas "basura", se proponen técnicas basadas en contenido, que permiten detectar Web Spam y páginas Soft-404 de forma más eficaz y eficiente que las presentes en la literatura. De este modo, el crawler no dedicará recursos a descargar, indexar y mostrar este tipo de páginas, mejorando la calidad de sus repositorios. Para la actualización de contenidos, se ha propuesto un sistema que permite detectar en "tiempo real" modificaciones en páginas web. Nuevamente, se mejora el rendimiento del crawler debido a que, por una parte, no procesará páginas que no hayan cambiado, y por otra parte, las páginas del repositorio serán más actuales.

[Resumo] A Web constitúe o maior repositorio de información xamais construído. Por ese motivo faise imprescindible a utilización de buscadores web que permitan localizar a información apropiada en cada intre. Un dos módulos dun buscador é o formado polos crawlers, programas software que aproveitan a estrutura baseada en hipervínculos da Web, para percorrela e crear un repositorio cos recursos web sobre os que poder facer búsquedas. Pero o percorrido da Web presenta numerosos desafíos para os crawlers, entre os que destacan: o tratamento da Web Oculta do lado cliente/servidor, a detección de páxinas "lixo" (Spam e Soft-404) ou a actualización de contidos. As técnicas existentes para a detección de Web Spam e páxinas Soft-404 presentan multitude de deficiencias tanto a nivel de eficacia coma de eficiencia. Ademais, non se deseñaron para o seu uso en sistemas de crawling. Respecto o recrawling da Web, os métodos existentes céntranse en analizar a frecuencia de cambio das páxinas ou o comportamento dos buscadores para propoñer políticas de recrawling. Estos estudos baséanse en datos estadísticos que intentan aproximar o instante da modificación das páxinas. Esta tese presenta o deseño dunha arquitectura de busca web que plantexa solucións ás problemáticas asociadas a recursos que non deben ser procesados: porque non son útiles (Web Spam e páxinas Soft-404) ou porque non cambiaron dende a última vez que se accedeu a eles. En primeiro lugar presenta dous estudos para caracterizar a Web. O primeiro deles analiza a Web Oculta e o seu tratamento por parte dos crawlers, e o segundo analiza a evolución na Web da idade e a similitude das páxinas, para o seu uso no recrawling de contidos, e doutras características que axuden na detección de Web Spam e páxinas Soft-404. Para a detección de páxinas "lixo", propóñense técnicas baseadas no contido, que permiten detectar Web Spam e páxinas Soft-404 de forma máis eficaz e eficiente que as presentes na literatura. Deste modo, o crawler non dedicará recursos a descargar, indexar e mostrar este tipo de páxinas, mellorando a calidade dos seus repositorios. Para a actualización de contidos, propúxose un sistema que permite detectar en "tempo real" modificacións en páxinas web. Novamente, mellórase o rendemento do crawler debido a que, por unha parte, non procesará páxinas que non cambiasen, e por outra parte, as páxinas do repositorio serán máis actuais.

[Abstract] A Web constitúe o maior repositorio de información xamais construído. Por ese motivo faise imprescindible a utilización de buscadores web que permitan localizar a información apropiada en cada intre. Un dos módulos dun buscador é o formado polos crawlers, programas software que aproveitan a estrutura baseada en hipervínculos da Web, para percorrela e crear un repositorio cos recursos web sobre os que poder facer búsquedas. Pero o percorrido da Web presenta numerosos desafíos para os crawlers, entre os que destacan: o tratamento da Web Oculta do lado cliente/servidor, a detección de páxinas "lixo" (Spam e Soft-404) ou a actualización de contidos. As técnicas existentes para a detección de Web Spam e páxinas Soft-404 presentan multitude de deficiencias tanto a nivel de eficacia coma de eficiencia. Ademais, non se deseñaron para o seu uso en sistemas de crawling. Respecto o recrawling da Web, os métodos existentes céntranse en analizar a frecuencia de cambio das páxinas ou o comportamento dos buscadores para propoñer políticas de recrawling. Estos estudos baséanse en datos estadísticos que intentan aproximar o instante da modificación das páxinas. Esta tese presenta o deseño dunha arquitectura de busca web que plantexa solucións ás problemáticas asociadas a recursos que non deben ser procesados: porque non son útiles (Web Spam e páxinas Soft-404) ou porque non cambiaron dende a última vez que se accedeu a eles. En primeiro lugar presenta dous estudos para caracterizar a Web. O primeiro deles analiza a Web Oculta e o seu tratamento por parte dos crawlers, e o segundo analiza a evolución na Web da idade e a similitude das páxinas, para o seu uso no recrawling de contidos, e doutras características que axuden na detección de Web Spam e páxinas Soft-404. Para a detección de páxinas "lixo", propóñense técnicas baseadas no contido, que permiten detectar Web Spam e páxinas Soft-404 de forma máis eficaz e eficiente que as presentes na literatura. Deste modo, o crawler non dedicará recursos a descargar, indexar e mostrar este tipo de páxinas, mellorando a calidade dos seus repositorios. Para a actualización de contidos, propúxose un sistema que permite detectar en "tempo real" modificacións en páxinas web. Novamente, mellórase o rendemento do crawler debido a que, por unha parte, non procesará páxinas que non cambiasen, e por outra parte, as páxinas do repositorio serán máis actuais.

Palabras chave

Motores de búsqueda en Internet

Dereitos

Reconocimiento-NoComercial-SinObraDerivada 3.0 España