Análisis no supervisado de observaciones atípicas en la misión espacial Gaia: optimización mediante procesamiento distribuido e integración en Apsis
Use este enlace para citar
http://hdl.handle.net/2183/26479Coleccións
- Teses de doutoramento [2089]
Metadatos
Mostrar o rexistro completo do ítemTítulo
Análisis no supervisado de observaciones atípicas en la misión espacial Gaia: optimización mediante procesamiento distribuido e integración en ApsisAutor(es)
Director(es)
Manteiga, MiniaDafonte, Carlos
Data
2020Resumo
[Resumen]
Esta Tesis Doctoral se ha desarrollado en el marco de la misión Gaia de la Agencia
Espacial Europea (ESA, del inglés European Space Agency) y del consorcio internacional
DPAC (del inglés, Data Processing and Analysis Consortium) , bajo los que se está
llevando a cabo el censo estelar más preciso y más completo hasta la fechal que
pondrá a disposición de la comunidad científica información astrométrica para más
de 2500 millones de fuentes. Los enormes volúmenes de datos que se han de manejar
en este contexto -cuya cifra se espera que supere el Petahyte de información-,
son propios de un entorno Big Data y suponen todo un reto para la comunidad
científica -·-especialrnente para el consorcio DPAC-·, dificultando su almacenamiento
y distribución y haciendo imposible su análisis mediante técnicas y aplicaciones
convencionales. De este modo, surge la necesidad de emplear estrategias alternativas
propias de la Minería de Datos (Data Mining), en las que las aplicaciones se ejecutan
de forma distribuida sobre un conjunto de máquinas, tratando de explotar al máximo
su capacidad de cómputo, lo que en la actualidad se ha denominado como Big Data.
El grupo de investigación en el que se ha realizado esta Tesis forma parte del consorcio
DPAC -en colaboración con más de 400 científicos e ingenieros- desde el año 2006,
participando en las tareas de análisis de los datos y el desarrollo de herramientas para la
explotación del catálogo de la misión. La principal contribución de esta Tesis al proyecto
Gaia se ha materializado mediante el paquete de trabajo Outlier Analysis (OA), que se
enmarca bajo la cadena de procesado Astrophysical Parameter InfeTence System (Apsis)
y cuyo objetivo consiste en el análisis no supervisado o clusiering --empleando técnicas
de Inteligencia Artificial (lA )_.- de aquellas fuentes cuya clase astronómica no ha podido
ser identificada de forma fiable por el paquete de clasificación predecesor, el Discrete
Source Classifier (DSC). En concreto, hemos abordado los siguientes aspectos:
Optimización y adaptación del algoritmo de entrenamiento de los Mapas
Auto-Organizativos (S0M) a diferentes plataformas de cómputo distribuido
ampliamente utilizadas, como son Apache Hadoop y Apache Spark, de forma
que se puedan ejecutar en un tiempo aceptable para llevar a cabo el análisis no
supervisado de grandes conjuntos de observaciones -principalmente a través de la
espectrofotometría BP jRP de Gaia-. Así mismo, también hemos adaptado esta
técnica a la plat.aforma SAGA, designada por DPAC para dar soporte a Apsis.
Integración del módulo OA en Apsis -y, por tanto, también en la plataforma
SAGA- junto con el resto de paquetes de trabajo. Para ello, además de la
adaptación de los mapas S0M mencionada anteriormente, hemos tenido que
establecer una adecuada estrategia para el preprocesado de los datos --en
especial de la espectrofotometría BP/RP-y una serie de mecanismos para la
caracterización de los clusters, desde una descripción estadística basada en la
información proporcionada por el propio satélite hasta diferentes indicadores de la
calidad de los clusters -basados principalmente en las distancias intra-cluster_ o
un indicio de su clase astronómica ------obtenida a partir de un etiquetado mediante
plantillas-.
- Validación de las técnicas utilizadas en el módulo OA para verificar su
funcionamiento y su rendimiento en el contexto de Apsls, empleando pequeños
conjuntos de datos reales -próximos a los diez millones de observaciones--. De
este modo, se pretende garantizar la calidad del análisis no supervisado realizado
por el módulo OA, cuyos resultados se publicarán oficialmente a partir de la Data
Release 3, prevista para finales de 2021. Para ello, también hemos tenido que definir
las estructuras de datos necesarias para su almacenamiento y puesta a disposición
de la comunidad científica a través de la plataforma habilitada por DPAC, el Gaia
Archive, en el que hemos colaborado durante el proceso de análisis y validación de
casos de uso.
De forma complementaria, durante el transcurso de esta Tesis hemos participado en el
desarrollo de herramientas para Minería de Datos basadas en mapas SOM _y para la
visualización de sus resultados-- que permitan la explotación científica del catálogo de la
misión. En particular, la herramienta de visualización desarrollada por nuestro grupo de
investigación, GUASOM, estará disponible a partir de la Data Release 3, contando con
una versión específica -GUASOM flavor DR-3-- para el análisis de los productos del
módulo OA. Del mismo modo, también hemos llevado a cabo un estudio de viabilidad
acerca de la implantación de Redes de Neuronas Artificiales convencionales y generativas
-basadas en técnicas genéticas y propuestas por nuestro grupo de investigación _ para
la estimación de parámetros astrofísicos estelares en Apsis, bajo el paquete de trabajo
GSP-Spec.
Finalmente, hemos aplicado las técnicas de IA utilizadas en el contexto de la misión
Gaía --u otras técnicas de similar naturaleza- a otros catálogos, como es el caso del
survey astronómico ALHAMBRA, donde hemos realizado un análisis no supervisado
de su catálogo, e incluso en otros ámbitos, como es el de la ciberseguridad, para
la autenticación de usuarios a partir del análisis de su comportamiento mediante la
monitorización continua de su actividad. [Abstract]
This PhD Thesis has been developed within the framework of the Gaia mission of the
European Space Agency (ESA) and the international Data Processing and Analysis
Consortium (DPAC), which are conducting the largest and most precise stellar census
ever made, and will provide astrometric information for more than 2500 million sources
to the scientific community. The enormous volumes of data that must be handled in
this context -which are expected to be around a Petabyte of information '-, are those
of a Big Data environment and it becomes a challenge to the scientific community
----cspecially to the DPAC consortium-, complicating their storage and distribution
and making their analysis by means of common techniques and applications unfeasible.
In this way, the usage of alternative Data Mining strategies is needed, so that the
applications are executed in a distributed fashion aruong the machines of a cluster,
trying to take advantage of the maximum computing power as possible, which has been
nowadays narued as Big Data.
The research group in which this Thesis has been developed is involved in the DPAC
consortium -in collaboration with more than 400 scientists and engineers- since 2006,
participating in the data analysis tasks and tools development for the exploitation of
the mission catalog. The main contribution of this Thesis to the Gaia project has been
materialized through the Outlier Analysis (OA) package, which is part ofthe processing
chain narued Astrophysical Parameter lnference System (Apsis), and it is devoted
to the unsupervised analysis 01.' dustering ~"·~by means of Artificial lntelligence (Al)
techniques"'M- of those sources whose astronomical dass could not be reliably identified
by the preceding dassification package, the Discrete Source Classifier (DSC). Specifically,
we have addressed the following items:
Opt.imization and accommodation of the Self-Organized Maps (SOM) training
algorithm to different widely used distributed computing platforms, such as Apache
Hacioop and Apache Spark, so that they can be executed in an acceptable time
in order to perform an unsupervised analysis of massive datasets -mainly using
Gaía BP IRP spectrophotometry-. In the sarue way, we have also adapted this
technique to the SAGA fraruework, designated by DPAC to support Apsis.
Integration of the OA module into Apsis ·-and, therefore, also into the SAGA
platform- together with the other working packages. To do this, apart from the
adaptation of SOM mentioned above, we have had to determine an appropriate
strategy to preprocess the data -especially the BP IRP spectrophotometry-,
as well as sorne mechanisms to characterize the clusters, such as a statistical
IV
Abstract
description based on information gathered by Gaia itself, different indicators about
tbe quality of the clusters -mainly based on intra.-cluster distances-, ar a hint
Oil their astronomical cIass -obtained by means of a labeling procedure using
synthetic templates-.
Validation of tbe techniques llsed in the OA module in arder to assess ¡ts right
functioning and performance within Apsis, using small sets of real data --arGund
ten millian observations_. The main goal of this process i8 to guarantee the quality
of the unsupervised analysis performed by the OA module, which will produce
results that will be officially published fraro Data Release 3 onwards, expected far
tbe end of 2021. To do this, we have also defined the data structures needed for
the storage and dissemination to the scientific community through the platform
designated by DPAC, the Gaia Archive, in which we have also collaborated during
the analysis and validation of use case scenarios.
In addition, during the comse of this Thesis, we have contributed to the development of
Data Mining tools based on SOM --as well as to the visualization of their resultswhich
allow for the scientific exploitation of the mission catalogo Specifically, the
visualization tool developed by our research group, GUASOM, will be available from
Data Release 3 onwards, with a specific version -GUASOM flavor DR-3- to analyze
the products produced by the OA module. In the same way, we have also conducted a
feasibility study on Common Artificial Neural Networks, and generative ones -based 011
genetic techniques and proposed by our research group-, in order to estimate steIlar
astrophysical parameters within Apsis, under the GSP-Spec working package.
Finally, we have applied the Al tecbniques used in the Gaia mission --or other similar
tecbniques- to other catalogs, such as the astronomical survey ALHAMBRA, in which
we have performed an unsupervised analysis of its catalog, or even otber fields, such
as cybersecurity, in order to autbenticate users by analyzing their behavior through a
continuous monitorization of their activity. [Resumo]
Esta Tese de Doutoramento desenvolveuse no marco da misión Gaia da Axencia Espacial
Europea (ESA, do inglés European Space Agency) e do consorcio internacional DPAC (do
inglés, Data Processing and Analysis Consortium), baixo os que se está a levar a cabo
o censo estelar máis preciso e máis completo ata a data, que porá a disposición da
comunidade científica información astrornétrica para máis de 2500 millóns de fontes.
Os grandes volumes de datos que se teñen que manexar neste contexto --,-cifra que
se estima que supere o Petabyte de información-~, son propios dun entorno Big Data
e supón todo un reto para a comunidade científica -especialmente para o consorcio
DPAC--", dificultando o seu almacenamento e distribución e facendo imposible a súa
análise mediante técnicas e aplicacións convencionais. Deste xeito, xorde a necesidade
de empregar estratexias alternativas propias da Minería de Datos (Data Mining), nas
que as aplicacións se executan de forma distribuída sobre un conxunto de máquinas,
tratando de explotar ao máximo a súa capacidade de cómputo, o que na actualidade se
denomina como Big Data.
O grupo de investigación no que se realizou esta Tese forma parte do consorcio
DPAC -en colaboración con máis de 400 científicos e enxeñeiros-~ dende o ano 2006,
participando nas tarefas de análise dos datos e o desenvolvemento de ferramentas para a
explotación do catálogo da misión. A principal contribución desta Tese ao proxecto Gaia
materializouse mediante o paquete de traballo Outlier Analysis (OA), que se enmarca
baixo a cadea de procesado Astrophysical Pammeter Inference System (Apsis) e que
ten como obxectivo a análise non supervisada ou clustering ----empregando técnicas de
Intelixencia Artificial (lA )-'- das fontes para as que o paquete de clasificación predecesor,
o D'iscrefe Source Classifier (DSC), non foi capaz de identificar de forma fiable a súa
clase astronómica. En concreto, abordamos os seguintes aspectos:
Optimización e adaptación do algoritmo de aprendizaxe dos Mapas
Auto-Organizativos (SOM) a diferentes plataformas de cómputo distribuído
amplamente utilizadas, como son Apache Hadoop e Apache Spark, de forma
que se poidan executar nun tempo aceptable para levar a cabo a análise non
supervisada de grandes conxuntos de observacións --principalmente a través da
espectrofotometría BP jRP de Gaia-. Así mesmo, tamén adaptamos esta técnica
á plataforma SAGA, designada por DPAC para dar soporte a Apsis.
_ Integración do módulo OA en Apsis --,e, por tanto, tamén na plataforma SAGAxunto
co resto de paquetes de traballo. Para isto, ademais da adaptación dos mapas
SOM mencionada anteriormente, tivemos que establecer unha axeitada estratexia
para o preprocesado dos datos -en especial da espectrofotometría BP /RP-e
unha serie de mecanismos para a caracterización dos clusters, dende unha
descrición estadística baseada na información proporcionada polo propio satélite
ata diferentes indicadores da calidade dos clusiers -baseados principalmente nas
distancias intra-clusier- ou un indicio da súa clase astronómica -'-obtida a partir
dun etiquetado mediante modelos sintéticos-o
Validación das técnicas utilizadas no módulo OA para verificar o seu funcionamento
e o seu rendemento no contexto de Apsis, empregando pequenos conxuntos de
datos rcais -próximos aos dez millóns de observacións-·-. Deste xeito, preténdese
garantir a calidade da análise non supervisada realizada polo módulo OA, do que
se publicarán os seus resultados oficialmente a partir da Data Release 3, prevista
para finais de 2021. Para isto, tamén definimos as estruturas de datos precisas para
o seu almacenamento e posta a disposición da comunidade científica a través da
plataforma habilitada por DPAC, o Gaia Archive, no que colaboramos durante o
proceso de análise e validación de casos de uso.
De forma complementaria, durante o transcurso desta Tese participamos no
desenvolvemento de ferramentas para Minería de Datos baseadas en mapas SOM --e
para a visualización dos seus resultados- que permitan a explotación científica do
catálogo da misión. En particular, esta ferramenta de visualización desenvolta polo naso
grupo de investigación, GUASOM, estará dispoñible a partir da Data Release 3, contando
cunha versión específica -GUASOM flavar DR-3- para a análise dos produtos do
módulo OA. Do mesmo xeito, tamén levamos a cabo un estudo de viabilidade acerca da
implantación de Redes de Neuronas Artificiais convencionais e xenerativas -baseadas
en técnicas xenéticas e propostas polo naso grupo de investigación- para a estimación
de parámetros astrofísicos estelares en Apsis, baixo o paquete de traballo GSP-Spec.
Finalmente, aplicamos as técnicas de lA utilizadas no contexto da misión Gaia --ou
outras técnicas de similar natureza-- noutros catálogos, como é o caso do survey
astronómico ALHAMBRA, ande realizamos unha análise non supervisada do seu
catálogo, e incluso noutros ámbitos, como é o da ciberseguridade, para a autenticación
de usuarios a partir do seu comportamento mediante o seguimento continuo da súa
actividade.
Palabras chave
Inteligencia artificial-Aplicaciones
Minería de datos
Astronomía-Informática
Visualización (Informática)
Minería de datos
Astronomía-Informática
Visualización (Informática)
Descrición
Programa Oficial de Doutoramento en Tecnoloxías da Información e as Comunicacións. 5032V01
Dereitos
Os titulares dos dereitos de propiedade intelectual autorizan a visualización do contido desta tese a través de Internet, así como a súa reproducción, gravación en soporte informático ou impresión para o seu uso privado e/ou con fins de estudo e de investigación. En nengún caso se permite o uso lucrativo deste documento. Estos dereitos afectan tanto ó resumo da tese como o seu contido Los titulares de los derechos de propiedad intelectual autorizan la visualización del contenido de esta tesis a través de Internet, así como su repoducción, grabación en soporte informático o impresión para su uso privado o con fines de investigación. En ningún caso se permite el uso lucrativo de este documento. Estos derechos afectan tanto al resumen de la tesis como a su contenido