Minería de datos en la misión Gaia: visualización del catálogo, optimización del procesado y parametrización de estrellas

Álvarez, M. A.

Título

Autor(es)

Álvarez, M. A.

Director(es)

Manteiga, M.
Dafonte, Carlos

Data

2019

Resumo

[Resumen] El trabajo realizado en esta tesis se enmarca dentro del proyecto Gaia, de la Agencia Espacial Europea (ESA), que tiene por objetivo procesar los datos sobre posiciones y brillos pertenecientes a más de mil millones de estrellas para generar el catálogo estelar más grande conocido hasta la actualidad, lo que lo convierte en un gran reto para toda la comunidad científica. Para realizar el procesado y análisis de los datos de Gaia se ha creado un consorcio internacional, denominado Data Processing and Analysis Consortium (DPAC), destinado a diseñar e implementar los mecanismos que permitan explotar la ingente cantidad de información que se obtendrá, del orden de un Petabyte. Está formado por más de 400 científicos e ingenieros entre los que nos incluimos los miembros del grupo de investigación en el que desarrollo esta tesis. Nuestro trabajo se basa principalmente en la aplicación de técnicas de la Inteligencia Artificial sobre los datos proporcionados por Gaia así como en la elaboración de herramientas que permitan a la comunidad científica utilizar esas técnicas para analizar la información astrofísica que contiene el catálogo. Concretamente los objetivos que se pretenden con este trabajo son los siguientes: • Aplicar técnicas de aprendizaje supervisado para la estimación de los principales parámetros atmosféricos para las estrellas en las que el instrumento RVS de Gaia medirá espectros con suficiente relación señal a ruido: temperatura efectiva, gravedad superficial logarítmica, abundancia de hierro respecto al hidrógeno o metalicidad y abundancia de elementos alfa respecto al hierro. Se demostrará la eficacia de la técnica utilizada aplicada a datos obtenidos por el satélite Gaia. • Proporcionar a la comunidad científica de una herramienta útil para la búsqueda y análisis de conjuntos de datos homogéneos mediante la aplicación de un algoritmo de aprendizaje no supervisado. Esta herramienta permite clasificar volúmenes gigantescos de datos, por lo que la optimización del algoritmo utilizado es un factor esencial. Se explicarán las técnicas utilizadas que permiten a esta herramienta procesar millones de datos en un tiempo reducido. • Desarrollar una herramienta que facilita el análisis de los resultados obtenidos por la técnica de clasificación sobre millones de objetos estelares, de tal forma que es capaz de mostrar de forma visual las diferentes agrupaciones de objetos estelares obtenidas por esta técnica, permitiendo explorar sus características. Dado que esta herramienta trabaja en un entorno Big Data el tratamiento de los datos adquiere un papel primordiaL Se comprobará cómo esta herramienta es de gran utilidad para el análisis de los datos y se explicarán las estrategias que se han seguido para poder visualizar conjuntos de millones de objetos astronómicos de forma ágil y fluida. En todos los casos, la gran cantidad de datos a tratar sugiere la necesidad de aplicar técnicas de procesamiento distribuido para evitar un consumo de recursos excesivo: tiempo de ejecución y uso de memoria, que puede llegar a impedir una ejecución satisfactoria de los métodos propuestos. Procesar toda esta información en el marco del proyecto Gala requiere una capacidad de cómputo importante, por lo que para reducir estos tiempos se realizan optimizaciones mediante técnicas de computación distribuida, como es Apache Spark, y mediante técnicas de procesado gráfico, como es CUDA. Otro aspecto importante es que el software resultante debe ser integrado dentro de las cadenas de ejecución existentes en DPAC y desplegado en los centros de procesado asociados, lo que requiere de un proceso de adaptación del software original para la plataforma de destino. Por último se demostrará la utilidad de la técnica de aprendizaje no supervisado en otras disciplinas donde se verá cómo es capaz de mejorar la detección de intrusiones en tráfico de redes de comunicaciones o en la generación de perfiles de usuarios para mejorar el marketing online.

[Abstract] This Thesis has been developed in the context of the Gaia mission, the cornerstone of the European Space Agency (ESA), which is conducting a survey of a billion stars in the Milky Way to generate the largest known star catalog up to date. Such a catalog becomes a great challenge to the scientific community in computational astrophysics. It lS estimated that the total data archive will surpass 1 Petabyte and, in order to analyze such a huge amount of data, the Data Processing and Analysis Consortium (DPAC) has been organized, formed by more than four hundred scientists and engineers. The members of the research group in which I developed this Thesis, is part of DPAC. Our work is mainly based on the application of Artificial Intelligence techniques on the data gathered by Gaia. We also develop tools for the scientific community in order to perform their own analysis using these techniques. The main goals of this Thesis are the following: • Estímate, by means of supervised learning techniques, the main astrophysical parameters of the stars observed by the RVS instrument of Gaia with enough signal to noise ratio: effective temperature1 logarithm of surface gravity, iron abundances relative to hydrogen or metallicity, and abundances of ex - elements relative to iron. We will demonstrate the effectiveness of this technique applied to the Gaia data. • Provide the scientific community with a useful tool for analyzing homogeneous datasets by applying an unsupervised learning technique. Due to the enormous amounts of data that this tool must handle, the optimization of the algorithm used ls an essential factor. This work will detail the techniques used that allow this tool to process millions of data, minimizing the time consumption. • Develop a tool that facilitates the analysis of the results obtained by the classification technique on millions of stellar objects. In that way this tool should be able to present the results through different visualizations, allowing to explore their characteristics. An optimized data treatment is indispensable because this tool is developed in a Big Data environment. It will be verified how this tool is very useful to analyze data and we also detail the strategies used to visualize sets of millions of astronomical objects in an agile and fluid way. In all cases, the large amount of data to be processed make the application of distributed processing techniques mandatory in order to avoid excessive resource consumption: execution time and memory usage, which may prevent a satisfactory execution of the proposed methods. Processing all this information in the framework of the Gaia project requires an important computing capacity, so we develop different optimizations using distributed computing techniques, such as Apache Spark, and through graphic processing methods, such as CUDA. Another important aspect is that the resulting software must be integrated into the existing execution chains in DPAC and deployed in the associated data processing center (DPC), which requires a process to adapt ,the original software for the destination platform. Finally, we will demonstrate the usefulness of the unsupervised learning technique in other disciplines. It will be seen how this technique can improve the intrusion detection in network communications traffic ar in the generatian of user profiles to imprave social netwark marketing.

[Resumo] o traballo realizado nesta tese enmárcase dentro do proxecto Gaia, da Axencia Espacial Europea, que ten por obxectivo procesar os datos pertencentes a máis de mil millóns de estrelas para xerar o catálogo estelar máis gTande coñecido ata a actualidade, o que o converte nun gran reto para toda a comunidade científica. Para realizar o procesado e análise dos datos de Gaia creouse un consorcio internacional, denominado Data Processing and Analysis Consortium (DPAC), destinado a deseñar e implementar os mecanismos que permitan explotar a inxente cantidade de información que se obterá, da orde dun Petabyte. Está formado por máis de 400 científicos e enxeñeiros entre os que nos incluÍmos os membros do grupo de investigación no que desenvolvo esta tese. o noso traballo basease principalmente na aplicación de técnicas da Intelixencia Artificial sobre os datos proporcionados por Gaia para resolver diferentes problemas, así como na elaboración de ferramentas que permitan á comunidade científica aplicar estas técnicas sobre os seus datos e analizar os resultados obtidos. Concretamente os obxectivos que se pretenden con este traballo son os seguintes: • Aplicar técnicas de aprendizaxe supervisada para a estimación dos principais parámetros estelares para as estrelas nas que o instrumento RVS de Gaia medirá espectros con suficiente relación sinal a ruído: Temperatura efectiva, gravidade superficial logarítmica, abundancia de ferro respecto ó hidróxeno ou metalicidade e abundancia de elementos alfa respecto ó ferro. Demostrarase a eficacia da técnica utilizada aplicada a datos obtidos polo satélite Gaja. • Proporcionar á comunidade científica dunha ferramenta útil para a procura e análise de conxuntos de datos homoxéneos mediante a aplicación dun algoritmo de aprendizaxe non supervisada. Esta ferramenta permite clasificar volumes xigantescos de datos) polo que a optimización do algoritmo utilizado é un factor esenciaL Explicaranse as técnicas empregadas que permiten a esta ferramenta procesar millóns de datos nun tempo reducido. • Desenvolver unha ferramenta que facilita a análise dos resultados obtidos pala técnica de clasificación sobre millóns de obxectos estelares, de tal forma que é capaz de amosar de forma visual os diferentes agrupamentos de obxectos estelares obtidos por esta técnica permitindo explorar as súas características. Dado que esta ferramenta traballa nunha contorna Big Data o tratamento dos datos adquire un papel primordial. Comprobarase como esta ferramenta é de gran utilidade para a VIII análise dos datos e explicaranse as estratexias que se seguiron para poder visualizar conxuntos de millóns de obxectos estelares de forma áxil e fluída. En todos os casos, a gran cantidade de datos a tratar suxire a necesidade de aplicar técnicas de procesamento distribuído para evitar un consumo de recursos excesivo: tempo de execución e uso de memoria, que pode chegar a impedir unha execución satisfactoria dos métodos propostos. Procesar toda esta información no marco do proxecto Gaia require unha capacidade de cómputo importante e para reducir estes tempos realízanse optimizacións mediante técnicas de computación distribuída, como é Apache Spark, e mediante técnicas de procesado gráfico, como é CUDA. Outro aspecto importante é que o software resultante debe ser integrado dentro das cadeas de execución existentes en DPAC e despregado nos centros de procesado asociados, o que require dun proceso de adaptación do software orixinal para a plataforma de destino. Para rematar demostrarase a utilidade da técnica de aprendizaxe non supervisada noutras disciplinas onde se verá como é capaz de mellorar a detección de intrusións en tráfico de redes de comunicacións ou na xeración de perfís de usuarios para mellorar o marketing online.

Palabras chave

Big Data
Visualización (Informática)
Astronomía-Informática
Inteligencia artificial-Aplicaciones
Minería de datos

Descrición

Programa Oficial de Doutoramento en Tecnoloxías da Información e as Comunicacións. 5032V01

Dereitos

Os titulares dos dereitos de propiedade intelectual autorizan a visualización do contido desta tese a través de Internet, así como a súa reproducción, gravación en soporte informático ou impresión para o seu uso privado e/ou con fins de estudo e de investigación. En nengún caso se permite o uso lucrativo deste documento. Estos dereitos afectan tanto ó resumo da tese como o seu contido Los titulares de los derechos de propiedad intelectual autorizan la visualización del contenido de esta tesis a través de Internet, así como su repoducción, grabación en soporte informático o impresión para su uso privado o con fines de investigación. En ningún caso se permite el uso lucrativo de este documento. Estos derechos afectan tanto al resumen de la tesis como a su contenido