Minería de datos en la misión Gaia: visualización del catálogo, optimización del procesado y parametrización de estrellas
Use este enlace para citar
http://hdl.handle.net/2183/23974Coleccións
- Teses de doutoramento [2089]
Metadatos
Mostrar o rexistro completo do ítemTítulo
Minería de datos en la misión Gaia: visualización del catálogo, optimización del procesado y parametrización de estrellasAutor(es)
Director(es)
Manteiga, M.Dafonte, Carlos
Data
2019Resumo
[Resumen]
El trabajo realizado en esta tesis se enmarca dentro del proyecto Gaia, de la Agencia
Espacial Europea (ESA), que tiene por objetivo procesar los datos sobre posiciones y
brillos pertenecientes a más de mil millones de estrellas para generar el catálogo estelar
más grande conocido hasta la actualidad, lo que lo convierte en un gran reto para toda
la comunidad científica.
Para realizar el procesado y análisis de los datos de Gaia se ha creado un
consorcio internacional, denominado Data Processing and Analysis Consortium (DPAC),
destinado a diseñar e implementar los mecanismos que permitan explotar la ingente
cantidad de información que se obtendrá, del orden de un Petabyte. Está formado por
más de 400 científicos e ingenieros entre los que nos incluimos los miembros del grupo
de investigación en el que desarrollo esta tesis.
Nuestro trabajo se basa principalmente en la aplicación de técnicas de la Inteligencia
Artificial sobre los datos proporcionados por Gaia así como en la elaboración de
herramientas que permitan a la comunidad científica utilizar esas técnicas para analizar
la información astrofísica que contiene el catálogo. Concretamente los objetivos que se
pretenden con este trabajo son los siguientes:
• Aplicar técnicas de aprendizaje supervisado para la estimación de los principales
parámetros atmosféricos para las estrellas en las que el instrumento RVS de
Gaia medirá espectros con suficiente relación señal a ruido: temperatura efectiva,
gravedad superficial logarítmica, abundancia de hierro respecto al hidrógeno o
metalicidad y abundancia de elementos alfa respecto al hierro. Se demostrará la
eficacia de la técnica utilizada aplicada a datos obtenidos por el satélite Gaia.
• Proporcionar a la comunidad científica de una herramienta útil para la búsqueda y
análisis de conjuntos de datos homogéneos mediante la aplicación de un algoritmo
de aprendizaje no supervisado. Esta herramienta permite clasificar volúmenes
gigantescos de datos, por lo que la optimización del algoritmo utilizado es un factor
esencial. Se explicarán las técnicas utilizadas que permiten a esta herramienta
procesar millones de datos en un tiempo reducido.
• Desarrollar una herramienta que facilita el análisis de los resultados obtenidos por
la técnica de clasificación sobre millones de objetos estelares, de tal forma que es
capaz de mostrar de forma visual las diferentes agrupaciones de objetos estelares
obtenidas por esta técnica, permitiendo explorar sus características. Dado que esta
herramienta trabaja en un entorno Big Data el tratamiento de los datos adquiere
un papel primordiaL Se comprobará cómo esta herramienta es de gran utilidad
para el análisis de los datos y se explicarán las estrategias que se han seguido para
poder visualizar conjuntos de millones de objetos astronómicos de forma ágil y
fluida.
En todos los casos, la gran cantidad de datos a tratar sugiere la necesidad de aplicar
técnicas de procesamiento distribuido para evitar un consumo de recursos excesivo:
tiempo de ejecución y uso de memoria, que puede llegar a impedir una ejecución
satisfactoria de los métodos propuestos. Procesar toda esta información en el marco del
proyecto Gala requiere una capacidad de cómputo importante, por lo que para reducir
estos tiempos se realizan optimizaciones mediante técnicas de computación distribuida,
como es Apache Spark, y mediante técnicas de procesado gráfico, como es CUDA.
Otro aspecto importante es que el software resultante debe ser integrado dentro de
las cadenas de ejecución existentes en DPAC y desplegado en los centros de procesado
asociados, lo que requiere de un proceso de adaptación del software original para la
plataforma de destino.
Por último se demostrará la utilidad de la técnica de aprendizaje no supervisado en otras
disciplinas donde se verá cómo es capaz de mejorar la detección de intrusiones en tráfico
de redes de comunicaciones o en la generación de perfiles de usuarios para mejorar el
marketing online. [Abstract]
This Thesis has been developed in the context of the Gaia mission, the cornerstone of
the European Space Agency (ESA), which is conducting a survey of a billion stars in
the Milky Way to generate the largest known star catalog up to date. Such a catalog
becomes a great challenge to the scientific community in computational astrophysics.
It lS estimated that the total data archive will surpass 1 Petabyte and, in order to analyze
such a huge amount of data, the Data Processing and Analysis Consortium (DPAC)
has been organized, formed by more than four hundred scientists and engineers. The
members of the research group in which I developed this Thesis, is part of DPAC.
Our work is mainly based on the application of Artificial Intelligence techniques on the
data gathered by Gaia. We also develop tools for the scientific community in order to
perform their own analysis using these techniques. The main goals of this Thesis are
the following:
• Estímate, by means of supervised learning techniques, the main astrophysical
parameters of the stars observed by the RVS instrument of Gaia with enough signal
to noise ratio: effective temperature1 logarithm of surface gravity, iron abundances
relative to hydrogen or metallicity, and abundances of ex - elements relative to
iron. We will demonstrate the effectiveness of this technique applied to the Gaia
data.
• Provide the scientific community with a useful tool for analyzing homogeneous
datasets by applying an unsupervised learning technique. Due to the enormous
amounts of data that this tool must handle, the optimization of the algorithm used
ls an essential factor. This work will detail the techniques used that allow this tool
to process millions of data, minimizing the time consumption.
• Develop a tool that facilitates the analysis of the results obtained by the
classification technique on millions of stellar objects. In that way this tool should
be able to present the results through different visualizations, allowing to explore
their characteristics. An optimized data treatment is indispensable because this
tool is developed in a Big Data environment. It will be verified how this tool is
very useful to analyze data and we also detail the strategies used to visualize sets
of millions of astronomical objects in an agile and fluid way.
In all cases, the large amount of data to be processed make the application of distributed
processing techniques mandatory in order to avoid excessive resource consumption: execution time and memory usage, which may prevent a satisfactory execution of the
proposed methods. Processing all this information in the framework of the Gaia project
requires an important computing capacity, so we develop different optimizations using
distributed computing techniques, such as Apache Spark, and through graphic processing
methods, such as CUDA.
Another important aspect is that the resulting software must be integrated into the
existing execution chains in DPAC and deployed in the associated data processing
center (DPC), which requires a process to adapt ,the original software for the destination
platform.
Finally, we will demonstrate the usefulness of the unsupervised learning technique in
other disciplines. It will be seen how this technique can improve the intrusion detection
in network communications traffic ar in the generatian of user profiles to imprave social
netwark marketing. [Resumo]
o traballo realizado nesta tese enmárcase dentro do proxecto Gaia, da Axencia Espacial
Europea, que ten por obxectivo procesar os datos pertencentes a máis de mil millóns de
estrelas para xerar o catálogo estelar máis gTande coñecido ata a actualidade, o que o
converte nun gran reto para toda a comunidade científica.
Para realizar o procesado e análise dos datos de Gaia creouse un consorcio internacional,
denominado Data Processing and Analysis Consortium (DPAC), destinado a deseñar e
implementar os mecanismos que permitan explotar a inxente cantidade de información
que se obterá, da orde dun Petabyte. Está formado por máis de 400 científicos e
enxeñeiros entre os que nos incluÍmos os membros do grupo de investigación no que
desenvolvo esta tese.
o noso traballo basease principalmente na aplicación de técnicas da Intelixencia Artificial
sobre os datos proporcionados por Gaia para resolver diferentes problemas, así como na
elaboración de ferramentas que permitan á comunidade científica aplicar estas técnicas
sobre os seus datos e analizar os resultados obtidos. Concretamente os obxectivos que
se pretenden con este traballo son os seguintes:
• Aplicar técnicas de aprendizaxe supervisada para a estimación dos principais
parámetros estelares para as estrelas nas que o instrumento RVS de Gaia medirá
espectros con suficiente relación sinal a ruído: Temperatura efectiva, gravidade
superficial logarítmica, abundancia de ferro respecto ó hidróxeno ou metalicidade
e abundancia de elementos alfa respecto ó ferro. Demostrarase a eficacia da técnica
utilizada aplicada a datos obtidos polo satélite Gaja.
• Proporcionar á comunidade científica dunha ferramenta útil para a procura e
análise de conxuntos de datos homoxéneos mediante a aplicación dun algoritmo
de aprendizaxe non supervisada. Esta ferramenta permite clasificar volumes
xigantescos de datos) polo que a optimización do algoritmo utilizado é un factor
esenciaL Explicaranse as técnicas empregadas que permiten a esta ferramenta
procesar millóns de datos nun tempo reducido.
• Desenvolver unha ferramenta que facilita a análise dos resultados obtidos pala
técnica de clasificación sobre millóns de obxectos estelares, de tal forma que é
capaz de amosar de forma visual os diferentes agrupamentos de obxectos estelares
obtidos por esta técnica permitindo explorar as súas características. Dado que esta
ferramenta traballa nunha contorna Big Data o tratamento dos datos adquire un
papel primordial. Comprobarase como esta ferramenta é de gran utilidade para a
VIII
análise dos datos e explicaranse as estratexias que se seguiron para poder visualizar
conxuntos de millóns de obxectos estelares de forma áxil e fluída.
En todos os casos, a gran cantidade de datos a tratar suxire a necesidade de aplicar
técnicas de procesamento distribuído para evitar un consumo de recursos excesivo:
tempo de execución e uso de memoria, que pode chegar a impedir unha execución
satisfactoria dos métodos propostos. Procesar toda esta información no marco do
proxecto Gaia require unha capacidade de cómputo importante e para reducir estes
tempos realízanse optimizacións mediante técnicas de computación distribuída, como é
Apache Spark, e mediante técnicas de procesado gráfico, como é CUDA.
Outro aspecto importante é que o software resultante debe ser integrado dentro das
cadeas de execución existentes en DPAC e despregado nos centros de procesado
asociados, o que require dun proceso de adaptación do software orixinal para a
plataforma de destino.
Para rematar demostrarase a utilidade da técnica de aprendizaxe non supervisada
noutras disciplinas onde se verá como é capaz de mellorar a detección de intrusións
en tráfico de redes de comunicacións ou na xeración de perfís de usuarios para mellorar
o marketing online.
Palabras chave
Big Data
Visualización (Informática)
Astronomía-Informática
Inteligencia artificial-Aplicaciones
Minería de datos
Visualización (Informática)
Astronomía-Informática
Inteligencia artificial-Aplicaciones
Minería de datos
Descrición
Programa Oficial de Doutoramento en Tecnoloxías da Información e as Comunicacións. 5032V01
Dereitos
Os titulares dos dereitos de propiedade intelectual autorizan a visualización do contido desta tese a través de Internet, así como a súa reproducción, gravación en soporte informático ou impresión para o seu uso privado e/ou con fins de estudo e de investigación. En nengún caso se permite o uso lucrativo deste documento. Estos dereitos afectan tanto ó resumo da tese como o seu contido Los titulares de los derechos de propiedad intelectual autorizan la visualización del contenido de esta tesis a través de Internet, así como su repoducción, grabación en soporte informático o impresión para su uso privado o con fines de investigación. En ningún caso se permite el uso lucrativo de este documento. Estos derechos afectan tanto al resumen de la tesis como a su contenido