Extracción de conocimiento en bases de datos astronómicas mediante redes de neuronas artificiales : aplicaciones en la misión Gaia

Use este enlace para citar
http://hdl.handle.net/2183/12364Coleccións
- Teses de doutoramento [2227]
Metadatos
Mostrar o rexistro completo do ítemTítulo
Extracción de conocimiento en bases de datos astronómicas mediante redes de neuronas artificiales : aplicaciones en la misión GaiaAutor(es)
Director(es)
Manteiga, M.Arcay Varela, Bernardino
Data
2014Centro/Dpto/Entidade
Universidade da Coruña. Departamento de Tecnoloxías da Información e as ComunicaciónsResumo
[Resumen] En la llamada era de las TIC, las capacidades de los sistemas de adquisición de datos
han aumentado enormemente, de forma que resulta complicado almacenar toda la
información que producen, así como su análisis posterior. Esta explosión de datos ha
aparecido recientemente en el campo de la Astronomía, donde cada vez se observan
un número mayor de objetos, con mayor periodicidad. Un ejemplo de esto es la
próxima misión Gaia, que observará múltiples propiedades de hasta mil millones de
estrellas, cuya información tendrá un volumen del orden del petabyte. Por lo tanto, para
analizar tal cantidad de datos, es necesario desarrollar nuevos métodos de análisis que
permitan extraer todo el conocimiento presente en los mismos. Esta tesis está dedicada
al desarrollo de métodos de análisis de datos, los cuales se integran en la cadena de
procesado de Gaia, con el objetivo de extraer conocimiento de los datos recogidos por
la misión.
Con el objetivo de analizar los datos de la misión Gaia, se ha organizado un consorcio a
nivel europeo, llamado Data Processing and Analysis Consortium (DPAC), compuesto
por cientos de científicos e ingenieros. DPAC se divide en ocho unidades de coordinación
(CUs), estando esta tesis dedicada al desarrollo de algoritmos en la CU8, que se encarga
de la estimación de parámetros astrofísicos (APs) y la clasificación de las fuentes. Se
desarrollan métodos basados en redes de neuronas artificiales (ANNs) para realizar
las tareas relacionadas con dos paquetes de trabajo diferentes en la CU8: El paquete
GSP-Spec (GWP-823) y el paquete OA (GWP-836).
El paquete GSP-Spec se encarga de la estimación de APs de estrellas mediante el espectro
del instrumento Radial Velocity Spectrograph (RVS). Aquí, se presentará el desarrollo
de uno de los módulos de GSP-Spec, el cual se basa en la aplicación de ANNs de
tipo feed-forward. Se presenta una metodología, basada en algoritmos genéticos de
optimización, para la obtención de un conjunto óptimo de parámetros de configuración
para la ANN en cada caso, en función de la relación señal a ruido (SNR) en el espectro
RVS y del tipo de estrella a parametrizar. Además, con el objetivo de mejorar las
estimaciones de APs, se estudian técnicas de procesado wavelet, aplicadas sobre el
espectro RVS. A pesar de la efectividad que las ANNs muestran a la hora de estimar APs,
en principio éstas carecen de la capacidad de proporcionar un valor de incertidumbre
sobre dichas estimaciones, con lo cual resulta imposible conocer la fiabilidad de las
mismas. Debido a ello, se presenta una arquitectura novedosa para la ANN, en la
cual se invierten las entradas y salidas de la misma, de forma que la ANN estima el
espectro RVS a partir de los APs. Dicha arquitectura de denomina red neuronal artificial
generativa (GANN) y se aplica a la estimación de APs de un conjunto de espectros RVS
simulados para la misión Gaia, donde se muestra más efectiva que el modelo de ANN
convencional, en el caso de estrellas débiles, con un bajo SNR. Finalmente, la red GANN
puede aplicarse para la obtención de la probabilidad a posteriori de cada uno de los APs
dado el espectro RVS, lo cual permitirá un análisis más completo de los mismos.
Dada la naturaleza de la misión Gaia, la cual es la primera misión astronómica que
observará, de forma no sesgada, toda la bóveda celeste hasta magnitud 20, se espera una
gran cantidad de objetos atípicos. El paquete OA en la CU8 se encarga del procesado
de dicho tipo de objetos, los cuales se definen como aquellos que no han podido ser
clasificados con fiabilidad por los paquetes de clasificación existentes en la cadena de
procesamiento. Los métodos de OA se basan en el aprendizaje no supervisado del
conjunto de observaciones atípicas. Dicho aprendizaje tiene dos partes: agrupamiento y
reducción de dimensionalidad. Se seleccionan los mapas auto-organizativos (SOM) como
algoritmo base para realizar dicho aprendizaje, demostrándose su efectividad cuando se
aplica, con una configuración óptima, a las simulaciones de Gaia. Además, el algoritmo
es aplicado a observaciones atípicas reales, provenientes del catálogo SDSS. Dado que
es necesaria una identificación posterior de los grupos obtenidos por la red SOM, se
aplican dos métodos de identificación diferentes. El primero está basado en la similitud
entre los prototipos de la red y el conjunto de simulaciones de Gaia, mientras que el
otro esa basado en la recuperación de clasificaciones almacenadas en el catálogo Simbad,
mediante el cruce de coordenadas celestes. Gracias a la visualización de la red SOM,
y a ambos métodos de identificación, es posible distinguir entre observaciones válidas
y artefactos observacionales. Además, el método posibilita la selección de objetos de
interés para observaciones posteriores, con el objetivo de determinar la naturaleza de los
mismos. [Abstract] In the so-called IT era, the capabilities of data acquisition systems have increased to
such an extent that it has become difficult to store all the information they produce, and
analyse it. This explosion of data has recently appeared in the field of Astronomy, where
an increasing number of objects are being observed on a regular basis. An example of
this is the upcoming Gaia mission, which will pick up multiple properties of a billion
stars, whose information will have a volume of approximately a petabyte. The analysis
of a similar amount of information inevitably requires the development of new data
analysis methods to extract all the knowledge it contains. This thesis is devoted to the
development of data analysis methods to be integrated in the Gaia pipeline, such that
knowledge can be extracted from the data collected by the mission.
In order to analyze the data from the Gaia mission, the European Space Agency
organized the Data Processing and Analysis Consortium (DPAC) which is composed
of hundreds of scientists and engineers. DPAC is divided into eight Coordination Units
(CUs). This thesis is dedicated to algorithm development in CU8, which is responsible
for source classification and astrophysical parameters (AP) estimation. Methods based
on Artificial Neural Networks (ANNs) are developed to perform the tasks related to
two different work packages in CU8: the GSP-Spec package (GWP-823), and the OA
package (GWP-836). The GSP-Spec package is responsible for estimating stellar APs
by means of the Radial Velocity Spectrograph (RVS) spectrum. This work presents
the development of one of the GSP-Spec modules, which is based on the application of
feed-forward ANNs. A methodology is described, based on the optimization of genetic
algorithms and aimed at obtaining an optimal set of configuration parameters for the
ANN in each case, depending on the signal to noise ratio (SNR) in the RVS spectrum and
on the type of star to parameterize. Furthermore, in order to improve the AP estimates,
wavelet signal processing techniques, applied to the RVS spectrum, are studied. Despite
the effectiveness shown by ANNs in estimating APs, in principle they lack the ability
to provide an uncertainty value on these estimates, making it impossible to determine
their reliability. Because of this, a new architecture for the ANN is presented in which
the inputs and outputs are reversed, so that the ANN estimates the RVS spectrum from
the APs. Such an architecture is called Generative ANN (GANN) and is applied to the
AP estimation of a set of simulated RVS spectra for the Gaia mission, where it is more
effective than the conventional ANN model, in the case of faint stars with low SNR.
Finally, the GANN can be applied for obtaining the posterior probability of each of the
APs according to the RVS spectrum, allowing for their more complete analysis.
Given the nature of the Gaia mission, which is the first astronomical mission that will
observe, in an unbiased way, the entire sky up to magnitude 20, a large number of outliers
are expected. The OA package in CU8 handles the processing of this type of objects,
which are defined as those that could not be reliably classified by the methods in the
upstream classification packages. OA methods are based on the unsupervised learning
of all outliers. Such learning has two parts: clustering and dimensionality reduction.
The Self-Organizing Map (SOM) algorithm is selected as a basis for this learning.
Its effectiveness is demonstrated when it is applied, with an optimal configuration, to
the Gaia simulations. Furthermore, the algorithm is applied to real outliers from the
SDSS catalog. Since a subsequent identification of the clusters obtained by the SOM is
necessary, two different methods of identification are applied. The first method is based
on the similarity between the SOM prototypes and the Gaia simulations, and the second
method is based on the recovery of stored classifications in the SIMBAD catalog by
cross-matching celestial coordinates. Thanks to the visualization of the SOM planes, and
to both methods of identification, it is possible to distinguish between valid observations
and observational artifacts. Furthermore, the method allows for the selection of objects
of interest for follow-up observations, in order to determine their nature.
Palabras chave
Redes neuronales (Informática)
Sistemas de información
Astronomía
Astrofísica
Sistemas de información
Astronomía
Astrofísica
Dereitos
Os titulares dos dereitos de propiedade intelectual autorizan a visualización do contido desta tese a través de Internet, así como a súa reproducción, gravación en soporte informático ou impresión para o seu uso privado e/ou con fins de estudo e de investigación. En nengún caso se permite o uso lucrativo deste documento. Estos dereitos afectan tanto ó resumo da tese como o seu contido Los titulares de los derechos de propiedad intelectual autorizan la visualización del contenido de esta tesis a través de Internet, así como su repoducción, grabación en soporte informático o impresión para su uso privado o con fines de investigación. En ningún caso se permite el uso lucrativo de este documento. Estos derechos afectan tanto al resumen de la tesis como a su contenido