Tesis profesional presentada por
Doctorado en Sistemas Inteligentes. Departamento de Ingeniería en Computación, Electrónica y Mecatrónica. Escuela de Ingeniería, Universidad de las Américas Puebla.
Jurado Calificador
Presidente: Dr. Juan Horacio Espinoza
Rodríguez
Vocal y Director: Dr. Vicente Alarcón
Aquino
Secretario: Dr. Juan Manuel Ramírez
Cortés
Vocal y Co-director: Dr. Roberto Rosas
Romero
Vocal: Dr. Carlos del Burgo Díaz
Cholula, Puebla, México a 16 de mayo de 2022.
Desde el lanzamiento del satélite Kepler en el año 2009, el número de descubrimientos de exoplanetas (planetas encontrados fuera del Sistema Solar) ha incrementado notablemente con más de 5; 000 exoplanetas confirmados hasta la fecha. Su estudio es importante para entender la composición y evolución del universo. Además, estudiar exoplanetas provee la posibilidad de buscar vida fuera de la Tierra. La cantidad de información a procesar para lograr tales descubrimientos es abrumadora. Hoy en día existen diversas propuestas de aprendizaje de máquina para realizar estas tareas, aunque aún cuentan con sus limitaciones. El propósito de esta tesis es desarrollar un modelo de aprendizaje de máquina basado en el análisis multiresolución, para analizar las series de tiempo de luz estelar, llamadas curvas de luz, e identificar si las señales detectadas corresponden a tránsitos de exoplanetas.
Primero, presentamos el método general a través del cual se descubren los exoplanetas. Dicho método se divide en la adquisición de datos, su preprocesamiento, detección e identificación de exoplanetas. Luego, comparamos varios algoritmos de aprendizaje de máquina reportados en la literatura para la identificación de exoplanetas; tales como redes convolucinoales y árboles aleatorios. También presentamos experimentos utilizando análisis multiresolución para preprocesar las curvas de luz y así obtener mejores resultados de identififcación. Se probaron tres técnicas: la transformada discreta wavelet, la descompocisión empírica de modos y su variante en conjunto. Hemos creado dos conjuntos de datos con tránsitos sintéticos de exoplanetas para los experimentos. Los resultados muestran que el rendimiento de los modelos mejora gracias al análisis multiresolución. Por ejemplo, la red convolucional incrementa su precisión de 91.46% y 97.68% a 97.13% y 99.32 %. Además, hemos disminuido el tiempo de ejecución de los modelos utilizando la transformada discreta wavelet, la cual reduce la longitud del vector de entrada. Por ejemplo, el clasificador de bosques aleatorios mejoró de 10.26 y 9.42 a 1.16 y 1.18 segundos, mientras que la red convolucional mejoró su tiempo de pruebas de 46;74 y 54;17 a 31;59 y 22;93 segundos.
Finalmente, proponemos un nuevo modelo de aprendizaje de máquina que utiliza análisis multiresolución como componente principal; llamado Sistema de Aprendizaje Amplio Basado en Wavelets (WABBLES). El modelo fue probado para la identificación de exoplanetas y detección de cáncer de mama para probar que puede ser utilizado para cualquier problema de clasificación. Nuestro modelo obtiene mejores resultados que los modelos tradicionales que fueron probados. Por una parte, para la identificación de exoplanetas, nuestro modelo obtuvo 99.01% de precisión, mientras que los otros modelos obtuvieron porcentajes menores a 98.6 %. Por el otro lado, para la detección de cáncer de mama, nuestro modelo obtuvo un F-Score de 96.23 %, mientras que el resto de los modelos no pudo superar el 94.8 %.
Since the launching of the Kepler satellite in 2009, the discovery rate per year of exoplanets i.e. planets found outside the Solar System) has increased meaningfully with more than 5; 000 exoplanet confirmations up to now. Exoplanet discoveries are important to understand the omposition and evolution of the universe. Even more, searching for exoplanets also opens the possibility to look for life in other planets. The amount of data that have to be processed in order to perform such a discovery is immense. Nowadays, there exist several machine learning approaches, although they are not yet unerring. The underlying aim of this thesis is to develop a machine learning model based on multiresolution analysis capable of identifying if a signal detected in time series of star flux, called light curves, corresponds to an exoplanet transit or not.
First, we propose a pipeline that helps to understand the process of exoplanet discovery. Such pipeline is divided in data acquisition, data preprocessing, exoplanet detection, and exoplanet identification. Next, we compare some of the best performing machine learning models that have been applied to exoplanet identification in the literature; such as convolutional neural networks and random forests. Also, we tested preprocessing the light curves using multiresolution analysis to improve the performance of the models. Three diferent techniques were used, namely the discrete wavelet transform, empirical mode decomposition and its ensemble alternative. We created two datasets of synthetic exoplanet transits for the experiments. Our results show that the models classify better when using multiresolution analysis. For instance, the convolutional neural network increases its accuracy from 91:46% and 97:68% to 97:13% and 99:32%. Furthermore, our experiments show that the discrete wavelet transform helps to decrease the execution time of the models because it reduces the length of the input vectors. For example, the random forests classifier improved from 10:26 and 9:42 to 1:18 and 1:16 seconds, and the convolutional neural network improved its testing time from 46:74 and 54:17 to 31:59 and 22:93 seconds
Finally, we have proposed a new machine learning model that uses multiresolution analysis as its core component; which we termed WAvelet-Based Broad LEarning System (WABBLES). It was tested using one of the light curve datasets aforementioned and a benchmark dataset of breast cancer, the latter to prove that the model can be used for any classification problem. The proposed model obtains better identification results than the traditional models that were tested in this work. On the one hand, for exoplanet identification, our model attained an accuracy of 99:01%, while the other models obtained an accuracy lower than 98:6%. On the other hand, for breast cancer detection, our model obtained an F-Score of 96:23% while the rest of the models did not obtain more than 94:8%.
Palabras clave: Artificial Intelligence, Machine Learning, Exoplanets, Multiresolution Analysis, Light Curves, Astrophysics, Algorithm, Broad Learning System, Neural Networks.
Portada
Agradecimientos
Índices
Capítulo 1. Introduction
Capítulo 2. Theoretical Background
Capítulo 3. Proposed Multiresolution Analysis Pipeline for Light Curve Preprocessing
Capítulo 4. Proposed WAvelet-Based Broad LEarning System (WABBLES)
Capítulo 5. Conclusions and Future Work
Referencias
Apéndice A. Publications
Apéndice B. Discrete Wavelet Transform Results
Apéndice C. Empirical Mode Decomposition and Ensemble Empirical Mode Decomposition Results
Apéndice D. Partial Derivatives Used by the Proposed WABBLES Model
Apéndice E. Partial Derivatives of the Translation and Dilation Parameters Used by the Proposed WABBLES Model
Jara Maldonado, M. A. 2022. Multiresolution Analysis for Transiting Exoplanet Identification Using Machine Learning. Tesis Doctorado. Sistemas Inteligentes. Departamento de Ingeniería en Computación, Electrónica y Mecatrónica, Escuela de Ingeniería, Universidad de las Américas Puebla. Mayo. Derechos Reservados © 2022.