Proyecto Final presentado por Sofía Ordaz López [sofia.ordazlz@udlap.mx]

Miembro del Programa de Honores. Licenciatura en Ciencia de Datos. Departamento de Actuaría, Física y Matemáticas. Escuela de Ciencias, Universidad de las Américas Puebla.

Jurado Calificador

Director: Dra. Milagros Zeballos Rebaza
Presidente: Dra. Daniela Cortés Toto
Secretario: Dr. Miguel Ánguel Reyes Cortés

Cholula, Puebla, México a 9 de mayo de 2024.

Resumen

El cálculo del corrimiento al rojo de galaxias y cuásares es fundamental en la cosmología moderna, ya que proporciona información crucial sobre la expansión del universo y la velocidad relativa de los objetos celestes. Dado que obtener observaciones espectroscópicas para una gran cantidad de galaxias puede ser difícil y costoso, se prefiere el uso de corrimientos al rojo fotométricos. El uso de técnicas de aprendizaje automático para estimar corrimientos al rojo fotométricos se ha convertido en un recurso valioso en la astronomía moderna debido a la gran cantidad de datos esperados de los próximos sensos astronómicos.

Actualmente existen algoritmos de aprendizaje automático que han demostrado poder estimar corrimientos al rojo fotométricos para valores de (z < 1). En este trabajo, se utiliza el algoritmo ExtraTreesRegressor de la librería ScikitLearn para obtener estimaciones en todo el rango de corrimiento al rojo (0 < z < 7) ofrecido por el catálogo del Sloan Digital Sky Survey (SDSS) mediante sus Data Releases del 12 al 18, utilizando métodos de preprocesamiento para limpieza de datos y selección de características de forma recursiva (RFE), un dominio logarítmico para evitar el desequilibrio de clases y un GridSearch para obtener los mejores hiperparámetros para el modelo, evaluándolo con las dos métricas más utilizadas en algoritmos de aprendizaje automático, Raiz del Error Cuadrático Medio (RMSE) y R2.

Después de implementar recursos para optimizar el modelo de ExtraTreesRegressor, no fue posible obtener un MSE menor a 2.050, lo cual demuestra que el algoritmo no fue capaz de estimar con precisión los corrimientos al rojo en el rango (0 < z < 7). Sin embargo, al realizar el análisis para (z < 1), el MSE mejoró significativamente a 0.052. En conclusión, el algoritmo, con las características y parámetros detallados, solo funciona de manera efectiva para valores de (z < 1).

Palabras clave: ExtraTreesRegressor, corrimiento al rojo, galaxia, aprendizaje automático.

Índice de contenido

Portada

Agradecimientos

Índices

Capítulo 1. Introducción

  • 1.1 Objetivo General
  • 1.2 Galaxias y cuásares
  • 1.3 Efecto Doppler
  • 1.4 Corrimiento al rojo
  • 1.5 Relevancia

Capítulo 2. Base de datos

  • 2.1 Sloan Digital Sky Survey
  • 2.2 Filtros u - g - r - i - z
  • 2.3 Features
  • 2.4 Código SQL

Capítulo 3. Metodología

  • 3.1 Árboles de decisión
  • 3.2 MinMaxScaler
  • 3.3 Importancia de características
  • 3.4 Eliminación recursiva de características
  • 3.5 Dominio logarítmico
  • 3.6 GridSearch
  • 3.7 Bootstrap

Capítulo 4. Análisis y resultados

  • 4.1 Primeras pruebas
  • 4.2 Importancia de características
  • 4.3 Eliminación recursiva de características
  • 4.4 Dominio logarítmico
  • 4.5 Grid Search
  • 4.6 Resultado Bootstrap

Capítulo 5. Conclusiones

  • 5.1 Trabajo a futuro

Capítulo 6. Anexo

  • 6.1 Pruebas por intervalo
  • 6.2 Importancia de características
  • 6.3 Eliminación recursiva de características
  • 6.4 Dominio logarítmico

Referencias

Ordaz López, S. 2024. Estimación de corrimientos al rojo fotométricos de galaxias y cuásares utilizando ExtraTreesRegressor. Proyecto Final Licenciatura. Ciencia de Datos. Departamento de Actuaría, Física y Matemáticas, Escuela de Ciencias, Universidad de las Américas Puebla. Mayo. Derechos Reservados © 2024.