Tesis profesional presentada por Omar López Rincón [omarlopezrincon@gmail.com]

Doctorado en Sistemas Inteligentes. Departamento de Ingeniería en Computación, Electrónica y Mecatrónica. Escuela de Ingeniería, Universidad de las Américas Puebla.

Jurado Calificador

Presidente: Dr. Gibran Etcheverry Doger
Secretario y Director: Dr. Oleg Starostenko
Vocal: Dr. Mauricio Javier Osorio Galindo
Vocal: Dr. Gerardo Ayala San Martín
Vocal: Mtra. Claudia Zepeda Cortés

Cholula, Puebla, México a 15 de mayo de 2020.

Resumen

Music algorithmic composition has recently become an area of prestigious research projects such as Google´s Magenta project, Sony´s CSL Lab in Paris, and Aiva at Luxembourg, which are pushing the boundaries in automatic music generation. Computer music generation is the process of composing music through an algorithmic approach or the use of artificial intelligence. In the filmmaking and gaming industries, startups or starting companies can compete with the bigger ones relying on generative methods to help them increase productivity and rely solely on their creativity. Nowadays, the generative methods for music pieces creation had been tested with machine learning methods like Recurrent Neural Networks and Markovian approaches with different outcomes. A specific problem with Recurrent Neural Networks is the amount of time it takes to train an architecture aiming at a particular subset of data. Another problem with the supervised learning approaches is the absence of accessible datasets with proper labeling of the music features. Additionally, there are no metrics or enough standard samples of the different aspects of music talking about melody, harmony, and rhythm as well as there are not metrics that can be used to quantify music perception. In this research, we introduce a simple and efficient methodology for analyzing and testing harmonic features of music using different quantitative metrics. Notably, the proposed approach normalizes data in MIDI files by 12-dimensional vector descriptors extracted from tonality as well as it is used for dimensionality reduction and visualization of extracted music data by 3D feature vector projections. This projection is achieved through a non-overlapping sliding window through the composition, harmonic features are found in the music piece, and three-dimension projection creates a quantitative profile of a composition, which correlates the tone similarities along with the music piece. Another contribution consists of designing a methodology to extract the rhythm and harmony of musical pieces and provide their recombination. These extractions are done through an algorithmic compression approach to finding the descriptors that can encode the development of the music piece. Due to the music sequences do not have the same length as well as the size of the songs are different, the process of coupling the harmony descriptors to the rhythm extracted from the MIDI file is proposed. This coupling is done using a genetic algorithm to take advantage of artificial intelligence in automatic music generation. Finally, we propose a novel technique for generating new music composition by replacing the existing harmony descriptors of the MIDI file with a new harmony generated by the genetic algorithm and combining it with a rhythm of other compositions providing in this way adjustment of the new music piece to a particular genre. All the proposed approaches have been tested, evaluated, and compared with existed prototypes ensuring their high quality and efficiency during feature extraction, analysis, visualization, and automatic generation of polyphonic music compositions. Resumen. La generación algorítmica de música recientemente se ha convertido en área de proyectos de investigación prestigiosos como Magenta de Google, el laboratorio en Paris de Sony CSL y Aiva en Luxemburgo, el cual empuja las barreras en generación automática de música. La generación musical por computadora es el proceso de componer música a través de un enfoque algorítmico o con el uso de inteligencia artificial. En las industrias de cine y videojuegos se encuentran las llamadas startups o compañías emergentes podrían competir con las más grandes basándose en métodos generativos para ayudarles a incrementar la productividad y depender únicamente de la creatividad. Hoy en día, los métodos generativos de piezas musicales han sido probados con métodos de aprendizaje de máquina como redes recurrentes o métodos Markovianos con diferentes resultados. Un problema específico con las redes recurrentes es el tiempo que toma entrenar el modelo con un subconjunto de datos. Otro problema con métodos supervisados es la ausencia de datos suficientes etiquetados con las características musicales. Adicionalmente, no hay métricas o ejemplos suficientes de las diferentes características de música como melodía, armonía y ritmo, así como no hay métricas que reflejen la percepción musical. En esta investigación, presentamos una metodología simple y eficiente para analizar y probar características armónicas de música utilizando diferentes métricas cualitativas. Notablemente, el enfoque propuesto normaliza los datos que se encuentran en archivos MIDI en vectores descriptores de 12 dimensiones extraídos de la tonalidad y utilizados para reducción de dimensionalidad y visualización de los datos musicales extraídos proyectados en vectores de tres dimensiones. Esta proyección se logra mediante ventanas deslizantes no traslapadas a través de la composición, las características armónicas se encuentran en la pieza musical y la proyección tridimensional crea un perfil cuantitativo de la composición, el cual esta correlacionado con similitudes de tono en la pieza. Otra contribución consiste en el diseño de una metodología para extraer el ritmo y armonía de una pieza musical y realizar una recombinación de estas características. Las extracciones se llevan a cabo a través de una compresión algorítmica para encontrar los descriptores que pueden codificar el desarrollo de la pieza musical. Como las piezas musicales no poseen la misma longitud y así como las canciones son de duraciones diferentes, se propone el proceso de acoplamiento de los descriptores armónicas al ritmo extraído de los archivos MIDI. Este acoplamiento se logra utilizando un algoritmo genético para aprovechar las ventajas de la inteligencia artificial in la generación automática de música. Finalmente, se propone una técnica novedosa de generación de composiciones musicales por reemplazo de los descriptores armónicos de un archivo MIDI con una armonía generada por el algoritmo genético y combinándola con el ritmo de otra composición haciendo un ajuste para generar una nueva pieza musical. Todas las propuestas fueron probadas, evaluadas y comparadas con prototipos existentes asegurando la alta calidad y eficiencia durante la extracción de características, análisis, visualización y generación automática de composiciones musicales polifónicos y poli-instrumentales.

Palabras clave: artificial intelligence automatic music composition.

Índice de contenido

Portada

Índices

Capítulo 1. Introduction

  • 1.1 Problem definition and Motivation
  • 1.2 Related Work in Automatic Music Composition
  • 1.3 Objectives of the Thesis
  • 1.4 Outline of the thesis

Capítulo 2. Music Theoretical Background

  • 2.1 Introduction
  • 2.2 Music Theory
  • 2.3 Music Instrument Digital Interface
  • 2.4 Discussion

Capítulo 3. Methodology for feature analysis, extraction, and dimensionality reduction of musical data

  • 3.1 Preliminary consideration
  • 3.2 Feature extraction from MIDI files
  • 3.3 MIDI Windowing
  • 3.4 Adjustment Average Error
  • 3.5 Proposal for spherical projection and visualization
  • 3.6 Description of HUE based visualization
  • 3.7 Discussion

Capítulo 4. Methodology for music Data Creation Based on Dictionary Extraction and Feature Recombination

  • 4.1 Preliminary considerations
  • 4.2 Feature definitions of music in MIDI files
  • 4.3 Steps description for harmonic recombination
  • 4.4 Discussion

Capítulo 5. Results of tests of the proposed approach for feature analysis

  • 5.1 Collision detection and random initialization
  • 5.2 Proposed Visualization vs. Autoencoder
  • 5.3 Discussion

Capítulo 6. Music data generation experiments and results

  • 6.1 Experimental results and evaluation of proposed harmonic recombination method
  • 6.2 Discussion

Capítulo 7. Contributions, Conclusions, and future work

  • 7.1 Contributions
  • 7.2 Conclusions
  • 7.3 Future Work

Referencias

Apéndice A. Examples of different SSM feature extractions

Apéndice B. Examples of different spherical projections

Apéndice C. Examples of different feature recombination

Apéndice D. Music repository explanation of examples

López Rincón, O. 2020. Creating a creator: a methodology for music data analysis, feature visualization, and automatic music composition. Tesis Doctorado. Sistemas Inteligentes. Departamento de Ingeniería en Computación, Electrónica y Mecatrónica, Escuela de Ingeniería, Universidad de las Américas Puebla. Mayo. Derechos Reservados © 2020.