Tesis profesional presentada por María José Díaz Torres [maria.diazto@udlap.mx]

Miembro del Programa de Honores. Licenciatura en Idiomas. Departamento de Lenguas. Escuela de Artes y Humanidades, Universidad de las Américas Puebla.

Jurado Calificador

Presidente: Dr. Antonio Rico Sulayes
Vocal y Director: Dra. Ofelia Delfina Cervantes Villagómez
Secretario: Dr. Esteban Castillo Juarez

Cholula, Puebla, México a 14 de mayo de 2019.

Resumen

This study describes a sentiment analysis service that is part of a learning analytics platform developed for the Uruguayan educational system, and proposes four new localized sentiment classification models. The sentiment analysis service performs the natural language processing task of determining the attitude or sentiment associated to a text, in this case, the sentiments of student-generated comments as a result of their interactions in several learning management systems and social media. The methodology of the original sentiment classifier is discussed and the proposal of possible improvements to the system is made from a linguistic perspective. The proposal consists in adapting the generic Spanish classifier, based on an international Spanish corpus, to create a localized Uruguayan (Rioplatense) Spanish sentiment classifier. This process involves enriching the model with regional vocabulary and expressions, training the system in a dialect-specific dataset and using a number of text representation features, including n-grams, POS tags, and a variety of stylistic features. To build the models different machine learning algorithms were used, such as SVM, Naïve Bayes, logistic regression and a decision tree. The results of the testing reveal that the all of the four proposed localization approaches outperformed the original sentiment classification model.

Keywords: linguistic variation, machine learning, Rioplatense Spanish, sentiment analysis, social learning analytics, Uruguay.

Resumen. Este estudio describe un servicio de análisis de sentimientos, que forma parte de una plataforma de analítica del aprendizaje desarrollada para el sistema educativo uruguayo, y propone cuatro nuevos modelos localizados de clasificación de sentimientos. El servicio de análisis de sentimientos realiza la tarea de procesamiento de lenguaje natural de determinar la actitud o sentimiento asociado a un texto, en este caso, los sentimientos de los comentarios generados por los estudiantes como resultado de sus interacciones en varios sistemas de gestión de aprendizaje y redes sociales. Se discute la metodología del clasificador de sentimientos original y se realiza una propuesta de posibles mejoras al sistema desde una perspectiva lingüística. La propuesta consiste en adaptar el clasificador de español genérico, basado en un corpus de español internacional, para crear un clasificador de sentimiento de español uruguayo (Rioplatense) localizado. Este proceso implica enriquecer el modelo con vocabulario y expresiones regionales, entrenar al sistema en un conjunto de datos específico del dialecto y usar diferentes representaciones textuales, incluyendo n-gramas, categorías gramaticales y una variedad de rasgos estilísticos. Para construir los modelos se utilizó una serie de algoritmos de aprendizaje automático, como SVM, Naïve Bayes, regresión logística y un árbol de decisión. Los resultados de las pruebas revelan que los cuatro enfoques localizados propuestos superaron al modelo de clasificación de sentimiento original.

Palabras clave: análisis de aprendizaje social, análisis de sentimientos, aprendizaje automático, español rioplatense, Uruguay, variación lingüística.

Table of content

Portada

Agradecimientos

Índices

Capítulo 1. Introduction

Capítulo 2. Related Work

  • 2.1 Learning Management Systems
  • 2.2 Social Learning Analytics
  • 2.3 Artificial Intelligence, Machine Learning, and Natural Language Processing
  • 2.4 Sentiment Analysis
  • 2.5 Sentiment Analysis in Educational Research

Capítulo 3. The DIIA Proposal

  • 3.1 General Architecture
  • 3.2 Platform Visualization

Capítulo 4. The DIIA Sentiment Analysis Methodology

  • 4.1 Dataset Selection
  • 4.2 Dataset Preprocessing
  • 4.3 Feature Selection and Representation
  • 4.4 DIIA´s Sentiment Classifier Using a Supervised Learning Approach
  • 4.5 Evaluation and Results

Capítulo 5. Linguistic Framework for the Localization Proposal

  • 5.1 Linguistic Variation
  • 5.2 Spanish in Uruguay

Capítulo 6. Sentiment Classifier Localization Methodology

  • 6.1 Dataset Selection
  • 6.2 Dataset Preprocessing
  • 6.3 Feature Selection and Representation
  • 6.4 Localized Sentiment Classification Model
  • 6.5 Evaluation and Results

Capítulo 7. Discussion

Capítulo 8. Conclusions

Capítulo 9. Future Work

Referencias

Apéndice 1. TreeTagger´s Spanish Tagset (Schmid, n. d.)

Díaz Torres, M. J. 2019. Contributions to Social Learning Analytics based on Sentiment Analysis of Students’ Interactions in Educational Environments. Tesis Licenciatura. Idiomas. Departamento de Lenguas, Escuela de Artes y Humanidades, Universidad de las Américas Puebla. Mayo. Derechos Reservados © 2019.