Tesis profesional presentada por Paulina Alejandra Morán Méndez [paulina.moranmz@udlap.mx]

Miembro del Programa de Honores. Licenciatura en Idiomas. Departamento de Lenguas. Escuela de Artes y Humanidades, Universidad de las Américas Puebla.

Jurado Calificador

Director: Dr. Antonio Rico Sulayes
Presidente: Dra. Myrna Elizabeth Iglesias Barrón
Secretario: Dra. Brita Banitz

Cholula, Puebla, México a 29 de noviembre de 2019.

Resumen

Social media is in constant growth and with it, its content as well. Since these are platforms that allow users to express their thoughts without much censorship, the publication of potentially damaging content is rapidly increasing. Thus, there is an urgent need to manage the content that could harm other users. However, because the great amount of content that is being produced, the detection of this harmful content has to be done automatically. This research uses as data the corpus produced in a project in which I collaborated. For that corpus, I and a colleague elaborated a diagram based on linguistic attributes to ensure an objective and concise tagging of offensive language. The corpus we annotated was created by the Instituto Nacional de Astrofísica, Óptica y Electrónica (INAOE) for the MEX-A3T workshop. In the annotation project, three classes were proposed as qualities for the messages: offensive, aggressive and vulgar language. The results of the annotation were satisfactory, meaning a linguistic view presents improvements indeed. For this thesis, I use those classes and characteristics and apply them to an actual classification task. Therefore, the question to answer in this research is whether this linguistic properties used in the annotation, such as speech acts and linguistic variation, can serve as features for the classification of aggressiveness, offensiveness and vulgarity in a small sample of INAOE´s corpus. I use Weka platform for the classification, applying two algorithms available with this software: Naïve Bayes and a decision tree. The results of the first experiment were high, a 73.33% of accuracy, and after a feature reduction, the accuracy improved to 86.66%.

Keywords: text classification, aggressiveness, vulgarity, offensiveness, speech acts.

Los medios sociales están en constante crecimiento y, con ellos, también su contenido. Dado que se trata de plataformas que permiten a los usuarios expresar sus opiniones sin mucha censura, la publicación de contenidos potencialmente perjudiciales está aumentando rápidamente. Por lo tanto, existe una necesidad urgente de gestionar el contenido que podría perjudicar a otros usuarios. Sin embargo, debido a la gran cantidad de contenido que se está produciendo, la detección de este contenido nocivo tiene que hacerse automáticamente. Esta investigación utiliza como datos el corpus producido en un proyecto en el que colaboré. Para ese corpus, yo y una colega elaboramos un diagrama basado en atributos lingüísticos para asegurar un etiquetado objetivo y conciso del lenguaje ofensivo. El corpus que etiquetamos fue creado por el Instituto Nacional de Astrofísica, Óptica y Electrónica (INAOE) para el taller MEX-A3T. En ese proyecto de etiquetado se propusieron tres clases como cualidades para los mensajes: lenguaje ofensivo, agresivo y vulgar. Los resultados del etiquetado fueron satisfactorios, lo que significa que una visión lingüística presenta mejoras. Para esta tesis utilizo esas clases y características y las aplico a una tarea de clasificación real. Por lo tanto, la pregunta a responder en esta investigación es si estas propiedades lingüísticas utilizadas en el etiquetado, como los actos de habla y la variación lingüística, pueden servir como características para la clasificación de la agresividad, ofensividad y vulgaridad en una pequeña muestra del corpus del INAOE. Para la clasificación, se utilizó la plataforma Weka, aplicando dos algoritmos disponibles con este software: Naïve Bayes y un árbol de decisión. Los resultados del primer experimento fueron altos, un 73,33% de precisión, y después de una reducción de los atributos, la precisión mejoró a 86,66%.

Palabras clave: clasificación del texto, agresividad, vulgaridad, ofensa, actos de habla.

Índice de contenido

Portada

Agradecimientos

Índices

Capítulo 1. Introducción

  • 1.1 Preguntas de investigación

Capítulo 2. Marco Teórico

  • 2.1 Ofensividad
  • 2.2 Agresividad
  • 2.3 Vulgaridad
  • 2.4 Variación lingüística
  • 2.5 Actos de habla
  • 2.6 Lingüística de corpus
  • 2.7 Trabajos anteriores

Capítulo 3. Metodología

  • 3.1 Descripción del corpus
  • 3.2 Selección de atributos
  • 3.3 Métricas de evaluación
  • 3.4 Reducción de atributos
  • 3.5 Aprendizaje supervisado

Capítulo 4. Resultados

  • 4.1 Discusión

Capítulo 5. Conclusiones

  • 5.1 Trabajo futuro

Referencias

Anexo 1. Verbos de motivación (Sidorov, G.,2013, p.146-147)

Morán Méndez, P. A. 2019. Detección de agresividad, ofensividad y vulgaridad basada en rasgos lingüísticos y aplicada a un corpus de tweets. Tesis Licenciatura. Idiomas. Departamento de Lenguas, Escuela de Artes y Humanidades, Universidad de las Américas Puebla. Noviembre. Derechos Reservados © 2019.