Hipótesis y objetivos
Hipótesis

Esta figura muestra un diagrama esquemático de los conceptos de investigación propuestos en este proyecto. El diagrama se aplicaría a cada uno de los escenarios, tanto los referidos a contenidos beneficiosos (safe content y hope speech) y contenidos maliciosos (fake content y hate speech).
Dos frentes principales son identificado: el modelado, donde se lleva a cabo el aprendizaje y construcción de los modelos a partir de los datos; y la inferencia, donde estos modelos se aplican para la predicción automática de nuevos contenidos. Identificamos cuatro fuentes de información preferidas: publicaciones en redes sociales, recopilaciones de datos existentes, conocimientos bases (datos estructurados) e información obtenida de plataformas o mecanismos de inteligencia colectiva (como a través de la gamificación o de comunidades de generación de contenido estructurado y semiestructurado). Todo este contenido heterogéneo debe ser recogido, filtrado y etiquetado de forma manual o semiautomática para poder fusionarse como representaciones homogéneas.
Objetivos generales
- OBJ1. Generación automatizada de recursos aprovechando la inteligencia colectiva.
- OBJ2. Estudiar y modelar la variedad de contenidos digitales a partir de características semánticas representadas por entidades digitales.
- OBJ3. Análisis de la influencia e impacto de los contenidos digitales en diferentes escenarios.
- OBJ4. Generación de conocimiento a partir de los diferentes modelos digitales obtenidos.
- OBJ5. Aplicación y evaluación de los conocimientos adquiridos en casos reales de uso en la sociedad.
Objetivos específicos
- ESP1. Predicción de mutación y viralidad de contenidos digitales: Análisis de comportamiento, extracción de patrones de comportamiento, relaciones afectivas, trazabilidad de contenidos.
- ESP2. Caracterización de contenidos relacionados con el trastorno de la información (desinformación, mala información): bulos, suplantación digital, memes desinformativos, filtraciones, discurso de odio, sesgo y popularidad, etc.
- ESP3. Construcción y compilación de nuevas herramientas y recursos basadas en la tecnología del lenguaje humano para inferir, crear y utilizar el conocimiento aplicado a contenidos digitales, centrándose en la creación de anotadores semi-asistidos y su aplicación a la anotación de recursos.
- ESP4. Extracción de la semántica de alto nivel para caracterizar y definir relaciones entre entidades digitales: contradicción, congruencia, polaridad, sesgo y relaciones afectivas.
- ESP5. Representación y explotación del conocimiento semántico de alto nivel entre entidades digitales y sus relaciones.
- ESP6. Aplicación de técnicas de auto machine learning en la identificación de procesos optimizados de PLN.
- ESP7. Estudio de técnicas de corrección de sesgos en modelos de lenguaje y técnicas de machine learning anti-sesgo aplicadas al PLN.
- ESP8. Caracterización de los diferentes escenarios lingüísticos estudiados en el proyecto, en concreto periodismo y turismo.
- ESP9. Construcción y evaluación de prototipos y pruebas de concepto en los escenarios definidos.