Lenguaje Natural y Recuperación de la Información · 3º curso, 2º cuatrimestre · ETSINF, Universitat Politècnica de València · CLEF EXIST 2025

Mayo del 2025

Detección de sexismo en tweets — EXIST 2025

Enfoque reflexivo de NLP para las tres subtareas del laboratorio CLEF

Autores: Luminița Ciobanu Borinschi · Javier Elena Navarro

NLPBERTRoBERTaHugging FacePythonScikit-learn

0,71

F1 macro · binaria

0,64

F1 micro · multietiqueta

subtareas · un pipeline modular

RoBERTa

para multietiqueta

Contexto

EXIST 2025 (CLEF Lab) propone identificar y categorizar sexismo en redes sociales, una forma de discriminación frecuentemente sutil, evolutiva y profundamente contextual. Participamos en la Task 1 (tweets), no solo por el reto técnico sino por la complejidad de interpretar sesgos en lenguaje corto y ruidoso. Tres principios guiaron el trabajo: usar modelos simples cuando la señal es fuerte, modelos profundos cuando el contexto importa, y justificar cada decisión desde la teoría antes que desde el rendimiento.

Subtarea 1.1 · Identificación binaria

¿Es el tweet sexista? La hipótesis fue que los marcadores léxicos (slurs, tono imperativo, pronombres) bastan, así que un baseline TF-IDF (n-gramas 1-2) + LinearSVC sería transparente, rápido y separable linealmente. F1 macro 0,71, accuracy 0,73. La matriz de confusión muestra que el problema queda en los tweets ambiguos o sutiles, lo esperado.

Subtarea 1.2 · Intención del emisor

Tres clases: DIRECT, REPORTED, JUDGEMENTAL. Aquí el contexto pesa más que el contenido: «Le dijo que se lo merecía. Yo me quedé en shock» es reported, no direct. Descartamos modelos clásicos porque tratan palabras independientes y pierden la estructura discursiva. BERT (bert-base-uncased) fine-tuneado con el Trainer de Hugging Face capta voz reportada, hedging y modalidad, y diferencia ataques personales de relatos.

Subtarea 1.3 · Categorización multietiqueta

Cinco categorías que pueden coexistir (un tweet objetiviza Y refuerza desigualdad ideológica). En vez de cinco binarios one-vs-rest, optamos por un clasificador multietiqueta profundo con sigmoide y BCEWithLogitsLoss: la representación compartida ayuda en clases poco representadas y un solo forward pass es más eficiente. RoBERTa por su mejor pretraining y tokenización. F1 micro 0,64, macro 0,61. Bien en categorías visualmente codificadas (objetivación, misoginia 0,72), peor en las abstractas (estereotipos 0,43).

Filosofía del enfoque

No defaulteamos a deep learning porque sí. Para cada subtarea elegimos el modelo que casaba con la naturaleza del problema y defendimos el porqué. Reusamos código de prácticas previas extendiéndolo con tuning de threshold, calibración por sigmoide y ajustes específicos de RoBERTa. Resultado: un sistema modular, interpretable y eficaz que equilibra rendimiento, escalabilidad y explicabilidad.