Tesista: Tomás Ravel

Director: Pablo Brusco

 

Resumen.

El análisis automático de eventos en conversaciones habladas entre humanos, o entre humanos y sistemas, es una tarea fundamental para el desarrollo de sistemas de diálogo más naturales y eficientes. En particular, la clasificación de transiciones de turno en conversaciones permite a los asistentes virtuales entender cuándo es un buen momento para interrumpir en una conversación, cuándo no, entender la intención del usuario, entre otros aspectos. Asimismo, la comunidad lingüística puede beneficiarse de sistemas que en pocos segundos crean reportes sobre estas interacciones que, tiempo atrás, habrían requerido horas de escucha y anotación manual. En las últimas dos décadas, este problema se ha abordado mediante modelos de aprendizaje supervisado que utilizan una combinación de atributos acústico-prosódicos y léxicos. Esta tesis explora un paradigma alternativo: el uso de Modelos de Lenguaje de Gran Escala (LLMs) para la clasificación offline de transiciones de turno, sin necesidad de entrenamiento específico para esta tarea. El objetivo principal es evaluar la viabilidad de este enfoque con muy poca supervisión – cada vez más popular como paradigma de resolución de problemas – y comparar su rendimiento contra los métodos tradicionales, que sí requieren de una cantidad significativa de datos de entrenamiento. Para ello, realizamos una serie de experimentos sobre el UBA Games Corpus, una colección de diálogos en español orientados a tareas. Se evaluaron los modelos LLaMA 3.3-70B y Gemini 2.5 Pro – que utilizan únicamente las transcripciones del diálogo como entrada, es decir, no utilizan información de la señal acústica – mediante técnicas de prompting, explorando sistemáticamente distintas estrategias de representación del problema, como la inclusión de ejemplos (few-shot), el formato de los datos y las distintas representaciones del conjunto de etiquetas. El rendimiento se midió utilizando la métrica Macro F1 y se comparó con un modelo de referencia basado en Redes Neuronales Recurrentes (RNNs) entrenado con atributos acústicos. Los resultados demuestran que, si bien el enfoque basado en LLMs no logra superar el rendimiento global del baseline acústico (Macro F1 de 0.55 frente a 0.67), sí muestra una capacidad notable para comprender la tarea a pesar de no haber sido entrenado específicamente para ello. Es destacable que el mejor modelo (Gemini 2.5 Pro) superó al baseline en la clasificación de categorías semánticamente complejas, como las interrupciones. Se concluye que, aunque la información prosódica sigue siendo crucial, los LLMs son capaces de capturar eficazmente pistas léxicas y estructurales del texto. Este trabajo sienta las bases para futuras investigaciones, no solo en sistemas híbridos que combinen la potencia semántica de los LLMs con la sensibilidad de los sistemas clásicos, sino también en la exploración de arquitecturas multimodales capaces de procesar directamente la señal de audio.

Palabras clave: manejo de turnos, clasificación de transiciones, modelos de lenguaje grandes (LLMs), procesamiento del lenguaje natural, análisis de conversaciones, prompting.

Buenos Aires, 2025

Descargar PDF
Clasificación de transiciones de turno en conversaciones humano-humano utilizando LLMs