Resumen. Este trabajo busca examinar las dinámicas del uso del debate entre sistemas de Inteligencia Artificial (IA) como método para alinear a objetivos y preferencias humanas. Se investigarán las ventajas potenciales de agentes sin restricciones éticas frente a agentes honestos e inofensivos en escenarios de debate, explorando tácticas como mentiras, argumentos engañosos, y apelaciones a falsos consensos. El trabajo también busca analizar las implicaciones de tener un juez de menor capacidad evaluando argumentos de agentes más avanzados, mediante la simulación de debates para exponer cómo esta disparidad puede afectar la legibilidad y la convergencia a la verdad.

Palabras clave. AI safety, debate, LLMs, teoría de juegos.

Conocimientos deseables. Conocimientos básicos de AI safety, dinámicas de reward hacking y malgeneralización, conocimiento general de LLMs y su entrenamiento.

¿Qué podría aprender quien realice esta tesis? – Profundización en el subcampo de “AI safety via debate”, y estudio de sus puntos débiles como técnica de alineamiento. Diseño y ejecución de experimentos con sistemas de IA, incluyendo la construcción de métricas adecuadas y evaluación.

Dirección de la tesis
Abriola, Sergio
Departamento de Computación
Contacto: sabriola@dc.uba.ar

Descargar PDF
Evaluación de estrategias argumentativas en debates entre IAs: capacidades asimétricas y jueces débiles