06/08/2024
Evaluación de estrategias argumentativas en debates entre IAs: capacidades asimétricas y jueces débiles
Sergio Abriola
Resumen
Este trabajo busca examinar las dinámicas del uso del debate entre sistemas de Inteligencia Artificial (IA) como método para alinear a objetivos y preferencias humanas. Se investigarán las ventajas potenciales de agentes sin restricciones éticas frente a agentes honestos e inofensivos en escenarios de debate, explorando tácticas como mentiras, argumentos engañosos, y apelaciones a falsos consensos. El trabajo también busca analizar las implicaciones de tener un juez de menor capacidad evaluando argumentos de agentes más avanzados, mediante la simulación de debates para exponer cómo esta disparidad puede afectar la legibilidad y la convergencia a la verdad.
Descripción de la propuesta
—
Conocimientos deseables
Conocimientos básicos de AI safety, dinámicas de reward hacking y malgeneralización, conocimiento general de LLMs y su entrenamiento
Qué aprenderá el o la estudiante
Profundización en el subcampo de "AI safety via debate", y estudio de sus puntos débiles como técnica de alineamiento. Diseño y ejecución de experimentos con sistemas de IA, incluyendo la construcción de métricas adecuadas y evaluación.