← Volver a las propuestas

06/08/2024

Evaluación de estrategias argumentativas en debates entre IAs: capacidades asimétricas y jueces débiles

Sergio Abriola

Filiación: Departamento de Computación (FCEN)
Palabras clave: AI safety, debate, LLMs, teoría de juegos

Resumen

Este trabajo busca examinar las dinámicas del uso del debate entre sistemas de Inteligencia Artificial (IA) como método para alinear a objetivos y preferencias humanas. Se investigarán las ventajas potenciales de agentes sin restricciones éticas frente a agentes honestos e inofensivos en escenarios de debate, explorando tácticas como mentiras, argumentos engañosos, y apelaciones a falsos consensos. El trabajo también busca analizar las implicaciones de tener un juez de menor capacidad evaluando argumentos de agentes más avanzados, mediante la simulación de debates para exponer cómo esta disparidad puede afectar la legibilidad y la convergencia a la verdad.

Descripción de la propuesta

Conocimientos deseables

Conocimientos básicos de AI safety, dinámicas de reward hacking y malgeneralización, conocimiento general de LLMs y su entrenamiento

Qué aprenderá el o la estudiante

Profundización en el subcampo de "AI safety via debate", y estudio de sus puntos débiles como técnica de alineamiento. Diseño y ejecución de experimentos con sistemas de IA, incluyendo la construcción de métricas adecuadas y evaluación.

Descargar propuesta (PDF)