Tesista: Joaquı́n Salvador Machulsky
Director: Dr. Sergio Abriola
Resumen.
El paradigma de “AI Safety via Debate” propone un mecanismo para supervisar sistemas de IA avanzados, haciéndolos competir para convencer a un juez con capacidades limitadas. Basándose en el experimento original sobre MNIST, esta tesis extiende dicho trabajo para investigar la robustez del debate en escenarios con asimetrı́a de capacidades y frente a un “juez débil”. Se estudia la dinámica del debate en un entorno simulado de clasificación de imágenes MNIST, donde se implementan y enfrentan agentes con distintas estrategias (Greedy y MCTS) bajo diferentes protocolos. Los resultados muestran que el debate amplifica la capacidad del juez por encima de una lı́nea base aleatoria. Sin embargo, se observa que un agente mentiroso con mayor capacidad estratégica (MCTS) puede explotar a un adversario honesto más simple (Greedy). El hallazgo central de este estudio es que una regla de protocolo, la condición de precompromiso, puede compensar esta desventaja. En los experimentos realizados, esta regla
permitió que la honestidad prevaleciera a pesar de la inferioridad estratégica del agente, a diferencia de los debates sin esta restricción. Se concluye que, dentro de este entorno experimental, el diseño del protocolo es un factor importante para el resultado del debate, sugiriendo que las reglas de la interacción son tan relevantes como la paridad de poder entre los agentes.
Palabras claves: AI Safety, Supervisión Escalable, Debate Adversarial, Alineamiento de IA, Asimetrı́a de Capacidades.
Buenos Aires, 2025
Descargar PDF
Explorando AI Safety via Debate: un estudio sobre capacidades asimétricas y jueces débiles en el entorno MNIST