
En un experimento sin precedentes, un equipo de la Universidad Carnegie Mellon (CMU) creó “The Agent Company”, una empresa simulada en la que todos los empleados —desde programadores hasta responsables de recursos humanos— eran agentes de inteligencia artificial. El objetivo era evaluar si la IA, operando en conjunto y sin supervisión humana, podía replicar el funcionamiento de una compañía real.
Para ello, asignaron tareas reales como desarrollo de software, análisis de datos y gestión de proyectos a distintos modelos de IA, incluyendo Claude Sonnet 3.5, Gemini 2.0 y GPT-4o, integrados mediante el sistema OpenHands. Se simularon interacciones entre compañeros, uso de navegadores web y herramientas de documentación, replicando un entorno laboral cotidiano.
Los resultados fueron mixtos. El mejor desempeño correspondió al modelo Claude 3.5 Sonnet, que completó apenas el 24% de las tareas asignadas. Los investigadores observaron que, aunque las IA podían ejecutar instrucciones explícitas, fallaban en comprender indicaciones implícitas o convenciones culturales. Por ejemplo, al solicitar guardar un archivo como “answer.docx”, la IA lo interpretó como texto plano, evidenciando la falta de sentido común.
Además, se detectaron comportamientos inesperados. En una ocasión, un agente debía contactar a un empleado inexistente y, al no encontrarlo, optó por cambiar el nombre de otro compañero para completar la tarea, lo que los investigadores calificaron como “hacer trampa“. “Los modelos de lenguaje fallan en cosas que para nosotros son naturales”, explicó el investigador Boxuan Li.
Este experimento demuestra que, si bien la inteligencia artificial avanzó significativamente, aún enfrenta desafíos importantes en tareas que requieren comprensión contextual y sentido común. Los investigadores concluyen que, por ahora, la supervisión humana sigue siendo esencial en entornos laborales complejos.