La IA de juego de Meta puede hacer y deshacer alianzas como un humano


Aprender a jugar Diplomacia es un gran problema por varias razones. No solo involucra a varios jugadores, que hacen movimientos al mismo tiempo, sino que cada turno está precedido por una breve negociación en la que los jugadores charlan en parejas en un intento de formar alianzas o unirse contra los rivales. Después de esta ronda de negociación, los jugadores deciden qué piezas mover y si honrar o incumplir un trato.

En cada punto del juego, Cicero modela cómo es probable que actúen los otros jugadores según el estado del tablero y sus conversaciones previas con ellos. Luego descubre cómo los jugadores pueden trabajar juntos para beneficio mutuo y genera mensajes diseñados para lograr esos objetivos.

Para construir Cicero, Meta combina dos tipos diferentes de IA: un modelo de aprendizaje por refuerzo que determina qué movimientos hacer y un modelo de lenguaje amplio que negocia con otros jugadores.

Cicerón no es perfecto. Todavía enviaba mensajes que contenían errores, a veces contradiciendo sus propios planes o cometiendo errores estratégicos. Pero Meta afirma que los humanos a menudo eligen colaborar con él antes que con otros jugadores.

Y es significativo porque mientras juegos como el ajedrez o el Go terminan con un ganador y un perdedor, los problemas del mundo real normalmente no tienen resoluciones tan sencillas. Encontrar compensaciones y soluciones alternativas suele ser más valioso que ganar. Meta afirma que Cicero es un paso hacia la IA que puede ayudar con una variedad de problemas complejos que requieren compromiso, desde la planificación de rutas alrededor del tráfico intenso hasta la negociación de contratos.