Se trata de la primera vez que se logra tal hito en un juego de esa complejidad frente a más de dos jugadores. Como hizo para ganar
11.07.2019 • 19:59hs • Investigación
Investigación
Hito: esta inteligencia artificial creada por Facebook derrotó a seis jugadores en una partida de póquer
Esta semana, una una plataforma de inteligencia artificial desarrollada por Facebook ha sido capaz de ganar a otros cinco jugadores (profesionales, todos ellos ganadores de al menos un millón de dólares) en la modalidad de póquer Texas Hold'em sin límite.
Se trata de la primera vez que se logra tal hito en un juego de esa complejidad frente a más de dos jugadores.
La importancia del póquer reside en que, gracias a los 'faroles' y otros recursos del juego, "ningún otro juego recreativo popular captura los desafíos de la información oculta con la misma eficacia" que el mismo, según explican Noam Brown y Tuomas Sandholm, investigadores de la Univ. Carnegie Mellon y de Facebook.
De hecho, varios de los textos más relevantes de la Teoría de Juegos han utilizado el póquer como modo de ilustrar sus conceptos.
La importancia de saber dar respuesta al reto que representa el póquer multijugador radica en que la mayoría de las interacciones estratégicas del mundo real son como este juego: implican información asimétrica y más de dos jugadores, lo que las convierte en algo mucho más complejo.
De ahí la importancia del artículo 'Superhuman AI for multiplayer poker' que acaban de publicar en Science Brown y Sandholm.
En el mismo presentan a Pluribus ('muchos', en latín), una IA capaz de derrotar a cinco jugadores profesionales del póquer de la modalidad Texas Hold'em sin límite (bastante compleja, ya que los jugadores desarrollan estrategias de apuestas a largo plazo, que duran decenas de manos).
Por eso, las IAs exitosas en el juegos de mesa ganan adoptando modelos basados en el 'equilibrio de Nash', que parte de asumir que los jugadores están aplicando su mejor estrategia y que ambos conocen la táctica del oponente.
Sin embargo, basarse en el equilibrio de Nash en un juego entre más de dos jugadores suele ser ineficaz, pues resulta bastante complejo por la dificultad para coordinar estrategias entre ellos. De ahí que se imponga la necesidad de cambiar de estrategia.
La combinación de sistemas de aprendizaje reforzado con nuevos algoritmos ha sido clave para dotar de sus capacidades a Pluribus; la IA traza una estrategia para la primera ronda de apuestas en base al resultado de partidas que juega contra otras cinco copias de sí misma en un entorno virtual (unas 10.000 manos a lo largo de 12 días).
Una vez superada esa ronda, Pluribus realiza comprobaciones más detalladas de los posibles movimientos a dar con varias manos de antelación. Sin embargo, no elabora una simulación hasta el final mismo de la partida, dada la gran cantidad de variables a tener en cuenta en un juego como éste.
Esto, según Darren Elias, jugador profesional que posee el récord de títulos del World Poker Tour, permitió al robot "pasar de ser un jugador mediocre a poder competir con los mejores del mundo en unas pocas semanas. Su fortaleza radica en su capacidad para usar estrategias mixtas, del mismo modo en que lo hacen los seres humanos".
Pero, al contrario que un humano, es capaz de hacerlo de forma perfectamente aleatoria y consistente. Por ejemplo, la IA logró eliminar a sus competidores humanos utilizando con frecuencia apuestas que las personas acostumbran a evitar, las llamadas 'donk bets'. En apariencia ilógicas, su único fin es el de confundir al jugador que domina una mano.
Los investigadores creen que la estrategia usada para entrenar a Pluribus puede ir más allá del póquer, y aplicarse en otras situaciones en los que numerosos actores tienen una capacidad limitada para coordinarse, como las subastas, los atascos de tráfico o las finanzas.