En teoría de juegos , un juego repetido (o juego iterado ) es un juego de forma extensiva que consiste en una serie de repeticiones de algún juego base (llamado juego de etapa ). El juego de etapa suele ser uno de los juegos de 2 personas bien estudiados . Los juegos repetidos capturan la idea de que un jugador tendrá que tener en cuenta el impacto de su acción actual en las acciones futuras de otros jugadores; este impacto a veces se denomina reputación. El juego de una sola etapa o el juego de un solo disparo son nombres para los juegos no repetidos.
Como ejemplo de un juego repetido, considere dos estaciones de servicio adyacentes. Compiten publicando sus precios y tienen el mismo costo marginal constante c (el precio mayorista de la gasolina). Suponga que cuando ambas cobran p = 10, su beneficio conjunto se maximiza, lo que resulta en un beneficio alto para todos. A pesar de que este es el mejor resultado para ellas, están motivadas a desviarse. Al reducir modestamente el precio, cualquiera puede robar todos los clientes de sus competidores, duplicando casi sus ingresos. P = c, donde su beneficio es cero, es el único precio sin esta desviación de beneficio. En otras palabras, en el juego de competencia de precios, el único equilibrio de Nash ineficiente (para las estaciones de servicio) es que ambas cobren p = c. Esto es más una regla que una excepción: en un juego por etapas, el equilibrio de Nash es el único resultado que un agente puede obtener de manera consistente en una interacción, y generalmente es ineficiente para ellos. Esto se debe a que los agentes solo se preocupan por sus propios intereses personales y no les importan los beneficios o costos que sus acciones traen a los competidores. Por otra parte, las gasolineras obtienen beneficios incluso si hay otra gasolinera adyacente. Una de las razones más importantes es que su interacción no es única. Esta condición se refleja en juegos repetidos, en los que dos gasolineras compiten por el precio (juegos de etapa) a lo largo de un intervalo de tiempo indefinido t = 0, 1, 2,...
Los juegos repetidos pueden dividirse en dos clases, finitos e infinitos, dependiendo de cuánto tiempo se juegue el juego.
Incluso si el juego que se juega en cada ronda es idéntico, repetir ese juego un número finito o infinito de veces puede, en general, conducir a resultados (equilibrios) muy diferentes, así como a estrategias óptimas muy diferentes.
Los juegos repetidos más estudiados son aquellos que se repiten un número infinito de veces. En los juegos iterados de dilema del prisionero , se ha descubierto que la estrategia preferida no es jugar una estrategia de Nash del juego de etapa, sino cooperar y jugar una estrategia socialmente óptima. Una parte esencial de las estrategias en los juegos repetidos infinitamente es castigar a los jugadores que se desvían de esta estrategia cooperativa. El castigo puede ser jugar una estrategia que lleve a una reducción de la recompensa para ambos jugadores durante el resto del juego (denominada estrategia de activación ). Un jugador normalmente puede optar por actuar de forma egoísta para aumentar su propia recompensa en lugar de jugar la estrategia socialmente óptima. Sin embargo, si se sabe que el otro jugador está siguiendo una estrategia de activación, entonces el jugador espera recibir recompensas reducidas en el futuro si se desvía en esta etapa. Una estrategia de activación eficaz garantiza que la cooperación tenga más utilidad para el jugador que actuar egoístamente ahora y enfrentarse al castigo del otro jugador en el futuro.
Existen muchos resultados en teoremas que tratan sobre cómo lograr y mantener un equilibrio socialmente óptimo en juegos repetidos. Estos resultados se denominan colectivamente "Teoremas populares" . Una característica importante de un juego repetido es la forma en que se pueden modelar las preferencias de un jugador. Hay muchas formas diferentes en las que se puede modelar una relación de preferencia en un juego repetido infinitamente, pero dos de las principales son:
Para jugadores suficientemente pacientes (por ejemplo, aquellos con valores suficientemente altos de ), se puede demostrar que cada estrategia que tenga una recompensa mayor que la recompensa mínima-máxima puede ser un equilibrio de Nash : un conjunto muy grande de estrategias.
Los juegos repetidos permiten estudiar la interacción entre las ganancias inmediatas y los incentivos a largo plazo. Un juego con repetición finita es un juego en el que se juega el mismo juego de una sola ronda repetidamente durante una serie de períodos de tiempo discretos o rondas. Cada período de tiempo está indexado por 0 < t ≤ T donde T es el número total de períodos. La recompensa final de un jugador es la suma de sus ganancias de cada ronda. [1]
Para aquellos juegos repetidos con un número fijo y conocido de períodos de tiempo, si el juego de etapa tiene un equilibrio de Nash único , entonces el juego repetido tiene un perfil de estrategia de equilibrio de Nash perfecto en subjuegos único de jugar el equilibrio del juego de etapa en cada ronda. Esto se puede deducir mediante inducción hacia atrás . El equilibrio de Nash único del juego de etapa debe jugarse en la última ronda independientemente de lo que haya sucedido en rondas anteriores. Sabiendo esto, los jugadores no tienen ningún incentivo para desviarse del equilibrio de Nash único del juego de etapa en la penúltima ronda, y así sucesivamente esta lógica se aplica de nuevo a la primera ronda del juego. [2] Este "desenredo" de un juego desde su punto final se puede observar en la paradoja de Chainstore .
Si el juego de etapa tiene más de un equilibrio de Nash, el juego repetido puede tener múltiples equilibrios de Nash perfectos en subjuegos . Si bien se debe jugar un equilibrio de Nash en la última ronda, la presencia de múltiples equilibrios introduce la posibilidad de estrategias de recompensa y castigo que se pueden utilizar para apoyar la desviación de los equilibrios de Nash del juego de etapa en rondas anteriores. [2]
Por otra parte, los juegos que se repiten finitamente y tienen un número desconocido o indeterminado de períodos de tiempo se consideran como si fueran juegos repetidos infinitamente. No es posible aplicar la inducción hacia atrás a estos juegos.
incógnita | Y | O | |
A | 5 , 4 | 1, 1 | 2 , 5 |
B | 1, 1 | 3 , 2 | 1, 1 |
Ejemplo 1: Juego repetido en dos etapas con múltiples equilibrios de Nash
El ejemplo 1 muestra un juego repetido en dos etapas con múltiples equilibrios de Nash de estrategia pura . Debido a que estos equilibrios difieren notablemente en términos de pagos para el Jugador 2, el Jugador 1 puede proponer una estrategia a lo largo de múltiples etapas del juego que incorpore la posibilidad de castigo o recompensa para el Jugador 2. Por ejemplo, el Jugador 1 podría proponer que juegue (A, X) en la primera ronda. Si el Jugador 2 cumple en la primera ronda, el Jugador 1 lo recompensará jugando el equilibrio (A, Z) en la segunda ronda, lo que arrojará un pago total a lo largo de dos rondas de (7, 9).
Si el Jugador 2 se desvía hacia (A, Z) en la primera ronda en lugar de jugar la opción acordada (A, X), el Jugador 1 puede amenazarlo con castigarlo jugando la opción de equilibrio (B, Y) en la segunda ronda. Esta última situación produce el pago (5, 7), lo que deja a ambos jugadores en peor situación.
De esta manera, la amenaza de castigo en una ronda futura incentiva una estrategia colaborativa de no equilibrio en la primera ronda. Debido a que la ronda final de cualquier juego repetido finitamente, por su propia naturaleza, elimina la amenaza de castigo futuro, la estrategia óptima en la última ronda siempre será uno de los equilibrios del juego. Es el diferencial de pagos entre los equilibrios en el juego representado en el Ejemplo 1 lo que hace viable una estrategia de castigo/recompensa (para más información sobre la influencia del castigo y la recompensa en la estrategia del juego, véase ' Juego de bienes públicos con castigo y para recompensa ').
METRO | norte | Oh | |
do | 5 , 4 | 1, 1 | 0, 5 |
D | 1, 1 | 3 , 2 | 1, 1 |
Ejemplo 2: Juego repetido en dos etapas con equilibrio de Nash único
El ejemplo 2 muestra un juego repetido de dos etapas con un único equilibrio de Nash. Como aquí solo hay un equilibrio, no hay ningún mecanismo para que ninguno de los jugadores amenace con un castigo o prometa una recompensa en la segunda ronda del juego. Como tal, la única estrategia que puede considerarse un equilibrio de Nash perfecto en subjuegos es la de jugar la única estrategia de equilibrio de Nash del juego (D, N) en cada ronda. En este caso, eso significa jugar (D, N) en cada etapa durante dos etapas (n=2), pero sería cierto para cualquier número finito de etapas n . [3] Para interpretar: este resultado significa que la mera presencia de un horizonte temporal finito conocido sabotea la cooperación en cada una de las rondas del juego. La cooperación en juegos iterados solo es posible cuando el número de rondas es infinito o desconocido.
En general, los juegos repetidos se resuelven fácilmente utilizando estrategias proporcionadas por teoremas populares . Los juegos repetidos complejos se pueden resolver utilizando varias técnicas, la mayoría de las cuales se basan en gran medida en el álgebra lineal y los conceptos expresados en juegos ficticios . Se puede deducir que se puede determinar la caracterización de los pagos de equilibrio en juegos repetidos infinitamente. A través de la alternancia entre dos pagos, digamos a y f, el perfil de pagos promedio puede ser un promedio ponderado entre a y f.
Los juegos repetidos pueden incluir cierta información incompleta. Los juegos repetidos con información incompleta fueron desarrollados por Aumann y Maschler . [4] Si bien es más fácil tratar una situación en la que un jugador recibe información y el otro no, y cuando la información recibida por cada jugador es independiente, es posible tratar con juegos de suma cero con información incompleta en ambos lados y señales que no son independientes. [5]
{{cite journal}}
: CS1 maint: varios nombres: lista de autores ( enlace )