Смешанные стратегии. Игры в чистых стратегиях

💖 Нравится? Поделись с друзьями ссылкой

Если в игре каждый из противников применяет одну и ту же стратегию, то про эту игру говорят, что она происходит в чистых стратегиях, а стратегии игроков А и В будут называться чистыми стратегиями .В антагонистической игре пара стратегий называется равновесной (устойчивой), если ни одному из игроков невыгодно отступать от своих стратегий.Применять чистые стратегии имеет смысл, если игроки знают о действиях противника. Если этого нет, то идея равновесия нарушается и игра может вестись как получится.Стратегии А1 В1 – устойчивы по отношению к информации о поведении противника.Признаком устойчивости пары стратегий это равенство верхней и нижней цены игры. И случай А1 В1 будет

ν = α = β. ν > 0, то игрок А будет в выигрыше, если ν < 0, то в выигрыше игрок В. Если ν = 0, в этом случае игра справедлива для обоих игроков. Не все матричные игры имеют седловые точки.

Теорема: каждая игра с полной информацией имеет седловую точку и следовательно решает в чистых стратегиях, т.е. имеется пара устойчивых стратегий, дающих устойчивый выигрыш равный ν.Если матрица не имеет седловую точку, то цена игры лежит α<ν<β. Это означает, что первый игрок, используя максиминный принцип, обеспечит себе выигрыш не менее, чем α. А второй игрок придерживаясь минимаксного подхода обеспечит себе проигрыш не больше верхней цены игры. Игра будет оптимальна, если оба игрока будут применять смешанные стратегии.Случайная величина, значениями которой являются чистые стратегии, называется смешанной стратегией для этого игрока.

Задать смешанную стратегию это значит задать те вероятности, с которыми используются чистые стратегии.

S A = || p 1 , p 2 …. p m || ,S B = || q1, q2 …. q m || , A: ∑ pi = 1 ,B: ∑ qi = 1

Игра может повторяться несколько раз, но в каждой партии игрок придерживается смешанной стратегии, где чистые стратегии придерживаются вероятности p i и q j .

Модель смешанные стратегий отличается от модели чистых стратегий. В случае смешанных стратегий тактика поведения игроков будет более гибкой, т.к. игроки знают заранее какую чистую стратегию они применят.

Предположим что и игрок А и игрок В придерживаются смешанной стратегии. Необходимо определить А: ∑∑ a ij p i q j

Для игрока В ожидаемый проигрыш равен ожидаемому выигрышу игрока А. Выигрыш первого игрока и средний проигрыш второго игрока равны друг другу.

18.Методы решения конечной игры двух лиц порядка m*n.

Предположим, что все элементы платёжной матрицы 0≤aij. Тогда α≤ν≤β. Согласно основной теореме матричных игр, любая матричная игра имеет 2 оптимальные смешанные стратегии.

S A = (p 1 , p 2 , … , p n)

S B = (p 1 , p 2 , … , p n)

Решаем игру для игрока А, при этом предполагая что игрок В использует только чистые стратегии. Тогда

a 11 p 1 + a 21 p 2 + … + a m1 p m ≥ ν: B 1

a 12 p 1 + a 22 p 2 + … + a m2 p m ≥ ν: B 2 (1)

a 1n p 1 + a 2n p 2 + … + a mn p m ≥ ν: B n

X 1 = P 1 /ν , X 2 = P 2 /ν … X m = P m /ν

a 11 X 1 … + a m1 p m ≥ 1

a 1n X 1 … + a m1 p m ≥ 1 (2)

p 1 +p 2 +…+p m =1

X 1 +X 2 +…+X m = 1/ν (3)

L(x) = X 1 +X 2 +…+X m -> min (4)

Определим задачу линейного программирования.

ν = 1/(X 1 0 +X 2 0 …X m 0) (5)

P1 = X 1 0 *ν опт

p2 = X 2 0 *ν опт (6)

min L(x) = ∑x i

∑a ij: 1≤x i (7) (прямая задача)

0≤x i (i=1,2..)

a 11 q 1 + a 21 q 2 + … + a m1 q m < ν: A 1

a 21 q 1 + a 22 q 2 + … + a m2 q m < ν: A 2 (8)

a m1 q 1 + a m2 q 2 + … + a mn q m < ν: A m

Y 1 = q 1 /ν , Y 2 = q 2 /ν … Y m = q m /ν

q 1 +q 2 +…+q n =1

y 1 +y 2 +…+y n =1/ν

L(y)=∑y j -> max

∑a ij , y i ≤1 (i=1,2…) (9) (двойственная задача)

y 1 0 +y 2 0 …y m 0 = 1/ν опт

ν опт = 1/∑y m 0

Q1 = y 1 0 *ν опт

q2 = y 2 0 *ν опт

ν=1/∑x i = 1/∑y i = 1/min L(x) = 1/ max L(y) (11)

B 1 B 2 B 3 α i
A 1
A 2
A 3
β j

1) α = 1, β = 3

2) Нет упрощений.

L(x)=x 1 +x 2 +x 3 => min

x 1 +3x 2 +x 3 >= 1

2x 1 +x 2 +x 3 >=1

3x 1 +x 2 +x 3 >=1

x 1 =2/9, x 2 =2/9, x 3 =1/9

ν=1/(2/9+2/9+1/9)=9/5

p 1 =x 1 *ν=2/5

S A =(2/5, 2/5, 1/5)

двойственная задача

L(y) = y 1 +y 2 +y 3 => max

y 1 +2y 2 +3y 3 ≤ 1 y 1 =2/9

3y 1 +y 2 +y 3 ≤1 => y 2 =2/9 max L(y) = 5/9

y 1 +3y 2 +y 3 ≤1 y 3 =1/9

ν=1/(2/9+2/9+1/9)=9/5

q 1 =y 2 *ν=(2/9)*(9/5)=2/5

q 2 =(2/9)*(9/5)=2/5

q 3 =(1/9)*(9/5)=1/5

S B =(2/5, 2/5, 1/5)

Задача mxn сводится к задаче линейного программирования.

Приближённый метод решения матричных игр mxn (Браун-Робинсон).

Игрок А и игрок В поочерёдно применяют чистые стратегии. Каждый игрок пытается увеличить свой выигрыш, используя максиминые или минимаксные подходы. Минимизируется (максимизируется) не средний выигрыш, а накопленный. В теории показывается, что такой метод неизбежно даст нам оптимальный выигрыш и оптимальные смешанные стратегии.



В 1 В 2 В 3
А 1
А 2
А 3
3 * 8 * 9 * 36 *
3 * 4 * 12 * 13 *
7 *
1 *
3 *
4 *
6 *
9 *
10 *
12 *
34 *

Чистая стратегия - детерминированный (исключающий случайности) план действий. В предыдущей главе мы рассматривали только чистые стратегии. Смешанные стратегии будут обсуждаться в параграфе 2.2, а пока, если не оговорено иного, под стратегией мы всегда имеем в виду чистую стратегию.

Очень часто в процессе изложения мы будем иллюстрировать концепции решения примерами биматричных игр, поэтому дадим соответствующие определения.

Определение 2.1. Конечной игрой называется игра, в которой множество игроков и множества стратегий каждого игрока содержат конечное число элементов. Конечная игра двух лиц называется биматричной игрой.

Последнее наименование происходит от удобной формы записи выигрышей в такой игре - с помощью двойной матрицы.

Для последующего анализа удобно разделить стратегии в произвольном профиле стратегий s на стратегию некоторого /-го игрока s, и стратегии всех остальных игроков s_ (. Формально s = (.у, s ,). Здесь не подразумевается, что мы меняем местами координаты профиля стратегий, мы лишь вводим другой способ его обозначения.

Первой концепцией решения игры, которую мы рассмотрим, будет равновесие в доминирующих стратегиях.

Определение 2.2. Стратегия /-го игрока у строго доминирует его стратегию s", если Uj(s jt s ,) > h,(s", s ,) для любого набора s , стратегий остальных игроков. При этом стратегия s" называется строго доминируемой.

Содержательно это означает, что при любом фиксированном наборе стратегий остальных игроков /-Й игрок, выбирая стратегию s, получает строго больший выигрыш, чем при выборе стратегии s". Логично предположить, что рациональный игрок не должен выбирать строго доминируемые стратегии. Такое предположение в простейших играх может оказаться достаточным для нахождения решения игры.

Определение 2.3. Профиль стратегий s* = (s*, s^,..., s*) называется равновесием в (строго) доминирующих стратегиях , если для любого /-го игрока стратегия s" строго доминирует любую другую его стратегию.

Может показаться, что данная концепция решения может привести лишь к тривиальным выводам. Каждый игрок имеет среди своих стратегий такую, которая даст ему выигрыш больше, чем любая другая, как бы ни действовали оппоненты. Тогда он будет применять именно эту стратегию в равновесии. Все довольно очевидно. Но именно такая ситуация характерна для, пожалуй, самой известной и весьма важной для анализа ряда практических ситуаций игры «дилемма заключенных».

Пример 2.1 (дилемма заключенных). Два преступника находятся под стражей в разных камерах и не могут переговариваться. Следствие располагает достаточной доказательной базой, чтобы осудить каждого из них за незначительное преступление на один год. Но по крупному преступлению, за которое преступникам грозит уже десять лет заключения, улик у следствия недостаточно. Представители следствия предлагают каждому из преступников сделку: преступник получит срок на

один год меньше, если он даст свидетельство против своего напарника, которого будет достаточно для обвинения последнего но крупному преступлению. Предположим, что преступников беспокоит только число лет, которое они проведут в тюрьме, каждый дополнительный год дает минус единицу полезности. Тогда выигрыши преступников могут быть представлены следующей двойной матрицей:

В случае, когда участники игры не названы по именам, мы будем считать, что разным стратегиям первого участника соответствуют строки двойной матрицы, а стратегиям второго участника - столбцы. Если в нашем примере первый заключенный даст показания, а второй не будет их давать, то первый будет отпущен на свободу, а второй получит десять лет тюрьмы.

Легко заметить, что, как бы ни действовал другой заключенный, выигрыш больше (срок заключения меньше), если давать показания (для первого игрока первые координаты в первой строке двойной матрицы строго больше, чем во второй строке, для второго игрока вторые координаты в первом столбце двойной матрицы строго больше, чем во втором столбце). Тогда равновесием в доминирующих стратегиях будет профиль стратегий (дать показания, дать показания).

Интересно в данном примере то, что игроки, выбирая поведение, которое увеличивает их выигрыш, приходят к ситуации, где их выигрыши низки по сравнению с противоположной ситуацией - когда оба выбирают молчать. Объяснение кроется в наличии сильного внешнего эффекта, т.е. сильного влияния действий одного игрока на выигрыши другого игрока. В результате равновесный профиль стратегий оказывается единственным неэффективным по Парето в данной игре. Отметим, что эффективность по Парето, желательная с точки зрения участников игры, может быть отнюдь не желательной с общественной точки зрения, как в данном случае.

Ситуации, подобные дилемме заключенных, часто встречаются при анализе экономических ситуаций. Рассмотрим, например, конкуренцию между двумя магазинами, торгующими близким набором продуктов. Для простоты предположим, что магазины могут назначать только два уровня цен - высокий или низкий. Потребители, естественно, предпочитают покупать в магазине с более низкими ценами. Тогда выигрыши магазинов, характеризующиеся их прибылью, могут выглядеть, например, следующим образом:


С точки зрения равновесия ситуация здесь аналогична дилемме заключенных - равновесие в доминирующих стратегиях (низкие цены, низкие цены) является единственным неэффективным по Парето профилем (и тоже желательным с общественной точки зрения).

Уже упомянутая широкая известность дилеммы заключенных стала причиной того, что на ее примере экспериментально пытались проверить корректность предсказаний теории игр. Проверка состояла в том, что двум незнакомым людям предлагалось сыграть в игру на деньги с призами (например, в долларах), близкими к тем, что указаны для игры двух магазинов. Каждый из участников принимал решение отдельно (часто - анонимно) и не знал до получения выигрыша решения другого игрока. Выяснилось, что в таких условиях во многих разыгрываниях игры игроки приходили не к равновесному результату, если предположить, что денежные призы корректно оценивают их выигрыши. Конечно, из результатов этих экспериментов не следует, что предсказания теории игр некорректны, а следует лишь то, что, оценивая свой выигрыш, игроки принимали во внимание неденежные факторы - соображения альтруизма, справедливости и т.п. Если выигрыши игроков оценены корректно, то игроки должны предпочитать доминирующую стратегию, а значит, и выбирать ее (в духе выявленных предпочтений в микроэкономике). Поэтому ценность экспериментов такого рода - не в проверке теоретико-игровых предсказаний, а в оценке роли нематериальной мотивации в действиях индивидов.

Значительно меньше, чем концепция строго доминирования, в теории игр используется концепция слабого доминирования.

Определение 2.4. Стратегия /-го игрока s, слабо доминирует его стратегию s", если m,(s, s ,) > m ; (sJ, s ,) для любого набора стратегий остальных игроков s_j, причем хотя бы для одного набора стратегий других игроков неравенство выполняется строго. Тогда стратегия s" называется слабо доминируемой.

В случае нестрогих неравенств уже нет возможности утверждать, что рациональный игрок не выберет слабо доминируемую стратегию, хотя такое поведение и представляется довольно логичным. Существует, хотя и редко применяется, аналогичное случаю строго доминирования определение равновесия в слабо доминирующих стратегиях.

Определение 2.5. Профиль стратегий s* = (s*, Sj,..., s*) называется равновесием в слабо доминирующих стратегиях , если для любого /-го игрока стратегия s" слабо доминирует любую другую его стратегию.

Пример 2.2 (закрытый аукцион второй цены). Среди двух лиц проводится закрытый аукцион второй цены. Аукцион устроен следующим образом. Каждый из участников указывает неотрицательную ставку, не зная ставок других участников (в конверте). Участник, сделавший наибольшую ставку, выплачивает максимальную сумму среди ставок других участников (т.е. сумму второй но величине ставки) и получает некоторый предмет. Если, например, ставки игроков составили 100 и 90, то побеждает в аукционе участник, сделавший ставку 100, он приобретает предмет за 90 - размер второй ставки. Пусть каждый участник имеет оценку предмета, выраженную в денежных единицах, v 2 > 0. Эти оценки известны всем участникам. Пусть при этом для простоты описания игры если оба участника указывают одинаковую ставку, то предмет достается первому участнику.

В данной игре стратегией первого игрока s, будет размер его ставки. Так как ставка неотрицательна, множество всех его возможных стратегий

5, = выполняется 0 = и,(о, s 2) > w,(s,s 2) = = ц, - s 2 v x слабо доминирует стратегию s,.

Мы показали, что для первого игрока стратегия назвать свою оценку в качестве ставки слабо доминирует любую другую стратегию. Легко проверить, что аналогичное утверждение верно и для второго игрока. Отметим, что в нашем рассуждении мы нигде не использовали тот факт, что игрок знает оценку другого игрока, а значит, и в случае игры с неполной информацией в закрытом аукционе второй цены называть свою оценку будет не менее выгодно, чем делать любую другую ставку.

Может показаться, что для продавца невыгодно устраивать аукцион второй цены, когда он может устроить аукцион первой цены и получать величину не второй, а первой ставки. Однако и величина ставок в случае аукциона первой цены в равновесии будет ниже. Подробнее о доходности аукционов мы поговорим в гл. 5. Пока же отметим, что аукцион второй цены очень поиулярен и широко используется, например, компаниями Google и «Яндекс» при продаже контекстной рекламы в Интернете .

Равновесие в доминирующих стратегиях существует лишь в небольшом классе игр. Обычно у игроков нет единственной стратегии, которая доминирует все прочие. Но концепция доминирования позволяет находить решения в более широком классе игр. Для этого нужно вести последовательные рассуждения о действиях игроков. Мы уже отмечали, что рациональный игрок не будет выбирать строго доминируемую стратегию. Но это означает, что другой игрок может вести анализ игры, игнорируя возможность выбора оппонентом такой стратегии. Возможно, при гаком анализе выяснится, что у другого игрока есть доминируемая стратегия, которая не была доминируемой в исходной игре. И так далее. Дадим формальное определение.

Процесс последовательного исключения строго доминируемых стратегий задается следующим образом. Исключим все строго доминируемые стратегии игроков из рассмотрения, т.е. рассмотрим новую игру, в которой из множества возможных стратегий игроков исключены все доминируемые стратегии. Затем в этой новой игре исключим все строго доминируемые стратегии и т.д.

Возможно, такой процесс завершится, когда у игроков останется по нескольку стратегий, но возможно, что каждый игрок будет иметь лишь одну неисключенную стратегию, тогда логично считать набор из этих стратегий решением игры.

Определение 2.6. Если в результате последовательного исключения строго доминируемых стратегий у каждого игрока остается единственная стратегия, то профиль этих стратегий называется равновесием по доминированию.

В примере 1.1 мы получили именно такое равновесие. Рассмотрим еще один пример.


Профиль стратегий (Н, П) составляет единственное равновесие по Нэшу в данной игре. Но заметим: чтобы выбрать П, второй игрок должен быть уверен, что первый игрок не выберет В. А ведь выигрыш первого игрока одинаков при выборе II вторым игроком. К тому же, выбрав В, первый игрок может не бояться, что второй игрок выберет Л. Возможно, рациональный второй игрок задумается о выборе стратегии Ц.

Второй вопрос, па который пока не найдено какого-то однозначного ответа: как игроки приходят к равновесию по Нэшу?

Идеальный теоретический сценарий здесь такой. Игроки независимо друг от друга формируют ожидания относительно действий других игроков, а затем выбирают действия, которые максимизируют их выигрыш при заданных ожиданиях. Если при этом ожидания соответствуют действиям, реально выбранным игроками, то получаем равновесие по Нэшу. Такая схема рассуждений позволяет назвать равновесие по Нэшу ситуацией с самореализующимися ожиданиями. Но откуда берутся сами ожидания? И какое именно из равновесий по Нэшу, если их несколько, будет выбрано в результате описанного процесса? В рамках рассмотренного сценария эти вопросы остаются без ответа.

Другой подход предполагает наличие обучения игроков. Игроки либо теоретически изучают, как следует играть в данной игре (представьте себе студентов экономического факультета), либо имеют опыт схожего взаимодействия (например, опытный работник приходит в новый коллектив), что позволяет им правильно сформировать ожидания и выбрать оптимальное поведение. Этот сценарий позволяет объяснить формирование ожиданий, но он, во-первых, сокращает область применения игровых моделей только до стандартных, изучаемых и часто встречающихся ситуаций взаимодействия, а во-вторых, может приводить к тому, что не разграничиваются ситуации однократного и повторяющегося взаимодействия, а последние существенно отличаются с точки зрения стратегий и методов решения в рамках теории игр, о чем подробнее будет сказано в гл. 4.

Третий сценарий состоит в том, что существуют предварительная договоренность между игроками, или обычаи, или законы, или указания третьих лиц, которые регламентируют взаимодействие игроков. При этом договоренности или указания могут быть необязательны к исполнению, но если рекомендуется сыграть равновесие по Нэшу, то ни у кого из игроков не возникает желания (в одиночку) отклониться от предписанного поведения. Понятно, что такой сценарий возможен не в любой ситуации. Кроме того, сам процесс формирования договоренности или привлечения третьих лиц может стать частью игры.

Наконец, третий естественный вопрос, который возникает при изучении концепции равновесия по Нэшу, следующий: есть ли эмпирические свидетельства того, что реальные игроки обычно выбирают равновесные стратегии? Здесь снова чрезвычайно сложно дать краткий и однозначный ответ. При этом характер возникающих проблем больше соответствует тематике экспериментальной экономики. Поэтому ограничимся рекомендацией обратиться к специализированной литературе, например, книге , где отлично разобраны вопросы методологии экспериментов и представлен ряд результатов.

Существуют игры, которые не имеют равновесия в чистых стратегиях (см. пример 3.1), поэтому возникает вопрос: какие условия являются достаточными для существования такого равновесия? Сформулируем и докажем утверждение о существовании равновесия по Нэшу в чистых стратегиях в играх, не являющихся конечными.

Утверждение 2.3 . Если множества стратегий каждого из игроков S t являются непустыми выпуклыми компактами в евклидовом пространстве, а функция выигрыша каждого игрока и- непрерывна по s и квазивогнута по 5, то в игре существует равновесие по Нэшу в чистых стратегиях.

Доказательство. Напомним формулировку теоремы Какутаии , которую мы будем использвать при доказательстве. Пусть X - непустое выпуклое компактное множество в R n , X* - множество его подмножеств и/ - такое полунепрерывное сверху отображение из X в X*, что для каждой точки х е X множество f(x) непусто, замкнуто и выпукло. Тогда отображение / имеет неподвижную точку.

Идея доказательства нашего утверждения состоит в построении отображения, удовлетворяющего условиям теоремы Какутани. Для этого несколько переопределим отображение наилучшего ответа. Будем, чисто технически, считать, что наилучший ответ зависит не только от стратегий других игроков, но и от собственной стратегии игрока s y (s). С изменением собственной стратегии игрока при фиксированных стратегиях остальных игроков наилучший ответ, конечно же, меняться не будет. Теперь введем обозначение для отображения наилучшего ответа для всех игроков как декартова произведения s(s ) = s,(s) х s 2 (s) х... х s n (s). Это отображение каждому профилю ставит в соответствие множество профилей, в которых каждый игрок наилучшим образом отвечает на стратегии остальных игроков. Неподвижная точка отображения S, т.е. профиль s такой, что s е s(s)> по определению является равновесием по Нэшу. Покажем, что отображение 5 удовлетворяет условиям теоремы Какутани. Проверка каждого условия будет составлять отдельный пункт доказательства.

  • 1. Покажем, что множество S всех профилей - выпуклый компакт. Так как но условию утверждения множества стратегий каждого из игроков S, являются непустыми выпуклыми компактами, то и декартово произведение S = S t X S 2 X ... х S n является выпуклым компактом.
  • 2. Отображение s имеет непустые образы. По теореме Вейерштрасса непрерывная функция и- достигает на замкнутом ограниченном множестве 5, своего максимального значения. Следовательно, s имеет непустые образы.
  • 3. Образы отображения s замкнуты и выпуклы. Так как функция выигрыша каждого игрока u t квазивогнута по s if то по свойству квазивогнутой функции множество $. = {s. | u t (s i9 s .) > k } при фиксированных s .и k замкнуто при замкнутой области определения и выпукло, если не пусто. Так как это верно для любого k , то верно и то, что множество 5. = {5/1 u t (s", 5 ,) > maxw.(s., s .)}

выпукло. Но тогда и декартово произведение 5(5) = s x (s) х s 2 (S) х... X s n СS) замкнуто и выпукло.

4. Покажем, что отображение § полунепрерывно сверху. Используем условие непрерывности функции и, по s. Доказывать будем от противного. Предположим, что отображение § нс является полунепрерывным сверху. Тогда найдутся последовательности профилей стратегий s m и s m , где т - номер элемента последовательности, такие что для любого т s"" е S, s m е s(s""), lim s"" = s° е S, но lim s"" = s° g lim s(s""). Это означает, что найдется иг-

т~* оо т-> /и -? оо

рок, для которого стратегия s f ° не является наилучшим ответом на s 0 , т.е. найдется стратегия s" такая, что и,(s", s 0 ,) > u,(s] s° ;). Тогда можно найти такое е > 0, чтобы выполнялось m,(s/, s 0 ,) > m,(s ; °, s 0 ,) + Зе, откуда

Поскольку по условию функция м, непрерывна, lim s m = s°, lim s"” = s°,

m * oo m -* oo

при достаточно большом m верно

Объединяя неравенства (2.8)-(2.10) в одну цепочку, получим

Из соотношений (2.11) следует, что u,(s", s"") > m,(s/", s"") + s, но это противоречит условию s"" е s(s""), так как s" дает строго больший выигрыш, чем s/", в ответ на s"". Пришли к противоречию. Следовательно, наша исходная предпосылка, что отображение s не является полунепрерывным сверху, была неверной.

Мы показали, что отображение S удовлетворяет всем условиям теоремы Какутани, а значит, имеет неподвижную точку. Данная неподвижная точка является равновесием по Нэшу. Утверждение 2.3 доказано. ?

Утверждение 2.3, в частности, гарантирует существование равновесия по Нэшу в примере 2.7, но не в примере 2.8, где функции выигрыша игроков разрывны.

" Пример из работы .

Если игра не имеет седловой точки, то возникают затруднения в определении цены игры и оптимальных стратегий игроков. Рассмотрим, например, игру:

В этой игре и . Следовательно, первый игрок может гарантировать себе выигрыш, равный 4, а второй может ограничить свой проигрыш 5. Область между и является как бы ничейной и каждый игрок может попытаться улучшить свой результат за счет этой области. Каковы же должны быть в этом случае оптимальные стратегии игроков?

Если каждый из игроков применяет отмеченную звездочкой стратегию (и ), то выигрыш первого игрока и проигрыш второго будут равны 5. Это невыгодно второму игроку, так как первый выигрывает больше, чем оно может себе гарантировать. Однако если второй игрок каким-либо образом раскроет замысел первого о намерении использовать стратегию , то он может применить стратегию и уменьшить выигрыш первого до 4. Правда, если первый игрок раскроет замысел второго применить стратегию , то, используя стратегию , он увеличит свой выигрыш до 6. Таким образом, возникает ситуация, когда каждый игрок должен хранить в секрете ту стратегию, которую он собирается использовать. Однако, как это сделать? Ведь если партия играется многократно и второй игрок применяет все время стратегию , то первый игрок скоро разгадает замысел второго и, применив стратегию , будет иметь добавочный выигрыш. Очевидно, что второй игрок должен менять стратегию в каждой новой партии, но делать это он должен так, чтобы первый не догадался, какую стратегию применит он в каждом случае.

Для механизма случайного выбора выигрыши и проигрыши игроков будут случайными величинами. Результат игры в этом случае можно оценить средней величиной проигрыша второго игрока. Вернемся к примеру. Так, если второй игрок использует стратегию и случайным образом с вероятностями 0.5; 0.5, то при стратегии первого игрока среднее значение его проигрыша будет:

а при стратегии первого игрока

Следовательно, второй игрок может ограничить свой средний проигрыш значением 4,5 независимо от стратегии, применяемой первым игроком.

Таким образом, в ряде случаев оказывается целесообразным не намечать заранее стратегию, а выбирать ту или иную случайным образом, используя какой-либо механизм случайного выбора. Стратегию, основанную на случайном выборе, называют смешанной стратегией , в отличие от намеченных стратегий, которые называются чистыми стратегиями .

Дадим более строгое определение чистых и смешанных стратегий.



Пусть имеется игра без седловой точки:

Обозначим частоту использования чистой стратегии первого игрока через , (вероятность использования i-ой стратегии). Аналогично обозначим частоту использования чистой стратегии второго игрока через , (вероятность использования j-ой стратегии). Для игры с седловой точкой существует решение в чистых стратегиях . Для игры без седловой точки существует решение в смешанных стратегиях, то есть когда выбор стратегии осуществляется на основании вероятностей. Тогда

Множество чистых стратегий 1-го игрока;

Множество смешанных стратегий 1-го игрока;

Множество чистых стратегий 2-го игрока;

Множество смешанных стратегий 2-го игрока.

Рассмотрим пример: пусть имеется игра

Второй игрок выбирает вероятность . Оценим средний проигрыш второго игрока при применении им стратегий и соответственно.

Описание биматричной игры . Все игры которые были рассмотрены, относились к классу игр с нулевой суммой . Однако ряд конфликтных ситуаций, складывающихся в ходе действий, характерны тем, что выигрыш одной стороны не равен в точности проигрышу другой. Теоретико-игровыми моделями подобных ситуаций являются некооперативные игры с ненулевой суммой. Такие игры называются биматричными , потому что задание каждой такой игры сводится к заданию двух матриц и одинаковой формы: .

Процесс биматричной игры состоит в независимом выборе игроком I числа а игроком II - числа , после чего игрок I получает выигрыш , а игрок II - выигрыш .

Номера строк матриц и назовем чистыми стратегиями игрока I, а номера столбцов этих матриц – чистыми стратегиями игрока II. Тогда пары вида будут являться ситуациями в чистых стратегиях биматричной игры , а числа и - выигрышами I и II игроков в ситуации . Соответственно, распределение вероятностей применения чистых стратегий игрока I - и игрока II - будем называть смешанными стратегиями . Тогда пары вида представляют ситуации биматричной игры в смешанных стратегиях , а числа и являются математическими ожиданиями выигрыша I и II игроков.

Ситуацией равновесия биматричной игры в смешанных стратегиях будем называть такую пару , при которой:

(8.2)
,

где - математическое ожидание выигрыша игрока I;

Математическое ожидание выигрыша игрока II;

Оптимальная смешанная стратегия игрока I;

Оптимальная смешанная стратегия игрока II.

Задача

Построение и решение биматричной игры . Предположим, что противолодочная подводная лодка страны осуществляет поиск ракетной подводной лодки государства , которая маневрирует в строго определенной части района боевого патрулирования. В остальной части этого района действует противолодочная подводная лодка , которая осуществляет поиск противолодочной подводной лодки . Пусть каждая противолодочная лодка для обнаружения противника может использовать свою гидроакустическую станцию или в активном режиме, включая ее периодически, или только в пассивном режиме, выполняя непрерывный поиск .

Как противолодочная подводная лодка , так и ракетная подводная лодка с обнаружением сигналов гидролокатора может уклониться от противника. Однако периодичность включения гидролокатора делает обнаружение возможным, но недостоверным.

В подобной конфликтной ситуации одним из игроков является противолодочная подводная лодка , а другим - противолодочная подводная лодка .Очевидно, ракетная подводная лодка не может быть игроком, так как она имеет только один способ действий, заключающийся в скрытом маневрировании и выполнении уклонения с обнаружением сигналов гидролокаторов.

Характерным здесь является то, что каждый из игроков преследует разные, но не противоположные цели. Действительно, целью противолодочной подводной лодки является обнаружение ракетной подводной лодки, а целью противолодочной подводной лодки - обнаружение противолодочной подводной лодки . Поэтому для оценки достижения цели каждым из игроков в зависимости от выбранных способов действий (стратегий) необходимо иметь два критерия эффективности и соответственно две функции выигрыша. Тогда моделью подобной конфликтной ситуации будет конечная игра с ненулевой суммой, описываемая двумя матрицами одинаковой формы и , называемая биматричной.

Примем за критерий эффективности противолодочной подводной лодки (игрок I) вероятность обнаружения ракетной подводной лодки , а за критерий эффективности противолодочной подводной лодки (игрок II) – вероятность обнаружения противолодочной подводной лодки . Тогда биматричная игра будет задана матрицей (рисунок 9.a) и матрицей (рисунок 9.b).


Рис. 9.a.


Рис. 9.b.

Где - использование активного режима;

Использование пассивного режима.

Смешанной стратегией SA игрока А называется применение чистых стратегий A1, A2, ..., Am с вероятностями p1, p2, ..., pi, ..., pm причем сумма вероятностей равна 1: Смешанные стратегии игрока А записываются в виде матрицы или в виде строки SA = (p1, p2, ..., pi, ..., pm) Аналогично смешанные стратегии игрока В обозначаются: , или, SB = (q1, q2, ..., qi, ..., qn), где сумма вероятностей появления стратегий равна 1: Чистые стратегии можно считать частным случаем смешанных и задавать строкой, в которой 1 соответствует чистой стратегии. На основании принципа минимакса определяется оптимальное решение (или решение) игры: это пара оптимальных стратегий S*A , S*B в общем случае смешанных, обладающих следующим свойством: если один из игроков придерживается своей оптимальной стратегии, то другому не может быть выгодно отступать от своей. Выигрыш, соответствующий оптимальному решению, называется ценой игры v. Цена игры удовлетворяет неравенству: ? ? v ? ? (3.5) где? и? - нижняя и верхняя цены игры. Справедлива следующая основная теорема теории игр - теорема Неймана. Каждая конечная игра имеет по крайней мере одно оптимальное решение, возможно, среди смешанных стратегий. Пусть S*A = (p*1, p*2, ..., p*i, ..., p*m) и S*B = (q*1, q*2, ..., q*i, ..., q*n) - пара оптимальных стратегий. Если чистая стратегия входит в оптимальную смешанную стратегию с отличной от нуля вероятностью, то она называется активной. Справедлива теорема об активных стратегиях: если один из игроков придерживается своей оптимальной смешанной стратегии, то выигрыш остается неизменным и равным цене игры v, если второй игрок не выходит за пределы своих активных стратегий. Эта теорема имеет большое практическое значение - она дает конкретные модели нахождения оптимальных стратегий при отсутствии седловой точки. Рассмотрим игру размера 2×2, которая является простейшим случаем конечной игры. Если такая игра имеет седловую точку, то оптимальное решение - это пара чистых стратегий, соответствующих этой точке. Игра, в которой отсутствует седловая точка, в соответствии с основной теоремой теории игр оптимальное решение существует и определяется парой смешанных стратегий S*A = (p*1, p*2) и S*B = (q*1, q*2). Для того чтобы их найти, воспользуемся теоремой об активных стратегиях. Если игрок А придерживается своей оптимальной стратегии S"A, то его средний выигрыш будет равен цене игры v, какой бы активной стратегией ни пользовался игрок В. Для игры 2×2 любая чистая стратегия противника является активной, если отсутствует седловая точка. Выигрыш игрока А (проигрыш игрока В) - случайная величина, математическое ожидание (среднее значение) которой является ценой игры. Поэтому средний выигрыш игрока А (оптимальная стратегия) будет равен v и для 1-й, и для 2-й стратегии противника. Пусть игра задана платежной матрицей Средний выигрыш игрока А, если он использует оптимальную смешанную стратегию, а игрок В - чистую стратегию B1 (это соответствует 1-му столбцу платежной матрицы Р), равен цене игры v: a11 p*1+ a21 p*2= v. Тот же средний выигрыш получает игрок А, если 2-й игрок применяет стратегию B2, т.е. a12 p*1+ a22 p*2= v. Учитывая, что p*1+ p*2= 1, получаем систему уравнений для определения оптимальной стратегии S"A и цены игры v: (3.6) Решая эту систему, получим оптимальную стратегию (3.7) и цену игры (3.8) Применяя теорему об активных стратегиях при отыскании SВ*- оптимальной стратегии игрока В, получаем, что при любой чистой стратегии игрока А (А1 или А2) средний проигрыш игрока В равен цене игры v, т.е. (3.9) Тогда оптимальная стратегия определяется формулами: (3.10)



Рассказать друзьям