Apostila teoria dos jogos

143
Notas em Teoria dos Jogos e Informaªo y Guilherme Hamdan Departamento de Economia, PUC-Minas e EPGE/FGV Emanuel Ornelas Departament of Economics, University of Georgia, USA 13 de novembro de 2006 SumÆrio 1 Introduªo 3 1.1 O Que Ø Um Jogo? .............................. 6 1.2 Os Elementos BÆsicos de Um Jogo ..................... 7 2 Jogos EstÆticos de Informaªo Completa 11 2.1 Representaªo de Jogos EstÆticos de Informaªo Completa: Forma Nor- mal ou EstratØgica............................... 13 2.2 Resoluªo de Jogos EstÆticos de Informaªo Completa .......... 17 2.2.1 EstratØgias Estritamente Dominantes ............... 18 2.2.2 EstratØgias Estritamente Dominadas ................ 21 2.2.3 EstratØgias racionalizÆveis (anÆlise de "melhores respostas") . . . 27 2.3 Equilbrio de Nash .............................. 31 2.3.1 Estabilidade, existŒncia e unicidade do equilbrio de Nash .... 32 2.3.2 Equilbrio de Nash e Eliminaªo de EstratØgias .......... 35 2.3.3 Equilbrio de Nash com trŒs jogadores ............... 38 2.3.4 Discussªo do conceito de equilbrio de Nash ............ 39 2.4 EstratØgias Mistas .............................. 44 2.5 Aplicaıes ................................... 55 2.5.1 Oligoplio de Cournot ........................ 56 2.5.2 Oligoplio de Bertrand ........................ 67 2.5.3 Oligoplio de Bertrand com bens diferenciados .......... 69 2.5.4 O problema dos comuns ....................... 71 Preliminar e incompleto. Gentileza nªo citar sem a permissªo expressa dos autores. y Todos os direitos reservados. 1

description

 

Transcript of Apostila teoria dos jogos

Page 1: Apostila teoria dos jogos

Notas em Teoria dos Jogos e Informação�y

Guilherme HamdanDepartamento de Economia, PUC-Minas e EPGE/FGV

Emanuel OrnelasDepartament of Economics, University of Georgia, USA

13 de novembro de 2006

Sumário

1 Introdução 31.1 O Que é Um Jogo? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.2 Os Elementos Básicos de Um Jogo . . . . . . . . . . . . . . . . . . . . . 7

2 Jogos Estáticos de Informação Completa 112.1 Representação de Jogos Estáticos de Informação Completa: Forma Nor-

mal ou Estratégica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132.2 Resolução de Jogos Estáticos de Informação Completa . . . . . . . . . . 17

2.2.1 Estratégias Estritamente Dominantes . . . . . . . . . . . . . . . 182.2.2 Estratégias Estritamente Dominadas . . . . . . . . . . . . . . . . 212.2.3 Estratégias racionalizáveis (análise de "melhores respostas") . . . 27

2.3 Equilíbrio de Nash . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312.3.1 Estabilidade, existência e unicidade do equilíbrio de Nash . . . . 322.3.2 Equilíbrio de Nash e Eliminação de Estratégias . . . . . . . . . . 352.3.3 Equilíbrio de Nash com três jogadores . . . . . . . . . . . . . . . 382.3.4 Discussão do conceito de equilíbrio de Nash . . . . . . . . . . . . 39

2.4 Estratégias Mistas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 442.5 Aplicações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

2.5.1 Oligopólio de Cournot . . . . . . . . . . . . . . . . . . . . . . . . 562.5.2 Oligopólio de Bertrand . . . . . . . . . . . . . . . . . . . . . . . . 672.5.3 Oligopólio de Bertrand com bens diferenciados . . . . . . . . . . 692.5.4 O problema dos comuns . . . . . . . . . . . . . . . . . . . . . . . 71

�Preliminar e incompleto. Gentileza não citar sem a permissão expressa dos autores.yTodos os direitos reservados.

1

Page 2: Apostila teoria dos jogos

3 Jogos Dinâmicos de Informação Completa 743.1 Forma Extensiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 753.2 Indução Retroativa: jogos de informação completa e perfeita . . . . . . . 773.3 Aplicações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

3.3.1 O modelo de Stackelberg . . . . . . . . . . . . . . . . . . . . . . 853.3.2 Barganha sequencial . . . . . . . . . . . . . . . . . . . . . . . . . 87

3.4 Equilíbrio Perfeito em Subjogos . . . . . . . . . . . . . . . . . . . . . . . 92

4 Jogos Repetidos 1014.1 Jogos repetidos �nitos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1014.2 Jogos repetidos in�nitamente . . . . . . . . . . . . . . . . . . . . . . . . 1074.3 Aplicações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112

4.3.1 Duopólio de Cournot repetido in�nitamente . . . . . . . . . . . . 1124.3.2 Política Monetária Temporalmente Consistente . . . . . . . . . . 114

5 Jogos bayesianos estáticos e equilíbrio bayesiano de Nash 1185.1 Cournot sob informação incompleta . . . . . . . . . . . . . . . . . . . . 118

6 Informação assimétrica e teoria dos contratos 1236.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

6.1.1 Dinâmica do relacionamento . . . . . . . . . . . . . . . . . . . . 1246.2 Informação simétrica: �rst-best . . . . . . . . . . . . . . . . . . . . . . . 125

6.2.1 Descrição do modelo . . . . . . . . . . . . . . . . . . . . . . . . . 1256.2.2 O contrato de informação simétrica . . . . . . . . . . . . . . . . . 126

6.3 Trade-o¤ entre incentivos e risk-sharing: moral hazard . . . . . . . . . . 1316.3.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1316.3.2 Moral Hazard: otimalidade em second best . . . . . . . . . . . . 132

6.4 Seleção adversa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1366.4.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1366.4.2 Um modelo discreto de discriminação de preços: Mussa-Rosen

(1978) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1386.4.3 First-best: discriminação perfeita . . . . . . . . . . . . . . . . . . 1396.4.4 Informação imperfeita: discriminação de segundo grau (preços

não-lineares) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1406.5 Sinalização . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143

2

Page 3: Apostila teoria dos jogos

1 Introdução

Essas notas pretendem dar uma visão compreensiva da noção de comportamentoestratégico e de como essa noção se relaciona intimamente com as ciências sociais emgeral e com economia em particular. Na verdade, no que podemos caracterizar comouma de�nição �cotidiana� do que entende-se por um jogo, poderíamos dizer que aprimeira idéia que geralmente nos ocorre é que um jogo é �uma disputa de qualquerespécie�. No entanto isso apenas não basta: uma noção razoável do que seria um jogopor certo nos informaria que jogos também são jogados de acordo com algumas regrasparticulares associadas à cada jogo ou a um conjunto deles. Isto é, se observamos doisjovens trocando �sopapos�na rua ou em alguma casa noturna qualquer, não diríamosque se caracteriza um jogo, mas tão somente um destempero ou uma estupidez. Noentanto, se os levarmos para um ringue, selecionarmos oponentes com característicasfísicas relativamente próximas às deles, colocarmos luvas e especi�carmos quanto tempoeles têm para lutar, o que vale e o que não vale, tudo isso sob o julgo de um terceiro quechamamos juíz ou árbitro, então uma boa parcela das pessoas vai concordar que aquilopode ser chamado de um jogo - no caso, um esporte. Posto isso, não é exatamente umproblema pensarmos em exemplos imediatos a partir da caracterização sugerida. Jogosincluem jogos esportivos, de cartas, de mesa, etc.

A grande maioria dos jogos de�nidos de acordo com essa lógica possuem um el-emento competitivo e outro interativo. Isto é, um jogador deve levar em conta ocomportamento do(s) outro(s) jogador(res) envolvidos no jogo. Nesse sentido, seu graude sucesso nesse jogo dependerá não apenas da forma como ele próprio se comporta,mas também e efetivamente das ações dos demais jogadores que estão no jogo. Por ex-emplo, no tênis, não basta meramente tentar devolver a bola para o outro jogador, massim devolvê-la de uma maneira tal que o adversário não consiga retorná-la. Portanto,notemos, no tênis, a questão �aonde jogar a bola?�dependerá, dentre vários fatores, deaonde o outro jogador está localizado. Da mesma forma ocorre no �War�, quando nãodevemos apenas atacar as regiões em função do nosso objetivo sorteado (e lembre-se, avitória de um jogador nesse jogo signi�ca a derrota de todos os demais participantes),mas também em função do poder de fogo do(s) adversário(s), que pode(m) retaliar umataque qualquer. Esse elemento de interação é a principal característica das situaçõesque estudamos em teoria dos jogos e é o que a distingue das outras áreas cujo elementoobjeto de análise é algum tipo de processo de tomada de decisão por parte de agentesracionais, em um sentido que �cará claro no decorrer do texto.

Há várias características que são comuns a um grande leque de jogos. Primeiro, osjogos possuem regras, mas exatamente o quê essas regras irão especi�car? Sabemosque as regras de uma situação de interação estratégica podem ser as mais diversaspossívies, mais ou menos pormenorizadas e também mais ou menos complexas. Noentanto podemos sugerir algumas características mais gerais que vão estar incorporadas

3

Page 4: Apostila teoria dos jogos

pela quase totalidade dos jogos tais quais a gente os conhece. Primeiro, quais são osjogadores. Em todo jogo há dois ou mais jogadores1, cada um deles consciente do queé melhor para si próprio. Logo, para a gente, um jogador é tão somente um agenteinserido em um processo de tomada de decisão, de escolha, no qual o comportamentoalheio importa. Segundo, as regras especi�cam a ordem nas quais as ações são tomadas,assim como que ações são essas, que ações que cada jogador pode escolher. Nós vamoschamar essas ações passíveis de escolha por um jogador de estratégia. E terceiro, asregras de�nem qual(is) é(são) o(s) resultado(s) do jogo em função das escolhas tomadaspor cada um dos jogadores. Observe então que o resultado que um jogador (ou umgrupo de jogadores com o mesmo objetivo, uma equipe) qualquer obterá depende nãoapenas de seu comportamento como também das escolhas (ações) feitas pelos demaisjogadores. Cada jogador sabe disso, e sabe que escolher a sua melhor ação possívelrequer uma �previsão�e�ciente do que ele acha que os outros jogadores irão escolher.

Essas características gerais de jogos tipi�cam várias situações do mundo real que nãosão jogos no sentido esportivo ou de diversão. Por exemplo, quando um representantepatronal e um líder sindical se engajam em um processo de barganha sobre a formaçãode um novo contrato, pode-se caracterizar facilmente uma situação de jogo. As regras,nesse ambiente, não são tão detalhadas e formais como um �Scotland Yard�, por ex-emplo, mas há regras: ofertas e contra-ofertas são feitas pelas partes interessadas, quebuscam um acordo �nal o mais favorável possível para o seu lado. E mais, a formulaçãoda oferta por um dos lados da negociação deve considerar qual será a reação do outrolado em função dessa oferta que ele recebeu. Outros exemplos de barganha podemser extraídos no nosso dia-a-dia, como é o caso quando compramos ou vendemos umautomóvel, fazemos um contrato de aluguel etc. Obviamente cada situação tem suasespeci�cidades, mas há vários elementos comuns em todos esses tipos de negociação.

A moderna teoria dos jogos iniciou sua evolução já há algum tempo. Um primeiromarco teórico da sua fase moderna constituiu-se na contribuição de Von Neumann eMorgenstern (1944). Entretanto, seu conceito mais difundido surgiu de um artigo deJohn Nash - um dos três2 agraciados com o Prêmio Nobel de economia em 1994, de-vido aos trabalhos na área de teoria dos jogos -, em 1951. Depois disso, muito já sefez, embora a teoria dos jogos tenha alcançado a importância que hoje detém apenasem períodos mais recentes, especialmente a partir da década de 1980. Atualmente,o arcabouço de jogos ganha valor crescente, à medida em que aumentam suas possi-bilidades de aplicação. Ele é hoje amplamente utilizado em economia - em análisesde consistências intertemporais de políticas econômicas, em organização industrial,política antitruste e regulação, em teoria de leilões, em estrutura penal ótima e em

1Se você estiver pensando em algum jogo no qual não há outros jogadores em �carne e osso�comovocê, como é o caso de diversos vídeo-games, lembre-se que você está jogando contra a máquina. Damesma forma, alguém que está jogando �paciência�está jogando contra o baralho.

2Os outros dois foram John Harsany e Reinhard Selten.

4

Page 5: Apostila teoria dos jogos

muitos outros casos -, mas não se restringe a ela: envereda-se também por outras áreadas ciências sociais, como a sociologia, ciência política e direito, por exemplo. Um mo-tivo para não estudá-la não pode ser, portanto, alguma eventual falta de abrangênciae aplicabilidade.

Outro ponto relevante a se ressaltar aqui nessa introdução diz respeito à taxanomiada disciplina. Podemos dividir o estudo de teoria dos jogos em dois grandes gruposditos jogos cooperativos e os não-cooperativos, cuja distinção formal foge do escopodo nosso estudo. Apenas o segundo grupo será estudado. Essa escolha baseia-se nofato de que são sobre os jogos não-cooperativos que a teoria é mais desenvolvida etem maior aplicabilidade de interesse especí�co à economia. Além disso, pode-se, comalgumas hipóteses adicionais, tratar os jogos cooperativos como se também fossemnão-cooperativos. Por trás desses, a idéia básica é que cada indivíduo é eminentementeegoísta, ou seja, procura sempre agir de modo a obter o maior benefício possível parasi mesmo, independente do que possa acontecer às outras pessoas. Evidentemente nemsempre se veri�cam situações como essas. Pode ocorrer de um indivíduo preocupar-secom o que acontecerá com outros indivíduos, alterando por isso a sua forma de agir emfunção de algum tipo deliberado de altruísmo - pense, por exemplo, em situações queenvolvam familiares próximos. Todavia, essas possibilidades podem ser abordadas tam-bém pela ótica individualista. Para isso, basta supor que todos os aspectos que afetam(positiva ou negativamente) outras pessoas já estejam considerados nos números refer-entes aos níveis de ganhos (ou utilidade) relacionados a cada situação (que chamaremosde �payo¤s�). Essa é a abordagem que utilizaremos em todo o texto: cada jogadorescolherá suas ações de modo a ter o maior benefício para si mesmo em cada situação,sendo que esse termo �maior benefício� considerará todos os aspectos da realidaderelacionados à própria pessoa e às outras pessoas que o indivíduo leva em consideraçãode alguma forma. Agindo assim, esse indivíduo poderá ser chamado de �racional�,hipótese que adotaremos indiscriminadamente.

Uma vez que esteja claro que trataremos apenas de jogos não-cooperativos, vamosadotar um taxonomia padrão nos cursos de teoria dos jogos e que decorre basicamentede duas noções associadas respectivamente à dinâmica (ao �timing�) das escolhas dojogadores e à idéia de �informação�que adotaremos. Com relação ao �timing�do jogo,classi�camos os jogos como jogos estáticos e jogos dinâmicos. No primeiro caso as escol-has dos jogadores são simultâneas (como em um jogo de par ou ímpar) e no segundo sãosequenciais, no sentido de que algum jogador, ao tomar sua decisão, já observou algumaescolha alheia que é relevante para essa sua escolha. Por outro lado, para cada tipo dejogo que venhamos a analisar nesse curso, estará associada, explícita ou implicitamente,alguma caracterização informacional do ambiente. Essa caracterização é fundamental epara termos uma idéia inicial da explicação de sua relevância basta focarmos mais umavez no caráter de interdependência da interação entre os agentes: se é verdade que o

5

Page 6: Apostila teoria dos jogos

comportamento alheio importa para cada jogador em particular, então o processamentodas informações (ou seja, o conhecimento) que cada um tem sobre esse comportamentoalheio é em si um elemento relevante de análise. Jogos não-cooperativos são portantoclassi�cados de acordo com uma série de conceitos associados à cada situação, como in-formação completa ou incompleta, perfeita ou imperfeita, simétrica ou assimétrica etc.Para nós aqui nesse curso será de fato importante entender o que signi�ca �conhecerum fato sequencialmente� e trabalharmos com as idéias de jogos estáticos e dinâmi-cos de informação completa (e perfeita/imperfeita) e jogos estáticos e dinâmicos deinformação incompleta, nessa ordem. Para cada uma dessas noções especi�caremos umconceito de equilíbrio segundo o qual faremos previsões sobre o comportamento dosjogadores envolvidos de forma a inferir alguma coisa sobre o resultado daquele jogo.

Isto posto, tenha em mente que o objetivo deste texto é apresentar os principais de-senvolvimentos e aplicações da teoria dos jogos. Para tanto seus conceitos mais impor-tantes são apresentados, no sentido de possibilitar a previsão dos resultados de algunsjogos, com maior ou menor acuidade. O texto procurará se ater às formalizações apenasna medida em que as consideramos necessárias para de�nir precisamente o objeto em es-tudo, mas espera-se que em momento algum o aluno se veja em di�culdades em funçãode algum tipo de formalização. Praticamente nenhuma demonstração matemática édesenvolvida, uma vez que a nossa meta é apresentar um texto de nível introdutório,acessível àqueles com razoável domínio dos conceitos básicos de (micro)economia. Valeressaltar também que não é um objetivo apresentar qualquer inovação teórica, masapenas sistematizar alguns dos aspectos mais importantes e já consolidados de teoriados jogos, uma vez que ainda não existe nenhum texto satisfatório publicado em por-tuguês que tenha as características de referência básica e, ao mesmo tempo, trate doassunto com a profundidade mínima requerida. Obviamente, uma in�nidade de de-senvolvimentos recentes da teoria não serão incorporados no texto, que, pode-se dizer,tenta simplesmente cumprir o papel de um �livro-texto�para estudantes de graduaçãoem economia - e nada mais além disso.

1.1 O Que é Um Jogo?

Seguindo a de�nição de Mas-Collel et.al. (1995, p.219), pode-se de�nir um jogocomo �uma representação formal de uma situação onde um número de indivíduos in-teragem em um cenário de interdependência estratégica�. Isto é, o bem-estar de cadaum depende não apenas das próprias ações, mas também das ações dos demais en-volvidos. Assim, a melhor ação que cada jogador pode escolher em geral dependerá daexpectativa sobre o que os demais jogadores irão fazer.

Situações como essa são, claramente, muito distintas daquelas estudadas nos cursosde microeconomia tradicional: tanto na teoria do consumidor quanto na de mercadosconcorrenciais e monopolizados, essa interdependência não é explicitamente incorpo-

6

Page 7: Apostila teoria dos jogos

rada. Sendo assim, naqueles casos os indivíduos, as �rmas ou as instituições (governo,por exemplo), ao de�nirem suas escolhas ótimas, não se preocupam com o que os out-ros agentes poderão fazer. Por outro lado, se existe a interdependência, caracteriza-seentão uma situação onde há externalidades nas ações dos agentes, e por isso cadaum, ao fazer suas escolhas, preocupa-se com como os outros irão (ou poderão) agir.Dessa forma o que estamos buscando em última instância é tão somente emprestar àanàlise das situações de interesse um elemento a mais de realismo que decorre do fatode que pessoas, empresas e instituições interagem entre si e que essas interações têmimplicações relevantes do ponto de vista individual e social.

Com essa de�nição, podemos perceber que praticamente todas as situações queusualmente as pessoas chamam correntemente de �jogo� de fato são aqui tambémcaracterizadas como tal. Todavia, muitas outras situações, inclusive (mas não apenas)econômicas e jurídicas, também se enquadram na de�nição.

1.2 Os Elementos Básicos de Um Jogo

Em geral (mas nem sempre), um jogo deve fornecer ao analista algumas informaçõeselementares, quais sejam:

1. os jogadores (quem são os envolvidos?),

2. as regras (quem move quando? O que se sabe quando for sua vez de jogar? etc.),

3. os resultados (para cada conjunto de ações dos jogadores, quais são os resulta-dos?),

4. os payo¤s (quais são as preferências - representadas em suas funções de utilidade- dos jogadores em relação aos resultados possíveis de forma que tenhamos umaordenação inequívoca dos resultados?).

Antes de apresentarmos exemplos que ilustrarão os elementos acima, faremos umapequena digressão sobre o ponto (4), em relação aos ganhos (payo¤s3) que cada agentetem ao se engajar em um processo de interação estratégica.

Preferências e utilidade: Em quase toda a teoria que abordaremos nesse curso,fundamentalmente estaremos tratando de processos de escolhas feitas por agentes4

3A opção por se utilizar na maioria das vezes o termo "payo¤ "e não "ganho"decorre do fato de quequase a totalidade dos artigos e textos em português que utilizam a linguagem de jogos também fazisso. Isso é verdade para outros termos corriqueiros na linguagem de jogos, como "players"(jogadores),por exemplo.

4A partir daqui utilizaremos os termos agentes e jogadores indiscriminadamente como similares.Podem ser consumidores, �rmas, governo ou qualquer outra pessoa física ou jurídica (mesmo informal,

7

Page 8: Apostila teoria dos jogos

racionais. Sem perda de generalidade, considere por enquanto que agentes racionaissão aqueles que, tendo que escolher uma opção dentre um conjunto de possibilidades,escolhe aquela que melhor lher convier - ou dito de outra forma, aquela que lhe dá amaior utilidade. Vamos rapidamente quali�car esse processo de escolha5.

Considere um cidadão que está sendo acusado pelo Estado de um delito qualquer.Em um depoimento à autoridade legal constituída, ele pode contar três estórias quesão igualmente críveis, não importando se alguma delas é ou não verídica. Chamemosessas opções de escolha de 1; 2; 3. Por algum motivo qualquer, esse cidadão sabe quesua pena no caso de escolher cada uma das opções é de 3,6 ou 9 meses, respectivamente.Considerando que no caso dele �car preso lhe confere um custo (crescente no tempo deprisão, de maneira que esse indivíduo está tanto pior quanto maior for o seu tempo deprisão), então podemos dizer que a opção 1 é (estritamente) preferível à opção 2, que aopção 1 é (estritamente) preferível à opção 3 e que a opção 2 é (estritamente) preferívelà opção 36. Logo, se esse cidadão escolhe a opção 1, dizemos que ele é racional. Seas penas fossem de 3,3 e 6 meses , respectivamente, então diríamos que a opção 1 épreferível à opção 2, que a opção 2 é preferível à opção 1 (de modo que as opções 1 e2 são opções semelhantes do ponto de vista de quem está escolhendo - dizemos que oagente é indiferente entre 1 e 2), que a opção 1 é (estritamente) preferível à opção 3. eque a opção 2 é (estritamente) preferível à opção 3. Nesse caso, se o cidadão escolhessea opção 1 ou a opção 2 diríamos que ele é racional.

Na verdade o que estamos propondo aqui é tão somente uma forma de organizarteoricamente o processo de escolha de um agente qualquer. Adotamos a hipótese deque, no caso em que ele tem que fazer uma escolha dentre um leque de opções, esseagente é capaz de ordenar todas essas opções de acordo com suas preferências7. Essaspreferências, por sua vez, são formalmente representadas por funções matemáticas ditas"funções utilidade". Antes que alguém se assuste com algum argumento formal, vamoslogo dizer que uma função utilidade apenas traduz de maneira numérica o processoatravés do qual um agente, um jogador, faz a sua escolha. No exemplo acima, suponhaque essa função fosse dada por

u (x) =1

x, onde x 2 f3; 6; 9g .

no sentido de não estar inserido em algum sistema legal constituído, como por exemplo uma �rma queopera no setor informal da economia ou um criminoso) que possa ser representada em alguma situaçãode comportamento estratégico.

5Essa seção é uma inserção muito breve de textos encontrados comumente em livros-textos demicroeconomia. Os alunos interessados devem recorrer a esses livros para uma exposição mais completado assunto.

6Dizemos que as preferências de um agente qualquer são "transitivas"quando, por exemplo, dadastrês opções 1,2 e 3 tais que 1 é prefeível a 2 e 2 é preferível a 3, podemos dizer que 1 é preferível a 3.

7Nesse caso dizemos que as preferências são "completas": entre um conjunto de duas ou mais opçõesno processo de escolha, o agente é sempre capaz de ordenar essas opções de acordo com um índice indicaseu bem-estar, uma função utilidade.

8

Page 9: Apostila teoria dos jogos

Isso é, a utilidade do agente depende das escolhas que ele deve fazer e que, cada uma,lhe custarão algum tempo de cadeia, x = 3; 6 ou 9 meses. Então8><>:

u (3) = 13

u (6) = 16

u (9) = 19

tal que, observe, u (3) > u (6) > u (9)

de maneira que, por esse critério, o agente seria racional8 se escolhesse a opção 1, namedida em que a sua utilidade seria maior do que se escolhesse qualquer das outrasduas possibilidades. É importante notar que a função acima, u (x) = 1

x , não é a únicafunção que pode representar as preferências do nosso agente - na verdade há inúmeraspossibilidades. Por exemplo, suponha que

u (x) =a

x, onde a > 1é uma constante e x 2 f3; 6; 9g .

Nesse caso, 8><>:u (3) = a

3

u (6) = a6

u (9) = a9

tal que, novamente, u (3) > u (6) > u (9)

Segue então que para a gente não importa exatamente o quanto um agente prefere umaopção à outra, mas tão somente a ordem na qual ele estabelece essas opções. Nessesentido, ambas as funções utilidades representam as preferências do mesmo agentedescrito acima. Faça a mesma coisa para o segundo ordedamento proposto acima, 3,3e 6 meses, e veri�que o que se dá.

Isto posto, uma função de ganho ("payo¤") é tão somente uma representaçãonumérica das preferências dos jogadores em função de suas possibilidades de escolha.No entanto, como se trata de situações de interdependência estratégica, essa funçãodepende também das possibilidades de escolha dos demais jogadores envolvidos. Masno �nal o número associado àquelas opções escolhidas na verdade re�etem um conjuntode preferências subjacentes que nos permitirão ordenar as opções de escolha de cadajogador de uma forma clara que �cará expressa nos exemplos abaixo.

8Nesse ponto do texto, sem considerarmos elementos de interação estratégica, dizemos que umagente é racional se suas preferências são completas e transitivas.

9

Page 10: Apostila teoria dos jogos

Exemplos: De�nidos os elementos principais e feita essa breve explanação sobre arepresentação das preferências dos jogadores, podemos sugerir alguns exemplos simplespara começarmos a pensar em situações passíveis de serem modeladas como jogos.

Exemplo 1 - Casamento de moedas (este é usualmente um dos primeiros exemplosde jogos que os textos mais didáticos sobre o tema apresentam)

1. há dois jogadores, ditos 1 e 2,

2. cada jogador joga simultaneamente uma moeda para cima,

3. se o resultado das duas moedas for o mesmo, 1 paga R$1,00 para 2; caso contrário,a ordem do pagamento se inverte,

4. depende da especi�cação da função utilidade, de como cada jogador avalia a im-portância que tem para si ganhar ou perder R$1,00.

Exemplo 2 - Jogo da Velha

1. novamente há dois jogadores, ditos X e O;

2. como todos quase certamente conhecem o jogo, de�na você mesmo(a) como umexercício os seus elementos básicos.

Os exemplos acima são situações de claro con�ito, uma vez que o que um jogadorganha o outro perde: são exemplos do que chamamos de jogos de soma zero. Essa éuma possibilidade, mas que não necessariamente sempre ocorrerá. O exemplo abaixofornece um caso diferente, onde dois jogadores ou ganham juntos ou perdem juntos.

Exemplo 3 - Encontro em BH

1. dois jogadores: João e Maria;

2. os dois jogadores estão separados e incomunicáveis. Eles marcaram de se encon-trar em algum lugar no centro às 12:00 hs para almoçar. Mas deixaram o lugarem aberto, dentre duas opções e então perderam a comunicação. Cada um temde decidir aonde ir;

3. se eles se encontrarem, almoçam juntos. Caso contrário, sozinhos;

4. eles teriam payo¤s iguais a uma unidade (qualquer que seja) almoçando juntos,e de zero almoçando sozinhos.

Como se percebe nesse último caso, os jogadores têm interesses alinhados - o prob-lema a se tentar superar é a falta de coordenação entre eles. Claramente, portanto,esse não é um jogo de soma zero.

10

Page 11: Apostila teoria dos jogos

2 Jogos Estáticos de Informação Completa

A primeira classe de jogos que serão apresentados são chamados jogos estáticos, emcomparação com os sequenciais (ou dinâmicos), que serão vistos mais à frente. Essesjogos são ditos também jogos simultâneos, uma vez que os jogadores de�nem suasformas de agir �ao mesmo tempo�. O exemplo imediato é o jogo de �par ou ímpar�,no qual os dois jogadores revelam suas estratégias ao mesmo tempo. Antes que se façaalguma restrição sobre a realidade dessa premissa, note que não é necessário que defato os jogadores façam suas escolhas literalmente ao mesmo tempo, mas tão somenteque cada um dos jogadores, ao fazer a sua escolha sobre qual estratégia adotar, nãotenha observado as escolhas feitas pelos demais jogadores. Nesse caso poderíamos terum jogo de �par ou ímpar�, estático, em que um dos jogadores fez a escolha, digamos,10 minutos antes do outro. Basta que o outro jogador, ao escolher o seu número, nãosaiba qual foi a escolha daquele que jogou primeiro.

Quanto ao caráter de informação completa, refere-se ao fato de que cada um dosenvolvidos conheçam as funções de ganho de todos os outros. Sendo um pouco maisrigoroso, isso signi�ca que a �função payo¤ de cada jogador é de conhecimento comum(common knowledge)�. Como exemplo, considere um jogo com dois jogadores, 1 e 2.Como já sabemos, esses jogadores têm um conjunto de opções dentre as quais cadaum deve escolher uma da melhor forma que lhe convier. Mas sabemos cada par deescolhas possíveis associa a cada jogador uma utilidade, um número de acordo com oqual pode-se identi�car se cada um está em melhor ou pior situação do que nas demaisopções. Nesse contexto, dizer que o jogo é de informação completa signi�ca dizer quecada jogador sabe não apenas a sua utilidade para cada combinação de escolha masconhece também a utilidade do outro jogador em cada situação. Mas mais do queisso: cada jogador sabe também que o outro conhece a sua utilidade associada a essasopções. E mais ainda: cada jogador sabe que o outro sabe que ele sabe a utilidade dooutro jogador em cada situação. E assim sucessivamente.

Sendo um pouco mais formal, dizemos que um jogo qualquer é de informação com-pleta quando a função de ganho (payo¤) de cada jogador é de "conhecimento comum".Para entendermos o que esse termo signi�ca, considere como exemplo uma situação comapenas dois agentes, 1 e 2. Nós dizemos que um evento X qualquer é de �conhecimentocomum�nesse jogo se

� 1 sabe que X ocorreu; 2 sabe que X ocorreu.

� 1 sabe que 2 sabe que X ocorreu; 2 sabe que 1 sabe que X ocorreu.

� 1 sabe que 2 sabe que 1 sabe que X ocorreu; 2 sabe que 1 sabe que 2 sabe queX ocorreu

11

Page 12: Apostila teoria dos jogos

e assim in�nitamente. Sendo assim, um jogo estático com dois jogadores, 1 e 2, éde informação completa se, na de�nição acima

X = função de ganho (payo¤) do outro jogador.

Ou seja,

� 1 conhece a função payo¤ de 2; 2 conhece a função payo¤ de 1.

� 1 sabe que 2 conhece a função payo¤ de 1; 2 sabe que 1 conhece a função payo¤de 2.

� 1 sabe que 2 sabe que 1 sabe a função payo¤ de 2; 2 sabe que 1 sabe que 2 sabea função payo¤ de 1.

e assim sequencialmente.Nesse jogos estáticos de informação completa (por de�nição, a função de ganho é

de conhecimento comum) assumimos também que a racionalidade9 dos jogadores é deconhecimento comum. Nesse caso,

� 1 sabe que 2 é racional; 2 sabe que 1 é racional.

� 1 sabe que 2 sabe que 1 é racional; 2 sabe que 1 sabe que 2 é racional.

� 1 sabe que 2 sabe que 1 sabe que 2 é racional; 2 sabe que 1 sabe que 2 sabe que1 é racional

e assim in�nitamente.Logo adiante, quando começarmos a analisar a resolução de jogos estáticos de infor-

mação completa, �cará claro porque a noção de conhecimento comum de um determi-nado evento é relevante. Essa hipótese (informação completa) será utilizada em quasetodo o texto, sendo �exibilizada apenas no �nal - isso se houver tempo hábil. O motivofundamental dessa restrição é que a sua não utilização di�cultaria signi�cativamentea análise, fugindo do escopo do texto e do curso - embora a teoria dos jogos de in-formação incompleta já tenha sido signi�cativamente desenvolvida e consolidada, masde�nitivamente está em um patamar de complexidade superior ao aqui pretendido.

Vamos a partir de agora propor uma estrutura que será seguida ao longo dessasnotas: uma vez entendido o conceito mais amplo (aqui, jogos estáticos de informaçãocompleta), vamos fazer uma exposição sobre a forma correta de representar esse tipode jogo e posteriormente discutir como solucionar essa classe de jogos, com diversasnuances especí�cas associadas a cada uma das situações. Disso tratamos agora.

9A de�nição de racionalidade nesse contexto de interdependência está descrita na próxima seção dotexto.

12

Page 13: Apostila teoria dos jogos

2.1 Representação de Jogos Estáticos de Informação Completa: FormaNormal ou Estratégica.

A forma que utilizamos para representar jogos estáticos de informação completa édita forma normal (ou estratégica). De acordo com a forma normal, devemos ter asseguintes informações sobre um jogo com n > 1 jogadores:

1. Os jogadores: 1; 2; :::; n.

2. O espaço (ou conjunto) de estratégia de cada jogador. Esse conjunto vai nos dizerquais são as possibilidade de escolha de cada um dos jogadores. Por exemplo, nojogo �par ou ímpar�o espaco de cada jogador i = 1; 2 é

Si = fpar, ímparg

Nesse ponto deve estar claro que o que chamamos de estratégia é apenas umaopção, uma escolha, uma ação possível que cada jogador pode tomar.

3. A função de ganho (payo¤) para cada jogador i = 1; 2; :::; n. Essa função, paraum jogador i qualquer, associa um número em função das possibilidades de escolhade cada jogador. É ela que caracteriza o elemento de comportamento estratégicodos jogos na medida em que o ganho de cada jogador é afetado pela sua própriaescolha mas também é afetado em alguma medida pelas estratégias adotadas porcada cada um dos demais jogadores.

Nos jogos estáticos, o conjunto das estratégias disponíveis a cada jogador são defácil visualização, correspondendo às opções de ação que cada jogador pode escolher.Veremos posteriormente que nem sempre elas serão tão claras, como no caso dos jogosdinâmicos. Sendo um pouco mais rigoroso, tome a de�nição abaixo:

� De�nição: A representação na forma normal de um jogo J com n jogadoresespeci�ca para cada jogador i = 1; 2; :::; n um conjunto de estratégias Si e umafunção de ganho ui (s1; :::; sn), onde si 2 Si. Formalmente, escreve-se

J = (Si; ui (si; s�i))i=1;2;:::;n

Em suma, a representação na forma normal ou estratégica de�ne quais são osjogadores envolvidos, quais são as estratégias disponíveis a cada um deles e ospayo¤s para cada jogador referentes a todos os resultados possíveis.

1. os jogadores 1,2,...,n.

13

Page 14: Apostila teoria dos jogos

2. os espaçoes de estratégias,8>>><>>>:S1 = fs11; s12; :::; s1k1gS2 = fs21; s22; :::; s2k2g

:::

Sn = fsn1; sn2; :::; snkngonde sij 2 Si é a j-ésima opção (estratégia) que o jogador i pode adotar no jogo.

3. a função de ganhos e os payo¤s de cada jogador,

ui : Si � S�i ! R| {z }ui(si;s�i)2R

Ou seja, uma função especí�ca a cada jogador que associda um nível de utili-dade a partir da sua escolha (si 2 Si) e das escolhas dos demais n� 1 jogadores(s�i 2 S�i). Aqui o termo s�i denota as escolhas de todos o jogadores que não ojogador i.

Exemplo 4 - Dilema dos Prisioneiros: este constitui certamente o exemplo mais con-hecido em teoria dos jogos, em função da sua estrutura simples e do seu resultadointrigante. Há inúmeras versões do jogo, que pode ser adaptado a situações muito dis-tintas entre si. Mostraremos aqui primeiro a versão de Dixit e Nalebu¤ (1994), umadas mais criativas. Depois analisamos a estória padrão.

A idéia é que havia um maestro que viajava de trem na antiga URSS. Com aparêncianão convencional, foi interpelado pelos policiais da KGB, que imaginaram poder tratar-se de um espião. Revistando suas bagagens, os policiais encontraram partituras, queinterpretaram como códigos. Apesar do maestro insistir que eram apenas partiturasde músicas de Tchaikóvski que ele interpretava, acabou sendo preso. Passado algumtempo na prisão, chegaram os o�ciais ao maestro e disseram-lhe que ele teria um diapara decidir-se entre confessar ou não, mas que seria melhor confessar, uma vez queeles já haviam prendido o tal de �Tchaikóvski�. A proposta, feita aos dois prisioneiros,era a seguinte: se ambos confessassem, cada um �caria preso seis anos; se ninguémconfessasse, como não haveriam provas concretas, �cariam ambos presos por um ano; seum confessasse e o outro não, o primeiro seria solto imediatamente, como prêmio à suacolaboração com a KGB, enquanto o outro, que além de culpado não havia colaborado,�caria detido por nove anos. O jogo é representado abaixo na forma normal em uma(bi)matriz, que é uma matriz aonde cada entrada possui dois números:

TchaiskóvskiNC C

Maestro NC �1;�1 �9; 0C 0;�9 �6;�6

14

Page 15: Apostila teoria dos jogos

Logo, se está na forma normal, devemos extrair as três informações: (i) os jogadores:Maestro e Tchaiskóvski; (ii) para cada um dos jogadores, as estratégias possíveis: con-fessar (C) e não confessar (NC) e (iii) a função de ganho de cada jogador: os payo¤sdo jogador 1 - Maestro - situam-se à esquerda em cada célula. Por sua vez, os payo¤sdo jogador 2 - o que teve o azar de se chamar Tchaikóvski - encontram-se à direita.Essa será a regra utilizada em todo o texto e que é padrão na representação na formaestratégica: o jogador 1 e suas estratégias à esquerda, o jogador 2 e suas estratégiasacima e, em cada célula, os payo¤s dos jogadores 1 e 2 à esquerda e à direita, re-spectivamente. Aqui, portanto, o número de jogadores é igual a dois, o conjunto deestratégias do Maestro é fC;NCg, assim como o é o do jogador Tchaikóvski tambémé esse. Os resultados possíveis e os payo¤s para cada um deles são os mostrados noquadro acima: por exemplo, se ambos não confessam, cada jogador ganha (�1;�1),que é uma medida do �bem-estar�, da �utilidade (ou desutilidade, no caso)� dos jo-gadores Maestro e Tchaiskóvski, respectivamente, caso ambos de declaram inocente. Alógica é que se ambos confessam, �cam cada um 6 anos presos. Se ambos se declaraminocentes, não há provas su�cientes mas em função do processo cada um �ca 1 anopreso. E se um jogador confessa e o outro não, então aquele que confessou tem umprêmio por ter confessado e é imediatamente libertado, enquanto que aquele que nãoconfessou é punido por sua atitude de suposta não-cooperação e �ca preso por 9 anos.

Essa é tão somente uma primeira representação do Dilema dos Prisioneiros adaptadapara a estória acima. Outra estória, mais simples e recorrente, é tão somente que duaspessoas foram presas pela polícia e acusadas de cometer um delito qualquer - masnós não sabemos (nem ninguém, a não ser os próprios jogadores) se efetivamente eles(ou um deles) são ou não culpados. Eles estão presos em celas separadas e cada umtem a opção de confessar ou não a autoria do delito. Sendo um jogo estático deinformação completa, quando cada jogador faz a sua escolha ele não sabe a escolhado outro jogador (jogo estático). Além disso, a matriz de ganhos é de conhecimentocomum (jogo de informação completa), de modo que ambos os jogadores visualizam semnenhuma incerteza a matriz de ganhos, com as estratégias de cada jogador e os payo¤sde cada um para cada combinação de estratégias possíveis. Note que esses payo¤s sãorepresentações relativas das preferências de cada jogador e de forma alguma é único -observe que os payo¤s no jogo acima são distintos dos payo¤s no jogo abaixo. O queimporta é que toda representação possível dessa estória preserve o ordenamento dosganhos dos jogadores. Por exemplo, a matriz

Jogador 2Não Confessa (NC) Confessa (C)

Jogador 1 Não Confessa (NC) 5; 5 1; 7

Confessa (C) 7; 1 4; 4

15

Page 16: Apostila teoria dos jogos

também pode ser a forma normal da mesma estória que descreve o Dilema dos Pri-sioneiros.

Esse jogo, veremos adiante, tem um resultado surpreendente: ainda que ambosos jogadores.sejam inocentes e que ambos estejam melhor quando ambos jogam nãoconfessar, NC, o melhor que cada um pode fazer individualmente é se declarar culpado ejogar C. Esse resultado decorre em função do elemento de interdependência estratégicaque caracteriza o Dilema dos Prisioneiros.

Exemplo 5 - Par ou ímpar. Como exercício, descreva o jogo de par ou ímpar a partirda matriz abaixo. Quais são os jogadores? E as estratégias de cada um? Quem jogoupar e quem jogou ímpar?

Jogador 2Par Ímpar

Jogador 1 Par 1;�1 �1; 1Ímpar �1; 1 1;�1

Exemplo 6 - Guerra dos sexos. Um homem e uma mulher (na verdade um casal)devem decidir o programa que farão hoje à noite. Eles podem ir ao teatro ou ir aoMineirão ver um jogo de futebol. A matriz abaixo descreve o jogo:

MulherMineirão Teatro

Homem Mineirão 3; 2 1; 1

Teatro 1; 1 2; 3

Descreva o jogo (jogadores, estratégias e payo¤s) e note que o homem prefere ir aofutebol acompanhado da mulher. Mas ele prefere ir ao teatro acompanhado da mulherdo que ir sozinho ao Maracanã. O mesmo acontece com a mulher, só que ela dápreferência pelo teatro.

Exemplo 7 - O jogo do covarde ("the chicken game"). Nesse jogo dois motoristas,1 e 2, se encontram em um estrada. Naquele lugar especí�co, há uma ponte estreita,de modo que apenas um veículo passa de cada vez. Logo, cada um pode avançar ouesperar o outro passar primeiro. Se algum dos jogadores, 1 por exemplo, avança e ooutro espera, ele segue sua viagem e o outro espera um pouco mais - e vice-versa. Masse ele avança e o oponente também, então há uma colisão e ambos perdem. O jogo érepresentado na bimatriz abaixo:

Motorista 2Avança Espera

Motorista 1 Avança �5;�5 5; 0

Espera 0; 5 1; 1

16

Page 17: Apostila teoria dos jogos

Exemplo 8 - Pedra x Papel x Tesoura. Neste jogo (um par ou ímpar mais so�sticado),cada jogador escolhe simultaneamente um dos três objetos relacionados abaixo (suasestratégias). Dependendo da combinação �nal, pode-se ganhar 1, -1 ou 0 (a lógica éque pedra ganha de tesoura, que vence o papel, que se sobrepõe à pedra; se o objeto foro mesmo, ninguém ganha).

Jogador 2pedra papel tesoura

pedra 0; 0 �1; 1 1;�1Jogador 1 papel 1;�1 0; 0 �1; 1

tesoura �1; 1 1;�1 0; 0

Temos portanto na forma normal (ou estratégica):

1. os jogadores: 1 e 2.

2. os espaços de estratégias. Ou seja, o que cada jogador pode vir a jogar,

S1 = S2 = fpedra, papel, tesourag

3. a função de ganho (payo¤) de cada jogador: qual o ganho que jogador terá paracada combinação possível de estratégias.

Há inúmeros exemplos de jogos estáticos de informação completa. Alguns deles nósveremos nesse texto ao discutir uma série de questões associdas às soluções de jogosestáticos de informação completa. Outros não serão tratados aqui, mas o conteúdo dessetexto é mais do que su�ciente para que você entenda eventuais casos não tratados aqui.

2.2 Resolução de Jogos Estáticos de Informação Completa

Vamos a partir de agora analisar a solução de jogos estáticos de informação com-pleta. Devemos ter em mente que solucionar um jogo signi�ca buscar determinar quaisestratégias jogadores racionais adotariam em ambientes nos quais a racionalidade dosjogadores é de conhecimento comum10. Ou seja, discutir a solução de um jogo signi�caanalisar métodos de previsão dos seus resultados. Aqui, duas são as característicasprincipais. A primeira é a precisão, que se refere ao fato de que, uma vez que sugeri-mos (previmos) um resultado, a probabilidade de que ele realmente venha a ocorrer emuma manifestação real do jogo será tanto maior quanto mais preciso tiver sido o método

10Nesse ponto já deve estar claro o que signi�ca um evento qualquer ser de conhecimento comum.Nesse sentido, lembre-se que dizer que a racionalidade dos jogadores é de conhecimento comum em umjogo com dois jogadores, 1 e 2, signi�ca dizer que 1(2) sabe que 2(1) é racional, que 1(2) sabe que 2(1)sabe que 1(2) é racional e assim sucessivamente.

17

Page 18: Apostila teoria dos jogos

de previsão utilizado. A outra refere-se à abrangência do método, que diz respeito aonúmero de situações onde exista interdependência estratégica entre os envolvidos queele consegue oferecer um resultado provável para ele. Infelizmente, em geral os métodosmais precisos são os menos abrangentes, e vice-versa. Procuraremos apresentá-los emordem decrescente de precisão (consequentemente, em ordem crescente de abrangên-cia). Portanto, o primeiro gerará respostas a muito poucos jogos, com a vantagemde que, quando a apresentar, essa será altamente con�ável. Por outro lado, o últimopropiciará respostas a um número muito superior de situações, embora seus resultadosdevam ser compreendidos com algumas ressalvas que nós iremos discutir.

2.2.1 Estratégias Estritamente Dominantes

Considere o Dilema dos Prisioneiros,

Jogador 2NC C

Jogador 1 NC 5; 5 1; 7

C 7; 1 4; 4

Em um jogo como este (e em todo jogo estático de informação completa), dizemosque uma estratégia de um jogador qualquer (do jogador 1, por exemplo) é uma es-tratégia estritamente dominante se, independente da escolha do outro jogador, oganho que ele tem jogando esta estratégia é estritamente maior do que o ganho que eleteria jogando a outra estratégia. Como há duas estratégias, "Não Confessar"e "Con-fessar", temos que analisar essas duas possibilidades. Para veri�car se há a existênciade estratégias estritamente dominantes, basta olhar, para cada jogador, se existe umaescolha que gere sempre o maior payo¤ para ele. Em um jogo representado na formanormal, na forma de matriz, deve-se então supor que o outro jogador escolha cada umadas suas estratégias possíveis. Se a melhor alternativa for sempre a mesma, então essase constitui em uma estratégia estritamente dominante. Indo direto ao ponto, considerea estratégia "Confessar"do jogador 1. Se o outro jogador, 2, joga "Não Confessar", oganho de 1 jogando "Confessar"é maior do que jogando "Não Confessar", 7 > 5. E se2 joga "Confessar", o ganho de 1 jogando "Confessar"também é maior do que jogando"Não Confessar", 4 > 1. Logo dizemos que para o jogador 1 a estratégia "Confessar"éuma estratégia estritamente dominante: independente das escolhas alheias (do jogador2, no caso), o ganho de 1jogando "Confessar"é estritamente maior do que jogando "NãoConfessar". Dito ainda de outra maneira, a estratégia "Confessar"é uma estratégiaestritamente dominante para o jogador 1 porque ela gera o maior payo¤ para este jo-gador toda vez que ele a jogar, independente das estratégias dos outros jogadores. Façaraciocínio análogo para o jogador 2 e veri�que que também para este jogador a estraté-gia "Confessar"é uma estratégia estritamente dominante. Dizemos então que no Dilema

18

Page 19: Apostila teoria dos jogos

dos Prisioneiros o per�l de estratégias ("Confessar", "Confessar") é um equilíbrio comestratégias estritamente dominantes.

Ou seja, em um jogo estático de informação completa J com n jogadores, considereo espaço de estratégias de um jogador i qualquer, dado por Si. E suponha que aestratégia que esse jogador jogou tenha sido si 2 Si. Nós dizemos que si 2 Si é umaestratégia estritamente dominante para o jogador i quando, independente dasescolhas alheias, o ganho que o jogador i tem jogando si 2 Si é estritamente maior doque o ganho que ele teria jogando qualquer outra estratégia disponível no seu espaço deestratégias, s0i 2 Si. Se para cada jogador i = 1; 2; :::; n há uma estratégia estritamentedominante s1 2 S1; s2 2 S2; :::; sn 2 Sn, então (s1; s2; :::; sn) é dito um equilíbrio comestratégias estritamente dominantes. Formalmente,

� De�nição: No jogo J = fSi; ui (si; s�i)gni=i a estratégia si 2 Si é uma estratégiaestritamente dominante para o jogador i se ui (si; s�i) > ui (s0i; s�i), 8s0i 2 Si,s0i 6= si e 8s�i 2 S�i.

Dito ainda de outra maneira, a estratégia si é uma estratégia estritamente domi-nante o jogador i se ela gera o maior payo¤ para ele toda vez que ele a jogar, indepen-dente das estratégias dos outros jogadores.

� De�nição: Primeiro princípio da racionalidade: considere um jogador i qual-quer. Se existe si 2 Si tal que si é uma estratégia estriamente dominante, entãoi a jogará.

�Observação: (si; s�i) é um equilíbrio com estratégia estritamente domi-nante no jogo J se si é uma estratégia estritamente dominante para todojogador i = 1; 2; :::; n. Na verdade, como veremos abaixo, (si; s�i) será umequilíbrio com estratégia estritamente dominante no jogo J se si for umaestratégia estritamente dominante para pelo menos (n� 1) jogadores.

Logo, se um jogador tem uma estratégia que é estritamente dominante, ele, sendoracional, deve sempre jogá-la, pois, por de�nição, não haverá nada melhor a se fazer. Setodos os envolvidos em um determinado jogo possuem estratégias estritamente dom-inantes, seu resultado torna-se portanto facilmente conhecido, dada a racionalidadedos jogadores. O grau de acuidade dessa previsão é, de fato, extremamente potente.A�nal, é pouco provável que alguém não escolha fazer algo que seja reconhecidamentepreferível a ele(a) sempre.

Observe também a curiosidade da seguinte nuance no Dilema dos Prisioneiros. Con-sidere que a polícia permita que os prisioneiros possam se comunicar entre si e, eventual-mente, estabelecer algum acordo no sentido de nenhum deles confessar, para �caremdetidos por menos tempo. Nesse caso, qualquer acordo que emergisse do contato entre

19

Page 20: Apostila teoria dos jogos

eles não teria credibilidade no sentido de que ambos os jogadores teriam incentivos anão cumprir o acordo, independentemente do fato de um jogador acreditar ou não queo outro irá cumprí-lo ou não. Como resultado, ambos acabam obtendo um resultadoque é pior para todos, �cando ambos com um payo¤ de 4. É curioso perceber tam-bém que esse é o resultado que deverá prevalecer mesmo que ambos fossem inocentes,como seriam no exemplo dado o Maestro e o que teve a má sorte de possuir pais queapreciassem o nome Tchaikóvski.

Caso tenhamos uma situação onde todos os jogadores, menos um, tenham estraté-gias estritamente dominantes, o resultado da interação também pode ser facilmenteprevisto. O que ocorrerá é que o jogador que não possui uma estratégia que seja estri-tamente dominante escolherá a alternativa que lhe dará maior utilidade, tomando comodado11 que os outros jogadores irão jogar aquelas estratégias que forem dominantes paraeles.

jogador 2E C D

A 0; 1 4; 0 5; 3

jogador 1 M 4; 0 2; 0 5; 3

B 3; 2 3; 5 6; 6

No jogo acima na forma normal (ou estratégica) temos

1. os jogadores: 1 e 2

2. os espaços de estratégias, S1 = fA;M;Bg e S2 = fE;C;Dg

3. os payo¤s, dados na matriz acima.

Nesse jogo, observe que a estratégia D é estritamente dominante para o jogador.2:para qualquer escolha que o jogador.1 faça, a sua melhor resposta é jogar D (pois 3 émaior do que 1 e 0,.3 é maior do que 0 e 0 e 6 é maior do que 5 e 2). Sabendo disso(pois 1 sabe que 2 é racional), o jogador.1 escolherá a alternativa que mais lhe convém,dado que o jogador.2 sempre escolherá D. O melhor para ele é portanto jogar B (pois6 é maior do que 3), o que leva ao resultado (B;D) do jogo como um equilíbrio comestratégias estritamente dominantes. Desta análise, concluímos que quando todos (oupelo menos todos menos um) jogadores possuem estratégias estritamente dominantes,a previsão é, como referido, extremamente acurada.

O problema é que na grande maioria dos jogos não existe essa facilidade analítica,e então outras formas de se prever os resultados têm de ser utilizadas. Há um outroconceito, parecido com o oposto do visto acima, que, embora não de�na o que deveráocorrer, determina com muita segurança o que não deverá acontecer.11Lembre-se que assumimos que a racionalidade dos jogadores é de conhecimento comum.

20

Page 21: Apostila teoria dos jogos

2.2.2 Estratégias Estritamente Dominadas

Considere novamente o Dilema dos Prisioneiros,

Jogador 2NC C

Jogador 1 NC 5; 5 1; 7

C 7; 1 4; 4

Em um jogo como este (e em todo jogo estático de informação completa), dizemos queuma estratégia de um jogador qualquer (do jogador 1, por exemplo) é uma estratégiaestritamente dominada por alguma outra estratégia desse jogador se, independenteda escolha do outro jogador, o ganho que ele tem jogando esta estratégia é estrita-mente menor do que o ganho que ele teria jogando a outra estratégia. Novamente,como há duas estratégias, "Não Confessar"e "Confessar", devemos analisar as duaspossibilidades. Para veri�car se há a existência de estratégias estritamente dominadas,olhamos, para cada jogador, os payo¤s associados às estratégias comparadas duas aduas. Em um jogo representado na forma normal, na forma de matriz, deve-se entãosupor que o outro jogador escolha cada uma das suas estratégias possíveis. Compara-mos então as duas estratégias (se houvessem mais as compararíamos também), e se oganho for sempre estritamente menor, então essa se constitui em uma estratégia estri-tamente dominada pela outra. Considere as estratégias do jogador 1, "Não Confessar"e"Confessar". Se o outro jogador, 2, joga "Não Confessar", o ganho de 1 jogando "NãoConfessar"é menor do que jogando "Confessar", 5 < 7. E se 2 joga "Confessar", oganho de 1 jogando "Nào Confessar"também é menor do que jogando "Confessar",1 < 4. Logo dizemos que para o jogador 1 a estratégia "Não Confessar"é uma estraté-gia estritamente dominada: independente das escolhas alheias, o ganho de 1jogando"Nào Confessar"é estritamente menor do que jogando "Confessar". Dito ainda de outramaneira, a estratégia "Não Confessar"é uma estratégia estritamente dominada para ojogador 1 porque ela gera um payo¤ menor para este jogador relativamente à outra al-ternativa, "Confessar", toda vez que ele a jogar, independente das estratégias do outrojogador. Faça raciocínio análogo para o jogador 2 e veri�que que também para estejogador a estratégia "Não Confessar"é uma estratégia estritamente dominada. Dizemosentão que no Dilema dos Prisioneiros o per�l de estratégias ("Não Confessar", "NãoConfessar") é um equilíbrio com estratégias estritamente dominadas: "Não con fes-sar"é uma estratégia estritamente dominada por "Confessar"se ela conferir ao jogador2 um payo¤ sempre inferior ao propiciado pela segunda, independente do que o outrojogadore possa fazer.

Ou seja, em um jogo estático de informação completa J com n jogadores, considereo espaço de estratégias de um jogador i qualquer, dado por Si. E suponha que aestratégia que esse jogador jogou tenha sido si 2 Si. Nós dizemos que si 2 Si é uma

21

Page 22: Apostila teoria dos jogos

estratégia estritamente dominada por outra estratégia s0i 2 Si qualquer no seuespaço de estratégias para o jogador i quando, independente das escolhas alheias,o ganho que o jogador i tem jogado si 2 Si é estritamente menor do que o ganho queele teria jogando s0i 2 Si. Formalmente,

� De�nição: No jogo J = fSi; ui (si; s�i)gni=i a estratégia si 2 Si é uma estratégiaestritamente dominada pela estratégia s0i 2 Si, s0i 6= si, para o jogador i, seui (si; s�i) < ui (s0i; s�i), 8s�i 2 S�i.

Ou seja, si é estratégia estritamente dominada s0i se ela conferir ao seu jogadorum payo¤ sempre inferior ao propiciado pela segunda, independente do que os outrosjogadores possam fazer.

� De�nição - Segundo princípio da racionalidade: considere um jogador i qual-quer. Se existe si; s0i 2 Si tal que si é uma estratégia estriamente dominada pors0i, então i nunca jogará si.

Uma regra básica de teoria dos jogos é que indivíduos racionais não jogam estraté-gias estritamente dominadas, pois fazendo isso eles não estão agindo da melhor formapossível para eles mesmos. Vejamos agora as implicações deste princípio, em particular�cará claro aqui a relevância da noção de conhecimento comum, tanto dos payo¤s dosjogadores envolvidos como também da racionalidade destes12. Para isso, considere ojogo abaixo:

jogador 2C D E

jogador 1 A 2; 2 1; 5 �1; 3B 1; 3 0; 1 1;�2

tal que na forma normal ou estratégica temos

1. os jogadores: 1 e 2

2. os espaços de estratégias, S1 = fA;Bg e S2 = fC;D;Eg

3. os payo¤s, dados na matriz acima.

Verique inicialmente que nesse jogo não há estratégia estritamente dominante paranenhum jogador, de forma que se buscássemos fazer uma previsão do resultado dojogo tendo em mente essa noção, nada poderíamos dizer. Note também que no jogoacima, para o jogador 2, a estratégia E é estritamente dominada pela estratégia D:

12Obviamente, aqui, um jogador é racional se ele não joga estratégias estritamente dominadas poralguma outra.

22

Page 23: Apostila teoria dos jogos

comparando-se as duas temos que se o jogador.1 escolhe A, o jogador 2 estará piorjogando E do que jogando D, pois 3 < 5. Se, por outro lado, o jogador.1 escolhe aalternativa B, para o jogador.2 a estratégia E continua sendo uma estratégia pior doque D, na medida em que �2 < 1. Consequentemente, sendo o jogador 2 racional, elenunca terá incentivos a jogar E, pois ela sempre gerará payo¤s inferiores à D. Percebatambém que, apesar da dominância de D sobre E, D não é uma estratégia estritamentedominante, pois para 2 a estratégia C não é estritamente dominada nem por D nempor E.

Como assumimos, 2 é racional, de modo que não devemos esperar que ele nuncaescolha E Mas mais ainda, essa racionalidade é de conhecimento comum, assim comoa racionalidade de 1. E como se trata de um jogo de informação completa, não apenas2 não joga E como também 1 também sabe. E 2 sabe que 1 sabe que ele nunca a jogaráe 1 sabe que 2 sabe... e assim sucessivamente. Isso implica que podemos eliminar osresultados do jogo que consideram essa estratégia. Procedendo assim e eliminando acoluna E do jogo, o jogo assume a seguinte forma reduzida,

jogador 2C D

jogador 1 A 2; 2 1; 5

B 1; 3 0; 1

Note atentamente: repetindo o raciocínio acima, nós podemos proceder dessa formaporque não apenas trata-se de um jogo estático de informação completa mas também aracionalidade dos jogadores é também de conhecimento comum. Nesse sentido, sendo 2racional (de acordo com o segundo princípio de racionalidade), ele não jogará E. Mas(muito!!!) mais do que isso: como 1 sabe que 2 é racional (de acordo com o mesmoprincípio), ele conjectura que 2 nunca a jogará. E como 2 sabe que 1 sabe que ele, 2, éracional, então 2 sabe que 1 sabe que ele nunca jogará E e assim inde�nidamente, demodo que a estratégia E torna-se irrelevante para o jogo, pois nenhum jogador levaráem consideração a possibilidade de 2 jogá-la.

Por outro lado, tendo em mente o jogo reduzido apresentado acima, observe quepara o jogador 1 a estratégia B torna-se estritamente dominada13 pela estratégia A,uma vez essa gera payo¤ de uma unidade a mais para o jogador 1, comparando-se como que a B proveria, independente do que o jogador 2 �zer. O jogador 1, portanto, nãodeverá jogar B (e 2 sabe disso, e 1 sabe que 2 sabe e...) e podemos da mesma forma

13Aqui temos um resultado básico interessante que o aluno um pouco mais atento já deve ter perce-bido: em um jogo 2�2 (dois jogadores, cada uma com duas estratégias em seus espaços de estratégias),o fato de um jogador qualquer ter uma estratégia estritamente dominada implica que a outra estratégiaé estritamente dominante. No jogo em questão, nesse segundo estágio, A torna-se dominante. Masapenas no jogo reduzido!

23

Page 24: Apostila teoria dos jogos

eliminar essa linha, reduzindo ainda mais o jogo,

jogador 2C D

jogador 1 A 2; 2 1; 5

Com o jogo dessa forma, sabemos que o jogador 1 jogará A. Consciente de tal fato, ojogador 2 fará o que mais lhe dará utilidade: jogar D (pois 5 > 2). O resultado previstopara o jogo é, portanto, (A;D).

O processo mostrado no exemplo acima é denominado eliminação iterada deestratégias estritamente dominadas (EIEED) e o conjunto de estratégias (A;D)é dito ser um equilíbrio por EIEED. Esse processo de eliminação, como vimos,depende que os agentes sejam racionais, mas também que cada um deles saiba que osoutros também são racionais, e que saibam que todos sabem que todos eles são racionaisetc. Assumir tais hipóteses é o mesmo que assumir que existe �common knowledge�(conhecimento comum) de que os jogadores são racionais. No caso acima, dado quetrata-se de um jogo de informação completa, foi necessário que:

� o jogador.2 fosse racional e, assim, não jogasse E;

� o jogador 1 fosse racional e soubesse que o jogador 2 também era racional, nãojogando, por isso, B;

� o jogador 2 soubesse que o jogador 1 era racional e também que o jogador.1soubesse que ele era racional, e então escolhesse D.

Isto posto, veri�que que no Dilema dos Prisioneiros o per�l de estratégias ("NãoConfessar", "Não Confessar") é um equilíbrio por EIEED.

Observe agora a relação entre estratégias estritamente dominantes e estratégiasestritamente dominadas. Se uma estratégia é uma estratégia estritamente dominantepara um jogador qualquer, então ela �sobrevive� ao processo de EIEED. Por outralado, se uma estratégia sobrevive ao processo de EIEED, não necessariamente seráuma estratégia estritamente dominate para aquele jogador. Isso será verdade em jogos2 x 2, onde cada jogador tem apenas duas possibilidades de escolha (como, por exemplo,o Dilema dos Prisioneiros), mas saindo dessa classe restrita de jogos, nada nos garanteque tal relação se preserva. Podemos então generalizar e propor a seguinte relação entreas duas maneiras vistas até aqui de solucionar jogos estáticos de informação completa:

Proposição 9 Se uma estratégia de um jogador qualquer é uma estratégia estritamentedominante, então ele sobrevive (não é eliminada) ao processo de EIEED. Mas se umaestratégia de um jogador qualquer sobrevive ao processo de EIEED, não necessariamenteela é uma estratégia estritamente dominante.

24

Page 25: Apostila teoria dos jogos

Observação 10 Dito de outra maneira, dizemos aqui que o primeiro princípio deracionalidade implica no segundo mas o segundo princípio não necessariamente implicano primeiro.

Uma observação importante aqui é que a maior parte dos jogos não são resolvidosvia EIEED. Eventualmente isso ocorre, mas em geral apenas reduz as possibilidadesdo jogo. Considere o exemplo abaixo.

Exemplo 11jogador 2

D E FA 2; 3 3; 1 3; 2

jogador1 B 4; 1 5; 4 0; 3

C 1; 1 3; 5 6; 3

Depois de descrever as informações desse jogo na forma estratégica, observe quenesse exemplo não há nenhuma estratégia estritamente dominante e nem estratégiaestritamente dominada para ambos os jogadores. Segue o processo de EIEED nemmesmo reduz a complexidade do jogo: o equilíbrio do jogo por EIEED é o próprio jogo,uma informação que não nos ajuda em nada na previsão do resultado do jogo.

Veja também o jogo de Par ou Ímpar. Neste jogo, o jogador chamado Par é oque pediu par (P), enquanto o de nome Ímpar é, analogamente, o que ganha se oresultado for ímpar (I). Apenas para simpli�car, suponha que o vencedor tem payo¤de 1, enquanto o perdedor obtém -1.

ÍmparP I

Par P 1;�1 �1; 1I �1; 1 1;�1

Nota-se que, também no Par ou Ímpar, EIEED não colabora em nada com a resoluçãodo jogo.

Podemos relaxar um pouco a noção de estratégia estritamente dominada e tro-car a desigualdade estrita dessa de�nição por uma relação apenas desiguladade (nãoestrita). Emerge portanto a idéia de estratégia fracamente dominada. Generica-mente, em um jogo estático de informação completa qualquer, dizemos que (para umjogador qualquer) uma determinada estratégia é uma estratégia fracamente dominadapor outra estratégia qualquer no seu espaço de estratégias para este jogador quando,independente das escolhas alheias, o ganho que o jogador tem jogado tal estratégiaé menor (mas não necessariamente estritamente menor) do que o ganho que ele teriajogando a outra estratégia.

25

Page 26: Apostila teoria dos jogos

Considere então um jogo estático de informação completa J com n jogadores etome o espaço de estratégias de um jogador i qualquer, dado por Si. E suponha quea estratégia que esse jogador jogou tenha sido si 2 Si. Nós dizemos que si 2 Si éuma estratégia fracamente dominada por outra estratégia s0i 2 Si qualquer no seuespaço de estratégias para o jogador i quando, independente das escolhas alheias,o ganho que o jogador i tem jogado si 2 Si é menor (não necessariamente estritamentemenor) do que o ganho que ele teria jogando s0i 2 Si:Formalmente,

� De�nição: No jogo J = fSi; ui (si; s�i)gIi=i a estratégia si 2 Si é uma estratégiafracamente dominada pela estratégia s0i 2 Si para o jogador i se ui (si; s�i) �ui (s

0i; s�i), 8s�i 2 S�i.

Uma estratégia fracamente dominada por outra é portanto um conceito próximo,mas distinto, do conceito de estratégias estritamente dominadas. A diferença é que oprimeiro requer que a estratégia dominada nunca seja melhor que a estratégia que adomina, enquanto o último exige que a dominada seja, sempre, estritamente pior quea que a domina.

Esse conceito de estratégias fracamente dominadas possibilitaria, em princípio, queconseguissémos que se reduzisse mais (ou pelo menos da mesma forma) a complexidadedos jogos. Entretanto, a eliminação iterada deve ser feita apenas com estratégias es-tritamente dominadas: eliminar iteradamente estratégias que sejam apenas fracamentedominadas pode levar a resultados distintos do jogo. Não é, portanto, consequência daracionalidade dos jogadores. Na eliminação iterada de estratégias estritamente dom-inadas, a ordem de eliminação não afeta o resultado �nal, o que pode não ocorrerquando utiliza-se esse processo para estratégias fracamente dominadas. O exemploabaixo demonstra essa possibilidade.

Exemplo 12jogador 2a b

A 3; 4 4; 3

jogador 1 B 5; 3 3; 5

C 5; 3 4; 3

Pode-se perceber no jogo acima que algumas estratégias podem eliminadas ao seconsiderar o conceito de dominância fraca:

1. B é fracamente dominada por C (pois nunca gera payo¤s superiores a C): elimina-se B;

2. no jogo reduzido, b é fracamente dominada por a (pelo mesmo raciocício): elimina-se b;

26

Page 27: Apostila teoria dos jogos

3. no jogo ainda mais reduzido, o jogador 1 escolhe C e o resultado do jogo é (C; a).

Podemos, todavia, começar de outra forma:

1. A é fracamente dominada por C: elimina-se A;

2. no jogo reduzido, a é fracamente dominada por b: elimina-se a;

3. no jogo ainda mais reduzido, jogador 1 escolhe C e o resultado do jogo é (C; b).

Conclui-se assim o enunciado acima: eliminação iterada de estratégias fracamentedominadas pode levar a resultados distintos dependendo de onde se começa o processo, eportanto não é consequência da racionalidade dos jogadores. Deve estar claro portantoa fraqueza do método, na medida em que ainda que em algumas situações a eliminaçãode estratégias fracamente dominadas possa nos ajudar a solucionar ou mesmo reduzir acomplexidade de um jogo qualquer, o fato do processo de interação não ser determinadopela racionalidade dos jogadores pode implicar em previsões sobre o resultado do jogoque não sejam boas o su�cente, que não sejam as melhores que o analista possa vir afazer.

2.2.3 Estratégias racionalizáveis (análise de "melhores respostas")

Um outro método que pode ser utilizado para se prever resultados de jogos si-multâneos é o de eliminação de estratégias não racionalizáveis. Em geral, o �commonknowledge�da racionalidade dos jogadores permite eliminar outras estratégias que nãoaquelas eliminadas via EIEED (ou pelo menos essas). Para de�nir melhor tal possibil-idade, é necessário termos em mente alguns outros conceitos, abaixo apresentados.

Em um jogo estático de informação completa, considere o espaço de estratégiasde um jogador qualquer. Uma estratégia especí�ca nesse conjunto é dita a melhorresposta que ele pode dar às escolha alheias se, dadas as escolhas alheias, o ganhoque ele tem jogando tal estratégia é maior (não necessariamente estritamente maior) doque jogando alguma outra estratégia qualquer. Nesse caso dizemos que esta estratégiaé uma estratégia racionalizável. Mas se não existe uma combinação de escolhas dosdemais jogadores tal que o ganho desse jogador em escolher tal estratégia seja maior doque as demais estratégias, dizemos que ela é não-racionalizável. Dizemos portantoque tal estratégia não é nunca a melhor resposta que este jogador pode dar àsescolhas alheias. Seguem abaixo as de�nições de uma forma mais rigorosa.

Como foi dito, um outro método que pode ser utilizado para se prever resultadosde jogos simultâneos é o de eliminação de estratégias não racionalizáveis. Em geral, o�common knowledge�da racionalidade dos jogadores permite eliminar outras estraté-gias que não aquelas eliminadas via EIEED (ou pelo menos essas). Para de�nir melhortal possibilidade, é necessário termos em mente alguns outros conceitos.

27

Page 28: Apostila teoria dos jogos

� De�nição: Em J = (Si; ui (si; s�i)) um jogo estático de informação completa.Uma estratégia si 2 Si, i 2 n, é a melhor resposta que i pode dar às escolhasdos demais jogadores se existe s�i 2 S�i tal que

ui (si; s�i) � ui�s0i; s�i

�8s0i 2 Si

Nesse caso dizemos que si é uma estratégia racionalizável. Se não existe s�i 2S�i tal que ui (si; s�i) � ui (s

0i; s�i) 8s0i 2 Si, dizemos que si é uma estratégia

não-racionalizável, o que signi�ca que si não é nunca a melhor resposta quei pode dar às escolhas alheias.

Note que, em geral, existem várias melhores respostas para cada jogador envolvido,dependendo do que os outros possam fazer (no caso especí�co onde existe apenas umamelhor resposta para um determinado jogador, essa seria então uma estratégia estrita-mente dominante).

Se uma determinada estratégia não for nunca a melhor resposta para um jogador,em que circunstâncias deverá ele jogá-la? Sendo racional, isso nunca deverá acontecer,uma vez que, sempre que ele imaginar a possibilidade de escolhe-la, haverá uma alter-nativa que gera um payo¤ superior, por de�nição. Segue desse raciocínio que estratégiaracionalizáveis são estratégias que sobrevivem à eliminação iterada de estratégias quenunca são a melhor resposta que um jogador pode dar às escolhas alheias.

Como no caso de estratégias estritamente dominadas, também pode-se fazer elim-inação iterada de estratégias não racionalizáveis (EIENR)14. Novamente, a ordem deeliminação não afeta o resultado �nal. As estratégias que sobrevivem à EIENR sãoaquelas que um jogador racional pode justi�car, ou racionalizar, dada alguma conjec-tura razoável a respeito da escolha dos outros jogadores, onde razoável signi�ca umaescolha que não contenha estratégias não racionalizáveis.

Comparando com estratégias estritamente dominadas, observamos que uma estraté-gia que é estritamente dominada nunca é melhor resposta, mas o inverso nem sempre écorreto. Portanto, eliminar iteradamente estratégias que nunca são a melhor respostaelimina pelo menos tantas estratégias quanto se retiraria ao fazer EIEED, e em geralelimina-se mais. Em suma, tem-se que

(Conjunto de estratégias � estratégias que sobrevivem à EIEED �� estratégias que sobrevivem à EIENR

14 Isso é verdade enquanto não tratamos ainda de estratégias mistas, o que veremos logo a seguir.Quando isso ocorrer, esse resultado se altera radicalmente. A intenção aqui é tão somente inserir anoção de estratégias (não) racionalizáveis e "preparar terreno"para inserirmos a noção de equilíbrio deNash.

28

Page 29: Apostila teoria dos jogos

Exemplo 13 Considere o jogo abaixo, um jogo estático de informação completa. Naforma normal (ou estratégica)

1. os jogadores: 1 e 2

2. os espaços de estratégias: S1 = fa; b; c; dg e S2 = fe; f; g; hg

3. os payo¤s, que são os ganhos expostos na bimatriz abaixo.

jogador 2e f g h

a 2; 6 3; 3 5; 1 0; 0

jogador 1 b 3; 1 6; 4 0; 2 0; 1

c 8; 1 2; 2 0; 5 0; 4

d 4; 1 1; 0 0; 1 5;�1

Nesse jogo, qual é o conjunto de estratégias racionalizáveis?Uma forma que facilita sensivelmente a visualização das estratégias racionalizáveis

(ou não) é marcar as melhores respostas para cada jogador em todas as circunstânciaspossíveis, sendo essas dadas pelas alternativas que o outro jogador possui. Por exemplo,quando o jogador 1 escolhe a, o melhor para o jogador 2 será escolher e, pois lhe daráum payo¤ de 6, e não 3, 1 ou 0, que obteria se �zesse outras escolhas. O mesmo deveser feito supondo escolhas de b; c e d pelo jogador 1. Por sua vez, se o jogador 2 utilizara estratégia e, o melhor para o jogador 1 será lançar mão da estratégia c (payo¤ de 8contra outros de 2, 3 e 4). O mesmo também deve ser feito supondo as escolhas de f; ge h pelo jogador 2. Se uma determinada estratégia não corresponder a uma melhorresposta em nenhuma circunstância, então ela não será racionalizável, pois signi�caráque, independente do que o outro jogador �zer, ela nunca gerará o maior payo¤ eportanto não corresponderá ao melhor a se fazer. Uma vez que alguma estratégia foreliminada por esse critério, pode-se novamente analisar se, no jogo reduzido, há algumaoutra que nunca será jogada, e assim sucessivamente, até reduzir-se o jogo ao máximo.No caso acima, temos que:

� h pode ser eliminado, pois nunca é melhor resposta para jogador 2;

� eliminado h, d também pode ser eliminado, pois não será mais melhor respostapara o jogador 1 em nenhuma possibilidade do jogo reduzido.

A partir desse ponto, nenhuma outra eliminação poderá ser feita, sendo que todasas estratégias sobreviventes são racionalizáveis: podem ser justi�cadas por algumahipótese a respeito do que o outro jogador poderá fazer. Portanto, nesse jogo não é

29

Page 30: Apostila teoria dos jogos

possível prever um resultado �nal pelo método de EIENR, obtendo apenas a reduçãoda sua complexidade:

jogador 2e f g

a 3; 1 6; 4 0; 2

jogador 1 b 8; 1 2; 2 0; 5

c 4; 1 1; 0 0; 1

Em geral, portanto, EIENR (assim como, e ainda mais, EIEED) não gera previsõesbem de�nidas para grande parte dos jogos. O mais comum é que apenas de�na algunsresultados que não serão jogados, caso de fato exista pleno conhecimento de racionali-dade dos jogadores por todos eles. Contudo, isso não signi�ca que seja sempre assim.Vejamos o exemplo 8 dado na seção anterior, onde, via EIEED nada podia ser feito.

jogador 2D E F

A 2; 3 3; 1 3; 2

jogador 1 B 4; 1 5; 4 0; 3

C 1; 1 3; 5 6; 3

Percebe-se que, mesmo sem possuir estratégias estitamente dominadas, no jogo acimaexistem algumas estratégias que nunca são melhores respostas, e portanto não sãoracionalizáveis. Esse é o caso da estratégia F para o jogador 2 e da A para o jogador1. Eliminando-as, o jogo se reduz a

jogador 2D E

jogador 1 B 4; 1 5; 4

C 1; 1 3; 5

Nesse jogo reduzido, porém, outras estratégias passam a não constituirem-se de mel-hores respostas: a estratégia D, para o jogador.2, e a estratégia C, para o jogador1. Eliminando-as, temos então (B;E) como resultado previsto para o jogo, que serájogado caso exista conhecimento comum de racionalidade entre os jogadores.

Por �m, uma palavra de precaução é necessária aqui. Ainda que tenhamos propostoe feito nesses exemplos um processo de eliminação de estratégias segundo a noção deracionalidade de jogadores associada à estratégias racionalizáveis, não é verdade queesse processo é sempre válido quando permitimos que os jogadores aleatorizem suasescolhas. Nesse caso podemos ter estratégias não racionalizáveis que serão jogadas comprobabilidades positivas, possibilidade que decorre em função da presença do elementode interação estratégica. Por exemplo, no caso acima, pode ser que os jogadores 1 e 2

30

Page 31: Apostila teoria dos jogos

joguem A e F com probabilidade não nula, respectivamente. Nós veremos essa situaçãoabaixo, quando estudarmos estratégias mistas. Segue portanto que a análise acima temperda signi�cativa de generalidade quando incorporamos estratégias mistas na análise.

2.3 Equilíbrio de Nash

Como visto acima, mesmo EIENR não é em geral capaz de nos dar o resultado demuitos jogos, embora costume simpli�cá-los. Um método de solução mais abrangenteque EIEED e EIENR é o de equilíbrio de Nash: se um conjunto de estratégias é umequilíbrio de Nash, ele sobrevive às �eliminações ...�, embora o contrário não seja,em geral, verdade. Nesse contexto um equilíbrio de Nash será determinado por umainterseção de melhores respostas, uma interserção de estratégias racionalizáveis. Issosigni�ca que um per�l de estratégias (associando uma estratégia para cada jogador) seráum equilíbrio de Nash se, para cada jogador, a estratégia que ele adotou for a melhorresposta que ele pode dar às escolhas alheias. Podemos ainda dizer que em um jogoestático de informação completa, um conjunto de estratégias (uma para cada jogador)constitui um equilíbrio de Nash se, caso os todos os jogadores, menos um, joguem asestratégias de�nidas para eles no equilíbrio de Nash, para aquele outro não exista nadamelhor a se fazer a não ser também escolher a estratégia para ele de�nida no equilíbriode Nash. E isso deve valer para todos os jogadores tomados individualmente.

� De�nição: No jogo J = fSi; ui (si; s�i)gni=i o per�l de estratégias�s�i ; s

��i�con-

stitui um equilíbrio de Nash se para todo jogador i = 1; 2; :::; n a estratégias�i 2 Si for a melhor resposta que i pode dar às escolhas alheias. Isto é, dados��i 2 S�i, ui

�s�i ; s

��i�� ui

�s0i; s

��i�8s0i 2 Si, s0i 6= s�i .

De outra forma, podemos de�nir as estratégias (s�1; :::; s�n) como um equilíbrio de

Nash caso, para todo jogador i, a estratégia s�i resolva o problema de

maxsi2Si

ui�si; s

��i�

Como usual, tome como exemplo o Dilema dos Prisioneiros,

Jogador 2NC C

Jogador 1 NC 5; 5 1; 7

C 7; 1 4; 4

e analisemos inicialmente o caso do jogador 1. Se o jogador 2 jogou NC, a melhorresposta que 1 pode dar é jogar C, pois 7 > 5. E se 2 jogar C, a melhor resposta queo jogador 1 pode dar é jogar a estratégia C, pois 4 > 1. Analogamente para o jogador2: se 1 joga NC, a melhor resposta que ele pode dar é jogar C (7 > 5) e se 1 joga

31

Page 32: Apostila teoria dos jogos

C a melhor resposta também é jogar C. Logo (C;C) é uma interseção de melhoresrespostas e como tal caracteriza o equilíbrio de Nash no Dilema dos Prisioneiros.

Identi�cado o equilíbrio de Nash, veja que nenhum dos jogadores tem qualquerincentivo a se desviar. Se algum dos jogadores propõe ao outro que ambos joguem"Não Confessar", de forma que cada um ganhe 5 (e portanto ambos estejam melhor doque no equilíbrio de Nash), o melhor que cada um pode fazer é não cumprir o acordo,pois na conjectura de o oponente cumprí-lo, a melhor resposta é sempre não cumprir ejogar "Confessar", pois 7 > 5.

Portanto, para encontrar um equilíbrio de Nash, basta ver a(s) melhor(es) re-sposta(s) de um jogador para cada estratégia do(s) outro(s) jogador(es), procedendoassim para todos eles. Quando houver coincidência entre as melhores respostas paratodos os envolvidos, esse conjunto de estratégias será um equilíbrio de Nash.

Exemplo 14jogador 2

D E FA 2; 3 5; 1 3; 2

jogador 1 B 4; 2 1; 4 0; 3

C 1; 1 0; 5 6; 8

No caso acima, não há estratégia dominante para nenhum dos jogadores nem nen-huma estratégia pode ser eliminada via EIEED ou EIENR. Mas o conceito de equilíbriode Nash nos diz que o resultado do jogo será (C;F ), o único onde há coincidência demelhores respostas: se o jogador 2 joga F , o melhor para o jogador 1 é escolher C, evice-versa. Consequentemente, nenhum dos dois terá incentivos a desviar desse resul-tado, caso acreditem que ele deva se veri�car.

2.3.1 Estabilidade, existência e unicidade do equilíbrio de Nash

Estabilidade Caso se tenha um determinado conjunto de estratégias, conhecido portodos e previsto como a solução de um jogo estático, ele deverá constituir-se em umequilíbrio de Nash. Se isso não ocorrer, então, por de�nição, existirá algum jogadorque poderá obter um payo¤ maior jogando outra estratégia: ele não teria, portanto,incentivos em jogar a estratégia proposta inicialmente, sendo racional. Assim, se umdeterminado conjunto de estratégias é previsto como a solução de um jogo estático deinformação completa, ele deverá ser um equilíbrio de Nash. Nesse sentido dizemos queo equilíbrio de Nash é um resultado estrategicamente estável (ou "self-enforcing").

Formalmente, suponha que um conjunto de estratégias (s01; :::; s0n) seja a solução

proposta para um determinado jogo estático de informação completa com n jogadores,mas não seja um equilíbrio de Nash. Então, para ao menos um jogador i, ter-se-ia uma

32

Page 33: Apostila teoria dos jogos

estratégia alternativa (s00i 6= s0i) tal que o ganho desse jogador seria maior jogando-a,

ui�s0i; s

0�i�< ui

�s00i ; s

0�i�

e o jogador i preferirá jogar s00i , de onde temos que (s01; :::; s

0n) não pode ser uma solução,

ao menos um jogador se desviaria.

Existência Com relação à existência do equilíbrio de Nash, sabemos através de umteorema provado pelo próprio Nash, em 1951, que sempre existirá pelo menos um, desdeque o jogo em análise seja �nito15.

Teorema 15 Nash (1951). Em todo jogo �nito (com o número de jogadores n, �nitoe espaço de estratégias Si, para todo i, também �nito) existe pelo menos um equilíbriode Nash (ainda que envolva apenas estratégias mistas, conceito a ser visto à frente).

Exemplo 16 Par ou ímpar.

jogador 2P I

jogador 1 P 1;�1 �1; 1I �1; 1 1;�1

O jogo par ou ímpar é um jogo �nito, uma vez que há apenas dois jogadores comduas estratégias para cada um deles. Pelo Teorema enunciado acima, ele deveria possuiralgum equilíbrio de Nash, o que não se percebe na matriz acima. Obviamente nãoestamos mostrando uma contradição ao Teorema de Nash nem sugerindo que o Parou Ímpar não tenha solução teórica. Entretanto, ali está sendo mostrado apenas aspossíveis estratégias puras. O par ou ímpar, de fato, possui um equilíbrio de Nash(a�nal, não consta que o Teorema tenha sido provado de maneira errada), mas emestratégias mistas, onde cada jogador joga 50% das vezes par e 50% ímpar. Esseprocesso será explicado mais adiante.

Exemplo 17 Comsidere um jogo que tenha a seguinte regra: há dois (ou mesmo umnúmero maior qualquer) jogadores que têm de escrever simultaneamente em um pedaçode papel um número qualquer. Após terem escrito, ambos revelam seus números. Oque tiver escrito o maior número recebe R$100, enquanto o(s) outro(s) não ganha(m)nada. Sendo igual, também não ganham nada. Qual é o equilíbrio de Nash?

Pensando um pouco, você notará que não existe nenhum equilíbrio de Nash nessejogo. Para concluir isso, veja que o perdedor sempre poderá melhorar sua situação,

15Para nós aqui nesse curso, um jogo é dito �nito se o número de jogadores for �nito e se o espaçode estratégias de cada jogador também for �nito.

33

Page 34: Apostila teoria dos jogos

dizendo um número maior que o vencedor; sempre havendo perdedor (ou empate),sempre alguém poderá melhorar e, assim, nunca se alcançará um resultado que con-stitua um equilíbrio de Nash. Esse jogo é uma prova contrária ao teorema de Nash?Certamente não, pois o referido teorema foi provado e não há o que discutí-lo. Aquestão é que neste jogo não são satisfeitas todas as hipóteses necessárias à validadedo teorema, uma vez que ele não é �nito: note que o conjunto de estratégias possíveisa cada jogador possui in�nitos elementos, e é isso que possibilita a não existência doequilíbrio neste jogo.

Unicidade Com relação à unicidade, nada nos garante em um jogo estático de in-formação completa o equilíbrio de Nash seja único. Pode existir e é bastante comumencontrar jogos com mais de um equilíbrioa de Nash.

Exemplo 18 Guerra dos sexos.

MulherFutebol Teatro

Homem Futebol 2; 1 0; 0

Teatro 0; 0 1; 2

No jogo acima, percebe-se a existência de dois equilíbrios de Nash: ambos iremao futebol e ambos irem ao teatro. O conceito de equilíbrio de Nash, portanto, nãodetermina nesse caso qual será o resultado do jogo; apenas restringe as possibilidadeselimando algumas combinações de estratégias.

Exemplo 19 Coordenação. Esse é um jogo muito comum em que dois jogadores,1e 2, combinam um jantar de negócios mas deixam o local em aberto. Posteriormenteocorre um problema de comunicação e eles perdem contato. Há duas possibilidades, elespodem ir a um restaurante caro e so�sticado ou a um "pé-sujo". Caso se encontrem- não importa em qual local - realizam um negócio e têm payo¤ positivo. Caso não seencontrem, voltam ambos frustrados para casa e não se o negócio entre eles.

jogador 2Antiquarius O Cantão

jogador 1 Antiquarius 1; 1 0; 0

O Cantão 0; 0 1; 1

Novamente temos dois equilíbrios de Nash, e também não podemos determinar qualdeles será jogado.

Nesses jogos, ainda que haja mais de um equilíbrio de Nash, nós podemos de algumaforma reduzir as possibilidades dos resultados. Mas em alguns jogos essa redução podeser irrelevante e frustante. Considere por exemplo o jogo entre dois jogadores, 1 e 2.

34

Page 35: Apostila teoria dos jogos

Ambos devem escrever em um pedaço de papel um número inteiro entre 0 e 100. Sea soma de ambos os números (a escolha do jogador 1 mais a escolha do jogador 2) formenor do que 100, cada um leva o número que escreveu no papel. Se a soma der maisde 100, cada um perde uma quantia, R$1,00 por exemplo. Inicialmente alguém poderiadizer que nesse jogo há um único equilíbrio de Nash de jogo, cada um jogar 50. Noentanto esse é apenas um dos equilíbrios de Nash desse jogo, provavelmente decorrentede algum critério subjetivo de justiça na cabeça do aluno. Mas não é isso que buscamose sim caracterizar todos os equilíbrios do jogo - e nesse jogo há 101 equilíbrios de Nash.

s1 s2

0 100

1 99

2 98

::: :::

50 50

::: :::

99 1

100 0

Embora nos exemplos acima não tenhamos especi�cado, a princípio, como apontarum ou outro equilíbrios de Nash como o mais provável a ser jogado, em alguns casos,nesses jogos com múltiplos equilíbrios de Nash, existem formas de identi�car qual delesdeverá ser jogado (ao menos com uma �certa�probabilidade).

2.3.2 Equilíbrio de Nash e Eliminação de Estratégias

Para relacionarmos a noção de equilíbrio de Nash com eliminação iterada de es-tratégias, vamos analisar duas proposições. Como é de se esperar, dada a direção queestamos tomando, ainda que estejamos perdendo em potência com relação à capacidadepreditiva, lançar mão do conceito de equilíbrio de Nash nos permite atingir um graude abrangência signi�cativo que nos permitirá ter alguma informação sobre a resoluçãode um determinado jogo de informação estática em quase todas as situações.

As relações que estabeleceremos abaixo dizem respeito à EIEED, mas poderia serabordada através de estratégias não-racionalizáveis. Os enunciados e as provas dasproposições são os que se seguem.

� Proposição: Se o conjunto de estratégias�s�i ; s

��i�constitui um equilíbrio de

Nash no jogo J = fSi; ui (si; s�i)gni=i na forma normal, então�s�i ; s

��i�sobrevive

ao processo de EIEED.

�Prova: Por contradição, suponha que não. Isto é, que�s�i ; s

��i�seja um

equilíbrio de Nash de J mas foi eliminada no processo de EIEED em algum

35

Page 36: Apostila teoria dos jogos

estágio do procedimento. Segue que para ao menos um jogador i qualquer,dadas as escolhas s��i 2 S�i dos demais jogadores, existiria uma estratégiasi 2 Si, si 6= s�i , tal que ui

�s�i ; s

��i�< ui

�s0i; s

��i�. Decorre que

�s�i ; s

��i�não

seria um equilíbrio de Nash em J , caracterizando a contradição.

� Proposição: No jogo J = fSi; ui (si; s�i)gni=i na forma normal, �nito, seja�s�i ; s

��i�o único per�l de estratégias que sobrevive à EIEED. Então

�s�i ; s

��i�

é o único equilíbrio de Nash em J .

�Prova: (i) Pelo teorema de Nash, em J existe ao menos um equilíbriode Nash. (ii) Pela proposição anterior, se um per�l de estratégias é umequilíbrio de Nash, então sobrevive ao processo de EIEED.

Segue que se�s�i ; s

��i�é um per�l de estratégias que sobrevive à EIEED, único, em

J , então�s�i ; s

��i�é um equilíbrio de Nash em J .

Podemos informalmente descrever e provar as proposições acima:

� Proposição: Em um jogo estático de informação completa, �nito, se um conjuntode estratégias constitui um equilíbrio de Nash no jogo na forma normal, entãoesse conjunto de estratégias sobrevive ao processo de EIEED.

�Prova: Por contradição, suponha que não. Isto é, que esse conjunto sejaum equilíbrio de Nash do jogo mas foi eliminada no processo de EIEED emalgum estágio do procedimento. Segue que para ao menos um jogador qual-quer, dadas as escolhas dos demais jogadores (que estão jogando o equilíbriode Nash), existiria uma outra estratégia tal que o seu ganho jogando o equi-líbrio de Nash seria menor do jogando esta estratégia alternativa. Decorreportanto que o conjunto inicial não seria um equilíbrio de Nash nesse jogo,caracterizando a contradição.

� Proposição: Em um jogo estático de informação completa, �nito, seja um per�lde estratégias qualquer (uma estratégia para cada jogador) o único per�l quesobrevive à EIEED. Então esse per�l de estratégias é o único equilíbrio de Nashdo jogo.

�Prova: (i) Pelo teorema de Nash, nesse jogo existe ao menos um equilíbriode Nash. (ii) Pela proposição anterior, se um per�l de estratégias é umequilíbrio de Nash, então sobrevive ao processo de EIEED. Segue que se umconjunto de estratégias é um per�l que sobrevive à EIEED, único, no jogo,então tal conjunto é o (único) equilíbrio de Nash no jogo.

36

Page 37: Apostila teoria dos jogos

O que as proposições acima mostram é que todo Nash sobrevive à EIEED mas quenem toda estratégia que sobrevive à EIEED constitui um Nash em um jogo �nito naforma estratégica. Seguindo na direção que tomamos - e como já foi dito acima - issonos sugere que a noção de equilíbrio de Nash é mais tênue do que a idéia de equilíbriopor EIEED mas no entanto é extremamente mais ampla.

Analisando com relação à estratégias não-racionalizáveis, note que isso ocorre porqueuma estratégia que está em algum equilíbrio de Nash nunca será uma estratégia nãoracionalizável, pelo menos pelas estratégias desse equilíbrio de Nash dos outros jo-gadores - pela própria de�nição de equilíbrio de Nash. Por outro lado, suponha umresultado (a; b) qualquer, sendo a uma estratégia racionalizável do jogador.1 e b umaoutra, racionalizável para o jogador 2. Nada garante que a justi�cativa para que ojogador 1 escolha a seja a possibilidade de ocorrência de b, assim como também nadagarante que a justi�cativa para que o jogador 2 escolha b seja a possibilidade de ocor-rência de a. Portanto, não necessariamente o resultado (a; b) constituirá um equilíbriode Nash.

Sendo assim, podemos dizer que toda estratégia que compõe um equilíbrio de Nashé racionalizável porque pode ser justi�cada pelas estratégias de equilíbrio de Nash dosdemais jogadores, enquanto o inverso em geral não será verdade. Por isso, tem-se quea capacidade de predição de um jogo é muito superior quando se utiliza o conceito deequilíbrio de Nash, comparando-se com EIEED e EIENR.

Em suma, pode-se dizer que:

(Conjunto de estratégias � estratégias que sobrevivem à EIEED �

� estratégias que sobrevivem à EIENR � estratégias que são equilíbrio de Nash

Entretanto, o grau de precisão de uma previsão utilizando apenas o conceito de equi-líbrio de Nash não é tão apurado quanto o dos métodos apresentados anteriormente,como �ca claro no exemplo acima em que os jogadores devem escrever um númerointeiro de 0 a 100 em um pedaço de papel. Não há nenhuma dúvida da alta probabili-dade de que um jogador sempre escolha uma estratégia estritamente dominante, casoa tenha. No entanto, um estratégia que constitua um equilíbrio de Nash será jogadacom alta probabilidade apenas se cada jogador realmente acreditar que o(s) outro(s)também escolherá(ão) as estratégias de�nidas naquele equilíbrio de Nash.

Exemplo 20 Considere o exemplo (16) acima após a EIENR:

jogador 1e f g

a 2; 6 3; 3 5; 1

jogador 1 b 3; 1 6; 4 0; 2

c 8; 1 2; 2 0; 5

37

Page 38: Apostila teoria dos jogos

O equilíbrio de Nash no jogo acima é (b; f), onde existe coincidência de melhoresrespostas e portanto nenhum jogador tem incentivos a desviar.

Embora nas de�nições tenhamos sempre utilizado a hipótese de existência de njogadores, até agora todos os exemplos dados contavam com apenas dois jogadoresenvolvidos. Isso foi feito por também dois motivos. O primeiro é que, de fato, grandeparte das situações reais de interdependência ocorre realmente com apenas dois jo-gadores. O outro é que a análise de jogos com apenas dois envolvidos é tecnicamentemuito mais simples, embora a lógica da análise permaneça exatamente a mesma. Bus-cando mostrar os passos para se encontrar equilíbrios de Nash em jogos com mais dedois jogadores, apresentaremos abaixo um exemplo com três deles.

2.3.3 Equilíbrio de Nash com três jogadores

A representação do jogo na forma normal, via matrizes de payo¤s, não será maistão simples como antes. Como seria extremamente complicado desenhar uma �ma-triz�tridimensional, deve-se construir tantas matrizes (bidimensionais) quantas foremas estratégias do jogador 3 (por exemplo). No caso abaixo são três: S3 = fnúmeroI,númeroII, númeroIIIg. Por sua vez, são claros o conjunto de possibilidades dos out-ros jogadores: o jogador 1 escolhe entre �alto� e �baixo� enquanto o jogador 2 entre�esquerda� e �direita�Em relação aos payo¤s, os apresentaremos em cada célula naseguinte ordem: o mais à esquerda refere-se ao do jogador 1, o central ao do jogador2, e o à direita ao payo¤ do jogador 3. Para encontrar-se as melhores respostas decada jogador, procede-se como antes, veri�cando a estratégia que gera o maior payo¤para cada possibilidade existente. A diferença é que, agora, essas possibilidades sãocombinações de escolhas dos outros dois jogadores. Para deixar claro, daremos algunsexemplos do procedimento, deixando os restantes para o leitor concluir por si mesmo,segundo as marcações de melhores respostas nas matrizes:

� se o jogador 3 escolhe número I e o jogador 2 escolhe direita, então o jogador1, entre alto e baixo, escolhe a segunda alternativa, que lhe dará payo¤ superior(1 > 0);

� se o jogador.3 escolhe número III e o jogador 1 escolhe alto, então o jogador2, entre esquerda e direita, escolhe a primeira alternativa, que lhe dará payo¤superior (6 > 1);

� se o jogador 1 escolhe baixo e o jogador 2 escolhe direita, então o jogador 3,entre número I, número II e número III, escolhe a segunda alternativa, que lhedará payo¤ superior (5 > 1) - neste caso, perceba que você deve comparar payo¤sentre as células posicionadas à direita e na segunda linha de cada uma das trêsmatrizes.

38

Page 39: Apostila teoria dos jogos

Se jogador 3 escolhe número I:

jogador 2esquerda direita

jogador 1 alto 0; 0; 0 2; 3; 4

baixo 1; 3; 2 7; 3; 1

Se jogador 3 escolhe número II:

jogador 2esquerda direita

jogador 1 alto 2; 8; 6 0; 7; 1

baixo 2; 1; 1 3; 2; 5

Se jogador 3 escolhe número III:

jogador 2esquerda direita

jogador 1 alto 3; 2; 6 1; 3; 1

baixo 2; 4; 0 5; 3; 1

Pode-se notar que existem três equilíbrios de Nash neste jogo: (baixo, esquerda, númeroI), (alto, esquerda, número II) e (baixo, direita, número II). Em nenhuma dessas situ-ações existe algum jogador que queira mudar sua escolha, dada as escolhas dos outros,uma consequência da própria de�nição de equilíbrio de Nash.

2.3.4 Discussão do conceito de equilíbrio de Nash

É razoável esperarmos que um equilíbrio de Nash será efetivamente jogado? Oequilíbrio de Nash é uma boa técnica em termos de previsibilidade de um jogo? Abaixodiscutimos alguns argumentos a respeito da e�cácia do equilíbrio de Nash, seguindo aabordagem de Mas-Collel et. al. (1995) e a de Kreps (1990).

1. Equilíbrio de Nash como consequência de inferência racional:

� às vezes se diz que, como cada jogador pode pensar através das consider-ações estratégicas dos outros jogadores, a simples racionalidade implicariaa correta previsão do que os outros irão fazer. Entretanto, como visto, aconsequência desse �common knowledge�das racionalidades dos jogadores éapenas que os jogadores devem jogar estratégias que sejam racionalizáveis,mas nada além disto.

2. Equilíbrio de Nash como condição necessária se existe um único resultado previstopara o jogo:

39

Page 40: Apostila teoria dos jogos

� a idéia é que, se há um único resultado previsto para o jogo, então os jo-gadores devem entendê-lo. E para que eles não tenham estímulos a desviar,tal resultado deve ser um Nash. De outra forma: se os jogadores achamque há um caminho óbvio de se jogar o jogo, então esse caminho deve serum equilíbrio de Nash. Este argumento é particularmente relevante quandohá apenas um equilíbrio de Nash no jogo: se supusermos que o equilíbriode Nash é esse caminho óbvio, então poderemos trabalhar com a hipótesede que ele se constituirá realmente no seu resultado. Entretanto, apenas�common knowledge das racionalidades�dos jogadores não é su�ciente paraisso, como visto. Além disso, o simples fato de que existe um equilíbrio deNash não faz com que ele se constitua necessariamente em uma justi�cativapara que seja jogado, mesmo sendo único. Sendo assim, temos que encontrarmotivos que justi�quem a obviedade de se jogar um conjunto especí�co deestratégias, especialmente se existem mais de um equilíbrio de Nash no jogoem questão. Os outros ítens seguintes discutem esse ponto.

3. Pontos focais:

� resultados focais podem ser culturalmente determinados, ou determinadospelos costumes da comunidade/grupo dos agentes em questão. Por exemplo,suponha o jogo de coordenação acima onde os dois jogadores são dois em-presários de empresas de grande porte sempre realizam jantar de negóciosem restaurantes so�sticados. Caso eles queiram se encontrar urgentementepara fechar algum negócio e não possam se comunicar, elas provavelmenteirão para o restaurante mais so�sticado, pois a�nal cada um deles sabe queé o que o outro usualmente faz quando da necessidade de jantar de negócio.Esse resultado, portanto, torna-se focal. Uma observação importante é quetodo ponto focal necessariamente é um equilíbrio de Nash, ou então nãopoderia se constituir em um ponto focal (pois alguém iria querer desviar).Obviamente nem todo equilíbrio de Nash é focal.

4. Negociação prévia:

� supondo que os jogadores podem ter comunicação prévia, caso eles façamalgum acordo, esse resultado torna-se um caminho óbvio a se jogar. Comoos jogadores não têm obrigação de cumprir seus acordos (no caso de essesserem apenas informais), para que eles sejam estáveis, as estratégias que oscompõe têm de constituir um equilíbrio de Nash.

5. Equilíbrio de Nash como uma convenção social estável:

40

Page 41: Apostila teoria dos jogos

� se uma forma particular de jogar um jogo é jogada muitas vezes, pode emer-gir um resultado que é uma convenção social estável. Ocorrendo isso, essaconvenção torna-se focal. Um exemplo típico é o lado a se andar de carro.Em geral, se dirige à direita, e todos fazem isto. Na Inglaterra, por suavez, sempre se andou à esquerda, e isto permanece até hoje. Note que aquitambém temos que uma convenção social é estável se é equilíbrio de Nash.Caso contrário, as pessoas teriam estímulos a desviar.

Exemplo 21jogador 2

esquerda direitajogador 1 alto 0; 0 2; 2

baixo 8; 9 �2;�1

Nesse caso acima, temos dois equilíbrios de Nash, mas seria razoável imaginar que oresultado do jogo será (baixo, esquerda), onde ambos os jogadores têm payo¤s superi-ores aos que obteriam no outro equilíbrio de Nash16. Isso é particularmente verdade seos jogadores podem se comunicar antes de jogar, pois então seria bastante provável queeles �rmassem um acordo (que seria self-enforcing) que gerassem o resultado (baixo,esquerda).

Exemplo 22jogador 2

esquerda direitajogador 1 alto 0; 1 3; 2

baixo 2; 4 1; 0

Nesse jogo, assim como antes, temos dois equilíbrios de Nash. Mas agora nãopodemos dizer que há um �caminho óbvio� a se jogar. Isto porque um equilíbrio deNash não é preferível ao outro pelos dois jogadores, como tínhamos antes. A previsãodo jogo, principalmente se não há comunicação antes de iniciá-lo, torna-se portantotarefa mais difícil.

Coordenação implícita Há outros casos onde pode ocorrer algum tipo de �coorde-nação implícita�nas próprias regras do jogo. Vejamos o exemplo seguinte.

Exemplo 23 O jogo das listas. Há dois jogadores e nove �guras geométricas. É dadoo nome de uma delas a um jogador e o de uma outra �gura ao outro jogador, com16Em uma análise de equilíbrio (parcial), dizemos que o equilíbrio (baixo, esquerda) é Pareto-superior

ao equilíbrio (alto, direita) na medida em que no primeiro equilíbrio todos os jogadores estão pelo menostão bem quanto no segundo caso e ao menos um jogador está estritamente melhor - no caso, ambosestão com maiores payo¤s.

41

Page 42: Apostila teoria dos jogos

o conhecimento de ambos. A proposta é que, sem comunicação, cada um faça em umpedaço de papel uma lista com o nome de quaisquer das outras sete �guras. Entretanto,ambos ganham um prêmio qualquer apenas se, unidas as duas listas, todas as �gurasestiverem incluídas, mas sem duplicação. Caso contrário, não ganham nada.

Vejamos uma possibilidade, caso numerarmos as �guras de 1 a 9, dando a de número1 para o jogador 1 e a de número 9 para o jogador 2. Se a lista do jogador 1 contiveras �guras 1, 2, 3, 4 e 5, enquanto a do jogador 2 se compuser de 9, 8, 7, 6 e 5, ambosperdem: embora todas as �guras tenham sido incluídas, a 5 foi duplicada. O númerode possibilidades, como se percebe, é muito grande. Como os jogadores não podem secomunicar, a probabilidade de a exigência das listas ser cumprida é muito próxima dezero, caso elas sejam feitas aleatoriamente.

Entretanto, vejamos o que poderia ocorrer se as nove �guras fossem (quadrado,triângulo, cubo, esfera, retângulo, pirâmide, cone, círculo e paralelepípedo) e a umjogador fosse dado o quadrado e ao outro a esfera. Se foi você a receber o quadrado, oque você faria, tendo alguns minutos para pensar? Uma possibilidade bastante provávelseria compor a sua lista com, além do quadrado, triângulo, retângulo e círculo, naexpectativa de que o outro jogador colocasse em sua lista todas as outras �guras, eapenas elas. Por que isso poderia ser uma atitude razoável? Note que a você foi dadauma �gura bidimensional, enquanto ao outro jogador foi concedida uma tridimensional.Incluir na sua lista todas as outras �guras com duas dimensões, esperando que o outrojogador tenha a mesma idéia e escolha apenas as com três dimensões pode ser umaatitude racional, desde que se acredite que o outro jogador também possa ter a mesmaidéia.

É claro que outras possibilidades de tentativas de coordenação implícita poderiamocorrer. Você poderia, com o quadrado, escolher as �guras que possuem arestas,supondo que as outras (esfera e círculo) fossem escolhidas pelo outro jogador. Naverdade, todas as possibilidades que façam com que as listas se completem perfeita-mente e sem sobreposição constituem equilíbrios de Nash. Portanto, existe um númeromuito grande deles, embora o número de resultados possíveis seja muito superior. As-sim, para se tentar alcançar um dos equilíbrios com uma probabilidade não tão próximade zero, isso seria possível apenas caso se encontrasse caminhos com alguma �lógica�,como a comentado acima17.

Exemplo 24 Em um exemplo muito parecido com um caso analisado acima, dois jo-gadores escrevem, simultaneamente, um número natural entre zero e mil. Caso a somados dois números não ultrapasse mil, cada um recebe, em unidades monetárias, um valor

17Como seria o caso se, ao invés das �guras, tivéssemos uma lista de países? A lista é: Inglaterra,Argentina, Uruguai, Itália, Brasil, França, Alemanha, Paraguai, Portugal. Você recebe Brasil e ooponente Portugal. Qual(is) seria(m) o(s) equilíbrio(s) de Nash do jogo?

42

Page 43: Apostila teoria dos jogos

correspondente ao número que escreveu. Caso a soma seja maior que mil, ninguém re-cebe nada. Qual(is) é(são) o(s) equilíbrio(s) de Nash deste jogo? Algum deles pode serconsiderado focal?

Quanto aos equilíbrios de Nash, neste caso existem simplesmente mil e um deles,correspondentes a todos as estratégias dos jogadores que, conjuntamente, somem exata-mente mil: em todos esses casos, nenhum dos jogadores poderá aumentar o seu payo¤.O conceito de equilíbrio de Nash, portanto, diz muito pouco a respeito do provávelresultado da interação. Todavia, parece razoável imaginar um ponto focal onde cadaum escreva 500 em seus papéis, baseando-se em alguma vaga noção de justiça inerentea maioria das pessoas. Esse foi, de longe, o resultado mais encontrado quando �zemosexperiências em sala com alunos da PUC-Minas. E isso ocorreu tanto quando foi per-mitido uma coordenação prévia entre os jogadores, mas também quando isso não foipermitido.

Em geral, se os jogadores já se interrelacionam há algum tempo, pode-se criar ummodo usual de se jogar. Em situações econômicas, muitas vezes isso ocorre, o quefacilita a análise do jogo, ainda que ele tenha mais de um equilíbrio de Nash.

Ponto focal Como discutimos acima, um �problema�recorrente em teoria dos jogosdiz respeito ao fato de que o equilíbiro de Nash não é único. A questão que emergedesse fato é com relação à previsão do resultado do jogo: uma vez que há mais de umNash em um jogo, será que a probabilidade de se jogar um deles é maior do que osdemais? É a mesma?

Uma forma de abordar essa questão é analisar se há algum ponto focal em um jogo.Basicamente o que fazemos é re�nar a noção de equilíbrio de Nash, no sentido de buscaralgum tipo de informação exógena ao jogo que nos permita fazer alguma inferência nãosobre os equilíbrios de Nash do mesmo, mas sobre a verossimilhança de se jogar oueliminar alguns desses equilíbrios. Um ponto focal portanto é um equilíbrio de Nashde um jogo que exibe algum tipo de dominância sobre os demais. E essa dominânciadecorre de alguma informação exógena ao jogo, informação essa que diz respeito àhábitos, costumes, tradições, normas (social ou legal) etc e é de conhecimento comum.

Exemplo 25 No jogo de coordenação - já discutido acima - dois empresários mar-caram um jantar de negócios mas deixaram o lugar desse jantar em aberto e perderama comunicação. Vimos que no jogo há dois equilíbrios de Nash e não sabemos qual serájogado. Mas se temos a seguinte informação, de conhecimento comum aos jogadores,"os jogadores têm o hábito de frequentar restaurantes so�sticados", então podemos dizerque o equilíbrio (Antiquarius, Antiquarius) é um ponto focal.

Exemplo 26 No Guerra dos Sexos. O que você diria se nesse jogo houvesse a seguinteinformação: "o jogo será jogado no Irã"?

43

Page 44: Apostila teoria dos jogos

Exemplo 27 Dirigir no Brasil ou em algum país da Comunidade Britânica.

jogador 2esquerda direita

jogador 1 esquerda 0; 0 �100;�100direita �100;�100 0; 0

Suponha que dois jogadores trafegam em uma estrada em direções opostas. Aose encontrarem, devem decidir em que lado da estrada tomar, esquerda ou direita.Há dois equilíbrios de Nash nesse jogo, ambos jogarem "direita"ou ambos jogarem"esquerda", caso contrário haveria alguma colisão e os jogadores incorreriam em perdas.Mas se o jogo fosse jogado no Brasil, podemos dizer que (direita, direita) é um pontofocal. Mas se houvesse a informação de que o jogo "é jogado na Inglaterra", então(esquerda, esquerda) seria um ponto focal.

2.4 Estratégias Mistas

Até aqui, estamos supondo que cada jogador escolhe determinada estratégia demodo determinista, i.e., ele a escolhe ou não para jogar. Nenhuma possibilidade derandomização (aleatorização) entre suas estratégias possíveis foi aberta. Portanto,em jogos como o Par ou Ímpar, por exemplo, não encontramos nenhum conjunto deestratégias que constitua um equilíbrio de Nash. Outro exemplo é o pôquer: se umjogador nunca blefa, os outros sempre se dirigirão a ele de modo impetuoso e nãoaceitarão qualquer aposta caso ele queira apostar. Iisso faz com que blefar passe a seruma boa resposta para tal jogador. Entretanto, se ele blefar sempre, os outros passarãoa sempre aceitar suas apostas e blefar não será mais uma resposta ótima. De fato, emtodo jogo onde cada jogador quer �enganar�o(s) outro(s), não existe equilíbrio de Nashcomo de�nido antes, considerando apenas estratégias puras, porque a solução do jogoenvolve incerteza a respeito do que o outro irá fazer. Para superar problemas comoesse, insere-se a noção de estratégias mistas18.

De�nição 28 Iremos referir aos elementos do espaço de estratégias de cada jogadorcomo as estratégias puras do jogador. Logo, as estratégias puras de um jogador sãoas diferentes ações que ele pode tomar.

De�nição 29 Uma estratégia mista para um jogador é uma distribuição de probabili-dade sobre (algumas ou todas) as estratégias pertencentes ao seu espaço de estratégias.

Ou seja, uma estratégia mista especi�ca probabilidades para estratégias puras, de-notando que essas serão escolhidas não de modo determinista, mas probabilístico. Ob-viamente, o somatório das probabilidades é igual a um. Note também que que uma18Para uma formalização mais rigorosa dos conceitos associados à estratégias mistas, ver o apêndice.

44

Page 45: Apostila teoria dos jogos

estratégia pura nada mais é que uma estratégia mista degenerada, no sentido de queela especi�ca probabilidade um para um elemento do conjunto de estratégias e zeropara todos os outros.

Exemplo 30 (Par ou ímpar): as estratégias puras de cada jogador são jogar par ouímpar. Uma estratégia mista é a distribuição de probabilidade (p; 1� p), onde p 2 [0; 1]é a probabilidade de se jogar par e (1� p) é a probabilidade de se jogar ímpar. Aestratégia mista (0, 1), por exemplo, é simplesmente a estratégia pura de se jogarímpar.

Exemplo 31 Em um jogo onde um jogador tenha três estratégias puras possíveis (A;B;C),uma estratégia mista é a distribuição de probabilidade (p; q; 1� p� q), onde p 2 [0; 1],q 2 [0; 1] e (p+ q) 2 [0; 1]. A estratégia pura B, por exemplo, seria representada por(0; 1; 0). Por sua vez, se esse jogador jogasse cada uma delas com a mesma chance,teríamos a estratégia mista (1=3; 1=3; 1=3).

De�nição 32 Um jogo pode ser representado na sua forma normal ou estratégica, coma possibilidade de se adotar estratégias mistas. A diferença agora é que incorporamosa possibilidade de que o jogador aleatorize ao fazer as suas escolhas.

A possibilidade de se utilizar estratégias mistas não foi, obviamente, apresentadaapenas para so�sticar o texto. Como seria de se esperar, ela nos permite avançar emnosso objetivo de determinar qual será o resultado de um jogo.

Exemplo 33 Seja o seguinte jogo (onde representamos, para simpli�car, apenas ospayo¤s do jogador 1):

jogador 2D E

A 5;� 0;�jogador 1 B 0;� 5;�

C 2;� 2;�

Aqui, independentemente da estratégia (�D; �E) = (1� �E ; �E), �E 2 [0; 1], ado-tada pelo jogador 2, o jogador 1 não escolhe C. Com a possibilidade de estratégiasmistas, isto signi�ca que a estratégia C é estritamente dominada. Entretanto, note queela não é estritamente dominada nem por A e nem por B isoladamente. Mas é, por ex-emplo, pela estratégia mista que coloca A com 50% e B com 50% (que implica um payo¤de 2,5 em qualquer hipótese): seja a estratégia mista � = (�A; �B; �C) = (0:5; 0:5; 0).O payo¤ (esperado) do jogador 1 jogando tal estratégia será

u1 (�) = (�E � 0:5) 5 + ((1� �E)� 0:5) 5 == 2:5�E + 2:5� 2:5�E = 2:5

45

Page 46: Apostila teoria dos jogos

Independentemente portanto do valor de �E (a probabilidade do jogador 2 escolher E).Tal estratégia é, portanto, preferível em relação à estratégia pura C.

Antes tínhamos que, se uma estratégia fosse dominada, ela nunca seria jogada eportanto não seria racionalizável. Agora temos também o reverso dessa proposição: seela nunca será jogada, então ela é dominada, ainda que seja por uma estratégia mista,como visto no exemplo acima19.

Outra característica a se destacar é que uma estratégia pura pode ser a melhorresposta a uma estratégia mista, ainda que não seja a melhor resposta a nenhumaestratégia pura. A veri�cação de estratégias que nunca serão melhores respostas �ca,portanto, mais sutil, pois torna-se necessário veri�car também as possibilidades derespostas à estratégias mistas do(s) outro(s) jogador(es).

Exemplo 34jogador 2D E

A 5;� 0;�jogador 1 B 0;� 5;�

C 4;� 4;�

Nesse jogo, para o jogador 1, C não é a melhor resposta para E e nem para D.Todavia, é a melhor resposta, por exemplo, para a estratégia mista (�D; 1� �D), �D 2�15 ;45

�20.

A caracterização anterior de equilíbrio de Nash considerava apenas estratégias purascomo possibilidades. Contudo, podemos também incorporar o conceito de estratégiasmistas para determinar o equilíbrio de Nash. Nesse sentido, um conjunto de estratégiasmistas �� = (��1; :::; �

�n) constitui um equilíbrio de Nash (em estratégias mistas) em um

jogo estático de informação completa se, para cada jogador, a estratégia mista que eleadotou for a melhor respostas às estratégias mistas jogadas pelos demais jogadores.Portanto segue que que o conceito de equilíbrio de Nash é exatamente o mesmo deantes. A diferença é que agora permite-se também a utilização de estratégias mistas.

Observação 35 Um resultado fundamental de equilíbrio de Nash com estratégias mis-tas é o que diz que um jogador que utiliza uma estratégia mista que compõe um equilíbriode Nash pode obter o mesmo payo¤ que obteria jogando-a se utilizar apenas uma (qual-quer uma delas) das estratégias puras que compõem a estratégia mista (dado que os

19Entretanto, esse resultado vale apenas para o caso de dois jogadores, que é aquele com que trabal-haremos na maior parte dos casos.20Compare os payo¤s de se jogar isoladamente A, B ou C, supondo que o jogador 2 possa estar

jogando uma estratégia mista. Conclua então que, se tal estratégia mista respeitar o princípio aquireferido, de não colocar probabilidade maior que 4=5 em nenhuma de suas possíveis ações (faça ascontas!), então de fato B torna-se a melhor resposta a essa estratégia mista.

46

Page 47: Apostila teoria dos jogos

outros jogadores permanecem jogando suas estratégias de equilíbrio). Além disso, todaselas provêem o mesmo payo¤, que é maior ou igual ao payo¤ obtido caso se utilizasseoutra estratégia pura que não compõe a estratégia mista do equilíbrio de Nash (tambémsupondo que os outros jogadores permaneçam jogando suas estratégias de equilíbrio).

O que essa observação nos sugere é uma maneira mais fácil de computar o equi-líbrio de Nash em estratégias mistas. Se o ganho esperado de um jogador quando éjogado o equilíbrio em estratégias mistas é igual ao seu ganho esperado se ele adotaruma estratégia pura e os demais jogadores jogarem o equilíbrio em estratégias mistas,então basta nos ater ao segundo caso para gerarmos o resultado. Com relação ao se-gundo ponto, o argumento é trivial. Vamos organizar essas assertativas em forma deproposições que serão importantes pelos motivos acima sugeridos.

Proposição 36 Sem perda de generalidade21, considere um jogo 2�2 na forma nor-mal. Nesse jogo, seja Si = (si1; si2) o espaço de estratégias do jogador i = 1; 2,�� = (��1; �

�2) um equilíbrio de Nash com estratégias mistas do jogo e ��i = (�i1; �i2) a

escolha de i = 1; 2. O ganho esperado de um jogador i qualquer - por exemplo o jogador1 - quando todos jogam o equilíbrio de Nash, será

u1 (��) = �11�21u1 (s11; s21)+�11�22u1 (s11; s22)+�12�21u1 (s12; s21)+�12�22u1 (s12; s22)

é igual ao seu ganho esperado se ele jogasse alguma estratégia pura dado que o oponentejogou alguma estratégia de equilíbrio,

u1 (s11; ��2) = �21u1 (s11; s21) + �22u2 (s11; s22) :

Analogamente isso é verdade relativamente a qualquer estratégia que compõem o equi-líbrio com estratégias mistas. Nesse caso 2�2,

u1 (s12; ��2) = �21u1 (s12; s21) + �22u2 (s12; s22)

tal queu1 (s11; �

�2) = u1 (s12; �

�2) = u1 (�

�) .

O mesmo é verdade para o jogador 2:

u2 (��1; s21) = u2 (�

�1; s22) = u2 (�

�) .

Prova. (Demonstração informal) Suponha que jogar duas das estratégias purasque compõem a mista que é equilíbrio de Nash dê payo¤s diferentes. Então o jogadorpreferirá jogar apenas a que lhe confere maior utilidade e consequentemente a estratégiamista não pode ser equilíbrio de Nash, o que contradiz a hipótese original e portanto não

21A Proposição vale para todo jogo �nito. Esse formato é apenas para facilitar a compreensão.

47

Page 48: Apostila teoria dos jogos

pode ser verdadeiro. Temos então que o payo¤ obtenível utilizando a mista ou qualquerdas puras que ela contém confere o mesmo payo¤ para o jogador, uma vez que os outrosmantêm suas estratégias de equilíbrio de Nash. Isso �cará claro no exemplo abaixo,quando mostramos que isso é verdade em um jogo de coordenação.

Proposição 37 O payo¤ que se obtém jogando qualquer estratégia (pura ou mista)que compõe o(s) equilíbrio(s) de Nash de um jogo estático de informação completa émaior ou igual ao payo¤ que se obteria adotando qualquer estratégia pura que nãopertence ao equilíbrio de Nash, supondo que os demais jogadores jogam suas estratégiasde equilíbrio.

Prova. (Demonstração informal) Suponha que a utilidade de se usar uma estratégiaque não compõe a estratégia mista de equilíbrio de Nash seja maior que o payo¤ de seutilizar apenas uma das estratégias que compõem a estratégia mista de equilíbrio deNash. Então não vale a pena jogar a estratégia mista que contém uma estratégia piordo que a estratégia pura que não a integra, o que implica que a estratégia mista nãoconstitui um equilíbrio de Nash, contradizendo a hipótese inicial e não podendo, assim,ser verdadeiro.

Portanto temos que se um conjunto de estratégias mistas � é equilíbrio de Nashdo jogo, para cada jogador, dada as estratégias dos oponentes, é indiferente jogar asestratégias puras que constituem a estratégia mista ou ela mesma, e é pelo menos tãobom jogar uma das puras que constituem a mista a jogar qualquer outra estratégiapura que não faz parte da mista.

Uma consequência importante das proposições acima é que, para testar se um con-junto de estratégias � constitui um equilíbrio de Nash, basta considerar os possíveisdesvios em estratégias puras. Caso nenhum jogador possa aumentar seu payo¤ jo-gando alguma outra estratégia pura, então � é um Nash, facilitando a computação doequilíbrio em estratégias mistas.

Exemplo 38 Encontre o equilíbrio de Nash com possibilidade de estratégias mistas nojogo Par X Ímpar:

jogador 2P I

jogador 1 P 1;�1 �1; 1I �1; 1 1;�1

Como já visto antes, no jogo acima não existe um conjunto de estratégias puras queformem um equilíbrio de Nash. Todavia, podemos encontrar algum equilíbrio de Nashse possibilitarmos que se joguem estratégias mistas. Para tanto, devemos proceder daforma apresentada abaixo.

48

Page 49: Apostila teoria dos jogos

Primeiro calcula-se o payo¤ de um dos jogadores quando ele escolhe apenas estraté-gias puras, mas possibilitando o outro de escolher mistas. No caso do Par X Ímpar,as estratégias puras possíveis são apenas duas, par (P ) ou ímpar (I). Começaremosobservando a estratégia do jogador 1 supondo que ele jogou par e depois ímpar:

u1 (P; �2) = 1� �2P � 1� (1� �2P )u1 (I; �2) = �1� �2P + 1� (1� �2P )

Para que ele queira aleatorizar, �2P deve ser tal que

u1 (P; �2) = u1 (I; �2)

onde �2 = (�2P ; �2I) é a distribuição de probabilidade que 1 associa ao comportamentode 2. Segue que �2P = �2I = 0:5.

Portanto, para que o jogador 1 aleatorize, é necessário que o jogador 2 jogue par (eímpar) com probabilidade 0:5. De fato, vemos que se isso ocorre, qualquer coisa que1 faça lhe dará o mesmo payo¤ esperado, de zero. Por sua vez, a condição para que ojogador 2 aleatorize ("randomize") é que o outro jogador, 1, faça também �1P = 0:5,uma vez que o jogo é simétrico. O equilíbrio de Nash deste jogo é, pois,

(��1; ��2) = ((0:5; 0:5) ; (0:5; 0:5))

onde ambos escolherem par ou ímpar com probabilidade de 50% cada.

Exemplo 39 Considere mais uma variação do jogo �Encontro no Rio�. Agora, temosum jovem casal querendo se encontrar para uma �namoradinha�. Eles têm duas opçõespara o encontro: botecos do Centro da cidade ou um local do Leblon. Os dois nãopodem se comunicar, e como é um namoro recente, nenhum dos dois resultados podeainda ser considerado um ponto focal, ou algo a�m (eles não sabem ainda o �estilo�do outro). A representação do jogo na forma normal é:

garotaLeblon Centro

rapaz Leblon 10; 10 0; 0

Centro 0; 0 4; 4

Procuremos encontrar o conjunto do total de equilíbrio de Nash deste jogo, tanto emestratégias puras quanto mistas. Os dois de estratégias puras são visíveis, mas vejamosuma forma mais geral de visualização, grá�ca, que em geral facilita a resolução doproblema (a ser feita).

Nos eixos verticais do desenho acima está representado o payo¤ esperado da garota,para cada estratégia (pura) que ela porventura resolva utilizar. Os payo¤s obviamente

49

Page 50: Apostila teoria dos jogos

dependerão da estratégia (ou, da mesma forma, da probabilidade escolhida entre ir aoCentro ou ao Leblon) do outro jogador - o rapaz, representada no eixo horizontal.

O que temos então no caso acima: se a probabilidade do rapaz ir ao Leblon formenor que ��r (L), o melhor para garota será ir para o Centro com certeza, o quepode ser visto pelas linha de payo¤s. Se ela faz isso, o melhor para o rapaz é fazer��r (S) = 0, como se vê na matriz. Então um Nash é, de fato, (C;C), um Nash emestratégias puras. O mesmo raciocínio aplica-se ao equilíbrio de Nash (L;L). Mas hátambém um equilíbrio de Nash em estratégias mistas. Para encontrá-lo, primeiramentevamos calcular ��r (L). Ele deve ser tal que iguale o payo¤ da garota em jogar cadauma das estratégias, dado �r (L):

ug (C; �r (L)) = ug (L; �r (L))

4� (1� �r (L)) + 0 = 10� �r (L) + 0

��r (L) =2

7

Como o jogo é simétrico, o raciocínio é o mesmo para ambos os jogadores, rapaz egarota. Portanto, um outro equilíbrio de Nash é cada um ir ao Leblon com probabili-dade 2/7: (�r(L) = 2=7; �g(L) = 2=7).

Para aplicarmos a Proposição (???) acima, note que o ganho esperado de r (comoo jogo é simétrico, o mesmo valerá para g) quando ambos jogam o equilíbrio em es-tratégias mistas é

ur���r ; �

�g

�=

�2

7

��2

7

�10 +

�2

7

��5

7

�0 +

�5

7

��2

7

�0 +

�5

7

��5

7

�4 =

20

7

Da mesma forma o seu ganho esperado quando joga cada uma das estratégias purasque compõe o equilíbrio com estratégias mistas é dado por(

ur��r (L) ; �

�g

�=�27

�10 +

�57

�0 = 20

7

ur��r (C) ; �

�g

�=�27

�0 +

�57

�4 = 20

7

onde, podemos ver,

ur���r ; �

�g

�= ur

��r (L) ; �

�g

�= ur (�r (C) ; �

�r)

E analogamente para o outro jogador (veri�que),

ug���r ; �

�g

�= ug (�

�r ; �g (L)) = ug (�

�r ; �g (C))

Exemplo 40 Vejamos agora um exemplo de um jogo não simétrico. Suponha a pos-sibilidade de um pênalti e, para simpli�car, que os jogadores envolvidos (o cobrador eo goleiro) tenham apenas duas estratégias puras possíveis: escolher direita ou esquerda

50

Page 51: Apostila teoria dos jogos

(o primeiro para chutar a bola e o segundo para pular na hora da cobrança). Suponhaque seja sabido que o goleiro seja mais ágil para saltar para a direita, enquanto para ocobrador o lado, em princípio, não faça diferença. A representação na forma normalé a seguinte:

goleiroE D

cobrador E 6;�6 3;�3D 2;�2 9;�9

A idéia é que números maiores para cada um deles denota uma maior probabilidadede sucesso na cobrança. Assim, o cobrador chutar à direita e o goleiro pular para essemesmo canto é o resultado que maximiza o payo¤ do goleiro e minimiza o do jogador,pois trata-se da situação onde há maiores probabilidades de o goleiro defender o pênalti.Por outro lado, a melhor situação para o jogador (e pior para o goleiro) seria um chuteà esquerda, com o arqueiro indo para o outro lado. Na representação acima �ca claroque, em estratégias puras, não existe nenhum equilíbrio de Nash. Pelo teorema deNash sabemos então que pelo menos um em estratégias mistas existirá. Para começara análise, olhemos o diagrama para o goleiro (fazer!!!).

Podemos concluir também pelo diagrama a ausência de equilíbrio de Nash comestratégias puras (embora ainda tenhamos que ver a representação para os payo¤s docobrador também). Caso a probabilidade do jogador chutar à direita for menor que��c (D), nota-se que o melhor para o goleiro será pular para a esquerda com 100% dechances. Entretanto, caso ele faça isso, para o jogador o melhor será chutar à direita comprobabilidade 1 (�c (D) = 1), e portanto a hipótese original de �c (D) menor que ��c (D)não se veri�ca. Raciocínio análogo pode ser feito para o caso onde �c (D) > ��c (D).

Mas procuremos um equilíbrio de Nash em estratégias mistas. Para que o goleiro�que indiferente entre suas opções possíveis de estratégias, é necessário que o cobradorchute à direita com a exata probabilidade de ��c (D). Como pode ser visto no diagramaacima, essa constitui a única possibilidade que faz com que o payo¤ do arqueiro seja omesmo, independente do que ele faça. Então, para calcular o seu valor basta igualaresses payo¤s: faça e encontre ��c (D) = 0:4.

Portanto, caso o cobrador cobre a penalidade máxima à direita com probabilidadede 40%, para o goleiro será indiferente entre pular para esquerda ou direita. Mas essa éapenas metade da estória. Falta veri�car o que faria com que o jogador utilizasse essaestratégia mista. Como já mostrado, para que ele utilize uma estratégia mista no equi-líbrio, será necessário que ele seja indiferente entre utilizar a própria estratégia mista eas estratégias puras que ela contém. Então temos que saber o que o faria ser indiferenteentre as duas estratégia puras possíveis. Para melhor visualização, apresentaremos odiagrama de payo¤s para o cobrador (fazer). Calculando ��g (D) = 0:3.

51

Page 52: Apostila teoria dos jogos

O equilíbrio em estratégias mistas será dado por���c = (0:6; 0:4) ; �

�g = (0:7; 0:3)

�Assim, caso o goleiro salte para a direita com probabilidade de 30%, o cobrador �caráindiferente entre qual lado escolher para chutar a bola. Portanto, temos que o únicoequilíbrio de Nash desse jogo é o jogador bater o pênalti à direita com 40% de proba-bilidade e o goleiro pula para esse lado com 30% de chances. Qualquer desvio dessasprobabilidades de um dos envolvidos fará com que o outro não mais �que indiferenteentre suas estratégias puras, escolhendo uma delas com probabilidade de 100%, o quefará com que o primeiro também altere sua escolha anterior e assim inde�nidamente,caracterizando a ausência de outros resultados que caracterizem um equilíbrio de Nash.

Exemplo 41 Vejamos agora um caso um pouco mais complexo, que envolve mais deduas estratégias puras para um dos jogadores, baseado em exemplo parecido apresentadoem Kreps (1994):

jogador 2C D E

jogador 1 A 1;�100 �100; 1 0; 0

B �100; 1 1;�100 0; 0

Como solucionar esse jogo??? Dê uma olha e veri�que como uma pequena alteraçãona estrutura do jogo (agora passamos a ter um jogo onde um dos jogadores, o jogador2, tem um espaço de estratégias com três elementos, C;D e E) pode complicar de umaforma signi�cativa a busca do equilíbrio.

Note que no jogo acima não há nenhum Nash em estratégias puras, o que, peloteorema da existência do equilíbrio em jogos �nitos, nos garante que haverá pelo menosum equilíbrio em estratégias mistas. Devemos começar procurando condições que façamcom que os jogadores �quem indiferentes entre estratégias puras, o que torna possívela utilização de estratégias mistas (em situações de equilíbrio). O processo aqui é maistrabalhoso porque um dos jogadores possui três alternativas de escolhas de estratégiaspuras.

Os payo¤s do jogador 2 em cada situação, dado que o jogador 1 joga A com aprobabilidade genérica �1 (A), são

u2 (�1 (A) ; C) = �100�1 (A) + 1 (1� �1 (A))u2 (�1 (A) ; D) = 1�1 (A)� 100 (1� �1 (A))u2 (�1 (A) ; E) = 0

A randomização do jogador 2 poderá ser entre as três estratégias puras possíveis a eleou entre um par delas. Todas essas possibilidades têm de ser observadas.

52

Page 53: Apostila teoria dos jogos

� o jogador 2 é indiferente entre C e D tal que

�100�1 (A) + 1 (1� �1 (A)) = 1�1 (A)� 100 (1� �1 (A))�1 (A) = 0:5

A condição para o jogador 2 aleatorizar entre C e D é a citada acima. Todavia,com �1 (A) = 0:5, é preferível para o jogador 2 jogar E: com C ou D o seu payo¤é menor que zero, que ele tem com certeza ao jogar E. Portanto, não há equilíbriocom o jogador 2 randomizando entre C e D22.

� o jogador 2 indiferente entre C e E tal que

�100�1 (A) + 1 (1� �1 (A)) = 0�1 (A) =

1101

Como �1 (A) = 1101 , u2 (�1 (A) ; C) = u2 (�1 (A) ; E) = 0 > u2 (�1 (A) ; D) =

1101 � 100

�100101

�= 1�10000

101 . Portanto, é possível que o jogador 2 randomize entreC e E.

� jogador 2 é indiferente entre D e E. Logo

1�1 (A)� 100 (1� �1 (A)) = 0�1 (A) =

100101

Como �1 (A) = 100101 , u2 (�1 (A) ; D) = u2 (�1 (A) ; E) = 0 > u2 (�1 (A) ; C) =

�100�100101

�+1� 100

101 = �10000100 +1� 100

101 . Portanto, também é possível que o jogador 2randomize entre D e E.

Por outro lado, vejamos as condições de randomização para o jogador 1. Os payo¤sdo jogador 1 em cada situação, dado que o jogador 2 joga C com probabilidade �2 (C),D com probabilidade �2 (D) e E com probabilidade (1� �2 (C)� �2 (D)), são

u1 (A; �2 (C) ; �2 (D)) = 1�2 (C)� 100�2 (D) + 0u1 (B; �2 (C) ; �2 (D)) = �100�2 (C) + 1�2 (D) + 0

22Para avaliar a possibilidade de um equilíbrio de Nash com estratégias mistas, devem ser consid-eradas as duas condições enunciadas e (informalmente) demonstradas no texto: (1) de que o jogadorque utiliza uma mista em um equilíbrio de Nash deve ser indiferente entre as puras que a compõe; e(2) que elas devem gerar um payo¤ no mínimo igual ao que poderia ser obtido caso ele utilizasse umaoutra estratégia pura disponível. Quando há apenas duas estratégias puras possíveis para um jogador,veri�car a primeira condição é su�ciente. Contudo, se há mais de duas possíveis, é necessário observartambém a segunda. Como visto neste exemplo, pode ocorrer que um jogador seja indiferente entreduas estratégias em determinadas circunstâncias, mas que nesses casos exista uma terceira (ou quarta,quinta etc.) possibilidade mais vantajosa, de modo que a indiferença entre as duas estratégias passa anão signi�car nada em termos de equilíbrio.

53

Page 54: Apostila teoria dos jogos

O jogador 1 �cará indiferente entre A e B se o payo¤ jogando cada uma dessaspossibilidades for o mesmo:

1�2 (C)� 100�2 (D) = �100�2 (C) + 1�2 (D)�2 (C) = �2 (D)

O jogador 1 irá randomizar apenas se a probabilidade do jogador 2 jogar D ou C fora mesma. Analisando essa possibilididade, façamos �2 (C) = �2 (D) = k, onde k � 0.A utilidade do jogador 2 fazendo isto será: dada por

u2 (k; k; 1� 2k) = �1 (A) (�100k + k + 0) + (1� �1 (A) (k � 100k + 0)) = k � 100k

Escolhendo o k possível que maximiza a expressão acima23 temos k = 0, o queimplica que, se o jogador 2 coloca a mesma probabilidade em jogar as estratégias C eD (a condição para o jogador 1 randomizar), então ele irá jogar E com certeza (umavez que 1� 2k, com k = 0, é igual a um)24.

Mas, para o jogador 2 não ter incentivos a desviar da estratégia de jogar E comcerteza, �1 (A) tem que ser tal que E seja a melhor resposta para o jogador 2. Portanto,o conjunto de estratégias que constituem equilíbrio de Nash é o jogador 2 jogar E e ojogador 1 aleatorizar entre A e B, desde que �1 (A) não seja inferior a 1

101 e não sejasuperior a 100

101 . Note que se �1 (A) não estiver nesse intervalo, não valeria a pena parao jogador 1 jogar E, e sim C ou D. Sendo assim, temos aqui um caso não com um,dois ou três, mas in�nitos equilíbrios de Nash, onde em todos eles o jogador 2 escolheuma estratégia pura (E) e o jogador 1 escolhe qualquer uma das mistas possíveis desdeque �1 (A) 2

�1101 ;

100101

�. O equilíbrio de Nash portanto é(

��1 = (�1 (A) ; 1� �1 (A)) tal que �1 (A) 2�1101 ;

100101

���2 = (0; 0; 1)

Vejamos a abordagem grá�ca do problema25. (Fazer)No desenho acima, está representado o payo¤ do jogador 2, com ele jogando cada

uma de suas três possibilidades para cada probabilidade possível que o jogador 1 der àssuas estratégias puras. Note que com �1 (A) 2

�1101 ;

100101

�, o melhor para o jogador 2 é

jogar E com probabilidade um. Como isto faz o payo¤ do jogador 1 (assim como o dojogador 2) igual a zero com certeza, ele pode randomizar entre suas opções e então temosos equilíbrios de Nash encontrados acima. Por sua vez, com �1 (A) <

1101 , o jogador

23A solução do problema do jogador 2, de maxku2 (k; k; 1� 2k) = �99k é tal que k� = 0.

24O que já era possível de se perceber quando derivamos a condição para o jogador 2 ser indiferenteentre C e D: nesse caso, seria melhor para ele jogar E com certeza, o que acabamos de obter aqui.25Note que não é possível (pelo menos bidimensionalmente) apresentar gra�camente o payo¤ do

jogador1 segundo as estratégias possíveis do jogador 2, uma vez que esse último possui três estratégiaspuras disponíveis.

54

Page 55: Apostila teoria dos jogos

2 pre�rirá estritamente a opção C, e então o jogador 1 jogará A com probabilidadeum, que corresponde à extrema direita do desenho e portanto não é compatível com ahipótese utilizada de �1 (A) < 1

101 . Raciocínio análogo aparece no caso de �1 (A) >100101 .

Uma nota importante a respeito de estratégias mistas que constituem equilíbriosde Nash é o fato de que os jogadores, como assinalado acima, não têm preferênciasem jogar a estratégia mista ou alguma das estratégias puras que a constitui. Alémdisso, o que determina as probabilidades em que os jogadores randomizam é a necessi-dade do outro(s) jogador(es) �car(em) indiferente(s) entre as estratégias em que ele(s)coloca(m) probabilidade positiva na(s) sua(s) estratégia(s) mista(s). Isto leva ao fatode se questionar o porquê de um jogador se preocupar em aleatorizar, dado que issonão incrementaria seu payo¤ esperado. Se o jogo for jogado várias vezes, torna-se fácilde se perceber a vantagem do comportamento aleatório, pois não procedendo assimo(s) outro(s) jogador(es) explorarão em proveito deles essa previsibilidade de compor-tamento (lembre, por exemplo, o caso do pôquer citado no início da seção). No caso deum jogo que não irá mais se repetir (ao menos com uma certa probabilidade), a questãotorna-se mais delicada. Uma resposta possível é que, na realidade, as pessoas em geralnão aleatorizam. O que elas fazem é guiarem-se por alguns sinais inconsequentes (parao jogo em si) e, a partir daí, de�nem suas opções. O importante é que o outro jogadornão perceba o signi�cado de tais sinais e enxergue o primeiro como se ele estivessealeatorizando. Voltemos ao exemplo do goleiro à frente de uma penalidade máxima.Pode ser que o jogador saiba em que lado ele irá chutar. Mas como o goleiro não temessa informação, pode acreditar que o jogador irá aleatorizar de alguma forma, e apenasisso já seria su�ciente para justi�car um comportamento aleatório de sua parte.

2.5 Aplicações

Nessa seção apresentaremos algumas aplicações do conceito de equilíbrio de Nash.Temos, ao fazer isso, dois objetivos em mente. O primeiro é mostrar o quanto podeser útil a utilização da linguagem de teoria dos jogos em situações descritas a partirdo comportamento de agentes econômicos bem de�nidos, como por exemplo as �rmasque compõem um determinado oligopólio. O segundo obejtivo é apresentar a teoriade escolha sob interdependência estratégica a partir de espaços de estratégias tão ricosquanto se queira. Ou seja, vamos trocar as situações descritas nos exemplos apresenta-dos no texto até aqui, em que cada jogador tem no máximo cinco estratégias disponíveis,por casos em que há um contínuo de possibilidades de escolha. O nosso foco principalserá a teoria de concorrência imperfeita, quando trataremos de alguns modelos canôni-cos de oligopólio e cartel. No entanto também discutiremos uma interessante situaçãode �nanciamento e provimento de um bem público.

55

Page 56: Apostila teoria dos jogos

2.5.1 Oligopólio de Cournot

Um oligopólio é uma estrutura de mercado intermediária entre os casos limites demonopólio e de competição perfetia. Nesse sentido a de�nição decorre de imediato: emum oligopólio há um número de �rmas n > 1 tal que nenhuma das �rmas é capaz,sozinha, de determinar o preço do produto no mercado (como seria o caso de umambiente monopolista) mas no entanto cada uma dessas �rmas é capaz de in�uenciarem alguma medida o preço que se estabelecerá.

O modelo de Cournot é um dos mais tradicionais modelos de oligopólios existentesna literatura. Embora originalmente, no trabalho de Cournot (1897, com a primeiraedição em 1838), não tenha sido utilizado o conceito de equilíbrio de Nash (dado queesse não havia nem mesmo sido de�nido), a abordagem é necessariamente de teoriados jogos - assim como é a maior parte da literatura moderna de organização indus-trial26. A hipótese básica do modelo é que os jogadores (as �rmas envolvidas) escolhemisoladamente a quantidade a se produzir, ignorando a escolha da(s) outra(s) �rma(s).O preço de mercado torna-se, portanto, endógeno: dada a quantidade total produzidano mercado, ele é de�nido com base na demanda agregada do setor. Outra hipóteseé que os produtos de cada �rma não são diferenciados27 pelos consumidores, i.e., sãohomogêneos. De�niremos as funções de custo de cada �rma e a de demanda do mer-cado da maneira mais simples possível, assim como faz Gibbons (1992), de modo aevitar �algebrismos�desnecessários e a destacar o mais importante, que é o processode resolução do modelo.

Segue então que o modelo de Cournot diz respeito a um jogo estático onde as �rmasescolhem simultâneamente o quanto produzir. Ainda que numa primeira aproximaçãopossa parecer estranho conceber �rmas decidindo simultâneamente, como num jogode par ou ímpar, isso tem uma apelo intuitivo imediato: signi�ca apenas que cada�rma, ao fazer a sua escolha, não sabe qual foi a escolha da rival, situação essa que éextremamente comum no mundo real. Cada �rma sabe apenas que a rival sabe que elatambém não conhece a sua escolha e que a rival sabe que ela sabe que a rival não conhecea sua escolha e assim in�nitamente. Como é habitual, o problema da �rma consiste emfazer suas escolhas de forma a obter o maior lucro possível. No entanto - e distintamente

26Grosso modo, organização industrial é o ramo da (micro)economia que estuda o comportamentodas �rmas no contexto da estrutura dos mercados em que elas estão inseridas. Em geral, essa estruturaé descrita pela demanda dos consumidores pelo bem que esse mercado produz, pela tecnologia que as�rmas utilizam e que caracterizarão a sua e�ciência relativamente às suas concorrentes e pelo grau decompetição que as �rmas enfrentam.27Duas �rmas produzem bens homogêneos se os consumidores se preocupam apenas com o preço

quando fazem a escolha de qual �rma comprar. Outros atributos como a qualidade do produto ououtras características quaisquer se tornam irrelevantes para a análise do processo de decisão de comprados consumidores. Segue que uma única curva de demanda agregada para as �rmas representa aprocura dos consumidores pelo bem em questão.

56

Page 57: Apostila teoria dos jogos

do modelo competitivo - a �rma toma sua escolha considerando o fato de que as escolhasalheias (no caso as decisões de produção de suas competidoras) vão afetar o seu payo¤,caracterizando um elemento estratégico. Basicamente, ao tomar suas decisões, as �rmasvão considerar um conjunto de restrições dadas pelas demanda dos consumidores dobem (especi�cada pela curva de demanda pelo produto), por restrições tecnológicas (queserão incorporadas na estrutura de custo de cada �rma) e por restrições de competiçãodadas pelo número e pelas características dos seus competidores.

Vamos considerar um modelo simples onde duas �rmas, 1 e 2, produzem um bemhomogêneo cuja demanda é dada por

P (Q) = a�Q

onde a > 0 e Q = q1 + q2 é a oferta da indústria, dada pela soma do produto das�rmas que compões essa indústria. Vamos considerar que para ambas as �rmas o custo�xo é nulo é que o custo marginal (aqui ao custo médio) é constante e idêntico para asempresas, (

C1 (q1) = cq1C2 (q2) = cq2

onde c 2 (0; a] por um motivo que �cará claro adiante. Podemos então representar essejogo na forma normal

G = fS1; S2; u1; u2g

tal que temos

1. os jogadores: as �rmas 1 e 2;

2. os espaços de estratégias dos jogadores, S1e S2 onde vamos supor que Si = [0; qi],i = 1; 2 . Note que nesse caso os conjuntos de escolhas das �rmas é dado peloespaço aonde as �rmas podem escolher produzir: no mínimo zero e no máximouma quantidade muito grande porém �nita;

3. a função de ganho dos jogadores, u1 e u2. No caso de �rmas, essas funções deganhos são exatamente a função de lucro de cada uma delas, dadas por(

�1 (q1; q2) = P (Q) q1 � cq1�2 (q1; q2) = P (Q) q2 � cq2

que se expressa na diferença entre a receita e o custo da �rma. Note que, como es-perado, a função de ganho caracteriza o elemento de comportamento estratégico.O ganho de cada �rma é determinado não só pela sua escolha - pela quantidadeque ela resolveu produzir - como também pela escolha da concorrente.

57

Page 58: Apostila teoria dos jogos

Como dito anteriormente, no modelo de Cournot o problema das �rmas é es-colher quantidades simultaneamente, procurando maximizar seus respectivos lucros.Tomemos o caso da �rma 1 inicialmente. O seu problema é8>>>>>>>>>>><>>>>>>>>>>>:

maxq12S1

�1 (q1; q2) = P (Q) q1 � cq1 =

=

0B@a�Q| {z }P (Q)

1CA q1 � cq1 ==

0B@a� (q1 + q2)| {z }Q

1CA q1 � cq1de modo que as condições de primeira ordem do problema acima nos mostram que

@�1@q1

= a� 2q1 � q2 � c = 0

tal que, resolvendo,

q1 (q2) =a� c� q2

2

o que nos dá exatamente a melhor resposta que a �rma 1 pode dar para toda conjecturaa respeito da produção da �rma 2. Chamamos essa expressão de �função de reação�da �rma 1 e colocamos o termo entre aspas pelo fato de se tratar de um jogo de escolhasimultânea: as �rmas não estão reagindo exatamente à uma ação que elas observaram,mas sim à uma ação esperada da(s) concorrente(s). No entanto essa expectativa nãoé tomada aleatoriamente, mas assumindo que a �rma rival está operando também nasua função de reação correspondente.

Uma outra observação relevante diz respeito à inclinação da �função de reação�.Observe que

@q1 (q2)

@q2=1

2> 0

o que nos mostra que a melhor reação que uma �rma pode tomar em relação à variaçõesna oferta da concorrente é seguir na direção contrária.

Procedendo da mesma forma para a �rma 2, decorre (faça as contas) que

q2 (q1) =a� c� q1

2

será a �função de reação�da �rma 2, a melhor resposta que ela pode dar às escolhasda rival.

Uma vez que temos em mãos as respectivas melhores respostas das �rmas, �catrivial determinar o equilíbrio de Nash desse jogo: como de�nimos anteriormente, esse

58

Page 59: Apostila teoria dos jogos

é dado pela intereseção das melhores respostas. Substituindo q2 (q1) em q1 (q2), é fácilveri�car que

q1 =1

3(a� c)

de modo que o equilíbrio de Nash desse jogo é dado por

(q�1; q�2) =

�1

3(a� c) ; 1

3(a� c)

�Como qi 2 [0; qi], concluímos que a � c. A oferta da indústria é

Q = q1 + q2 =1

3(a� c) + 1

3(a� c) = 2

3(a� c)

e o preço de mercado

P (Q) = a�Q = 1

3(a+ 2c)

de modo que o lucro da �rma 1 seria

�1 = P (Q) q1 � cq1 = q1 (P (Q)� c)

=

�1

3(a� c)

� �1

3(a+ 2c)� c

�=

1

9(a� c)2

Analogamente,

�2 =1

9(a� c)2

Por �m note que as hipóteses utilizadas de que há apenas duas �rmas com es-truturas de custos idênticos produzindo são apenas para simpli�car a nossa análise.Nos exercícios essas hipóteses são violadas e são dadas chances a vocês de entender oque muda com isso. Na verdade, não há problemas algum em relaxá-las. Mostraremosabaixo o caso onde existem n oligopolistas e manteremos a hipótese de custos marginaisiguais entre as �rmas, apenas para obter um resultado de comparação mais fácil com ocaso inicial, com duas �rmas. Resolva como exercício o duopólio de Cournot onde, porexemplo, o custo marginal das duas �rmas se diferem, comparando os resultados comos obtidos acima.

Utilizando a mesma estrutura anterior, teremos certamente quantidades produzidasidênticas para todas as n �rmas, uma vez que suas estruturas de custos são as mesmas,o que de resto vai caracterizar um equilíbrio simétrico. Segue o problema de uma �rma

59

Page 60: Apostila teoria dos jogos

i qualquer é

max�iqi

= fP (Q) qi � cqig

= f(a�Q) qi � cqig= f(a� q1 � q2 � :::� qi � :::� qn) qi � cqig

=

8<:0@a� nX

j=1

qj

1A qi � cqi9=;

de modo que as CPO�s nos mostram que

a� 2qi �nXj=1j 6=i

qj � c = 0.

A �função de reação�do jogador i é dada por

qi (q�i) =1

2

0BB@a� c� nXj=1j 6=i

qj

1CCAonde, notemos, @qi(q�i)

@qj< 0 8j 6= i; a função de reação, como usual em Cournot,

tem inclinação negativa. Nesse ambiente, com bens homogêneos e tecnologias similares(função custo), a implicação imediata de um equilíbrio simétrico é que, em equilíbrio,

q1 = q2 = ::: = qn, de modo quenPj=1j 6=i

qj = (n� 1) qi. Segue que a expressão acima �ca

a� 2qi �nXj=1j 6=i

qj � c = a� (2 + (n� 1)) qi � c = 0

Logo, em equilíbrio,

qi =1

n+ 1(a� c) > 0 para a > c.

O equilíbrio de Nash28 desse jogo é portanto cada �rma produzir 1n+1 (a� c). A oferta

da indústria e o preço do produto serão, respectivamente,8<: Q =nPj=1

qj =nn+1 (a� c)

P (Q) = a�Q = a+ncn+1

.

28Note que obtemos um resultado genérico. Veja o que ocorre quando n = 2 e compare o equilíbriodesse jogo. Faça o mesmo para a oferta da indústria, o preço de mercado e o lucro de cada �rma.

60

Page 61: Apostila teoria dos jogos

Segue que o lucro da i-ésima �rma em equilíbrio será

�i = P (Q) qi � cqi = (P (Q)� c) qi

=

�a+ nc

n+ 1� c�

| {z }P (Q)�c

�1

n+ 1(a� c)

�| {z }

qi

=1

(n+ 1)2(a� c)2 , i = 1; 2; :::; n

Se n ! 1, então podemos veri�car (L�Hopital) que a oferta da indústria e o preçoserão, respectivamente, (

Q = a� cP (Q) = c

e o lucro de equilíbrio�i = 0, i = 1; 2; :::; n

caracterizando um equilíbrio em competição perfeita (veri�que). Se n = 1, então8><>:Q = 1

2 (a� c)P (Q) = 1

2 (a� c)�i =

14 (a� c)

2

como esperaríamos em um monopólio.Dito de outra menira, quanto maior for o número de �rmas do mercado, n, menor

será a produção de cada �rma. Particularmente, se existirem apenas duas �rmas,voltaríamos ao caso anterior, como mostramos. Por outro lado, se n tende a in�nito, aprodução tende a zero, denotando o reduzido espaço que cada uma teria no mercado.

Note por �m que o resultado acima nos dá outra interpretação genérica para esseambiente: se a estrutura da indústria for um duopólio, o mercado corresponderá aapenas 2/3 do mercado de concorrência perfeita. Para uma indústria com 3 �rmas,seria 3/4. Para 4 �rmas, 4/5 e assim sucessivamente dado pelo termo n

n+1 .

Estabilidade do equilíbrio de Nash: cartel no modelo de Cournot Uma daspropriedades dos resultados de equilíbrio (de Nash) em jogos estáticos de informaçãocompleta diz respeito à estabilidade desse resultado. Nesse sentido dizemos que oequilíbrio de Nash é um resultado �estrategicamente estável�, o que signi�ca que, umavez que os jogadores tenham identi�cado o equilíbrio de Nash do jogo, nenhum delestem qualquer incentivo para se desviar e jogar uma outra estratégia fora do equilíbrio.

Na verdade esse tipo de questão é totalmente pertinente quando consideramos jogoscomo Dilema dos Prisioneiro, abaixo representado na sua forma estratégica.

61

Page 62: Apostila teoria dos jogos

2não confessa confessa

1 não confessa �1;�1 �9; 0confessa 0;�9 �6;�6

Como sabemos, o único equilíbrio de Nash desse jogo é (C;C), ainda que não sejaum resultado e�ciente. É fácil ver que (NC;NC) é um resultado em que ambos osjogadores estão melhores do que no equilíbrio. A questão que surge é se há algum tipode arranjo que pode ser feito entre os jogadores de forma a dar suporte a (NC;NC)como resultado do jogo. Por exemplo, podemos permitir que haja comunicação entre osjogadores, de modo que eles estabeleçam um compromisso mútuo sobre as suas escolhas.Ainda que isso seja possível (a comunicação e o compromisso) restaria questionar seesse acordo seria merecedor de credibilidade. Isso é, deveríamos acreditar que algumdo jogadores de fato iria cumprir a sua promessa e adotar a estratégia acordada com ooutro jogador? A resposta a essa pergunta é um estrondoso não! Se foi feito o acordoe ambos prometram �não confessar�, ainda assim devemos esperar que o resultado dojogo seja o equilíbrio de Nash, (C;C). É fácil ver porque: uma vez que o acordo foi feito,cada jogador se questionaria sobre a sua escolha. Se ele acredita que o outro jogador irácumprir o compromisso, a melhor resposta que ele pode dar a essa posição ainda assimé �confessar�. Nesse caso seu ganho seria de 0 e o do oponente seria �9. Em uma outraconjectura, se ele por algum motivo crê que o outro jogador não cumprirá o acordo,�confessa�continua sendo a melhor resposta. Se �zermos um raciocínio análogo para ooutro jogador a resposta seria a mesma. Concluímos portanto que o compromisso nãoé crível e que o resultado do jodo de fato será o equilíbrio de Nash.

Para ilustrarmos o que foi dito acima, considere o oligopólio de Cournot acimadescrito. Nesse mesmo ambiente, considere agora o que seria a escolha ótima de ummonopolista. Ou seja, considerando que haja apenas uma �rma nesse mercado - a suaoferta é igual à oferta da indústria, Qm = qm- o problema dessa �rma é

maxqm2Sm

�m = P (qm) qm � cqm = (a� qm) qm � cqm

de modo que

qm =1

2(a� c) = Qm

menor do que a oferta da indústria em duopólio, como esperado. O preço em monopólioserá maior

P (qm) =1

2(a+ c)

62

Page 63: Apostila teoria dos jogos

e o lucro do monopolista será também maior do que o lucro dos duopolistas em Cournot,

�m = (P (qm)� c) qm =�1

2(a+ c)� c

��1

2(a� c)

�=

1

4(a� c)2

Mas mais do que maior do que o lucro dos duopolistas em Cournot, podemosveri�car que o lucro de monopólio é mais do que duas vezes maior que o lucro das�rmas em competição,

�m2=1

8(a� c)2 > �i =

1

9(a� c)2

Emerge então uma questão natural natural: talvez devêssemos esperar que os duopolis-tas de Cournot se coordenassem e constituíssem um cartel de forma a aumentar o seupoder de determinação do preço de mercado. Nesse acordo, cada �rma produziria ametade da quantidade de monopólio, qi =

qm2 = 1

4 (a� c), tal que a oferta da indústriaseja aquela de monopólio, Q = q1 + q2 = qm, o preço seria o mesmo de monopólio,P (Q) = P (qm) =

12 (a+ c), e o lucro da INDÚSTRIA seria o lucro de monopólio,

14 (a� c)

2. Como cada �rma produziu a mesma quantidade, elas dividiriam o lucro daindústria igualmente, de modo que os lucros seriam

�i =1

8(a� c)2 , i = 1; 2

que seriam os lucros das �rmas em cartel. Como ambas as �rmas estão melhor se co-ordenando em cartel do que competindo em Cournot, podemos imaginar num primeiromomento que essa arranjo de fato seria a estratégia ótima a ser adotada pelas �rmas.No entanto, pelo argumento desenvolvido no começo dessa seção, restaria analisar seo cartel é um equilíbrio, no sentido de, uma vez que ele seja constituído, nenhum dosjogadores, das �rmas, venha a ter incentivos para desviar do compromisso de produzirexatamente a quantidade acordada, 14 (a� c).

Considere então uma situação em que o cartel foi constituído e que as �rmas con-cordaram sobre o plano de produção acima descrito. Vejamos o caso da �rma 1 - ocaso da �rma decorre por analogia de imediato. Há duas conjecturas que a �rma 1pode fazer sobre o comportamento da �rma 2, quais sejam (i) a �rma 2 vai cumprir oacorddo e (ii) a �rma 2 não vai cumprir o acordo. No caso (ii) a melhor resposta que a�rma 1 pode dar é não cumprir o acordo também e se estabeleecer uma competição deCournot, com os payo¤s dados pelos valores acima descritos. Esse resultado está rep-resentado no jogo abaixo. Vejamos qual é problema da �rma 1 quando ela conjecturaque a �rma 2 vai cumprir o acordo feito na constituição do cartel.

Nessa hipótese de o cartel ter sido constituído e 2 respeitá-lo, o problema de otimiza-ção da �rma é escolher a sua oferta de forma a maximizar o seu lucro, dado que a �rma

63

Page 64: Apostila teoria dos jogos

2 está cumprindo o acordo e produzindo q2 = 14 (a� c). Ou seja, como era de se es-

perar, a �rma 1 vai incorporar no seu processo de decisão a informação de que a outra�rma estaria respeitando o acordo. Isto é, o seu problema seria

maxq12S1

��1=q2 =

1

4(a� c)

�= max

q12S1

�P (Q) q1 � cq1=q2 =

1

4(a� c)

�= max

q12S1

�(a�Q) q1 � cq1=q2 =

1

4(a� c)

�= max

q12S1

�(a� q1 � q2) q1 � cq1=q2 =

1

4(a� c)

�= max

q12S1

�a� q1 �

1

4(a� c)

�q1 � cq1

de modo que as condições de primeira ordem nos mostram que(a� 2q1 � 1

4 (a� c)� c = 0q1 =

38 (a� c) >

14 (a� c)

Concluímos portanto que seria ótimo para �rma 1 não cumprir o acordo e produziruma quantidade maior do que aquela estabelecida no cartel. Essa otimalidade �caclaro quando notamos que a oferta da indústria será

Q =5

8(a� c)

e o preço

P (Q) =3a+ 5c

8de onde segue que o lucro da �rma 1 seria

�1 = (P (Q)� c) q1

=

�3a+ 5c

8� c�3

8(a� c)

=9

64(a� c)2 > 1

8(a� c)2

Note que o lucro da �rma 1 seria superior ao lucro de cartel, o que nos permite concluirque a �rma teria incentivos a não respeitar o acordo com a �rma 2 e produzir umaquantidade maior do que aquela acordada. Já o lucro da �rma 2 seria

�2 = (P (Q)� c) q2

=

�3a+ 5c

8� c�1

4(a� c)

=3

32(a� c)2 < 1

9(a� c)2

64

Page 65: Apostila teoria dos jogos

auferindo ganhos menores do que aqueles que ela teria se engajasse em uma competiçãocom a �rma 1. Podemos desenvolver um raciocínio análogo para a �rma 2 e gerar, porsimetria, resultados semelhantes. Segue que na forma normal esse jogo seria exatamenteum Dilema dos Prisioneiros, como abaixo descrito,

�rma 2cartel compete

�rma 1 cartel 18 (a� c)

2 ; 18 (a� c)2 3

32 (a� c)2 ; 964 (a� c)

2

compete 964 (a� c)

2 ; 332 (a� c)2 1

9 (a� c)2 ; 19 (a� c)

2

onde o único equilíbrio de Nash é competir em Cournot. Podemos ver que o payo¤associado ao cartel é estritamente maior do que o ganho de equilíbrio para ambas as�rmas, de modo que o equilíbrio não é e�ciente. No entanto o acordo não é crível namedida em que nenhuma das �rmas tem incentivos a jogar nenhuma estratégia quenão aquela(s) que compõem o equilíbrio de Nash do jogo: o equilíbrio de Nash é umresultado (estrategicamente) estável.

Antes de discutirmos o resultado acima a partir de um exemplo no mundo real,considere uma palavra de precaução. O que a análise mostrou não foi que cartéis nãoexistem ou mesmo que não devemos esperar que venham a existir. O que mostramosfoi que nessa estrutura, analisando um jogo estático de informação completa NÃOREPETIDO, o cartel não é um resultado crível. Não obstante, podemos adiantar quemesmo em situações em que o cartel possa ser caracterizado como uma estratégia deequilíbrio, haverá um componente de instabilidade signi�cativo. O ponto é que emrelacionamenteos repetidos, onde os jogadores usam suas respectivas reputações (o queeles �zeram no passado) para suportar esse resultado de cartel, a constituição de umsistema penal entre os jogadores que dê lastro ao compromisso pode ser extremamentecomplexa e via de regra vai estar sujeita a choques que irão comprometer essa credi-bilidade ao longo do tempo.

O Cartel da OPEP Um dos exemplos clássicos de comportamento colusivo paraa determinação do preço de uma mercadoria diz respeito ao mercado internacional depetróleo. O cartel da OPEP (Organização dos Países Exportadores de Petróleo) foiformado em 1960 pela Arábia Saudita, Venezuela, Kuwait, Iraque e Irã como respostaaos esforços de re�narias americanas (lideradas pela Standard Oil) para reduzir ospreços dos que elas estavam pagando pelo óleo importado dessas regiões29. Até o

29Nesse sentido o cartel da Opep - que busca manter o preço do petróleo em um nível acima daqueleque vigoraria em caso de competição - surge com uma resposta ao comportamento de um cartel decompradores no sentido de reduzir o preço do produto.

65

Page 66: Apostila teoria dos jogos

boicote de 1972, a OPEP tinha pouco impacto sobre o mercado mundial e apenas nocomeço dos anos 80 a organização tentou explicitamente aumentar o preço do óleo30.

A estratégia adotada para manter altos preços foi similar à descrita acima nessanota. Os países membros deveriam restringir a sua produção; ou eles acabariam pro-duzindo uma quantidade maior do que a demanda mundial, convergindo para umasituação de competição perfeita. Nesse sentido cada país acordou em respeitar umaquota de produção, de modo que em 1982 a OPEP determinou um produto limitediário de 18 milhões de barris de petróleo - em 1979 havia sido de 31 milhões barris -e o preço chegou a US$ 34,00 por barril. No arranjo �rmado entre os membros, cadapaís tinha uma quota individual de produção, exceto a Arábia Saudita, que era o maiorprodutor e que �cou responsável em ajustar a sua oferta como necessário para manteros preços.

Como argumentamos no modelo apresentado acima, o estabelecimento e a manutençãode um cartel não é algo trivial de se conseguir. No caso da OPEP não foi diferente.Não obstante o baixo número de membros e a natureza pública das informações comrelação ao cumprimento ou não das quotas estabelecidas, via de regra o acordo eraquebrado. Em algumas situações a Arábia Saudita colocou no mercado um volume depetróleo que fazia com que o preço do barril estivesse abaixo daquele estabelecido noacordo, auferindo dessa forma lucros acima daqueles que obteria se cumprisse o acordoe provocando perdas aos outros países que respeitaram as suas quotas. Outro exem-plo interessante de violação do cartel ocorreu durante o período da guerra Irã-Iraque(1980-1985), quando não raramente o volume total ofertado de óleo excedia aqueleacordado entre os países. Esse tipo de comportamento acabou abarrotando o mercadode petróleo e, a despeito dos esforços da Arábia Saudita para controlar a ofeta global,os preços despencaram. Além de todas essas questões relacionadas à instabilidade doarranjo arquitetado entre os países, ocorreram várias disputas envolvendo empresas quenão pertenciam ao cartel, como a British National Oil Company que estabeleceu umpreço de US$ 3,00 em 1983, provocando uma guerra de preços com alguns dos paísesmembros da Opep. Hoje em dia a produção da Opep ocupa pouco menos do que 30%do mercado mundial de petróleo. Com o preço do barril estando abaixo dos US$ 20,00,o efeito do cartel sobre a determinação desse preço é em certa medida negligível.

Em vários outros mercados de commodities tem havido esforços para cartelização,como café, chá etc. Alguns destes têm experimentado algum sucesso no curto prazo,como foi o caso dos produtores de bauxita e urânio, mas não se sustentaram ao longodo tempo - uma excessão digna de crédito diz respeito à produção de diamantes. Emgeral, a maioria dos cartéis internacionais têm se mostrado ine�cazes em afetar de uma

30Um ponto relevante nesse ambiente diz respeito aos aspectos legais desse tipo de comportamentocolusivo. Na medida em que a OPEP é controlada por países, as leis antitrustes das demais a naçõesnão têm alcance sobre as medidas de�nidas pela organização.

66

Page 67: Apostila teoria dos jogos

maneira substancial os preços por um longo período de tempo.

2.5.2 Oligopólio de Bertrand

� Betrand (1883): como Cournot, trata-se de um jogo de escolha simultânea e deinformação completa, mas aqui as �rmas competem entre si via escolha de preço,não de quantidade.

� Hipóteses:

� duas �rmas, 1 e 2, que produzem um bem homogêneo.

� custo �xo é nulo e o custo marginal é contante e idêntico para ambas as�rmas, c > 0.

� assuma uma curva de demanda linear (para compararmos com Cournot) noproduto total

Q = a� p

onde p é o preço de mercado.

� as �rmas declaram simultaneamente os preços e se dispõem a ofertar tudo o quefor demandado àqueles preços.

� os consumidores compram da �rma que cobra mais barato: segue que a �rmaanuncia o menor preço detém todo o mercado enquanto a outra �rma �caforma do mercado.

� se ambas as �rmas declaram o mesmo preço, então elas dividem o mercadoigualmente, cada uma uma com metade.

� o lucro de cada �rma, como habitual, depende não apenas de sua própria escolhamas também é afetado pela escolha da rival. Tome o caso da �rma 1, por exemplo,seu lucro será

�1 (p1; p2) =

8><>:(p1 � c) (a� p1) se c < p1 < p212 (p1 � c) (a� p1) se c < p1 = p20 caso contrário

� note que o lucro de 1 é positivo se p1 > c. Além disso, ele será tanto maiorse seu preço for menor do que o da rival e apenas a metade se for igual.Por �m o lucro nunca será negativo na medida em que cada �rma tem aprerrogativa de cobrar um preço igual ao custo marginal e assegurar lucro 0na pior das hipóteses.

67

Page 68: Apostila teoria dos jogos

� como a situação é a mesma para a �rma 2, vamos restringir nossa atençãopara preços tais que

pi � c, i = 1; 2

� qual o equilíbrio de Nash desse mercado?

� paradoxo de Bertrand: o único equilíbrio de Nash será ambas as �rmascobrarem um preço igual ao custo marginal e ambas terem lucro zero.

� como a função lucro é descontínua, nós não podemos mostrar esse resul-tado pelos argumentos padrões, diferenciando e resolvendo as condições deprimeira ordem.

� então, o que fazer???

� observe que a �rma com o menor preço detém todo o mercado. Segue que cada�rma tem um incentivo a anunciar um preço menor do que o da rival. Em últimainstância, isso direcionará o preço de equilíbrio para baixo, até o custo marginal.Vejamos agora o argumento formal para isso.

1. note que um equilíbrio de Nash do jogo é cada �rma cobrar o custo marginal:nesse caso cada �rma tem metade do mercado e aufere lucro zero porquecada unidade é vendida ao seu custo de produção.

� porque é um equilíbrio? Se ela elevar seu preço, ela perderá toda ademanda que tinha posto que o preço da rival será estritamente menor!nenhuma �rma tem incentivos a desviar.

� segue que não é possível que nenhuma �rma tenha lucro maior do quezero, de modo que a escolha de preço de cada �rma é ótima dada aescolha alheia (melhor resposta).

2. agora vamos mostrar que não há outro equilíbrio de Nash. Como cada �rmai = 1; 2 escolhe pi � c, é su�ciente mostrar que não há equilíbrio para pi > c.Então, deixe (p1; p2) ser um equilíbrio.

� se p1 > c, então porque p2 maximiza o lucro de 2 dada a escolha de 1,teremos p2 2 (c; p1], de modo a ter um lucro estritamente positivo - foradesse intervalo seria nulo.

� além disso, p1 6= p2, pois se �rma 2 pode ter lucro positivo escolhendop2 = p1 e dividindo o mercado com 1, ela pode ter um lucro maiorainda cobrando um preço um pouco abaixo de p1 e desfrutando de todoo mercado quase ao mesmo preço. Logo

p1 > c ! p2 > c e p2 < p1

68

Page 69: Apostila teoria dos jogos

�mas para uma estória similar para as �rmas com os papéis trocados

p2 > c ! p1 > c e p1 < p2

de modo que se o preço de uma �rma está acima do custo marginal,ambos os preço devem estar acima do custo marginal e cada �rma deveanunciar um preço um pouco menor do que a rival, o que é impossível.

� no modelo de Bertrand, o preço será igual ao custo marginal com apenas duas�rmas. Isso está em forte contraste com o que ocorre em Cournot, onde a diferençaentre o preço e o custo marginal cai apenas na medida em que o número de �rmasno mercado aumenta.

2.5.3 Oligopólio de Bertrand com bens diferenciados

Os modelos de Cournot e Bertrand que apresentamos acima são modelos que tomascomo hipótese que as �rmas produzirão um bem homogêneo e nesse sentido a ínicavariável que vai distinguir esse bem aos olhos dos consumidores é o preço. Na ver-dade, essa hipótese poderia ser relexada naquele ambiente, mas vamos tomar isso comomotivação para abordarmos o modelo de Bertrand (Joseph Louis François Bertrand,1822-1900), que toma um modelo que em certa medida se assemelha com Cournot - porse tratar de um jogo simultâneo - e no entanto tem uma característica que o distingue,qual seja o fato de que a variável de escolha das �rmas é o preço.

Nesse sentido trataremos novamente de um duopólio onde duas �rmas, 1 e 2, pro-duzem bens difereciados31 onde a demanda por cada um dos bens é dada por(

q1 (p1; p2) = a� p1 + bp2q2 (p1; p2) = a� p2 + bp1

onde a > 0 e b > 0. O fato de que b > 0 re�ete o grau em que o produto de uma das�rmas é substituto do produto da outra. Como no modelo anterior, e sem perda degeneralidade, vamos assumir que não há custo �xo para as �rmas produzirem e que ocusto marginal é constante e igual a c > 0.

Na forma normal temos (i) os jogadores, que são as �rmas 1 e 2, (ii) o espaço deestratégia de cada �rma, que em Bertrand é dado pelo conjunto no qual as �rmaspodem estabelecer seu preço, pi 2 (0; p] ; i = 1; 2 e que supomos ser tal que a �rmacobra no mínimo um preço muito baixo mas positivo pelo bem e no máximo um preçomuito alto porém de�nido tal que o conjunto (0; p] seja compacto e (iii) a função deganho de cada jogador que, no caso de �rmas, é dada pela função lucro, �i (p1; p2),

31Aqui, diferente do caso de bens homogêneos, os produtos se distinguem aos olhos dos consumidorespotenciais não mais apenas em função de preços, mas também em função de outras características, físi-cas ou não, tais que torna-se necessário especi�car para cada produtor uma curva de demana particular.

69

Page 70: Apostila teoria dos jogos

i = 1; 2 e que caracteriza a interação estratégica entre as partes na medida em que ospayo¤s de cada jogador são afetados pelas escolhas alheias. O problema de uma �rmaqualquer, por exemplo da �rma 1, é portanto

maxp12(0;p]

�1 = p1q1 (p1; p2)� c1 (q1)

= p1 [a� p1 + bp2]� c [a� p1 + bp2]= (p1 � c) [a� p1 + bp2]

tal que as condições de primeira ordem nos mostram que

a� 2p1 + bp2 + c = 0

tal que

p1 (p2) =a+ c+ bp2

2

é a �função de reação� da �rma 1 e nesse sentido nos diz qual é a melhor respostaque a �rma 1 pode dar às eventuais escolhas da �rma 2. Note agora que @p1(p2)

@p2=

b2 > 0 tal que, ao contrário de de Cournot, em Bertrand a função de reação das �rmastem inclinação positiva, o que nos diz que a melhor resposta que uma �rma podedar à variações nos preços das concorrentes é seguir na direção oposta, reduzindo ouaumentando seus preços de forma a maximizar os seus ganhos.

Fazendo raciocínio análogo para a �rma 2, temos

p2 (p1) =a+ c+ bp1

2

tal que torna-se trivial encontrar o equilíbrio de Nash na medida em que tenhamosentendido o conceito como uma interseção de melhores respostas dos jogadores. Susti-tuindo p2 (p1) em p1 (p2) obtemos

p1 =a+ c

2+b

2

�a+ c+ bp1

2

�4p1 = 2 (a+ c) + b (a+ c) + b2p1�

4� b2�p1 = (2 + b) (a+ c)

p1 =a+ c

2� b

Analogamente para a �rma 2,

p2 =a+ c

2� btal que o equilíbrio de Nash é cada �rma cobrar o preço

p�1 = p�2 =

a+ c

2� b

70

Page 71: Apostila teoria dos jogos

Para pi 2 (0; p] e (a; b; c) � 0 temos que b 2 (0; 2). Com isso em mãos, a oferta da�rma i = 1; 2 será

qi (p1; p2) = a��a+ c

2� b

�+ b

�a+ c

2� b

�; i = 1; 2

qi (p1; p2) =a� c+ bc2� b , i = 1; 2

e o lucro de cada �rma será dado por

�i =

�a� c+ bc2� b

�2; i = 1; 2.

de modo que as �rmas têm lucro positivo.

2.5.4 O problema dos comuns

Nesta seção apresentaremos um exemplo de aplicação de teoria dos jogos - especi-�camente de jogos estáticos de informação completa, que é o nosso objeto de análiseaté aqui - que não seja um oligopólio. Novamente tratamos de uma situação em queo espaço de estratégias dos jogadores é tão rico quanto se queira e em que a presençade interação estratégica tem implicações diretas sobre o comportamento dos agenteseconômicos envolvidos na situação.

Pelo menos desde David Hume (1739), �lósofos e economistas compreendem quese os cidadãos respondem apenas a incentivos privados, haverá uma subprovisão debens públicos e os recursos públicos serão sobre-utilizados. Hoje em dia, mesmo umaanálise casual do meio-ambiente da terra revela a força dessa idéia. Vamos analisaressa situação através de um exemplo bucólico.

Considere uma vila povoada por n > 1 famílias de fazendeiros cuja atividade prin-cipal seja a criação de bodes. Em cada verão, todos os fazendeiros levam seus animaispara se alimentar em um pasto da vila que pertence a todas as famílias da vila - ou seja,esse pasto é um bem público32. Denote o número de bodes que o i-ésimo fazendeirotem por gi, de modo que o número total de bodes da vila é

G =nPi=1gi = g1 + g2 + :::+ gn

O custo de comprar e criar um bode é dado por c > 0, independente do número debodes que o fazendeiro possui. O valor para um fazendeiro de levar um bode parapastar na área pública quando há G bodes pastando é v (G) por bode. Como um bode

32Relembre a de�nição de bem público em algum manual de micro. Aqui estamos supondo que opasto é um bem não-excludente e não-rival. Mas... o que isso signi�ca mesmo?

71

Page 72: Apostila teoria dos jogos

precisa de no mínimo de um certo montante de grama para sobreviver, há um númeromáximo de bodes que pode pastar no gramado, de modo que(

v (G) > 0 para G < Gmaxv (G) = 0 para G � Gmax

Além disso, como os primeiros bodes a pastar encontram grama em abundância, adi-cionar um animal a mais na área comum implica em um pequeno dano para aquelesque já estão se alimentanto, mas quando muitos bodes já estão pastando (um númerotão grande que eles se alimentam apenas para sobreviver), então a adição de um bodea mais no gramado provoca um dano dramático dos demais animais. Formalmente,para G < Gmax

v0 (G) < 0 e v00 (G) < 0

como na �gura abaixo�gura - aqui

Durante a primavera, os fazendeiros escolhem simultaneamente o tamanho de seurebanho. Assuma que os animais sejam continuamente divisíveis. Uma estratégia paraum fazendeiro i 2 n qualquer é a escolha do número de bodes ele levará para pastarno campo da vila, gi 2 [0; Gmax]. O payo¤ desse fazendeiro quando leva gi bodes parapastar e o número de bodes pastando dos demais fazendeiros é g1 + g2 + ::: + gi�1 +gi+1 + :::+ gn é dado por

ui (gi; g�i) = giv (G)� cgi= giv (g1 + :::+ gi + :::+ gn)� cgi

Logo, se�g�i ; g

��i�é um equilíbrio de Nash do jogo, então, para cada jogador i 2 n,

g�i deve maximizar ui (gi; g�i) dado que os demais fazendeiros escolhem g��i. As cpo�sdesse problema implicam que

@ui (gi; g�i)

@gi= v

�gi + g

��i�+ giv

0 �gi + g��i�� c = 0ou ainda,

v (G�) + g�i v0 (G�)� c = 0

condição que é verdade para todo fazendeiro i = 1; 2; :::; n. Somando para esses nfazendeiros, temos

nv (G�) +G�v0 (G�)� nc = 0

ou melhor,

v (G�) +1

nG�v0 (G�)� c = 0

72

Page 73: Apostila teoria dos jogos

onde G� =nPi=1g�i = g

�1+g

�2+ :::+g

�n. Por outro lado, o ótimo social, denotado por G

��,

decorre do problema demax0�G<

Gv (G)� cG

tal que as cpo�s nos mostram que

@ [Gv (G)� cG]@G

= v (G��) +G��v0 (G��)� c = 0

Proposição 42 Comparando as duas expressões, podemos mostrar que G� > G��.

Prova. Suponha que não, que G� � G��. Nesse caso, como v0 < 0, então v (G�) �v (G��). Do mesmo modo, como v00 < 0, então 0 < v0 (G�) � v0 (G��). Por �m,G�

n < G��. Logo, o lado esquerdo do problema de Nash excede o lado esquerdo doproblema social, o que é impossível na medida em que ambos são iguais a zero.

O fato de que G� > G�� implica que há muitos bodes pastando no campo públicoquando comparado com a quantidade que seria desejável do ponto de vista social. Ascpo�s do problema de Nash re�etem os incentivos que têm um fazendeiro que já tem gibodes pastando mas que está considerando adicionar um animal a mais no pasto (ou,falando corretamente, um fração de um bode). O valor do bode adicional é v

�gi + g

��i�

e seu custo é c. O dano aos fazendeiros cujos bodes que já estão pastando é v0�gi + g

��i�

por bode, ou giv0�gi + g

��i�no total. O recurso comum é sobre-utilizado porque cada

fazendeiro considera apenas os seus próprios incentivos, não os efeitos de suas açõessobre os demais fazendeiros, como mostra a presença de G

�v0(G�)n no problema de Nash

ao invés de G��v0 (G��) do ótimo social.

73

Page 74: Apostila teoria dos jogos

3 Jogos Dinâmicos de Informação Completa

Essa seção inicialmente abordará jogos de informação completa que tenham tambéminformação perfeita. Isto é, quando escolhem suas estratégias, os jogadores sabem qualfoi toda a história pregressa do jogo até então, o que não ocorria nos jogos vistos atéaqui, onde cada jogador não sabia, não observava, o que demais jogadores tinham feito.De outra forma, antes o jogo ocorria como se fosse simultâneo (estático) - agora iremostrabalhar com jogos em que as escolhas dos jogadores se dão sequencialmente. Essesjogos são ditos jogos dinâmicos. No �nal da seção, analisaremos também situações quesejam parcialmente dinâmicas e parcialmente estáticas. Ou seja, trabalharemos comjogos dinâmicos ditos jogos de informação imperfeita, que são jogos com movimentossequenciais dos jogadores, mas que não seja necessário que todos os jogadores saibamtoda a história pregressa do jogo. O que caracteriza a informação completa é queos payo¤s dos jogadores para cada combinação de movimentos são de conhecimentocomum (�common knowledge�).

A questão central nos jogos dinâmicos diz respeito à credibilidade das ameaças epromessas dos agentes. Às vezes, por exemplo, pode ser ótimo saber que o outro jogadorobserva sua atitude antes de tomar suas decisões. Essas questões serão detalhadasdurante esta seção e na próxima.

Exemplo 43 Sequestro com granada33.

Suponha que um sequestrador possa fazer apenas uma ameaça a seu sequestrado:caso esse último não lhe dê um cheque de R$1.000.000,00 , ele irá explodir uma granadano esconderijo em que estão, que certamente matará ambos. A vítima pode lhe daro cheque ou não. O que você faria? Supondo que o sequestrador é racional, comousualmente se faz, você não deveria fazer o cheque. É claro que o sequestrador nãogostará disso, mas, uma vez que você resolveu não dar o cheque, o melhor que ele podefazer é não explodir a granada, pois isso pioraria muito o seu bem-estar. Portanto,o equilíbrio (como iremos de�nir abaixo) neste jogo será você não fazer o cheque e osequestrador, ainda que �malvado�, não explodir a granada. O ponto fundamental éque a ameaça do sequestrador não é crível, pois se ele a cumprir ele se prejudicará maisque se não a cumprisse. O sequestrado, estando ciente disso, não deve deixar se levarpor uma ameaça que não será cumprida34.

33Baseado em Gibbons (1992).34Estamos supondo aqui que o sequestrador é racional (faz o melhor para ele mesmo) e que morrer

é a pior coisa que pode ocorrer a ele. Obviamente, se ele aparentar sinais de pouca lucidez ou, mesmoem sã consciência, não estiver aparentando dar muito valor à vida ou pertencer a seitas radicais ouqualquer coisa que o valha, então é claro que será preferível ao sequestrado fazer o cheque, preservandosua própria vida.

74

Page 75: Apostila teoria dos jogos

3.1 Forma Extensiva

Nós representamos os jogos até agora apenas pela forma normal (ou estratégica).Veremos, entretanto, que há uma outra forma de representação: a forma extensiva, umaforma mais detalhada do que a forma normal. Segue daí que um jogo na forma extensivaem geral sofre perdas de informação quando o passamos para a forma normal, enquantoo inverso nem sempre é possível de se fazer. Nos jogos estáticos, não há problemas emtratá-lo apenas na forma estratégica, sendo inclusive mais conveniente. Todavia, issocom certeza ocorreria nos jogos dinâmicos. Por isso, os abordaremos utilizando a formaextensiva.

Um jogo (de informação completa e perfeita) na forma extensiva nos dá as seguintesinformações:

� quais são os jogadores participantes,

� quais são as ações possíveis para cada jogador em cada vez em que ele for chamadoa decidir,

� a ordenação do jogo: quem age e quando,

� toda a história pregressa do jogo quando cada jogador tem de tomar uma decisão,

� os payo¤s dos jogadores para cada conjunto possível de ações que tenham sidotomadas, até o �nal do jogo.

Exemplo 44

Na �gura acima temos a representação de um jogo na forma extensiva. Por con-venção (mas, novamente, nem sempre) o jogador 1 (j.1) é o primeiro a jogar. Esse pontoé dito "nó inicial"e é único, no sentido a �car claro ao longo do texto. Esse jogadorpode jogar duas estratégias, ou e ou d. Diferentemente de jogos estáticos, agora ojogador 2 observa a escolha de 1 e só então faz a sua escolha. Ele também ou joga e oujoga d. No entanto é fundamental dizer que em jogos dinâmicos a noção de estratégia(e de conjunto de estratégias) de um jogador é mais complexa do que a mesma noção

75

Page 76: Apostila teoria dos jogos

em jogos de escolha simultânea. Aqui uma estratégia deve ser vista como "um planocompleto de ação", deve especi�car para o jogador em questão as suas possibilidadesde ação contingentes à todas as ações possíveis dos jogadores que jogaram antes35 dele.No jogo acima, por exemplo, o espaço de estratégias do jogador 2 é

S2 =

8>>><>>>:(jogar e dado que o jogador 1 jogou e, jogar e dado que o jogador 1 jogou d),(jogar e dado que o jogador 1 jogou e, jogar d dado que o jogador 1 jogou d),(jogar d dado que o jogador 1 jogou e, jogar e dado que o jogador 1 jogou d),(jogar d dado que o jogador 1 jogou e, jogar d dado que o jogador 1 jogou d)

9>>>=>>>;Uma vez que os jogadores 1 e 2 �zeram as suas escolhas, o payo¤s são dados pelosnúmeros situados após os últimos nós de decisão, ditos nós terminais. Por convenção, oprimeiro número se refere ao payo¤ do jogador que jogou primeiro, o segundo númeroao payo¤ do jogador que jogou em segundo lugar e assim sucessivamente no caso dejogos com mais de dois jogadores. Logo, lendo o jogo acima na forma extensiva, temos

1. os jogadores: 1 e 2,

2. os espaços de estratégias, S1 = fe; dg e S2 como acima exposto,

3. a ordenação: 1 joga primeiro, 2 observa a escolha de 1 e então faz a sua escolha,

4. a história pregressa do jogo36: quando 2 é chamado a jogar ele sabe inequivo-cadamente qual foi a escolha de 1,

5. os payo¤s: os ganhos dos jogadores para toda combinação possível de escolhasdos jogadores.

Note então que a representação na forma extensiva apresenta todas as característicasdestacadas acima. Ela possui em geral (mas nem sempre, como veremos em exemplosabaixo) o formato de �árvores crescendo para baixo�. E a título de curiosidade -discutiremos isso logo abaixo - o resultado desse jogo será "o jogador 1 jogar d e ojogador 2 jogar e se 1 jogou e, jogar d se 1 jogou jogou d". Os payo¤s serão (4; 1).

35Como o jogador 1 foi o primeiro a jogar, então o seu conjunto de estratégias é similar àquele queespeci�caríamos na forma normal.36Uma hipótese que sempre adotaremos é que os jogadores têm �perfect recall�, memória perfeita:

eles não esquecem as suas jogadas anteriores e as informações que eles detinham em um determinadoponto do jogo também não são esquecidas posteriormente, ainda que o jogo se prolongue por um númeroarbitrariamente grande de rodadas. Além disso essa hipótese é de conhecimento comum.

76

Page 77: Apostila teoria dos jogos

Podemos veri�car se no jogo abaixo há memória perfeita dos jogadores envolvidos.

Será explicado mais detalhadamente à frente o signi�cado da linha pontilhadamostrada acima. Em suma, ela signi�ca que o jogador, quando tem que agir, nãosabe em qual dos pontos ligados pela linha tracejada ele está. Essa é uma possibilidadeque encontraremos em vários jogos a serem vistos adiante. No caso acima, todavia,quando o jogador 1 é chamado a jogar novamente, caso ele possuísse �memória per-feita�não teria dúvidas sobre estar na posição que se segue à estratégia d do jogador2 ou na posterior à e. Isso porque, dependendo do que ele tiver feito na sua primeiraescolha, uma das duas possibilidades não mais será factível ao jogador 2. Portanto,para ter dúvidas entre essas duas possibilidades, o jogador 1 tem de ter se esquecidoda sua ação inicial. Possibilidades como essa serão ignoradas nestas notas, uma vezque a hipótese de �perfect recall� será sempre utilizada. Para comentários adicionaisa respeito da hipótese, ver Kreps (1990).

3.2 Indução Retroativa: jogos de informação completa e perfeita

Os jogos de informação completa e perfeita podem ser sintetizados da seguinteforma (para o caso de dois jogadores; com mais de dois, não há mudança signi�cativa):

1. o jogador 1 escolhe uma ação entre as suas possibilidades delimitadas pelo con-junto de possibilidades de estratégias,

2. o jogador 2 observa a escolha do jogador 1 e então escolhe uma ação no seuconjunto de estratégias factíveis, que agora depende da ação que o jogador 1tomou,

3. o jogo termina e os payo¤s cada jogador são determinados em função da sua es-colha e também do elemento de interação estratégica, a escolha do outro jogador.

Essa de�nição simples segue a apresentação de Gibbons (1992), mas pode ser muitoampliada. Além da possibilidade de existência de mais de dois jogadores, poderiaocorrer que dentro de um mesmo jogo um ou mais jogadores pudessem vir a jogar

77

Page 78: Apostila teoria dos jogos

mais de uma vez. Além de diversas situações mais relevantes, inclusive de naturezaeconômica, mesmo outras mais simples se adaptariam claramente a esses casos. Pense,por exemplo, na maior parte dos jogos de cartas ou de tabuleiros: em geral, jogam deduas a seis pessoas, uma após a outra, com ações tomadas um grande número de vezesdurante o jogo. Normalmente, pelo menos a maioria deles pode ser analisada comojogos dinâmicos de informação perfeita e completa.

A forma de se resolver situações dessa natureza é a descrita a seguir. Assim comoem jogos estáticos, solucionar jogos dinâmicos é também um exercício de previsãoem que o analista busca antever o comportamento dos jogadores envolvidos tendo emmente algumas premissas sobre a postura geral dos jogadores. Mas se antes os jogadoresconsideravam estratégias que fossem racionalizáveis apenas, agora eles têm de trabalharcom estratégias que sejam sequencialmente racionais. Isto é, aquelas que não envolvampromessas/ameaças não críveis (como a do sequestrador que ameaça explodir a granadae se matar).

De�nição 45 Uma estratégia que seja sequencialmente racional deve prescrever for-mas de agir que sejam racionais em cada ponto de decisão que o jogador possa estar.Ou seja, o jogador não joga apenas estratégias racionalizáveis, ele jogará estratégiasracionalizáveis sempre que for chamado a jogar.

Ou seja, caso o jogador esteja em determinado ponto na árvore de decisão, ele deveter estratégias que são ótimas a partir daí, dadas as possíveis estratégias e escolhasfuturas dos outros jogadores.

Trabalhando inicialmente apenas com o exemplo mais simples de jogos de infor-mação perfeita e completa dado acima (com apenas dois jogadores fazendo uma escolhacada um durante o desenrolar do jogo), o procedimento que adotamos para resolvê-lo é dito indução retroativa ("backward induction") e é descrito da seguinte forma.Começamos sempre pelo �nal do jogo, analisando o jogador que joga por último37, nocaso o jogador 2. Esse jogador já observou a escolha do jogador 1 e deve escolher umaestratégia tal que, condicional à escolha de 1, lhe dê o maior payo¤ possível. O jogador2 faz então a sua escolha. Passamos a seguir para a análise do problema de escolha dojogador 1. O fundamental aqui é entender que, como se trata de um ambiente de infor-mação completa, o jogador 1 também sabe qual será a melhor atitude38 que o jogador2 pode tomar para cada escolha que ele, jogador 1, venha a fazer. O jogador 1, porisso, não escolherá aleatoriamente sua estratégia �cando, depois, �torcendo�para queo outro jogador faça algo que também seja favorável a ele. Na verdade, no momento37Daí o termo "retroativa". Para uma descrição formal do método, veja o apêndice.38Dito de outra maneira, o jagador 1 consegue antecipar perfeitamente qual será a reação do jogador

2 para cada ação que ele tomar. Segue daí que o problema de 1 pode ser posto como o problema detomar uma ação tal que induza o jogador 2 a uma reação que seria ótima do ponto de vista do jogador1.

78

Page 79: Apostila teoria dos jogos

de fazer a opção da melhor estratégia a se tomar ele já considerará que, dependendodo que ele escolher, isso afetará a escolha do jogador 2 e esse pensará apenas no seupróprio bem-estar no momento de de�nir sua estratégia. Procedendo assim, e dadoque a forma de resposta do jogador 2 é dada pela sua escolha condicional à decisão de1, o seu problema é o problema de escolher uma estratégia que lhe dê o maior payo¤possível dado que o jogador 2 reagirá de forma ótima à sua tomada de decisão. Dasolução desse conjunto de tomadas de decisão, do jogador 1 e do jogador 2, teremosum (ou mais) par de estratégias que caracterizará o resultado de indução retroativadesse jogo. Esse resultado elimina qualquer tipo de ameaça ou promessa que não sejamcríveis, pois o jogador 1 antecipa o que o jogador 2 fará em cada uma das situações pos-síveis, buscando o seu próprio bem-estar. Assim, jogador 1 não acredita em eventuaisameaças que possam ser feitas pelo jogador 2 e que incorporem atitudes desse últimoque não sejam ótimas para ele mesmo, uma vez que o jogador 1 já fez a sua ação.

Exemplo 46 Considere o Exemplo 43, no início dessa dessa seção. Por induçãoretroativa, analisemos incialmente o problema do jogador 2. Se o jogador 1 jogoue, será ótimo para ele jogar e também39, pois o ganho que ele teria nesse caso seria4, maior do que 2, o ganho que ele teria se jogasse d. Por outro lado, conjecturandoque o jogador 1 jogou d, será ótimo para 2 jogar d também40, pois o ganho que eleteria seria 1, maior do que 0, o ganho que ele teria se jogasse e. Porém o jogador 1consegue antecipar os possíveis movimentos do oponente: como se trata de um jogo deinformação completa onde a racionalidade sequencial dos jogadores é de conhecimentocomum, então ele sabe quais serão as reações de 2 para cada ação que ele tomar. Tendoisso em mente, o melhor que ele pode fazer é jogar d, pois nesse caso 2 jogaria tambémd e seu ganho seria 4, maior do que o ganho que ele teria se jogasse e, pois nesse casoo jogador 2 também escolheria e e seu ganho seria 1. Logo o resultado do jogo porindução retroativa é "o jogador 1 jogar a estratégia d e o jogador 2 jogar a estratégiajogar d dado que 1 jogou d". O payo¤s de equilíbrio serão (4; 1).

Exemplo 47

39Na verdade seria jogar a estratégia "jogar e dado que o jogador 1 jogou e".40Ou mehor, jogar a estratégia "jogar d dado que o jogador 1 jogou d".

79

Page 80: Apostila teoria dos jogos

Qual o resultado de indução retroativa do jogo acima? Vejamos o que o jogador 2deve fazer em cada uma das situações possíveis:

� se o jogador 1 joga e, o jogador 2 deve jogar e também e obter payo¤de 3 unidades(dando 1 para o jogador 1), pois a alternativa seria obter apenas 2 unidades, casoescolhesse d.

� se o jogador 1 joga d, o jogador 2 deve também jogar d e obter payo¤de 1 unidade(gerando 2 para o jogador 1), preferível a zero, que é o que seria obtido se nessecaso ele escolhesse e.

Como o jogador 1 antecipa isso perfeitamente, ele sabe que as opções efetivamentealcançáveis são apenas (e; e) e (d; d). Diante disso, irá jogar d e assim garantirá utilidadede 2 unidades. O resultado de indução retroativa é, portanto, (d; jogar d dado que 1 jogou d).

Note, por outro lado, que esse resultado está longe de constituir algo próximo doque se poderia denominar �socialmente ótimo�, e�ciente ou a�m. Se ele fosse, porexemplo, (e; d), ambos os jogadores estariam melhor. Sendo assim, por que não sugerirum acordo entre os jogadores que possa levar a esse resultado? Porque o jogador 1 sabeque, uma vez que ele cumprisse sua parte no acordo, o jogador 2 não teria incentivos emmantê-lo, pois poderia obter um payo¤ superior. Ciente disso, o jogador 1 não se deixalevar por promessas como essas, por não serem críveis. Da mesma forma, mesmo queo jogador 2 ameace jogar e, caso o jogador 1 jogue d, esse último sabe que tal ameaçatambém não é crível, e portanto não a aceita. Tudo isso é simples consequência dopleno conhecimento de racionalidade (sequencial) entre os jogadores. Nesse caso, nãose requer muito, bastando que ambos os indivíduos sejam racionais e que o jogador 1saiba que o jogador 2 também o seja.

É importante lembrar também que não é necessário que cada jogador jogue apenasuma vez durante o jogo, como já comentamos antes. Cada um deles pode ser chamadoa escolher mais de uma vez, sendo que a lógica de resolução não se altera. Semprese olhará inicialmente para o �m do jogo, destacando as respostas ótimas em cadasituação, e se encontrará o resultado de indução retroativa tomando como base taispossibilidades.

Exemplo 48 Encontrar o resultado de indução retroativa do jogo da �gura abaixo,

80

Page 81: Apostila teoria dos jogos

conhecido como �mini-centopéia�.

Na forma extensiva, temos:

1. os jogadores: 1 e 2,

2. os espaços ou conjuntos de estratégias,

S1 =

8>>><>>>:a, jogar e dado que jogou b e 2 jogou d;a, jogar f dado que jogou b e 2 jogou d;b; jogar e dado que jogou b e 2 jogou d;b, jogar f dado que jogou b e 2 jogou d;

9>>>=>>>;S2 = fjogar c dado que 1 jogou b; jogar d dado que 1 jogou bg

3. a ordenação: 1 joga primeiro, 2 observa a escolha de 1 e então joga, 1 oberva asua própria escolha, a escolha de 2 e então joga novamente e os payo¤ são dados.

4. a história pregressa do jogo: 2, ao jogar, sabe qual foi o movimento de 1. E 1, aojogar pela segunda vez, sabe qual foi seu movimento inicial e qual foi a escolhade 2.

5. os payo¤s: se 1 joga a o jogo termina no primeiro estágio e os ganhos são (2; 0).Se 1 joga b e o jogador 2 joga c,o jogo termina no segundo estágio e os ganhossão (1; 1). Se 1 joga b e 2 joga d, o jogo vai para o terceiro estágio. Ali, se 1 jogae o jogo termina e os ganhos são (3; 0) e se 1 joga f o jogo também termina e osganhos são (0; 2).

Por indução retroativa, primeiramente vejamos qual seria a opção escolhida pelojogador 1 (o jogador que joga por último nesse caso) se o jogo alcançar o terceiro estágio.Nessa possibilidade, o melhor para ele será escolher a opção e e obter payo¤ de 3 > 0.Sabendo disso, o jogador 2, caso jogue, preferirá escolher c e terminar o jogo sem queesse alcance o terceiro estágio, pois assim obteria payo¤ de uma unidade, e não de zero

81

Page 82: Apostila teoria dos jogos

- o que ocorreria se o jogador 1 voltasse a jogar. Por sua vez, o jogador 1, ao fazer a suaprimeira opção, já sabe dessa estratégia do jogador 2. Para ele é preferível, portanto,terminar o jogo (jogando a) logo na primeira rodada, obtendo payo¤ de 2, e não de 1,que ele teria caso o jogo continuasse - com o jogador 2 �nalizando-o em seguida. Sendoassim, o resultado de indução retroativa é o jogador 1 jogar a na primeira rodada eterminar o jogo. Podemos escrever as estratégias que levam a isso da seguinte forma:

� jogador 1: joga a na primeira vez que joga e na segunda vez joga e se ele jogou be 2 jogou d

� jogador 2: joga c se o jogador 1 jogou b.

Em palavras:

� jogador 1: escolhe a; caso o jogo alcançasse a segunda rodada e o jogador 2escolhesse d, jogaria e.

� jogador 2: caso o jogador 1 escolha inicialmente b, utiliza sua opção c.

No jogo anterior - assim como em qualquer outro -, perceba que, apesar do jogo ter-minar no seu primeiro estágio, saber o que ocorreria caso ele continuasse é fundamentalpara determinarmos o resultado por indução retroativa. Deve-se portanto sempre con-siderar o que ocorreria caso o jogo continuasse. Eventualmente poderá valer a penapara os jogadores continuar o jogo. No jogo acima, esse não foi o caso, mas essa éapenas uma possibilidade. O fundamental é ver que, mesmo para saber que ele seriaterminado na primeira rodada, foi necessário analisar toda a estrutura do jogo.

Pense, por outro lado, o que estaria ocorrendo caso o jogador 1 não terminasse ojogo na primeira rodada. A conclusão é que, nesse caso, a racionalidade dos indivíduosnão seria de conhecimento comum (�common knowledge�). Poder-se-ia pensar, comouma hipótese, que o jogador 1 não seria racional. Entretanto, poderia ser o casotambém de o jogador 1 acreditar que o jogador 2 não fosse racional e esperar que elenão termine o jogo. Assim ele poderia tentar obter payo¤ de 3 unidades, uma vez queo jogo atingisse a terceira rodada. Uma outra possibilidade é o jogador 1 saber que ojogador 2 é racional, ser ele mesmo racional mas achar que o jogador 2 possa não ter talinformação. Assim, ele poderia continuar o jogo esperando que o jogador 2 também o�zesse, na expectativa de incrementar para 2 o seu payo¤- o que ocorreria caso o jogador1 jogasse d na terceira rodada. Portanto, não se pode determinar precisamente ondeestá o desvio de racionalidade. Sabe-se apenas que ele existe, i.e., que a racionalidadenão é de pleno conhecimento entre os jogadores. Nesse caso, a indução retroativa perdeo seu poder em determinar o resultado do jogo. A idéia, contudo, é trabalhar sempresupondo a existência de �common knowledge�da racionalidade entre os jogadores, demodo a viabilizar as previsões das situações onde exista interdependência estratégica.

82

Page 83: Apostila teoria dos jogos

Uma observação pertinente é notar a fraqueza do conceito de equilíbrio de Nash emjogos dinâmicos. Nesses casos, sua utilização pode levar a resultados que incorporemameaças/promessas não críveis. É por esse motivo que trabalhamos acima com um con-ceito diferente para se prever os resultados desses jogos. Equilíbrio de Nash é, de fato,uma forma adequada de se prever os resultados em muitos jogos, mas desde que essestenham caráter estático. No caso dinâmico, é necessário que se re�ne esse conceito nosentido de se eliminar as possibilidades de que as tais ameaças e promessas enão críveissejam consideradas - e é exatamente daí que segue a necessidade de representarmosjogos dinâmicos na forma extensiva, pois a forma normal poderia viesar a análise doresultado do jogo.

Exemplo 49 Considere o tradicional jogo onde uma �rma está instalada (I) em ummercado enquanto monopolista e uma outra �rma (E) está considerando entrar nessemercado. Ela escolhe entre entrar ou não. Caso entre, a antiga monopolista escolheentre lutar (fazer uma guerra de preços, por exemplo) ou acomodar-se (constituir umduopólio, um mercado onde apenas duas �rmas produzem). Vejamos a forma extensivadeste jogo :

Na forma extensiva teríamos

1. os jogadores: as �rmas E e I,

2. os espaços de estratégia,

SE = ffora, entragSI = fluta se a �rma E entra, acomoda se a �rma E entrag

3. ordenação: a �rma E decide se entra ou não, a �rma I observa a decisão de E eentão decide se reage ou se acomoda,

4. a história pregressa: I, ao fazer sua escolha, sabe o que E jogou,

5. os payo¤s.

O resultado por indução retroativa (faça) será a a �rma E entrar no mercado e a�rma I acomodar-se. Isto porque, se E entra, o payo¤ de I é maior caso ela acomode.

83

Page 84: Apostila teoria dos jogos

Como E sabe disso, ela irá entrar, apesar de uma eventual ameaça da �rma I de lutarcaso ela faça isso.

Podemos representar o jogo acima também na forma normal:

�rma Iluta se �rma E entra acomoda se �rma E entra

�rma E fora 0; 2 0; 2

entra �3;�1 2; 1

Nota-se, portanto, que há dois equilíbrios de Nash no jogo acima: o resultado por in-dução retroativa e o conjunto de estratégias onde E não entra e I luta se E entra. Aquestão central aqui é que essa última ameaça não é crível e portanto não deveria serconsiderada. Temos, portanto, que o conceito de equilíbrio de Nash não elimina taispossibilidades, pois ele não incorpora a idéia de que as estratégias devem ser sequen-cialmente racionais. Apenas um equilíbrio de Nash no jogo acima pode ser obtido viaindução retroativa e, portanto, apenas esse equilíbrio é um resultado sequencialmenteracional.

Um outro resultado muito importante na teoria de jogos dinâmicos é o chamadoTeorema de Zermelo. Ele nos diz que todo jogo �nito de informação perfeita possui umequilíbrio de Nash em estratégias puras que pode ser obtido via indução retroativa (eque será, portanto, sequencialmente racional). Além disso, se nenhum jogador possuipayo¤s iguais em pontos terminais distintos, então existe apenas um equilíbrio de Nashque pode ser derivado dessa forma.

Exemplo 50 Encontre o(s) resultado(s) de indução retroativa do seguinte jogo:

Se o jogador 1 joga à esquerda (e), jogador 2 também o faz. Se o jogador 1 jogaà direita (d), o jogador 2 também o faz. Em ambos os casos, o jogador 1 obtémpayo¤ de 2 e por isso não prefere estritamente nenhum deles ao outro. Portanto, temosdois resultados de indução retroativa: (e; e) e (d; d). Como o teorema de Zermeloa�rma, a unicidade do resultado de indução retroativa depende da inexistência depayo¤s iguais nos pontos terminais para cada um dos jogadores, o que não é o casoacima. Sendo assim, tornou-se possível encontrar mais de um equilíbrio. Todavia, noteque a existência de payo¤s iguais em pontos terminais para algum jogador não implicaque o resultado de indução retroativa não será único, e sim que, em princípio, haveráessa possibilidade, que poderá ou não se veri�car dependendo do caso.

84

Page 85: Apostila teoria dos jogos

3.3 Aplicações

3.3.1 O modelo de Stackelberg

� semelhante a Cournot, porém é um jogo dinâmico.

� tome um modelo onde duas �rmas, 1 e 2, produzem um bem homogêneo cujademanda é

P (Q) = a�Q

� a > 0 e Q = q1 + q2 é a oferta da indústria.

� o custo �xo é nulo é que o custo marginal é constante e idêntico para asempresas, (

C1 (q1) = cq1C2 (q2) = cq2

� Na forma extensiva temos

1. os jogadores: as �rmas 1 e 2;

2. os espaços de estratégias dos jogadores, S1e S2, tais que(S1 = [0; q1]

S2 = f[0; q2] =s1 2 S1g

3. ordenação: 1 joga, 2 observa e então joga. Vamos chamar 1 de �rma �líder�e 2 de �rma �seguidora�.

4. história: quando 2 escolhe, a escolha de 1 é de conhecimento comum.

� a função de ganho de cada jogador, u1 e u2. No caso de �rmas,(�1 (q1; q2) = P (Q) q1 � cq1�2 (q1; q2) = P (Q) q2 � cq2

� solução: por IR, o problema da seguidora, 2, é8><>:maxq22S2

�2 (q1; q2) = P (Q) q2 � cq2 =

= (a�Q) q2 � cq2 == (a� q1 � q2) q2 � cq2

� CPO:@�2@q2

= a� 2q2 � q1 � c = 0

q2 (q1) =a� c� q1

2

85

Page 86: Apostila teoria dos jogos

� função de reação da �rma 2 (sem aspas)! jogo dinâmico.

� Já o problema da líder é determinar o quanto produzir de forma a induzir naseguidora uma reação que seja ótima sob o seu prisma. Como essa reação é deconhecimento comum, a líder

maxq12S1

f�1 (q1; q2) =q2 (q1)g =

= (P (Q) q1 � cq1) =q2 (q1) == ((a�Q) q1 � cq1) =q2 (q1) == ((a� q1 � q2) q1 � cq1) =q2 (q1) =

=

0BBB@a� q1 ��a� c� q1

2

�| {z }

q2(q1)

1CCCA q1 � cq1 ==�a�c�q1

2

�q1

� CPO:@�1@q1

=a� c2

� q1 = 0

q�1 =a� c2

� substituindo na reação de 2,

q2 (q�1) =

a� c4

� o ENPS (e por IR também) é portanto�q�1 =

a� c2; q2 (q

�1) =

a� c4

�� a oferta da indústria é

Q = q1 + q2 =1

2(a� c) + 1

4(a� c) = 3

4(a� c)

� e o preço de mercado

P (Q) = a�Q = 1

4(a+ 3c)

� tal que o lucro da líder será

�1 = P (Q) q1 � cq1 = q1 (P (Q)� c)

=

�1

2(a� c)

� �1

4(a+ 3c)� c

�=

1

8(a� c)2

86

Page 87: Apostila teoria dos jogos

� e o lucro da seguidora

�2 = P (Q) q2 � cq2 = q2 (P (Q)� c)

=

�1

4(a� c)

� �1

4(a+ 3c)� c

�=

1

16(a� c)2

� Como esperado a �rma líder leva vantagem sobre a seguidora, �1 > �2.

� Stackelberg X Cournot.

1. Qs = 34 (a� c) >

23 (a� c) = Qc, e portanto

2. ps = 14 (a+ 3c) <

13 (a+ 2c) = pc

3. note que o lucro da líder em Stackelberg é maior do que o lucro dos duopolis-tas em Cournot mas que esse é maior do que o lucro da seguidora em Stack-elberg.

� no entanto nada podemos dizer com relação ao bem-estar social: ainda quea soma dos ganhos das �rmas em Cournot seja maior do que em Stackelberg�316 <

29

�, o fato de o preço do bem ser menor em Stackelberg faz com que

o excedente do consumidor seja maior nesse caso.

3.3.2 Barganha sequencial

Barganha é algum tipo de situação que encontramos corriqueiramente no dia-a-dia.Observamos desde situações muito simples, quando um �lho adolescente barganha como pai o horário que ele pode chegar em casa nas noites de sexta-feira e sábado, em queele propõe chegar mais tarde em troca de algum tempo a mais de estudo diário, atésituações complexas, em que presidiários barganham com os representantes do Estadoo �m de uma rebelião, ou países que barganham tarifas comerciais sobre o conjunto deprodutos que eles comercializam. Na verdade, exemplos de situações de barganha sãoextremamente fáceis de encontrar e nós de fato nos deparamos com tais situações emtodos os momentos - ainda que não tenhamos em mente que tal caso especí�co possaser analisado teoricamente como um jogo dinâmico de informação completa.

O processo de barganha é geralmente interpretado como o processo de construçãode um acordo mútuo sobre a provisão de um contrato. No mundo real, o protótipobásico é a negociação entre um vendedor e um comprador sobre um bem em trocade dinheiro: o contrato especi�ca o preço a ser pago pelo ítem. Em uma negociaçãosalarial, por exemplo, o sindicato é o vendedor, a �rma o comprador e o preço é osalário-base.

87

Page 88: Apostila teoria dos jogos

Tanto em contextos econômicos quanto legais, um acordo pode ser retardado namedida em que as partes prolonguem a negociação. Eventualmente pode acontecerde as partes interessadas nunca chegarem a um acordo. Via de regra esse atraso im-plica em algum tipo de custo às partes interessadas: um custo de oportunidade danegociação, ou seja, dos ganhos que cada parte poderia estar obtendo se o acordo játivesse sido fechado, e um custo pecuniário inerentes à negociação, como por exemplocustos processuais. Esses custos de oportunidade podem ser representados pela pro-dução que não se realizou e os custos pecuniários pelos gastos com a intermediação doacordo. Tais custos podem ser signi�cativos em casos importantes, como aquisiçõescorporativas, greves patrocinadas por sindicatos de trabalhadores e em diversos litígioscivis.

Se não se chega a um acordo, então em algum período de tempo as partes param debarganhar, como no caso em que comprador e vendedor buscam parceiros alternativospara fazer seus negócios. Nesse caso, se pensarmos no contexto legal, uma corte impõealguma regra que as partes devem seguir. Nesse sentido, essas cortes legais são umexemplo de resolução judicial de impasses.

No que se segue vamos analisar o modelo teórico de barganha tendo como pano defundo um processo de negociação entre um sindicato de trabalhadores e uma entidadepatronal, representante das empresas na quais esses trabalhadores são funcionários.Não custa uma palavra de precaução aqui: como em todo modelo teórico, essa rep-resentação é uma simpli�cação das negociações que de fato ocorrem no mundo real enesse sentido não buscamos generalizar os resultados que obtivermos para enriquecera nossa compreensão de negociações como um todo, mas tão somente entender essesprocessos de negociações como jogos dinâmicos de informação completa4142.

O jogo se dá como se segue. Há, dois jogadores, 1 e 2, onde vamos considerar que 1representa uma associação patronal e que 2 representa um sindicato de trabalhadores.Eles estão negociar sobre a divisão dos benefícios da produção de um determinadoperíodo, um ano por exemplo. Esse benefício é de conhecimento comum e, obviamente,sua totalidade soma 100%. A negociação se dá entre as partes de forma a decidir o

41Existe uma literatura consolidada de barganha em ambientes de informação incompleta. De�n-itivamente essa literatura foge do escopo deste curso. O aluno curioso e interessado pode achar emRubinstein (19??) uma exposição do tema, mas não há nenhuma exposição do assunto que não demandeum conhecimento mais pormenorizado tanto de teoria dos jogos quanto da parte formal.42Como dito acima, uma transação, contrato ou disputa legal qualquer requer algum tipo de barganha

entre as partes, seja sobre o preço seja sobre outros aspectos do acordo. Via de regra esse processoparece ser ine�ciente em função de atrasos (por exemplo uma greve que prejudica tanto os saláriosdos trabalhadores quanto a produção da �rma) e de gastos diretos que poderiam ter sido evitadosconcluindo um acordo similar antes. Os estudos do papel de informação privada (jogos de informaçãoincompleta) em negociações indicam, entretanto, que esses custos são consequências dos incentivos daspartes em se comportarem estrategicamente e da necessidade de comunicação para estabelecer umabase comum de forma a montar o acordo.

88

Page 89: Apostila teoria dos jogos

percentual que cada um dos interessados tem direito sobre essa totalidade43. Ambasas associações desejam obter o máximo possível para os seus associados e a dinâmicada negociação se dá do seguinte modo:

1. a associação patronal propõe uma divisão;

2. o sindicato pode aceitar ou rejeitar a proposta: se o sindicato aceita, o jogotermina e cada jogador obtém o acordado. Caso contrário, ele não aceita, o jogocontinua;

3. o sindicato propõe uma divisão;

4. a associação patronal pode aceitar ou rejeitar a proposta: se aceita o jogo terminae cada parte recebe o combinado. Se rejeita a proposta, então a Justiça doTrabalho impõem uma divisão de 50% para cada uma das partes e o jogo tambémtermina.

É necessário algum tempo para preparar cada proposta e contraproposta. Porisso, se o acordo for fechado em 2, então os jogadores têm 1 (100%) para repartir.Se terminar com a associação patronal aceitando a proposta no quaem 4, os benefíciosserão apenas de � 2 (0; 1); e se a barganha terminar com a intervenção da Justiça, entãoos benefícios são apenas de �2. Esse termo � é dito taxa de desconto intertemporal ere�ete o fato de que as pessoas (e instituições) avaliam de maneira distinta uma mesmaquantia monetária em diferentes períodos de tempo, captando portanto o custo deoportunidade acima discutido. Ou seja, re�ete o custo de oportunidade de não recebero valor imediatamente. Em geral essa taxa de desconto é determinada pela taxa dejuros da seguinte forma,

� =1

1 + r

onde r é a taxa de juros de mercado. Observe que quanto maior r, menor a taxa dedesconto, de forma que os agentes estariam descontando com peso maior o tempo. Ob-serve ainda que essa taxa pode re�etir caracterísitcas especí�cas das partes engajadasna barganha. Imagine por exemplo o custo de uma greve seja maior para uma daspartes. Ou que um trabalhador especí�co assumiu compromissos tais com sua renda

43Pense por exemplo que a divisão desses benefícios se dá através de uma campanha salarial. Oumais ainda, não só uma campanha salarial onde os trabalhadores gostariam de ver incorporados nassuas remunerações os benefícios da produção, mas também a inclusão de diversos outros ítens queindiretamente afetam essa remuneração, como por exemplo assistência médico-odontológica para cadatrabalhador e sua família, a criação de uma creche na empresa para atender pais e mães com �lhospequenos, a melhoria no refeitório da �rma, questões de transporte dos funcionários etc. Para quemacha que essas nunaces são por demais abrangentes, considere que é comum uma pauta de negociaçãocom mais de 100 ítens em alguns setores maiores e mais organizados, como metalúrgicos no ABC ousindicatos de bancários.

89

Page 90: Apostila teoria dos jogos

que uma paralisação no seu �uxo de renda nesse período especí�co pode lhe ser partic-ularmente custosa44. Para facilitar a nossa análise e sem perda de generalidade, vamosconsiderar que ambas as partes têm a mesma taxa de desconto.

Na forma extensiva o jogo é representado como especi�cado pela árvore abaixo

�gura: o jogo na forma extensiva

Logo há dois jogadores (1 e 2), as estratégias são as descritas na árvore, assim comoa ordenação e os payo¤s. Como trata-se de um ambiente de memória perfeita, osmovimentos dos jogadores em cada nó de decisão é de conhecimento comum em cadaum desses nós.

Sendo mais especí�co, observe o que acontece no primeiro movimento: o jogador 1diz ao jogador 2 que do total que eles estão barganhando, ele quer x 2 [0; 1], ou x%,de forma que ele está oferecendo a 2 (1� x)%. Como dito, 2 pode ou não aceitar. Seaceita a barganha termina e os ganhos são dados. Caso contrário 2 faz a contrapropostaao jogador 1: do total a ser dividido, ele que (1� y)%, de modo que oferece a 1 y%.Da mesma forma o jogador 1 pode aceitar ou rejeitar. Se 1 aceita o jogo termina e osganhos são dados. Note porém que agora já estamos no segundo estágio do jogo, deforma que as partes já incorreram em algum custo decorrente do fato de que elas nãochegaram a um acordo no primeiro período.

De

Pede-se:

1. Taxa de desconto intertemporal (já está feita em jogos repetidos, mas ter emmente a questão da in�ação, taxa de juros, reputação e o exemplo do sorvetederretendo).

2. Represente o jogo na sua forma extensiva.

� Os payo¤s são (x; 1� x) no primeiro estágio, (�y; � (1� y)) no segundo estágio e��2

2 ;�2

2

�caso seja necessária a intervenção da Justiça do Trabalho.

2. Quanto cada jogador vai obter em equilíbrio perfeito.

44O exemplo clássico que ilustra a taxa de desconto � é dado pelo caso em que dois irmãos ganhamda mãe um pote de sorvete. Eles barganham sobre quanto cada parte tem direito sobre o total (100%)do produto. Se eles discutem e não chegam a um acordo em um determinado tempo, então o sorvetederrete um pouco e o montante que eles têm para dividir passa a ser menor do que o inicial. No �nal,se eles não chegam ao acordo, então a mão intercede e decide ela mesma o quanto cada um tem direito(pode mesmo ser �perdi a paciência!!! Ninguém vai ganhar sorvete hoje!�).

90

Page 91: Apostila teoria dos jogos

� Por indução retroativa, no segundo (e último) estágio da barganha, o sindicatooferece (y) aos empresários, que aceitam se e somente se

�y � �2

2

Logo a proposta será

y =�

2

e os ganhos nesse estágio seriam Up = �y = �2

2 e Ut = � (1� y) = � � �2

2 . Noprimeiro estágio do jogo os empresários ofertam (1� x) aos trabalhadores queaceitam se e somente se

1� x � � � �2

2

de modo que a oferta ótima será

1� x = � � �2

2

e os ganhos seriam Up = x = 1� � + �2

2 e Ut = 1� x = � ��2

2 . Logo o equilíbriode Nash perfeito em subjogos (o que nesse jogo equivale ao resultado por induçãoretroativa) será a associação patronal ofertar (1� x) = � � �2

2 aos trabalhadoresno primeiro estágio, os trabalhadores aceitarem a proposta feita, o jogo terminare os ganhos serão dados por Up = 1� � + �2

2 e Ut = � ��2

2 .

3. Se você representasse os trabalhadores, você preferiria fazer a proposta em primeirolugar ou ouvir primeiro a oferta dos empresários?

� A primeira coisa a ser feita é representar o jogo na forma extensiva supondoque o sindicato de trabalhadores faça a oferta em primeiro lugar, no primeiroestágio. Nesse caso os payo¤s seriam (1� x; x) no primeiro estágio, (� (1� y) ; �y)no segundo estágio e

��2

2 ;�2

2

�caso fosse necessária a intervenção da Justiça do

Trabalho. Resolvemos o jogo da mesma maneira, de modo que no segundo estágioda barganha, os empresários oferecem (1� y) aos trabalhadores, que aceitam see somente se

� (1� y) � �2

2Logo a proposta será

1� y = �

2

e os ganhos nesse estágio seriam Up = �y = � � �2

2 e Ut = � (1� y) = �2

2 .No primeiro estágio do jogo os trabalhadores ofertam x aos empresários. Estesaceitam se e somente se

x � � � �2

2

91

Page 92: Apostila teoria dos jogos

de modo que a oferta ótima será

x = � � �2

2

e os ganhos seriam Up = x = � � �2

2 e Ut = 1 � x = 1 � � + �2

2 . Segue que oequilíbrio de Nash perfeito em subjogos será o sindicato dos trabalhadores ofertarx = �� �2

2 aos patrões no primeiro estágio, os empresários aceitarem essa proposta

e o jogo terminar ali. Os ganhos seriam dados por Up = �� �2

2 e Ut = 1� �+�2

2 .Note que os trabalhadores estarão melhor fazendo a oferta no primeiro estágio se

1� � + �2

2� � � �

2

2ou seja, se

�2 � 2� + 1 � 0o que é sempre verdade para todo � 2 [0; 1].

3.4 Equilíbrio Perfeito em Subjogos

Até agora estudamos separadamente jogos dinâmicos e jogos estáticos. Entretanto,é bastante usual trabalharmos com jogos que tenham partes simultâneas e outras nãosimultâneas, i.e., que tenham informação imperfeita em pelo menos algum de seusestágios. A forma de resolução segue a mesma lógica anterior: começar de trás paradiante até chegarmos no início do jogo. Entretanto, sempre quando nos depararmos comum �mini-jogo�com lances simultâneos (ou, no mesmo sentido, que tenha informaçãoimperfeita), devemos resolvê-lo como visto na seção anterior e então tomarmos seuresultado (o equilíbrio de Nash encontrado) como os payo¤s a serem distribuídos casoo jogo atinja essa parte simultânea. Um exemplo facilitará a compreensão.

Exemplo 51 Considere o jogo visto acima onde uma �rma cogita em entrar no mer-cado onde há uma outra que é monopolista. Façamos, no entanto, uma modi�cação: a�rma que pensa em entrar (E) tem agora a opção de, caso entre, lutar ou acomodar-seapós a entrada. A representação na forma extensiva �caria assim:

92

Page 93: Apostila teoria dos jogos

O signi�cado da linha tracejada entre dois pontos de decisão signi�ca que essa partedo jogo é simultânea, i.e., quando o segundo joga ele não sabe o que o primeiro fez.Note que, sendo assim, não faz diferença se, nessa parte do jogo, trocássemos a ordemdos jogadores na árvore de decisão. De qualquer forma, nenhum dos dois sabe o que ooutro está fazendo nesse instante.

Antes de analisar o jogo com informação imperfeita, vamos ignorar a linha tracejadae analisar o jogo no caso em que não uma parte dele que seja simultânea. Tomando ojogo na forma extensiva, observe que o espaço de estratégias dos jogadores (entendido,como sempre, como um plano completo de ação) será

SE = f(F; l) ; (F; a) ; (E; l) ; (E; a)g

SI =

((l se el e l se ea) ; (l se el e a se ea) ;(a se el e l se ea) ; (a se el e a se ea)

)onde, por exemplo, (F; a) para o entrante signi�ca que ele joga �fora, acomodar se eleentra�e (a se el e l se ea) para o incumbente signi�ca que ele �acomoda se o entranteentra e luta e luta se o entrante entra e acomoda�. Podemos representar o jogo 4�4na forma normal e veri�car o(s) equilíbrio(s) de Nash - faça isso como exercício. Porindução retroativa, veri�que que o resultado será

f(E; a) ; (l se el e a se ea)g

Vamos incorporar informação imperfeita (considerar a linha tracejada) e ver o quemuda. Tomando o espaço de estratégias dos jogadores como um plano de ação paracada contigência do jogo, o fato de o jogador E não mais observar qual foi o segundomovimento de I (o primeiro movimento ele sabe, pois se ele não joga pode concluir queI jogou �fora�no primeiro estágio e se ele é chamado a jogar infere que I jogou �entra�- e isso é de conhecimento comum) altera o seu espaço de estratégias, que passa a serapenas

SI = fl se E entra; a se E entrag

O procedimento para solucionar esse jogo será resolver primeiro o chamado subjogo(a ser de�nido abaixo) simultâneo, pois ele é a parte �nal do jogo como um todo. Paratanto, podemos representá-lo na forma normal, como usualmente se faz com os jogosestáticos.

�rma Iacomoda luta

�rma E acomoda 3; 1 �2;�1luta �1;�2 �3;�1

O equilíbrio de Nash do jogo acima é, portanto, ambos acomodarem. Sabendo disso,podemos substituir na árvore do jogo original o jogo simultâneo acima pelo resultadodo seu equilíbrio de Nash.

93

Page 94: Apostila teoria dos jogos

No jogo reduzido acima, apenas a �rma E escolhe. Ela preferirá claramente entrar eobter payo¤ de 3 unidades, ao invés de zero, que obteria caso não entrasse. Isto porqueela acredita que, entrando, o resultado do jogo simultâneo será o seu equilíbrio de Nash,onde ambas as �rmas resolvem se acomodar. O resultado será

f(E; a) ; (a se E entra)g

Observe a diferença com indução retroativa nesse caso: as payo¤s serão os mesmos eo jogo no �m seguirá na mesma direção nos dois casos (nem sempre isso será verdade,nesse exemplo foi). Porém observe a diferença nas estratégias dos jogadores dada pelapresença ou não de informação imperfeita, de uma parte do jogo que se assemelha aum jogo simultâneo.

Podemos também representar todo o jogo inicial na forma normal, especi�candocada estratégia (de�nida, como visto na seção II, como um plano completo de ações45)possível para os jogadores.

�rma Iacomoda se E entra luta se E entra

fora, acomoda se entra 0; 2 0; 2

�rma E fora, luta se entra 0; 2 0; 2

entra, acomoda se entra 3; 1 �2;�1entra, luta se entra �1;�2 �2;�1

Podemos notar que existem três equilíbrios de Nash no jogo acima. Um deles é oresultado que havia sido encontrado via indução retroativa tomando o equilíbrio deNash da parte simultânea do jogo como dado. Os outros dois, embora constituamequilíbrio de Nash, não são sequencialmente racionais. O problema deles é admitirque a �rma E considere a ameaça da �rma I de lutar caso ela entre. Tal ameaça, no

45Nos jogos simultâneos, a percepção do que é uma estratégia é extremamente simples, constituindo-se simplesmente em uma ação possível a um determinado jogador. Nos jogos sequenciais, essa de�niçãoé bem mais sutil. Nesse tipo de jogo, uma estratégia tem que de�nir qual seria a escolha do jogador emcada uma das possibilidades que ele pudesse vir a ser chamado a jogar. Isso signi�ca que, mesmo que,quando o jogo vier a ser efetivamente jogado, o jogador não tenha que fazer uma escolha em um pontoespecí�co dele, porque esse não ter sido alcançado, uma estratégia terá que de�nir o que ele faria casofosse necessário escolher naquela circunstância. A idéia é que, se o jogador especi�casse uma estratégiae a dissesse a um procurador, esse saberia o que fazer em qualquer hipótese que porventura viesse a severi�car quando o jogo fosse efetivamente jogado.

94

Page 95: Apostila teoria dos jogos

entanto, não é crível: uma vez que a �rma E resolveu entrar e o fez, é pouco razoávelque a �rma I lute, pois essa estratégia não compõe nenhum equilíbrio de Nash nojogo simultâneo que se inicia após a entrada de E. Con�rma-se então, novamente, afragilidade do conceito de equilíbrio de Nash quando trabalhamos com jogos dinâmicos.

O conceito que utilizaremos para resolver jogos dinâmicos que tenham informaçãoimperfeita é um re�namento de equilíbrio de Nash, chamado Equilíbrio de Nash Perfeitoem Subjogos (ENPS). O resultado encontrado no exemplo anterior (onde a �rma E entrano mercado e, em seguida, ambas acomodam) é um caso de um resultado caracterizadopor um Equilíbrio de Nash Perfeito em Subjogos. Entretanto, para de�nir o conceitomais precisamente, é necessário de�nir previamente a noção do que vem a ser umsubjogo.

De�nição 52 Um subjogo de um jogo J na forma extensiva é um subconjunto do jogoque tem as seguintes propriedades:

� inicia-se em um ponto de decisão único (não ligado a nenhum outro por �linhastracejadas�)

� contém todos os pontos de decisão que o sucedem, e apenas esses pontos;

� não divide nenhum subjogo, no sentido de que se um determinado ponto de decisãopertence a um subjogo, então todo ponto ligado a ele por alguma �linha tracejada�também pertence, i.e., os subjogos não cortam tais linhas46.

Exemplo 53 No exemplo anterior, há dois subjogos: um que se inicia após a �rma Eresolver entrar até o �m do jogo e outro que é o próprio jogo.

Exemplo 54 Em jogos de informação perfeita, todos os pontos de decisão iniciamsubjogos. Portanto, nesse tipo de jogo, haverá tantos subjogos quantos forem os pontosde decisão.

De�nição 55 (Selten, 1965) Um conjunto de estratégias ' = ('1; :::; 'I) em um jogoJ dinâmico com I jogadores é um Equilíbrio de Nash Perfeito em Subjogos (ENPS) seele induz a um equilíbrio de Nash em cada um dos subjogos de J.

Em outras palavras, as estratégias serão um ENPS se de�nirem um equilíbrio deNash em todos os subjogos do jogo.

Note que todo ENPS é um equilíbrio de Nash (uma vez que o jogo como um todotambém é um subjogo, como se depreende da de�nição de subjogo), mas nem todo

46Denomina-se �conjunto de informação� todos os pontos de decisão únicos e todos os conjuntosde pontos de decisão que não sejam únicos, e sim ligados por uma �linha tracejada�. Pode-se dizer,portanto, que um subjogo não divide nenhum conjunto de informação.

95

Page 96: Apostila teoria dos jogos

equilíbrio de Nash é perfeito em subjogo. Esse último não permite que os jogadoresconsiderem ameaças não críveis, como o equilíbrio de Nash permite. Por exemplo, oprimeiro resultado que encontramos no jogo do exemplo 1 desta seção consatitui umENPS, mas não os outros dois EN encontrados.

Em jogos com informação perfeita, o resultado de indução retroativa coincide com oconjunto de estratégias que constituem ENPS. Como consequência imediata do teoremade Zermelo, temos que todo jogo �nito de informação perfeita possui um ENPS emestratégia puras. Além disso, se nenhum jogador tem os mesmos payo¤s em dois dospostos terminais dos jogos, pode-se garantir também que existe um ENPS que é único.

Exemplo 56 Encontre o ENPS do jogo abaixo:

Antes de mais nada é importante identi�car o espaço de estratégias dos jogadores,

S1 = f(e1; e4) ; (e1; d4) ; (d1; e4) ; (d1; d4)gS2 = f(e3; e2) ; (e3; d2) ; (d3; e2) ; (d3; d2)g

onde, por exemplo, para o jogador 1 a estratégia (e1; d4) signi�ca �jogar e1, jogar d4 se1 jogou d1 e 2 jogou e2 ou d2�e para o jogador 2 a estratégia (e3; d2) signi�ca �jogar e3se 1 jogou e1 e jogar d2 se 1 jogou d1�. Em seguida identi�camos os subjogos do jogo.Nesse jogo acima há três, identi�que-os.

Feito isso, resolvemos o subjogo com informação imperfeita:

jogador 2e2 d2

jogador 1 d4 2; 2 0; 0

e4 1; 4 3; 1

onde, observe, o (único) equilíbrio de Nash no subjogo acima é (d4; e2). Substituindoo subjogo pelos payo¤s associados ao seu equilíbrio de Nash na árvore original, o jogo

96

Page 97: Apostila teoria dos jogos

se reduz a

Podemos agora resolver o subjogo em que o jogador 2 começa jogando: uma vezalcançado aquele ponto de decisão, o jogador 2 escolherá d3, que lhe dará utilidade de3 (>1). Substituindo esse resultado no jogo, teremos a árvore reduzida abaixo, ondeapenas o jogador 1 tem de escolher:

Obviamente, o jogador 1 escolherá d1. O resultado previsto do jogo é, portanto,(d1; d4; e2). O ENPS que o caracteriza, por sua vez, é um pouco mais detalhado,sendo composto pelas estratégias:

� jogador 1: (d1; d4), �jogar d1, jogar d4 se 1 jogou d1 e 2 jogou e2 ou d2�

� jogador 2: (d3; e2), �joga d3 se 1 jogou e1 e jogar e2 se 1 jogou d1�.

Simpli�cadamente, escreveremos

ENPS = f(d1; d4) ; (d3; e2)g .O exemplo acima, como visto, possui apenas um ENPS. Seria possível a existência

de mais de um ENPS em um jogo? Sem dúvida, e voltaríamos então para o problemade multiplicidade de equilíbrios, di�cultando também aqui previsões mais precisas ac-erca dos possíveis resultados. A discussão anterior sobre múltiplos equilíbrios de Nashaplicaria-se portanto também aqui.

Exemplo 57 Encontrar o(s) ENPS no jogo abaixo:

97

Page 98: Apostila teoria dos jogos

Inicialmente, iden�quemos as estratégias dos jogadores,

S1 =

((a; h) ; (a; i) ; (a; j) ;

(b; h) ; (b; i) ; (b; j)

)

S2 =

((c; e) ; (c; f) ; (c; g) ;

(d; e) ; (d; f) ; (d; g)

)

onde, por exemplo, para o jogador 1 a estratégia (b; i) signi�ca �jogar b e jogar i se 1jogou b e 2 jogou e; f ou g�e para o jogador a estratégia (c; f) signi�ca �jogar c se 1jogou a e jogar f se 1 jogou b�. Novamente há três subjogos no jogo e você deve sercapaz de identi�cá-los.

Vamos agora solucionar o subjogo que se inicia no nó de decisão de 2 condicionalao jogador 1 ter adotado a ação �b�. Teremos o seguinte subjogo simultâneo:

jogador 2e f g

h 1; 1 3; 0 4; 0

jogador 1 i 2; 0 5; 2 0; 1

j 3; 4 0; 0 1; 0

Neste subjogo há dois equilíbrios de Nash. Para encontrar-se o(s) ENPS, o procedi-mento é o mesmo de antes, com a diferença de que se deve fazê-lo utilizando os doisequilíbrios de Nash encontrados no subjogo.

Substituindo inicialmente o resultado (j; e), a decisão inicial do jogador 1 será entreescolher a e obter payo¤ de 4 unidades (pois nesse caso o jogador.2 irá preferir d) eoptar por b e alcançar apenas 3, �cando, logicamente, com a primeira opção. Por outrolado, substituindo o equilíbrios de Nash (i; f) na árvore de decisão, o jogador 1 preferiráoptar por b em sua primeira escolha, pois nesse caso obterá payo¤ de 5 unidades. OsENPS do jogo são, portanto, dois, assim de�nidos:

� ENPS 1:

� jogador 1 escolhe a; se optasse por b, jogaria posteriormente j;

� jogador 2 escolhe d se o jogador 1 jogou a; e opta por e se o jogador 1 jogoub.

� ENPS 2:

� jogador 1 escolhe b; em seguida, joga i;

� jogador 2 escolhe d se o jogador 1 jogou a; e opta por f se o jogador 1 jogoub.

98

Page 99: Apostila teoria dos jogos

Exemplo 58 O jogo da �centopéia�. Este conhecido jogo, popularizado por Rosenthal(1981), é representado na Figura 13 abaixo, onde cada vez que um jogador tem a vez dejogar, ele tem a opção de parar o jogo ou continuá-lo, passando a vez ao outro jogador.Os payo¤s, no entanto, têm uma lógica especial: em cada estágio, sempre que umjogador resolve não terminar o jogo, no ponto terminal seguinte (que seria alcançadose o outro jogador terminasse o jogo logo em seguida) ele terá uma unidade a menos,enquanto o outro jogador obterá duas unidades de payo¤s a mais.

O resultado do jogo acima, como de praxe, deve começar a ser pesquisado analisando-se o seu �nal. Caso se alcance a última rodada, o jogador 2 preferirá jogar para baixo eobter payo¤ de 101 (>100). Sabendo disso, o jogador 1 prefere terminar o jogo antes deo jogador 2 fazer sua última jogada, pois assim ele ganharia 99 (>98). Mas o jogador2 , sabendo disso, preferiria terminar o jogo uma rodada antes para obter 100 (>99).E assim sucessivamente, até se chegar no início do jogo, onde o jogador 1 o terminasem dar chances do jogador 2 jogar. Cada um deles ganha, portanto, uma unidadede payo¤. Tal resultado parece paradoxal, mas é apenas consequência do �commonknowledge�da racionalidade sequencial dos jogadores.

Pense o que ocorreria se o jogador 1 não terminasse a partida na primeira rodada.Talvez ele não fosse racional, ou achasse que o outro jogador não fosse racional, ouque o jogador 2 não soubesse que ele era racional e quisesse ��ngir� que era irra-cional, ou ainda outras possibilidades. Nesse caso não haveria �common knowledge�da racionalidade dos jogadores e o jogo poderia se prolongar por mais algum tempo.Não poderíamos, no entanto, determinar até quando isso iria ocorrer.

Sendo jogado algumas vezes com alunos do curso de Teoria dos Jogos da PUC-MG(com uma versão simpli�cada da �centopéia�, correspondente a 90% inferior ao jogomostrado acima), em nenhuma delas o jogo terminou na primeira rodada. Isso ocorriaapenas quando se estava faltando duas ou três rodadas para que o jogo terminasse dequalquer forma (no �m da centopéia). Tais resultados indicam que nesse caso a hipótesede pleno conhecimento da racionalidade pode ser forte demais. O que veri�camosnas experiências em sala de aula foi que, na verdade, apenas após várias escolhasfazendo o jogo continuar, vendo esse caminhar para o seu �nal automático (a últimarodada possível), é que os jogadores envolvidos paravam realmente para pensar nomelhor a se fazer. Isso leva a uma outra possibilidade de explicação: como os payo¤seram apenas imaginários e os alunos, com pouco tempo para se decidirem sobre o quefazer, encaravam a experiência como uma brincadeira, não faziam grandes esforços parapensar na sua melhor etratégia, pelo menos no início do jogo, quando esse se apresentava

99

Page 100: Apostila teoria dos jogos

relativamente ainda muito complexo. Eventualmente, com payo¤s reais e signi�cativospara os jogadores, e com um tempo superior para a análise do jogo, poderia ser que oresultado fosse de fato o de indução retroativa (que também é ENPS).

Outra forma de explicação para o resultado improvável de indução retroativa nojogo da centopéia é que a exigência de �racionalidade� é exagerada. O problema éque as iterações necessárias do tipo �todos são racionais; todos sabem que todos sãoracionais; todos sabem que todos sabem que todos são racionais etc.� para se chegarao resultado de indução retroativa nesse caso são muito numerosas. Quando se exigemapenas duas ou três, nenhuma contestação é feita ao mecanismo e o resultado previstoparece con�ável. Entretanto, quando esse número cresce, a credibilidade das previsõesderivadas desse método se reduz. No jogo da centopéia, exige-se 200 iterações! Umaalternativa é tentar modelar a �irracionalidade�emergente em casos como esses. Nãoé nosso objetivo entrar nessa discussão, mas apenas introduzir a questão e alertar paraas de�ciências da teoria. No entanto, o leitor interessado pode consultar Kreps (1990)para avançar no tema.

Além disso, hoje estuda-se uma outra linha de pesquisa chamada de �racionalidadelimitada�, que também procura dar respostas a questões como essas. Ou seja, jogosonde as previsões dadas pela teoria dos jogos convencional são �pouco razoáveis�, nãosendo assim muito úteis. Uma das idéias básicas da �racionalidade limitada�é que osagentes aprendem com o tempo. Além disso, ela tenta explicar as falhas da teoria con-vencional em jogos que sejam muito complexos para os jogadores resolverem utilizandoos conceitos de equilíbrio usuais. Um exemplo claro é o jogo de xadrez: é um jogo deinformação completa e perfeita; entretanto, nem mesmo o melhor computador da IBM,o Deep Blue, construído essencialmente para jogar xadrez, obteve êxito de decifrartodas as possibilidades do jogo - uma vez que perdeu uma partida para o campeãoGary Kasparov. Os novos desenvolvimentos que incorporam a idéia de �racionalidadelimitada�, contudo, ainda não se consolidaram e também ultrapassam o escopo dessasnotas. Para uma didática introdução ao tema, ver Kreps (1994).

Exemplo 59 Pode ocorrer também que em um determinado jogo não exista nenhumENPS. Esse é o caso deste jogo, baseado em Kreps (1994). No primeiro estágio, doisjogadores escolhem, simultaneamente, entre duas opções, X e Y. Caso ambos escolhamY, cada um recebe $5. Se um escolher Y e o outro X, ninguém recebe nada. Seambos escolherem X, passa-se ao segundo estágio, onde eles, também simultaneamente,escolhem um número inteiro qualquer. O que escolher o maior, recebe o correspondenteem unidades monetárias, enquanto o outro �ca com metade daquele valor.

O subjogo �nal, similar a outro já apresentado na seção anterior, não possui nenhumequilíbrio de Nash. Sendo assim, não pode existir um resultado que induza a umequilíbrio de Nash em todos os subjogos, constituindo um ENPS. O que há nesse

100

Page 101: Apostila teoria dos jogos

jogo é um equilíbrio de Nash, no jogo como um todo. Esse corresponde a ambos osjogadores escolherem inicialmente a opção Y. Nenhum teria, pois, incentivo a desviar.Obviamente, o conceito de equilíbrio de Nash em jogos sequenciais é falho, por motivosjá comentados. Nesse caso, mais uma vez, ele terá muito pouca relação com a realidade,uma vez que é muito pouco provável que algum jogador escolha inicialmente Y. Noteque o teorema de Zermelo não se aplica aqui, uma vez que o jogo não é de informaçãoperfeita. Por isso foi possível a não existência de um ENPS.

4 Jogos Repetidos

Nesse tópico analisaremos novamente se ameaças e promessas em relação ao futuropodem in�uenciar o comportamento atual dos agentes. Ao fazer isso, buscamos mostraro que muda em uma análise de previsão do resultado de jogos quando esses são jogadosmais de uma vez. Uma das principais idéias é a de cooperação: será possível obtê-la casoo jogo se repita? Intuitivamente, poderíamos pensar que sim, pois um jogador poderiacooperar �hoje�para que os outros cooprerem com ele �amanhã�, e isso poderia valerpara todos os envolvidos. Deve-se, portanto, veri�car quando e sob que condições essaintuição de fato poderá se manifestar na realidade.

Os jogos repetidos são divididos em dois grupos: aqueles repetidos um número �nitode vezes e aqueles repetidos �in�nitamente�. Em relação ao primeiro grupo, a intuiçãofundamental pode ser apreendida apenas analisando-se o caso de jogos repetidos duasvezes, o que iremos fazer a seguir. Aqueles repetidos in�nitamente exigem algunsconceitos adicionais, apresentados na seção dois.

4.1 Jogos repetidos �nitos

A característica fundamental dos jogos repetidos �nitos é que todos os jogadoresenvolvidos sabem, antecipadamente, quantas vezes aquele jogo se repetirá. Pense, porexemplo, em um Congresso X de três dias que ocorrerá em um determinado hotel. Ex-istindo dois vendedores de pipoca naquela região, eles sabem que esse jogo (o mercadoque vende pipocas na porta do hotel naqueles dias com demanda especialmente am-pliada) durará exatamente três dias, e com base nessa informação é que de�nem suasestratégias. A questão a se veri�car é o que muda no caso onde o jogo é jogado apenasuma vez, como visto até agora, e quando se repete um número especí�co de vezes.

Como sempre, vamos iniciar a exposição através do um exemplo do �dilema dosprisioneiros�. Suponha então que o jogo fosse jogado duas vezes, sendo que, quando sereinicia o jogo, o resultado do primeiro estágio já é conhecimento comum. Os payo¤sdos jogadores serão tidos como simplesmente a soma dos payo¤s nas duas vezes em quese joga.

101

Page 102: Apostila teoria dos jogos

A forma de resolução de jogos de tal natureza é similar àquela vista para se encontrarENPS, i.e., deve-se analisar de trás para frente. No caso especí�co citado acima, osjogadores, uma vez que se iniciará a segunda rodada do �dilema dos prisioneiros�,sabem que o resultado do primeiro estágio já foi consolidado e, portanto, não têm maiscomo mudá-lo. Sendo assim, eles se preocupam apenas com o que virá, ou seja, asegunda rodada do jogo em questão. Pensando dessa forma, o que eles irão fazer nosegundo estágio do jogo? Irão proceder como fariam se o jogo fosse jogado apenas umavez (pois, a�nal, o que ocorreu na primeira rodada não poderá mais ser mudado): comoambos têm uma estratégia dominante, que é confessar, a jogarão na segunda vez.

jogador 2NC C

jogador 1 NC �1;�1 �9; 0C 0;�9 �6;�6

Como dito acima, a idéia por trás dos jogos repetidos é que, como ele será jogadomais de uma vez, pode ser que valha a pena cooperar no início para que o outro tambémcoopere com você nos estágios subsequentes. Todavia, perceba que uma vez que se saibaque se alcançou o último estágio do jogo, ninguém mais irá cooperar, pois não maisse necessitará que o outro também coopere no futuro, uma vez que o futuro, para taljogo, não existirá - pois aquela é a última rodada. Portanto, podemos concluir que:

Observação 60 Em um jogo repetido um número �nito de vezes, onde os payo¤s dosjogadores são a soma dos payo¤s obtidos em cada vez que o jogo é repetido, na últimarodada será jogado um Nash do jogo não repetido em questão, ainda que exista umacombinação de estratégias que dê payo¤s maiores para todos os jogadores mas que nãoseja em equilíbrio de Nash. Esta seria atingível apenas via cooperação, mas essa nãoexistirá na última vez em que o jogo é repetido.

No dilema dos prisioneiros jogado duas vezes, no primeiro estágio, os jogadores,portanto, sabem que na rodada seguinte ambos irão confessar e, assim, obter um payo¤de �6 cada. Eles podem então pensar o jogo repetido duas vezes apenas como o jogoem seu primeiro estágio acrescido de �6 para ambos nos payo¤s referentes a todos osresultados possíveis, uma vez que eles antecipam que esse será o ganho de cada um naúltima rodada. O jogo original é, portanto, encarado como se fosse o seguinte:

jogador 2NC C

jogador 1 NC �7;�7 �15;�6C �6;�15 �12;�12

O que se fez acima foi simplesmente adicionar ��6�em todos os payo¤s possíveis detodos os jogadores. Visualizando esse jogo, eles devem então novamente confessar,

102

Page 103: Apostila teoria dos jogos

dado que essa permanece sendo uma estratégia dominante para ambos. Conclui-seque o resultado do �dilema dos prisioneiros�repetido duas vezes será os dois jogadoresconfessarem em todas elas. A cooperação não pode, portanto, ser atingida em nenhumestágio, ainda que houvesse a promessa de um deles de que iria cooperar na primeiravez, por exemplo. Ainda assim o outro não cooperaria, porque ele saberia que, agindoassim, uma vez que o resultado do primeiro estágio emergisse, no segundo ninguémiria cooperar. E então não cooperar no primeiro daria um payo¤ total superior a ele,independente do que o outro �zesse, sendo, pois, uma estratégia dominante.

Essas conclusões permanecem inalteradas mesmo se mudássemos apenas o númerode vezes em que o jogo é repetido. Isto é, o resultado é válido mesmo para o �dilema�- ou qualquer outro jogo de informação completa - jogado n vezes, sendo n um número�nito. Imagine que ele fosse repetido quatro vezes. Na última ninguém cooperaria,pois não haveria um �futuro�para o jogo que justi�casse essa atitude. Na penúltimarodada, também ninguém cooperaria, porque todos saberiam que na última não haveriacooperação. O mesmo ocorreria na segunda rodada: cooperar para quê, dado que naterceira e na quarta ninguém o fará? Na primeira, o mesmo raciocínio se manteria. Oresultado geral pode ser apresentado da seguinte maneira:

Observação 61 De�nindo um jogo repetido T vezes como J (T ), sendo J o jogo si-multâneo de informação completa que é repetido e tendo que, quando se reinicia um es-tágio de J (T ), todos sabem quais são os resultados dos estágios anteriores; e de�nindo-se os payo¤s dos jogadores como simplesmente a soma dos payo¤s obtidos nos T está-gios de J (T ), se cada um dos estágios (J) de J (T ) possui um equilíbrio de Nash único,J (T ) possui um único ENPS, qual seja, o equilíbrio de Nash de J em todo estágio deJ (T ). Se o jogo J é dinâmico (mas também com informação completa) e possui umúnico ENPS, o ENPS do jogo repetido, J (T )47, será também o ENPS de J em cadaestágio.

Em suma, se um jogo com apenas um Nash - ou ENPS - (e com informação completa,como todos os que vimos até agora) for repetido um número �nito de vezes, o ENPSdo jogo repetido será o equilíbrio de Nash - ou ENPS - sendo jogado em todos os seusestágios - desde que os payo¤s do jogo repetido seja apenas a soma dos payo¤s obtidosem cada estágio.

Apesar do resultado �desanimador�visto acima, de que mesmo se o jogo for repetidon vezes a cooperação não será atingida em nenhum estágio - dadas nossas hipóteses

47Note que em um jogo estático e repetido T vezes, J (T ), haverá um número de subjogos igual aTPi=1

ri�1, onde r é o número de resultados possíveis de J (1), ou, da mesma forma, o número de pontos

terminais do jogo estático. Se J (1) conter alguma dinâmica, possuindo portanto mais de um subjogo,

digamos n, o total de subjogos de J (T ) será então nTPi=1

ri�1.

103

Page 104: Apostila teoria dos jogos

adicionais -, um caso diferente emerge se existem mais de um Nash no jogo que serájogado mais de uma vez. Um exemplo deixa claro tal possibilidade:

Exemplo 62jogador 2

D E FA 1; 1 5; 0 0; 0

jogador 1 B 0; 5 4; 4 0; 0

C 0; 0 0; 0 3; 3

No jogo acima, temos dois Nash: (A;D) e (C;F ). Vamos supor que ele será jogadoduas vezes. Pela lógica vista acima, sabemos que, no segundo estágio, será jogado umNash. Mas não sabemos qual!!! Os jogadores podem fazer então o seguinte acordo:

� se no primeiro estágio o resultado for (B;E), no segundo eles jogam (C;F ). Casocontrário, jogam (A;D) na segunda vez em que o jogo é jogado. Essa poderá seruma forma de se conseguir um resultado de cooperação, no caso caracterizadopor (B;E) - onde ambos ganham mais que em qualquer dos equilíbrios de Nashdo jogo não repetido -, pelo menos no primeiro estágio do jogo repetido, umavez que se sabe que no último isso não será possível. Se não há possibilidade derenegociação após efetivada a primeira rodada, o jogo que os jogadores visualizamno momento de começar, segundo o acordo, é o jogo estático apresentado acimasomados os payo¤s que eles terão no segundo estágio em cada possibilidade quepossa vir a ocorrer. Portanto, soma-se os payo¤s (1; 1) em todas as células, comexceção de (B;E), onde deve se somar (3; 3), que gera a seguinte matriz:

jogador 2D E F

A 2; 2 6; 1 1; 1

jogador 1 B 1; 6 7; 7 1; 1

C 1; 1 1; 1 4; 4

Há, no jogo visualizado no primeiro estágio, três equilíbrios de Nash. Todos eles con-stituem ENPS, quando consideramos o jogo completo, em seus dois estágios. Contudo,um deles confere payo¤s maiores para ambos os jogadores, sendo assim um caminhoóbvio a se jogar. Uma observação interessante é que podemos encontrar um ENPSque compreenda no primeiro estágio um resultado que não seja um Nash do jogo jo-gado apenas uma vez, neste caso o resultado (B;E). Essa possibilidade é obtenívelem função da multiplicidade (dois, neste caso) de equilíbrios de Nash no jogo que serárepetido e do arranjo que foi feito antes do jogo começar. Fundamental aqui foi tambéma hipótese de que não poderia ocorrer renegociação após o primeiro estágio.

104

Page 105: Apostila teoria dos jogos

O resultado obtido no exemplo acima é uma prova de que promessas/ameaças críveisa respeito de comportamentos futuros podem ser consideradas e, de fato, in�uenciaro comportamento corrente dos agentes. A cooperação pode então ser obtida em es-tágios anteriores aos últimos, em tais casos. Note, porém, que a existência de taisameaças/promessas críveis requer que no jogo não repetido existam pelo menos doisEN, pois, se elas considerarem a hipótese de se jogar ao �nal estratégias que não con-stituem EN, não deverão ser consideradas como possibilidades concretas .

Uma outra questão é a possibilidade de renegociação: caso ela exista, então nãopoderíamos ter o resultado cooperativo descrito acima. Por que? Ora, caso se possarenegociar, porque não, antes do segundo estágio se iniciar, os jogadores - mesmo se umdeles tiver �traído�o pacto inicial - não se reúnem e combinam de jogar o equilíbrio deNash que dê maior payo¤ para ambos? Mesmo com algum dos jogadores se sentindo�traído�pelo seu �companheiro�, ele deveria aceitar a renegociação, pois assim ganhariamais do que não agindo assim. A�nal, as perdas passadas são irrecuperáveis e eledeve preocupar-se em maximizar seu payo¤ daquele momento em diante. Portanto,caso se saiba que a renegociação seja possível, não há porque cooperar no primeiroestágio, e então o resultado desse também tem de ser um equilíbrio de Nash no jogonão repetido. No exemplo anterior, isso corresponderia a simplesmente adicionar aospayo¤s do primeiro estágio os payo¤s do resultado do jogo em sua segunda rodada,(3; 3). Os ENPS restantes seriam então apenas (A;D) ou (C;F )) no primeiro estágio, e(C;F ) no segundo. O arranjo proposto anteriormente, portanto, pode ser consideradoum ENPS no jogo repetido duas vezes, mas não é um ENPS a prova de renegociação.O conceito de ENPS em jogos de informação completa não é, pois, uma panacéia, nãoeliminando os resultados sensíveis a renegociações nos jogos repetidos �nitos.

O problema destacado acima emerge porque o �traído�, ao punir o �traidor�, jo-gando o equilíbrio de Nash que é pior para ambos no segundo estágio, está ao mesmotempo punindo a ele mesmo. Por isso, uma renegociação destituiria de sentido práticotal possibilidade. Todavia, em alguns jogos é possível encontrarmos ameaças/promessasque induzam à cooperação nos seus estágios iniciais e que sejam também resistente arenegociações.

Exemplo 63 O exemplo anterior com mais duas estratégias possíveis para cada jo-gador:

jogador 2D E F G H

A 1; 1 5; 0 0; 0 0; 0 0; 0

B 0; 5 4; 4 0; 0 0; 0 0; 0

jogador 1 C 0; 0 0; 0 3; 3 0; 0 0; 0

Y 0; 0 0; 0 0; 0 4; 0:5 0; 0

Z 0; 0 0; 0 0; 0 0; 0 0:5; 4

105

Page 106: Apostila teoria dos jogos

Existem no jogo não repetido acima quatro equilíbrios de Nash, como se percebe.Suponha que os jogadores combinem antes do primeiro estágio o seguinte acordo:

� se o resultado desse for (B;E), na segunda vez ambos jogam (C;F );

� caso apenas o jogador 1 desvie inicialmente dessa estratégia, na segunda rodadaeles jogam (Z;H), correspondendo a uma punição ao jogador1;

� caso o jogador 2 isoladamente desvie, no segundo estágio joga-se (Y;G), punindo-se esse último;

� se ambos desviarem de (B;E), eles jogam (C;F ) na segunda vez.

Dessa forma, eles terão incentivos a cooperar no primeiro estágio do jogo repetidoe, mesmo que ocorresse alguma �traição�, nenhum deles gostaria de deixar de aplicara punição ao que desviou, pois, ao aplicá-la, ele está fazendo algo que é melhor paraele mesmo, e então não aceitará renegociar. Como ambos sabem disso, nenhum iráquerer deixar de cooperar no primeiro estágio, e teremos então entre os ENPS, umcom (B;E) no primeiro estágio e (C;F ) no segundo, que incorpora um resultado quenão é um equilíbrio de Nash no jogo não repetido e, além disso, é também fechadopara renegociações. Para que essas conclusões �quem mais claras, vejamos o jogo queé visualizado por ambos os jogadores caso as estratégias de�nidas pelo acordo citadoacima se veri�cassem. Para tanto, basta adicionar os payo¤s (0:5; 4) em todas as célulasonde o jogador 2 escolhe E e o jogador 1 não escolhe B; (4; 0:5) em todas as célulasonde o jogador 1 joga B mas o jogador 1 não joga E; e (3; 3) em todas as outras:

jogador 2D E F G H

A 4; 4 5:5; 4 3; 3 3; 3 3; 3

B 4; 5:5 7; 7 4; 0:5 4; 0:5 4; 0:5

jogador 1 C 3; 3 0:5; 4 6; 6 3; 3 3; 3

Y 3; 3 0:5; 4 3; 3 7; 3:5 3; 3

Z 3; 3 0:5; 4 3; 3 3; 3 3:5; 7

Portanto, temos nesse jogo repetido duas vezes também três ENPS, com um delestornando-se focal segundo as estratégias sugeridas, pelo fato de gerar payo¤s superioresa todos os jogadores. Como comentado, esse incorpora na sua primeira rodada umresultado que não é Nah no jogo estático jogado apenas uma vez, correspondendo aum autêntico resultado de �cooperação�, obtenível apenas porque existem mais de umNash no jogo sem repetição. Além disso, é à prova de renegociação, uma vez que épossível penalizar um eventual �traidor�sem que se puna a si mesmo.

Novamente, vale lembrar que resultados como esse último poderiam ser alcançáveistambém se o jogo se repetisse mais de duas vezes, com a cooperação sendo possível

106

Page 107: Apostila teoria dos jogos

até o penúltimo estágio. Bastaria que a mesma estrutura se mantivesse, com o númerode repetições determinado e por todos conhecido, sendo também os payo¤s no jogorepetido a simples soma dos ganhos em todos os estágios.

4.2 Jogos repetidos in�nitamente

Mais uma vez o nosso objetivo aqui será avaliar se ameaças/promessas em relaçãoao comportamento futuro podem afetar o comportamento presente. No caso �nitoveri�camos que resultados que não são equilíbrios de Nash em cada estágio podem seralcançáveis antes do último estágio sob certas condições, particularmente de que existamais de um equilíbrio de Nash no jogo não repetido. Para o caso de repetição in�nita- termo de�nido de modo mais preciso abaixo -, mostraremos a possibilidade de algoainda mais forte: será possível encontrar um ENPS que não seja equilíbrio de Nash emnenhum dos estágios do jogo tomados isoladamente, e mesmo que exista apenas umequilíbrio de NashEN no jogo jogado apenas uma vez, como no Dilema dos Prisioneiros.

Vamos assumir a hipótese de que, ao iniciar-se um novo estágio do jogo, todosos jogadores sabem os resultados dos estágios anteriores. Entretanto, suponha quemantivéssemos aqui a hipótese de que os payo¤s dos jogadores fossem de�nidos comoantes, i.e., como sendo simplesmente o somatório do payo¤ de cada estágio. Dessaforma, não haveria diferença entre, por exemplo, alcançar um payo¤ de uma unidadeem cada rodada ou de dez unidades (ou de qualquer quantidade positiva) em cadauma delas. Em qualquer das hipóteses, o payo¤ do jogo in�nitamente repetido seriaum número in�nito, e não se poderia fazer comparações precisas entre eles. De outraforma: 1X

1 =1X10 =

1Xn =1 8n > 0.

Segue portanto que a nossa de�nição dos payo¤s do jogo repetido in�nitas vezesdeve ser diferente. O que se faz em geral é utilizar da mesma idéia inserida a respeito defatos futuros existente na aplicação de barganha sequencial, vista anteriormente. Istoé, supõem-se que os indivíduos valorizem mais o presente que o futuro. Essa hipóteseé extremamente razoável. Senão vejamos. Pergunte a você mesmo - ou a qualquerpessoa �normal� - o que seria preferível: receber agora cem reais ou receber, daqui adez anos, os mesmos cem reais? Não há dúvidas de que todas as pessoas (ou pelo menosquase todas) preferiria receber o dinheiro agora. Poder-se-ia argumentar que isso seriadevido à in�ação, mas pode-se refazer a mesma pergunta supondo o valor corrigido porum índice �razoável�qualquer (que corrija a in�ação e os juros reais do período) quea resposta não deverá alterar-se. A idéia é que, recebendo os reais agora, você poderáfazer tudo o que poderia fazer caso os recebesse após algum tempo e mais alguma coisa- gastá-los entre hoje e o período seguinte quando você também poderia recebê-los.Portanto, generalizasse que o mesmo payo¤ hoje é preferível (ou, pelo menos, não é

107

Page 108: Apostila teoria dos jogos

pior) a ele mesmo daqui a algum tempo futuro qualquer; e quanto mais distante for operíodo de recebimento, menos valor ele terá para você hoje (imagine o valor de milreais a se receber, por exemplo, daqui a setenta e cinco anos...).

O que fazemos é utilizar uma taxa de desconto (d) para os payo¤s futuros, queserá tanto maior quanto mais distante o período. O payo¤ de um jogador em um jogorepetido in�nitamente será então o somatório do que ele irá ganhar em cada estágio,mas com esses valores descontados para o presente. Isto é o mesmo que dizer quetrabalharemos com o �valor presente�do �uxo dos payo¤s que os jogadores irão obter,ou seja, quanto vale hoje para o jogador um determinado payo¤ que deverá receberapenas em um período seguinte. Isso é equivalente a se perguntar, por exemplo, qualseria o valor que faria com que um determinado jogador �casse indiferente entre recebê-lo hoje e receber cem reais (corrigidos pela taxa de juros nominal) daqui a um ano. Seele dissesse que seria 93 reais, seria um indicador de que a sua taxa de desconto anualseria algo em torno de 7:5%48 .

Ao invés de trabalhar com a taxa de desconto, utilizaremos um indicador similar -de manuseio mais simples -, que denominaremos fator de desconto e representaremospelo símbolo �, com � 2 (0; 1). Em relação à taxa, ele signi�ca

� =1

1 + d,

de modo que, quanto maior d, menor será �. Um fator de desconto quase igual aum, por exemplo, corresponde a um caso onde payo¤s futuros valem quase o mesmoque os presentes. Por outro lado, se � for muito próximo de zero, representará umasituação onde o relevante será fundamentalmente o presente, com pouco valor paraacontecimentos futuros. Em suma, quanto maior for o valor do fator de desconto, maisse valorizará o futuro, e vice-versa.

Entretanto, o fator de desconto � pode signi�car, além da redução do valor que oindivíduo confere hoje a um valor futuro, também a probabilidade do jogo terminarno próximo período. Nesta interpretação, um jogo repetido in�nitamente é entendidocomo um jogo que a cada período tem uma probabilidade (menor que um) de terminar.Ainda que o indivíduo valorizasse igualmente presente e futuro, ele preferiria um payo¤no estágio atual do jogo a esse mesmo valor no próximo período, pois existe determinadaprobabilidade de tal estágio não ocorrer. Pense, por exemplo, na briga de mercado pararefrigerantes sabor cola entre Coca-Cola e Pepsi. É provável que tal jogo se repita umnúmero muito grande de vezes. Mas existe, em cada período - seja qual for a suade�nição de período -, uma chance de o jogo acabar - com uma das �rmas fechando,

48Não seria exatamente 7%, como se poderia imaginar, porque a de�nição de uma taxa de descontoé um valor d que faz com que V P = V F

1+d, onde V P é o valor presente e V F é o valor futuro. No

exemplo dado, V F é 100 e V P é 93. O valor de d, portanto, é dado por d = V F�V PV P

, que nesse caso éaproximadamente 0:075.

108

Page 109: Apostila teoria dos jogos

por exemplo -, ainda que pequena49. Portanto, o fator de desconto re�ete os dois fatos:a menor valorização de payo¤s futuros em relação a presentes e a probabilidade do jogoterminar sem alcançar o próximo estágio.

Quanto às diferenças entre os jogos repetidos �nita e in�nitamente, a principaldelas é que nesses últimos não existe um último estágio - pelo menos ele não existecom certeza. Esse era o fato que levava à não cooperação nos jogos �nitos com apenasum Nash em cada estágio. Como nos jogos repetidos in�nitamente isso não existe, acooperação é possível - como veremos abaixo - mesmo se houver apenas um Nash nojogo não repetido.

O que iremos utilizar nesta seção são as chamadas �estratégias de gatilho (trigger)�.Elas possuem esse nome por se referirem a estratégias que de�nem para o jogador que autiliza uma posição de cooperação50 com os demais, que é mantida enquanto os outrostambém cooperam. Caso algum deles cesse o �acordo�, o jogador �dispara o gatilho�,i.e., pára de cooperar daí em diante, enquanto durar o jogo. Deve-se ter em vista queessa é uma possibilidade, embora seja uma das mais estudadas em teoria dos jogosrepetidos in�nitamente - provavelmente pela sua facilidade analítica.

Nos jogos repetidos, dinâmicos por de�nição, o conceito-chave para se fazer pre-visões a respeito de possíveis resultados de jogos é também o de ENPS. Como visto,para um conjunto de estratégias constituir em um ENPS, ela deve induzir um equilíbriode Nash em todos os subjogos do jogo em questão. Mas, no caso de repetição in�nita,o que seria um subjogo? Dada a de�nição mostrada anteriormente, é fácil perceberque nesses casos haverá um número in�nito de subjogos. Sendo o jogo repetido in�ni-tamente simultâneo - como no dilema dos prisioneiros -, existirão subjogos se iniciandoem cada vez que um novo estágio se iniciar. Raciocínio análogo aplica-se se o jogo semrepetição for dinâmico. Note que um estágio do jogo visto isoladamente não constituium subjogo! Eles apenas se iniciam nesse ponto (recorde a de�nição de subjogo, senecessário). Veja, por outro lado, que quando se inicia um estágio do jogo, cada sub-jogo é exatamente idêntico ao que havia começado anteriormente, uma vez que o jogoé in�nito! Por exemplo, um subjogo que se inicia no primeiro estágio é exatamente omesmo que se inicia no quarto, oitavo ou n�ésimo (para um n �nito) estágio.

Sabendo disso, o que se poderá concluir a respeito de um resultado que seja umequilíbrio de Nash no jogo como um todo? Que ele deve ser também um equilíbrio deNash em todos os outros subjogos, e, portanto, um ENPS! Assim, basta encontrar os

49Se não fosse assim, estaríamos supondo que Coca e Pepsi interagir-se-iam no mercado de refriger-antes sabor cola durante muito mais que, por exemplo, um trilhão de séculos, o que não seria razoável- nem para esse e nem para nenhuma outra situação de interdependência estratégica.50Por �cooperação�, tanto aqui como nos jogos �nitos, entende-se uma escolha que, tendo em vista

apenas o estágio do jogo isoladamente, não seria uma opção ótima para o jogador. Entretanto, podeconstituir-se em uma desde que ela induza os outros jogadores a também cooperarem em estágiosfuturos.

109

Page 110: Apostila teoria dos jogos

equilíbrios de Nash do jogo inteiro (que de�ne um subjogo que será igual a todos osdemais) para termos também os ENPS.

Exemplo 64 Dilema dos prisioneiros repetido in�nitamente. Tome o jogo abaixo jo-gado in�nitas vezes, de�nindo-se o payo¤ dos jogadores como o valor presente dospayo¤s obtidos em cada estágio do jogo, e sendo o fator de desconto entre dois períodosconsecutivos chamado de � 2 (0; 1).

jogador 2NC C

jogador 1 NC �1;�1 �9; 0C 0;�9 �6;�6

Vamos propor uma �estratégia de gatilho�para ambos os jogadores:

� cooperar (não confessar) no primeiro estágio; em qualquer estágio subsequente,coopera se o resultado do período anterior tiver sido (NC;NC), i.e., se tiverocorrido cooperação; caso contrário, o jogador não coopera mais e confessa daíem diante�.

Se ambos os prisioneiros/jogadores jogam com essa estratégia, sempre haverá coop-eração, pois ambos começarão cooperando; no estágio seguinte, virão que terá ocorrido(NC;NC) no anterior e permanecerão cooperando, ocorrendo o mesmo no terceiro,quarto etc. estágios. Mas isso, em si mesmo, não diz nada: o que se requer é queambos tenham incentivos em de fato utilizar aquela estratégia. Tem-se então que setestar se ela, de fato, constitui um ENPS, o que ocorrerá se nenhum jogador quiserdesviar em nenhum subjogo.

Vejamos inicialmente se a estratégia de gatilho pode ser um equilíbrio de Nash nojogo como um todo. Caso um dos jogadores a estiver jogando, será o melhor para ooutro também jogá-la? Suponha que ele desvie na primeira rodada: obterá então payo¤igual a zero, ao invés de �1. Entretanto, ele sabe que, fazendo isso, o outro jogadornunca mais irá cooperar. O resultado após o primeiro estágio será então sempre ambosconfessarem. O payo¤ do jogador que desviou será, pois, o valor presente dos seuspayo¤s obtidos em cada rodada do jogo, i.e.:

0 + (�6) � + (�6) �2 + (�6) �3 + ::: = (�6) �

1� �

Mas, para saber se o desvio proposto acima é uma boa alternativa, temos quecomparar o payo¤que ele confere ante o payo¤que seria obtido caso o jogador resolvessenão desviar, e portanto também jogasse a estratégia de gatilho acima descrita. Como ooutro, por hipótese, também a está seguindo, o payo¤ que ele receberá em cada estágio

110

Page 111: Apostila teoria dos jogos

será aquele emergente de quando ambos cooperam. No caso do dilema dos prisioneirosapresentado acima, seria obter sempre �1. O valor presente do �uxo total dos payo¤sseria então

�1 + (�1) � + (�1) �2 + (�1) �3 + ::: = (�1) �

1� �Portanto desviar no primeiro estágio vale a pena apenas se

(�6) �

1� � � (�1)�

1� � $ � � 1

6.

Ou seja, para valores relativamente pequenos de � - o que signi�ca que o jogadorvaloriza pouco o futuro -, vale a pena para ele desviar, pois o fato de ganhar menosno futuro é menos signi�cativo para ele que a vantagem de obter um payo¤ superiorno primeiro período. De outra forma, caso o fator de desconto não seja tão pequeno(não seja menor que 1=6), então será preferível ao jogador também utilizar a estratégiade gatilho inicialmente proposta, dado que o outro também a está utilizando. Como ojogo, neste exemplo, é simétrico, a mesma condição obtida para um jogador vale para ooutro: se � > 1=6 , nenhum dos jogadores terá incentivo a desviar no primeiro estágioda estratégia de gatilho proposta.

Vimos acima, portanto, qual a condição necessária para que a estratégia de gatilhoseja um equilíbrio de Nash no dilema dos prisioneiros repetido in�nitamente. Entre-tanto, requer-se que ela seja também ENPS, i.e., que seja um equilíbrio de Nash emcada subjogo. Como sabe-se que os subjogos nesse caso são idênticos, temos então queo requerimento para que se obtenha um equilíbrio de Nash no jogo inteiro é exatamenteo mesmo para que ela seja ENPS. Nesse caso, a estratégia de gatilho proposta para osdois prisioneiros/jogadores serão ENPS também caso o fator de desconto seja maior doque ou igual a 1=6.

Após concluirmos para um exemplo especí�co, somos levados a mostrar um resul-tado mais geral, conhecido como Teorema de Friedman, ou, mais usualmente, comoFolk theorem (�teorema popular�)51 . Vamos de�ní-lo de uma maneira informal:

Teorema 65 - �Folk Theorem�: Seja um jogo J , estático, �nito e de informaçãocompleta. Caso exista um conjunto de estratégias (mesmo que elas não sejam umequilíbrio de Nash de J) dos jogadores que con�ram payo¤s f(p1; :::; pn)g a todos eles,superiores aos que obteriam jogando um equilíbrio de Nash de J , se o fator de desconto� for su�cientemente próximo de um (i.e., se se descontar su�cientemente pouco osvalores futuros), então existe um ENPS no jogo J repetido in�nitas vezes onde sealcança, em cada estágio, os payo¤s f(p1; :::; pn)g para os n jogadores.51O teorema tem esse nome porque, antes de publicado, já era conhecido pela maior parte dos

teóricos de jogos. Na verdade, como aponta Gibbons (1992), o teorema aqui referido não é exatamenteo �folk�inicial, mais conhecido. De fato, é parecido, mas com algumas mudanças que o incrementaram,elaboradas por James Friedman em 1971.

111

Page 112: Apostila teoria dos jogos

Podemos então concluir esta seção a�rmando que, sob determinadas condições (um� �grande�, basicamente), resultados inalcançáveis em jogos não repetidos ou repetidostendo-se em vista um horizonte �nito são atingíveis se o jogo se repete inde�nidamente(com uma probabilidade entre zero e um), acarretando payo¤s (considerando-se o jogointeiro) superiores ao que poderiam ser obtidos de outra forma.

Algumas observações �nais devem ser feitas. A primeira refere-se ao fato de quetrabalhamos apenas com as chamadas �estratégias de gatilho�. Na realidade, muitasoutras podem ser construídas, como já comentado, levando a uma maior ou menore�ciência no cumprimento de acordos e a penalizações maiores ou menores caso essesnão sejam cumpridos. Contudo, vamos deixá-las de lado por acreditar que a idéiabásica já �ca su�cientemente clara apenas pela análise das �estratégias de gatilho�.

Assim como várias estratégias podem ser elaboradas, há um outro problema comjogos repetidos que diz respeito à multiplicidade de �equilíbrios� que podem ser en-contrados. Inclusive para se gerar um mesmo resultado, várias estratégias podem serutilizadas pelos jogadores. Esse fato enfraquece o poder de previsão da teoria em jogoscom essas características, especialmente se não for possível algum tipo de coordenaçãoprévia e caso não exista qualquer indício da existência de pontos focais.

Um último ponto diz respeito ao fator de desconto. Durante toda a seção, foi supostaa existência, conhecida pelos jogadores, de um fator para cada jogo. Na verdade, essaé uma simpli�cação, pois é razoável que se tenha não apenas um em cada jogo, mas,em cada um deles, também um para cada jogador. Ou seja, o futuro pode ter valordiferente para jogadores distintos, assim como eles podem vislumbrar a possibilidade decontinuação de um jogo com probabilidades também distintas. Em termos de resolução,nada se altera signi�cativamente com essa modi�cação. A diferença é que os valorescríticos dos fatores de desconto (para gerar cooperação sob determinada estratégia, porexemplo) terão de ser calculados para cada jogador.

4.3 Aplicações

4.3.1 Duopólio de Cournot repetido in�nitamente

Vejamos o que se altera no modelo (duopólio) de Cournot visto anteriormente caso ojogo se repita in�nitamente, com um fator de desconto entre dois períodos consecutivosigual a �, como de praxe. As especi�cações do modelo são as mesmas do jogo semrepetição.Antes obtivemos a existência de apenas um equilíbrio de Nash, onde ambasas �rmas produziam

qi =1

3(a� c) ; i = 1; 2

e lucravam cada uma�i =

1

9(a� c)2 ; i = 1; 2.

112

Page 113: Apostila teoria dos jogos

Quando supomos que elas tinham a possibilidade de formar um cartel, produzindocada uma a metade do que um monopolista produziria, incrementariam assim o lucroagregado do mercado e, também, o de cada uma delas isoladamente. A produção e olucro nesse caso seriam (resolvendo o problema do monopolista):(

qi =qm2 = 1

4 (a� c) ; i = 1; 2�i =

�m2 = 1

8 (a� c)2 ; i = 1; 2

Entretanto, veri�camos também que tal conluio não era estável, pois ambas iriamter incentivos em desviar da estratégia proposta. O jogo que resultava dessa análise é oque está descrito abaixo, um Dilema dos Prisoneiros onde o (único) equilíbrio de Nashera as �rmas não constituirem o cartel e competirem em Cournot:

�rma 2cartel compete

�rma 1 cartel 18 (a� c)

2 ; 18 (a� c)2 3

32 (a� c)2 ; 964 (a� c)

2

compete 964 (a� c)

2 ; 332 (a� c)2 1

9 (a� c)2 ; 19 (a� c)

2

Como antes, é fácil ver que o payo¤s associado ao cartel é estritamente maior do que oganho de equilíbrio para ambas as �rmas, de modo que o equilíbrio não é e�ciente. Noentanto o acordo não é crível na medida em que nenhuma das �rmas tem incentivosa jogar nenhuma estratégia que não aquela(s) que compõem o equilíbrio de Nash dojogo: o equilíbrio de Nash é um resultado (estrategicamente) estável.

Mas vejamos o que poderia se alterar caso o jogo fosse repetido com horizontein�nito. Primeiramente, veri�quemos a condição, no jogo repetido in�nitamente, paraque constitua um equilíbrio de Nash a seguinte estratégia de gatilho:

� produzir qm2 no primeiro período; manter qm

2 em cada período se a outra �rmatambém tiver produzido essa quantidade no período anterior; senão, produzir aquantidade do equilíbrio de Nash de Cournot não repetido para sempre.

Para testar se essa estratégia constitui um equilíbrio de Nash, basta veri�car se opayo¤ obtido a seguindo será maior ou igual ao que se obteria desviando no primeiroperíodo, supondo que o outro jogador esteja jogando a estratégia proposta. Assim, osjogadores não irão desviar - e a estratégia proposta jogada por ambos será um equilíbriode Nash - se: (

(a�c)28 � 1

1�� �9(a�c)264 + (a�c)2

9 � �1�� $

� � 917

Pela lógica vista anteriormente, sabemos que se � não é menor que 9=17, entãoambos os jogadores jogarem a estratégia de gatilho acima será um Nash e um ENPSno jogo repetido in�nitamente. Nesse caso, o cartel, para esse dado problema, torna-seestável.

113

Page 114: Apostila teoria dos jogos

Todavia, essa não é uma regra para todos os conluios de mercado possíveis. Intuiti-vamente, caso existissem mais jogadores no oligopólio e se houvesse di�culdades de severi�car quem �furou�o acordo, por exemplo, a coordenação seria muito di�cultada ea estabilidade poderia não ser alcançada. Questões como essas podem ser respondidas,portanto, apenas a partir de uma perspectiva especí�ca para cada caso.

4.3.2 Política Monetária Temporalmente Consistente

Considere um jogo sequencial no qual patrões e empregados negociam salários nom-inais e posteriormente a autoridade monetária escolhe a oferta de moeda, o que, por suavez, determinará a taxa de in�ação do período. Se os contratos salariais não puderemser perfeitamente indexados, os trabalhadores e os empregadores tentarão antecipar ain�ação para determinar o salário que vigorará. Entretanto, uma vez que o salário nom-inal, indexado imperfeitamente, foi determinado, a realização de uma in�ação acima dain�ação antecipada vai corroer o salário real, fazendo com que as �rmas expandam osempregos e o produto. Posto isso, a autoridade monetária enfrenta um trade-o¤ entreos custos da in�ação e os benefícios de redução do desemprego e aumento do produtoque decorrem da in�ação não antecipada.

Como em Barro e Gordon (1983), nós analizamos uma forma reduzida desse modelono seguinte stage-game (o jogo não repetido). Primeiro, os empregadores formam umaexpectativa de in�ação, �e. Segundo, a autoridade monetária observa essa expectativae escolhe um nível de in�ação que de fato se realizará, �. O payo¤ das �rmas é dadopor

� (� � �e)2

Ou seja, as �rmas desejam antecipar corretamente a taxa de in�ação na medida emque o payo¤ máximo que elas podem atingir é zero, o que ocorre quando � = �e.A autoridade monetária, por sua vez, gostaria de in�ação zero e que o produto (y)estivesse no seu nível e�ciente (y�). Nesse sentido o payo¤ da autoridade monetária édado por

U (�; y) = �c�2 � (y � y�)2

onde o parâmetro c > 0 re�ete o trade-o¤ da autoridade monetária entre os doisobjetivos. Suponha que o produto seja função do produto-alvo (o nível e�ciente) e dain�ação não-antecipada de acordo com a expressão abaixo,

y = by� + d (� � �e)

onde b 2 (0; 1) re�ete a presença de poder de monopólio no mercado de produtos,de modo que se não houver in�ação não-antecipada então o produto será menor doque o produto e�ciente, e d > 0 mede o efeito da in�ação não-antecipada sobre o

114

Page 115: Apostila teoria dos jogos

produto através da compressão dos salários reais, como descrito acima. Podemos entãoreescrever o payo¤ da autoridade monetária como

W (�; �e) = �c�2 � [(b� 1) y� + d (� � �e)]2

Para resolver o resultado perfeito em subjogos desse jogo não-repetido, nós primeirocomputamos a escolha ótima da autoridade monetária de �, dada a expectativa dosempregadores, �e. Ou seja, a autoridade monetária vai

max�W (�; �e)

de modo que as CPO´s implicam que

@W (�; �e)

@�= �2c� � 2d [(b� 1) y� + d (� � �e)] = 0

tal que, resolvendo para a variável de escolha,

�� (�e) =d

c+ d2[(1� b) y� + d�e]

Como (por indução retroativa) as �rmas antecipam perfeitamente a escolha da autori-dade monetária, o problema das empresas torna-se escolher uma previsão de in�açãoque maximiza seu payo¤dado que a função de reação da autoridade monetária, �� (�e),é de conhecimento comum. Isto é,

max�e

� (� � �e)2 =�� (�e)

= ��

d

c+ d2[(1� b) y� + d�e]� �e

�2= �

�d

c+ d2(1� b) y� +

�d2

c+ d2� 1��e�2

= ��

d

c+ d2(1� b) y� �

�c

c+ d2

��e�2

As CPO´s implicam que

�2�

d

c+ d2(1� b) y� �

�c

c+ d2

��e��

c

c+ d2

�= 0

tal que

�e =d (1� b)

cy�

115

Page 116: Apostila teoria dos jogos

Substituindo em �� (�e) temos

�� (�e) =d

c+ d2

�(1� b) y� + d

2 (1� b)c

y��

=d (1� b)c+ d2

�1 +

d2

c

�y�

=d (1� b)

cy�

onde, observe, �� = �e.Outra forma de analizar a questão (mais simples, inteligente e que, obviamente,

deve gerar o mesmo resultado) é lembrar que decorre do problema das �rmas que noótimo

�e = �

tal que temos

�� (�e) = �e =d

c+ d2[(1� b) y� + d�e]

ou seja,

�e�1� d2

c+ d2

�=

d

c+ d2(1� b) y�

�e�

c

c+ d2

�=

d

c+ d2(1� b) y�

tal que

�e =d (1� b)

cy� = �s > 0

onde o subscrito s denota o stage-game. De uma maneira equivalente, poderíamos dizerque a expectativa racional para as �rmas formarem é aquela que subsequentementeseja con�rmada pela autoridade monetária, tal que �� (�e) = �e e portanto �e = �s.Quando as empresas formam a expectativa de in�ação �e = �s, o custo marginal paraa autoridade monetária em determinar a in�ação � um pouco acima de �s equivaleexatamente ao benefício marginal da in�ação não-esperada. Nesse resultado perfeitoem subjogos, espera-se que a autoridade monetária gere in�ação positiva e de fato eleassim fará, mas seria ainda melhor se ela pudesse se comprometer a não gerar in�ação.Logo, se as �rmas têm expectativas racionais (� = �e), então in�ação zero maximiza opayo¤ da autoridade monetária, pois

W (�; �e) = �c�2 � (b� 1) y�2

tal que � = 0 é ótimo.Considere agora esse jogo repetido in�nitamente e que ambos os jogadores tenham

a mesma taxa de desconto intertemporal �. Vamos derivar as condições sob as quais

116

Page 117: Apostila teoria dos jogos

� = �e = 0 em todo período seja um equilíbrio perfeito de acordo com as seguintesestratégias: no primeiro período, as empresas �xam uma expectativa in�acionária �e =0, nos períodos subsequentes �xam �e = 0 se todas expectativas anteriores foram �e = 0e se todas as in�ações realizadas até então tenham sido � = 0; caso contrário �xam�e = �s - a expectativa racional do jogo não repetido. Similarmente, a autoridademonetária escolhe � = 0 se a expectativa corrente for �e = 0, todas as expectativaspassadas tiverem sido �e = 0 e toda in�ação realizada até então tiver sido � = 0; casocontrário escolhe � = �� (�e), a melhor resposta que ela pode dar às expectativas das�rmas.

Suponha que as �rmas formem a expectativa �e = 0 no primeiro período. Dada a es-tratégia das �rmas (isto é, a forma que elas determinam suas expectativas in�acionáriasapós realizar a in�ação de fato), a autoridade monetária pode restringir sua atençãopara duas possibilidades de escolha: (1) � = 0, o que leva a �e = 0 no próximo períodoe daí à mesma decisão da autoridade monetária no próximo período e (2) � = �� (0),de �� (�e) = d

c+d2[(1� b) y� + d�e], o que leva a �e = �s daí em diante, caso no qual

seria ótimo para a autoridade monetária �xar � = �s daí em diante. Fixando � = 0

nesse período resultará em um payo¤ de W (0; 0) em cada período e �xando � = �� (0)nesse período resultará em um payo¤ de W (�� (0) ; 0) no período corrente mas em umpayo¤ de W (�s; �s) daí em diante. Logo a estratégia da autoridade monetária será amelhor resposta à regra adotada pelas �rmas se

1

1� �W (0; 0) �W (�� (0) ; 0) +�

1� �W (�s; �s)

Simpli�cando a expressão acima teremos que in�ação zero será crível, será umequilíbrio perfeito no jogo repetido in�nito, se

� � c

2c+ d2

onde cada um dos parâmetros, c e d, tem dois efeitos. Um aumento em d torna ain�ação não antecipada pelo mercado mais efetiva ao afetar o produto e o desemprego,de modo que torna-se mais tentador para a autoridade monetária gerar in�ação acimadaquela esperada, mas pelo mesmo motivo um aumento em d também aumenta �s, ain�ação do jogo não repetido, o que torna a punição mais custosa para a autoridademonetária. Da mesma forma, um aumento em c torna a in�ação mais custosa, o que fazcom que gerar in�ação não antecipada seja menos atraente, mas também reduz �s. Emambos os casos, o último efeito domina o primeiro, tal que o valor crítico do fator dedesconto necessário para sustentar esse equilíbrio é c

2c+d2, crescente em c e decrescente

em d, 8><>:@�

c2c+d2

�@c = 2c+d2�2c

(2c+d2)2= d2

(2c+d2)2> 0

@�

c2c+d2

�@d = �2dc

(2c+d2)2< 0

117

Page 118: Apostila teoria dos jogos

Nós mostramos até aqui que a estratégia da autoridade monetária é a melhor re-sposta à estratégia das �rmas se �� (�e) = d

c+d2[(1� b) y� + d�e] vale. Para mostrar

que essa estratégia é um equilíbrio de Nash, resta mostrar que ela é a melhor respostaàs �rmas, o que decorre da observação de que as �rmas obtêm seus maiores payo¤s pos-síveis (zero) em cada período. Mostrar que tais estratégias são perfeitas em subjogossegue os mesmos argumentos utilizados na seção anterior.

5 Jogos bayesianos estáticos e equilíbrio bayesiano de Nash

Vamos começar aqui a estudar jogos de informação incompleta, também ditos jogosbayesianos. Lembre-se que em jogos, estáticos e dinâmicos, de informação completa, porde�nição, a função de ganho dos jogadores era de conhecimento comum. Em contraste,nos jogos de informação incompleta, a função payo¤ de pelo menos um dos jogadoresnão será de conhecimento comum, o que denota um elemento de incerteza na medida emque pelo menos um jogador estará incerto sobre a função payo¤ dos outros jogadores.Manteremos o formato que estamos seguindo desde o começo e apresentaremos primeirojogos bayesianos estáticos e posteriormente trataremos de jogos dinâmicos.

Um exemplo padrão de jogos estáticos de informação incompleta são leilões fecha-dos. Cada participante (�bidder�) sabe a sua própria avaliação do bem leiloado mas nãoconhece as avaliações dos demais participantes. O lances (�bids�) são submetidos emenvelopes fechados, de modo que os movimentos dos jogadores podem ser consideradossimultâneos. No entanto, a maioria dos jogos bayesianos interessantes economicamentesão dinâmicos. Como nós veremos na próxima seção, a existência de informação pri-vada leva naturalmente à tentativas da parte informada de se comunicar (ou enganar)e à tentativas da parte não informada de aprender e responder. Essas questões sãoinerentemente dinâmicas.

Na próxima seção vamos de�nir a forma de representar de um jogo bayesiano es-tático e a noção de equilíbrio correspondente, qual seja equilíbrio bayesiano de Nash.Como tais noções são mais complexas e abstratas do que as vistas até aqui, faremosisso através de um exemplo, um oligopólio de Cournot sob informação incompleta.

5.1 Cournot sob informação incompleta

Considere um duopólio de Cournot padrão em que as �rmas escolhem simultanea-mente o quanto produzir. A curva de demanda inversa é

P (Q) = a�Q e Q = q1 + q2

A função custo da �rma 1 é dada por

C1 (q1) = cq1

118

Page 119: Apostila teoria dos jogos

e isso é de conhecimento comum. Já a função custo da �rma 2 não. Ela é dada por

C2 (q2) =

(cHq2 com probabilidade �

cLq2 com probabilidade 1� �, onde 0 < cL < cH

A �rma 1 não sabe ao certo qual é a função custo da �rma 2 (essa �rma pode seruma �rma nova no mercado ou pode ter inventado uma nova tecnologia): o que éde conhecimento comum aqui é a distribuição de probabilidades sobre a e�ciência da�rma 2 e a própria estrutura de informação, no sentido de que a �rma 1 sabe que 2 teminformação superior, a �rma 2 sabe que a �rma 1 sabe isso e assim sucessivamente.

Como resolver esse jogo? Considere primeiro o caso da �rma 2, a �rma que temmais informação. Caso ela seja ine�ciente, o seu problema será

maxq2�2 (cH) = P (Q) q2 � cHq2

= (a� q1 � q2 � cH) q2

E analogamente, caso ela seja mais e�ciente, vai

maxq2�2 (cL) = P (Q) q2 � cLq2

= (a� q1 � q2 � cL) q2

Decorre das CPO´s dos problemas acima que

q2 (cH) =a� cH � q1

2e que q2 (cL) =

a� cL � q12

que são as melhores respostas que a �rma 2 pode dar às escolhas de 1 caso ela seja decusto alto ou de custo baixo.

Já o problema da �rma 1, a �rma não informada, é maximizar o seu ganho esperadoem função da chance de 2 ser ou não e�ciente. Ou seja, a �rma 1

maxq1�1 = � [P (q1 + q2 (cH)) q1 � cq1] + (1� �) [P (q1 + q2 (cL)) q1 � cq1]

= � [(a� q1 � q2 (cH)) q1 � cq1] + (1� �) [(a� q1 � q2 (cL)) q1 � cq1]= � [(a� c� q1 � q2 (cH)) q1] + (1� �) [(a� c� q1 � q2 (cL)) q1]

tal que as CPO´s implicam que

@�1@q1

= � [(a� c� 2q1 � q2 (cH))] + (1� �) [(a� c� 2q1 � q2 (cL))] = 0

tal que

q1 (q2 (cH) ; q2 (cL)) =� [(a� c� q2 (cH))] + (1� �) [(a� c� q2 (cL))]

2

=a� c� [�q2 (cH) + (1� �) q2 (cL)]

2

119

Page 120: Apostila teoria dos jogos

será a melhor resposta (esperada) que a �rma 1 pode dar às escolhas de 2. Da interseçãodessas 3 equações de melhores respostas segue que

q1 =a� c�

���a�cH�q1

2

�+ (1� �)

�a�cL�q12

��2

ou seja,4q1 = 2a� 2c� a+ �cH + �q1 + (1� �) cL + (1� �) q1

ou ainda,

q1 =a� 2c+ �cH + (1� �) cL

3Como curiosidade, veja o que ocorre quando cH = cL = c e compare com o equilíbriode Nash em Cournot com informação completa.

Substituindo essa expressão acima em q2 (cH) e em q2 (cL), teremos as demais ex-pressões de equilíbrio,

q2 (cH) =a� cH2

� 16[a� 2c+ �cH + (1� �) cL]

tal que

6q2 (cH) = 3a� 3cH � a+ 2c� �cH � (1� �) cL + [(1� �) cH � (1� �) cH ]

ou seja,

q2 (cH) =a� 2cH + c

3+(1� �)6

(cH � cL)

Analogamente (faça as contas como exercício), a �rma 2 de custo baixo produzirá

q2 (cL) =a� 2cL + c

3� �6(cH � cL)

Logo em equilíbrio as �rmas produzirão8><>:q�1 =

a�2c+�cH+(1��)cL3

q�2 (cH) =a�2cH+c

3 + (1��)6 (cH � cL)

q�2 (cL) =a�2cL+c

3 � �6 (cH � cL)

A oferta esperada da indústria será

Q = q1 + q2 = q1 + �q2 (cH) + (1� �) q2 (cL)

Ou seja,

Q =a� 2c+ �cH + (1� �) cL

3+

+�

�a� 2cH + c

3+(1� �)6

(cH � cL)�+

+(1� �)�a� 2cL + c

3� �6(cH � cL)

�120

Page 121: Apostila teoria dos jogos

Logo

3Q = a� 2c+ �cH + (1� �) cL + � (a� 2cH + c) + (1� �) (a� 2cL + c)

ou ainda,3Q = 2a� c� �cH � (1� �) cL

tal que

Q =2a� c� �cH � (1� �) cL

3

O preço esperado por sua vez será

P (Q) = a�Q = a� 2a� c� �cH � (1� �) cL3

=a+ c+ �cH + (1� �) cL

3

Já com relação aos lucros das �rmas em equilíbrio, observe que o lucro da �rma 1será

�1 = � [P (Q) q1 � cq1] + (1� �) [P (Q) q1 � cq1]= � (P (Q)� c) q1 + (1� �) (P (Q)� c) q1= (P (Q)� c) q1

=

�a+ c+ �cH + (1� �) cL

3� c��

a� 2c+ �cH + (1� �) cL3

�=

(a� 2c+ �cH + (1� �) cL)2

9

Para mostrarmos que o raciocínio acima está correto, tome a função lucro da �rma umum pouco mais �aberta�,

�1 = � [P (q1 + q2 (cH)) q1 � cq1] + (1� �) [P (q1 + q2 (cL)) q1 � cq1]= � [(a� q1 � q2 (cH)) q1 � cq1] + (1� �) [(a� q1 � q2 (cL)) q1 � cq1]= (a� c� q1) q1 � �q2 (cH) q1 � (1� �) q2 (cL) q1= [a� c� q1 � �q2 (cH)� (1� �) q2 (cL)] q1

Ou seja,

�1 =

264 a� c� a�2c+�cH+(1��)cL3 �

���a�2cH+c

3 + (1��)6 (cH � cL)

��

� (1� �)�a�2cL+c

3 � �6 (cH � cL)

�375�a� 2c+ �cH + (1� �) cL

3

=

"a� c� a�2c+�cH+(1��)cL

3 ����a�2cH+c

3

�� (1� �)

�a�2cL+c

3

� #�a� 2c+ �cH + (1� �) cL3

121

Page 122: Apostila teoria dos jogos

tal que

3�1 =

"3a� 3c� a+ 2c� �cH � (1� �) cL��� (a� 2cH + c)� (1� �) (a� 2cL + c)

#�a� 2c+ �cH + (1� �) cL

3

3�1 =

"2a� c+ �cH + (1� �) cL���a� �c� a� c+ �a+ �c

#�a� 2c+ �cH + (1� �) cL

3

�3�1 = [a� 2c+ �cH + (1� �) cL]

�a� 2c+ �cH + (1� �) cL

3

�e portanto

�1 =(a� 2c+ �cH + (1� �) cL)2

9

exatamente a mesma expressão inicial. Como é comum em Cournot, repare que �1 = q21.O lucro da �rma 2 ine�ciente, de custo alto, será por sua vez

�2 (cH) = (P (Q)� cH) q2

=

�a+ c+ �cH + (1� �) cL

3� cH

��a� 2cH + c

3+(1� �)6

(cH � cL)�

=

�a� 3cH + c+ �cH + (1� �) cL

3

��a� 2cH + c

3+(1� �)6

(cH � cL)�

=

�a� 2cH + c

3+�cH � cH + (1� �) cL

3

��a� 2cH + c

3+(1� �)6

(cH � cL)�

=

�a� 2cH + c

3+(1� �)3

(cL � cH)��12=� 1

2

���a� 2cH + c

3+(1� �)6

(cH � cL)�

=

�a� 2cH + c

3+(1� �)6

(cH � cL) (�2)��

a� 2cH + c3

+(1� �)6

(cH � cL)�

e portanto agora teremos �2 (cH) 6= (q2 (cH))2, o que é bastante comum em Cournot.Para podermos ter uma interpretação mais direta do lucro da �rma 2 de custo alto,considere a expressão abaixo

�2 (cH) =

�a+ c+ �cH + (1� �) cL

3� cH

��a+ c� (�cH + (1� �) cL)

3� cH

�=

�a+ c� 3cH + �cH + (1� �) cL

3

��a+ c� 3cH � (�cH + (1� �) cL)

3

�9�2 (cH) = (a+ c� 3cH + �cH + (1� �) cL) (a+ c� 3cH � (�cH + (1� �) cL))

= (a+ c� 3cH)2 � (a+ c� 3cH) (�cH + (1� �) cL) ++ (a+ c� 3cH) (�cH + (1� �) cL)� (�cH + (1� �) cL)2

= (a+ c� 3cH)2 � (�cH + (1� �) cL)2

tal que

�2 (cH) =(a+ c� 3cH)2 � (�cH + (1� �) cL)2

9

122

Page 123: Apostila teoria dos jogos

Logo�2 (cH) � 0() a+ c� 3cH > �cH + (1� �) cL

ou seja, se

cH �a+ c� (1� �) cL

3 + �

Analogamente para a �rma 2 de custo baixo, teremos

�2 (cH) =(a+ c� 3cL)2 � (�cH + (1� �) cL)2

9

de modo que o lucro dessa �rma não será negativo se e somente se

�2 (cL) > 0() a+ c� 3cL > �cH + (1� �) cL

isto é, se

cL �a+ c� �cH3 + (1� �)

6 Informação assimétrica e teoria dos contratos

6.1 Introdução

O objeto de análise em ambientes de informação assimétrica é de�nido a partir daspropriedades dos contratos nesse tipo de ambiente vis-à-vis situações de simetria. Nessesentido, vamos considerar casos onde a assimetria surge quando (i) o contrato já foi�rmado e o tipo do agente é determinado endogenamente (moral hazard), (ii) antes deo contrato ser feito e com o tipo determinado exogenamente (seleção adversa) e (iii) aparte informada revela alguma informação privada sobre o seu tipo via comportamentoindividual antes de o contrato ser estabelecido (sinalização). Em todos esses ambientesinvariavelmente vamos considerar que todo o poder de barganha pertence ao principal.

Um �agreement� será ofertado apenas àqueles que satis�zerem determinadas car-acterísticas e o pagamento ofertado varia de acordo com essas características. Em umambiente sem informação assimétrica caracterizamos então os contratos ótimos e as var-iáveis que in�uenciam essas caracteísticas em função do comportamento dos agentesenvolvidos.No setup que nós vamos analisar a característica central está relacionada ànoção de incentivos que surgem quando da presença de informação assimétrica.

Tome então um relacionamento onde um principal P deseja contratar um agenteA e para isso estabelece um contrato de modo a monitorar o agente. O P oferta ocontrato ao A que o aceita ou não. O A aceita se e somente se a utilidade esperada deaceitá-lo for maior do que a utilidade de não aceitá-lo; uma utilidade de reserva que

123

Page 124: Apostila teoria dos jogos

re�ete o custo de oportunidade de aceitar o contrato. Como o A não pode fazer umacontraproposta ao P , segue que todo poder de barganha pertence ao P .

Se o A aceita o contrato, ele deve decidir uma ação a tomar. No nosso �benchmark�essa ação se refere a quanto se dedicar ao trabalho, o quanto se esforçar, o que vai afetaro resultado do relacionamento e que tem um custo para o A. Notemos que os interessesdas partes são claramente con�itantes: o custo de um (o quanto o P paga ao A) é aremuneração de outro e o esforço do A, que lhe gera desutilidade, favorece ao P .

De�nição 66 Um contrato é um compromisso entre as partes onde as obrigações decada um estão especi�cadas para toda contingência possível. Um contrato só pode serestabelecido a partir de variáveis veri�cáveis, que são passivas de serem checadas porum árbitro exógeno.

Na presença de variáveis não veri�cáveis é difícil recorrer a uma instância legal,de modo que nesse caso as partes têm incentivos para quebrar os termos do contrato.Dado isso, as partes não assinariam o contrato, pois esse não seria respeitado e nãohaveria punição para a quebra.

De�nição 67 Informação diz respeito à variáveis veri�cáveis no contrato.

Notemos então que um contrato não pode ser estabelecido sob uma variável nãoveri�cável (por exemplo, o esforço de um funcionário qualquer) de modo que o A temuma vantagem informacional sobre o P . Nesse ambiente o objetivo é analisar situaçõesnas quais uma parte sabe coisas relevantes que a outra parte não sabe.

6.1.1 Dinâmica do relacionamento

Como �benchmark�, tome uma situação onde o P e o A têm a mesma informaçãosobre o objeto de troca e a escolha do A, o seu esforço, é veri�cável. Ainda que nãohaja informação assimétrica no setup acima, esta pode ser imperfeita no sentido de quealgum elemento aleatório ao comportamento do A pode vir a afetar o relacionamento.Para incorporar essa possibilidade, considere que a natureza N decide sobre algumacoisa, determinando o estado de natureza. Dado isso, o resultado do relacionamento serealiza e os ganhos dos participantes são dados. A �gura abaixo mostra a essa dinâmica

�gura1 (aqui)

A solução desse jogo é determinada através do(s) equilíbrio(s) de Nash perfeito(s)em subjogo(s). Disso decorre que em cada ponto do tempo a estratégia adotada pelosjogadores é ótima sobre todas as possibilidades: o A escolhe a sua ação (esforço) quemaximiza a sua utilidade esperada dado que ele aceitou o contrato. Como o P antecipao comportamento do A, então para cada estado factível ele oferece um formato decontrato que maximiza a sua utlidade esperada.

124

Page 125: Apostila teoria dos jogos

6.2 Informação simétrica: �rst-best

Como dito acima, ainda que não haja assimetria de informação, há um resultadoaleatório aos participantes. Essa aleatoriedade não é perfeita na medida em que oresultado é afetado parcialmente pelo comportamento do A e que caracteriza o riscodo ambiente. Iremos mostrar que o solução do problema acima nos dará os ganhosdo A e do P como função da distribuição ótima do risco entre eles, o que de resto vaidepender do grau de aversão ao risco dos participantes em cada ambiente.

6.2.1 Descrição do modelo

Considere um setup aonde um P propõe um contrato a um A que pode aceitá-loou não. Se o A aceita, um resultado decorre desse relacionamento e assume um valorx 2 X, onde

X = fx1; x2; :::; xng

é conjunto de resultados factíveis, cada um associado a um estado de natureza. x 2 Xdepende de e -a ação (esforço) escolhido pelo A- e da distribuição de X, que assumimosser de conhecimento comum. Note então que X é uma variável aleatória.

Tome X �nito e seja pi (e) = p [x = xi=e] a probabilidade condicionada ao esforço

exercido pelo agente de ocorrer xi 2 X. Além disso, pi (e) > 0 8i = 1; :::; n enPi=1pi (e) =

1. Devemos sempre ter em mente que como a disctribuição de X é de conhecimentocomum, então ambos, P e A, têm a mesma distribuição a priori sobre X.

Considerando a utilidade von Neumann-Morgenstern para o P e o A, as preferênciasdo P são descritas por

UP = B (x� w (x))

onde x 2 X e w (x) é a remuneração paga ao A. Assumimos B0> 0 e B

00� 0, de modo

que a concavidade de B indica um principal neutro ou avesso ao risco. É relevanteobservar que a utilidade do principal não depende diretamente da ação e tomada peloagente, mas tão somente do resultado do relacionamento e do pagamento acordadoassocidado àquele resultado.

As preferências do agentes são tais que

UA = u (w (x))� v (e) :

O fato de tais preferências serem aditivamente separáveis em w e e garante que o graude aversão ao risco não é afetado pelo esforço. Assumimos u

0> 0, u

00� 0, v

0> 0 e

v00� 0. Essa última condição nos informa que a desutilidade marginal da ação, do

esforço, não é decrescente.De UP e UA acima podemos estabelecer os con�itos que emergem no relacionamento,

w; e; x: o contrato torna tais con�itos compatíveis.

125

Page 126: Apostila teoria dos jogos

6.2.2 O contrato de informação simétrica

Com todo informação relevante veri�cável, buscamos o ENPS do jogo acima. Daío P desenha um contrato que o A aceita nas melhores condições ao P ; semelhanteà indução retroativa. Nesse ambiente o P escolhe a ação e que ele deseja que o Aexerça e o salário que ele pagará, fw (xi)gni=1 condicional à realização de X. Paraisso ele considera os contratos aceitáveis (que satisfazem a restrição de participação)para o A e escolhe o mais barato. É uma situação e�ciente (veremos isso adiante) e aquestão central torna-se achar qual o risk-sharing ótimo entre os participantes emergedo relacionamento. Formalmente, o problema do P é

maxfe;[w(xi)]ni=1g

�nPi=1pi (e)B (xi � w (xi))

�s. a

nPi=1pi (e)u (w (xi))� v (e) � U:

Ou seja, o principal maximiza o excedente que ele obtém do relacionamento sob arestrição imposta pela presença do custo de oportunidade de o agente aceitar o contrato,nPi=1pi (e)u (w (xi))�v (e) � U . Essa restrição já foi discutida acima e em geral é de�nida

como restrição de racionalidade individual (IR).O contrato tem dois componentes,

fe; [w (xi)]ni=1g

quais sejam a ação e a remuneração condicionada aos resultados. Decorre então que ocontrato inclui uma penalização su�cientemente grande para que o A tome o esforçocombinado.

O Lagrangeano associado ao problema acima é tal que

L =

nXi=1

pi (e)B (xi � w (xi)) + �"nXi=1

pi (e)u (w (xi))� v (e)� U#

onde as condições de primeira ordem nos mostram que

@L

@w (xi)= �pi (eo)B

0(xi � wo (xi)) + �opi (e)u

0(wo (xi)) = 0

de modo que

�o =B0(xi � wo (xi))u0 (wo (xi))

; 8i = 1; :::; n:

Observe que eo é o esforço e�ciente e (wo (xi))ni=1 a remuneração associada a ele. Além

disso, as condições de Kuhn-Tucker implicam que

min

(�;

nXi=1

pi (e)u (w (xi))� v (e)� U)= 0

126

Page 127: Apostila teoria dos jogos

Proposição 68 � > 0:

Prova. Suponha que não, de modo quenPi=1pi (e)u (w (xi))� v (e)� U > 0. Então

o P poderia extrair mais renda ao diminuir w (xi) em todo o espaço de resultadospossíveis sem afetar a restrição de participação do A. Para um P racional, segue quenPi=1pi (e)u (w (xi))� v (e)� U = 0 e que � > 0.

O mecanismo ótimo de pagamentos Das CPO�s temos que a distribuição ótimade riscos implica que a equação

�o =B0(xi � wo (xi))u0 (wo (xi))

= cte > 0

é satisfeita. Logo as TMS se igulam entre os estados, caracterizando uma alocaçãoe�ciente de risco. Para vermos esse resultado na Caixa de Edgeworth, tome X =

fx1; x2g. Segue então que o Lagangeano associado à esse problema seria

L = p1 (e)B (x1 � w (x1))+p2 (e)B (x2 � w (x2))+� [p1 (e)u (w (x1)) + p2 (e)u (w (x2))� v (e)� U ]

de modo que as CPO�s implicariam que

B0(x1 � w (x1))u0 (w (x1))

=B0(x2 � w (x2))u0 (w (x2))

p1 (e)u (w (x1)) + p2 (e)u (w (x2)) = v (e)� U

Figura2 (aqui)

Observação 69 a restrição de participação elimina contratos abaixo de U . Como issoé de conhecimento comum, o contrato ótimo vai estar em U .

Observação 70 as retas de 450 representam �coisas certas�para o P e para o A: alio resultado é w1 = w2 para o A e w1 � x1 = w2 � x2 para o P , portanto invariante aoresultado, ao componente aleatório.

P e A avessos ao risco O contrato ótimo estará entre as linhas de 450 e portantoo risco será dividido de acordo com o grau de aversão ao risco de cada um. Para vermosisso, lembre que, das CPO�s,

�pi (e)B0(xi � wo (xi)) + �pi (e)u

0(w (xi)) = 0; � > 0:

Derivando em relação a xi obtemos

�B00(:)�1� w0

(xi)�+ �u

00(:)w

0(xi) = 0:

127

Page 128: Apostila teoria dos jogos

Como � = B0(:)

u0 (:), segue que

�B00(:)�1� w0

(xi)�+B0(:)u

00(:)

u0 (:)w0(xi) = 0

de modo que, de�nindo o grau de aversão ao risco absoluta do principal como�RP =

�B00 (:)B0 (:)

�e o do agente como

�RA =

�u00 (:)u0 (:)

�, obtemos

w0(xi) =

�B00 (:)B0 (:)�

�B00 (:)B0 (:)

�+��u00 (:)u0 (:)

� = RPRP +RA

2 [0; 1] :

Ou seja, o A recebe apenas uma parte, em salário, de um aumento eventual no produto.Note por �m que quanto mais avesso o A maior RA e portanto menos indexado àincerteza ele está.

P neutro e A avesso ao risco Nesse caso, para a condição de otimalidade �o =B0(xi�wo(xi))u0 (wo(xi))

= cte > 0, o fato de que B0(:) = cte implica que u

0(wo (xi)) ; i = 1; :::; n

também é constante. Com o A avesso ao risco, a única possibilidade que emerge dofato de que u

0(w (xi)) = u

0(w (xj)) ;8xi; xj 2 X é que

w (xi) = w (xj) = wo 8xi; xj 2 X:

Logo, no ponto ótimo o payo¤ do A é invariante ao resultado e todo o risco está como P .

Figura3 (aqui)

Observação 71 o contrato ótimo está no ponto em que as curvas de indiferença rela-cionadas às preferências do P tangenciam U , na reta de 450 do A. Note então que

w (x1) = w (x2) = wo

implica em nenhum risco associado ao A. Por outro lado,

x1 � w (x1) 6= x2 � w (x2) 8 x1 6= x2de modo que o P segura totalmente o A, assumindo integralmente o risco.

Como no ótimo � > 0, entãonPi=1pi (e

o)u (wo (xi))� v (eo)� U = 0 equivale a

u (wo) = v (eo) + U

de modo que o salário oferecido pelo P é

wo = u�1 (v (eo) + U)

128

Page 129: Apostila teoria dos jogos

P avesso e A neutro ao risco: franchise Pelo mesmo motivo argumentado

acima, �o = B0(xi�wo(xi))u0 (wo(xi))

= cte > 0, o fato de que u0(:) = cte implica queB

0(xi � wo (xi)) ; i =

1; :::; n também é constante. Com o P avesso ao risco, segue queB0(xi � w (xi)) = B

0(xj � w (xj)) ;8xi; xj 2 X de maneira que

xi � wo (xi) = xj � wo (xj) = k, cte:

Temos portanto que o payo¤ do P é invariante ao estado da natureza e todo o riscoé alocado para o A.

Observação 72 o contrato ótimo vai estar na linha de 450 do P , quando U tangenciaas preferências do P . Como

x1 � w (x1) = x2 � w (x2) = k

segue quewo (xi) = xi � k

de modo quew (x1) 6= w (x2) 8 x1 6= x2

Nesse caso o P não incorre em nenhum risco, que será totalmente alocado para o A.

Observação 73 Do modelo acima, temos que wo (xi) = xi � k será a oferta do P aoA, que aceita. Note que o resultado é semelhante à uma franquia : o A �ca com oresultado e paga um montante �xo (k) ao P , invariante à realização dos estados.

Da restrição de participação do A, temos quenPi=1pi�e0�u�w0 (xi)

�� v

�e0�= U .

Para um A avesso ao risco, podemos fazer

nXi=1

pi�e0�w0 (xi) = U + v

�e0�

nXi=1

pi�e0�(xi � k) = U + v

�e0�

e segue daí que a oferta ótima de remuneração será

wo (xi) = xi � k

wo (xi) = xi �nXi=1

pi�e0�xi + U + v

�e0�

129

Page 130: Apostila teoria dos jogos

O nível ótimo de esforço

P neutro e A avesso ao risco Como vimos,nPi=1pi (e

o)u (wo (xi)) = v (eo) +

U; w = cte, tal que

u (wo) = v (eo) + U

wo = u�1 (v (eo) + U)

O P portanto

maxe

nXi=1

pi (eo)B

�xi � u�1 (v (eo) + U)

�ou ainda, para um P neutro ao risco,

maxe

nXi=1

pi (e)xi � u�1 (v (eo) + U)| {z }w0

As CPO�s desse problema implicam quenXi=1

p0i (e

o)xi =v0(eo)

u0 (wo)=

v0(eo)

u0 (v (eo) + U):

Exercício 74 Mostre que para que a CPO acima seja uma condição su�ciente para onível ótimo da ação (esforço) temos que

nXi=1

p00

i (eo)xi � 0:

P avesso e A neutro ao risco Acima mostramos que nesse caso wo (xi) =

xi �nPi=1pi�e0�xi +U + v

�e0�. A decisão da ação ótima (e) decorre do problema do A

de

maxe

nXi=1

pi (e)w (xi)� v (e) = maxe

nXi=1

pi (e) (xi � k)� v (e)

maxe

nXi=1

pi (e)xi � k � v (e)

e desse problema decorre as CPO�s:nXi=1

p0i (e

o)xi = v0(eo)

Isto é, o ganho marginal esperado do esforço iguala o custo marginal do esforço.

Exercício 75 Mostre quenPi=1p00

i (eo)xi � 0 é uma condição su�ciente para que a CPO

acima seja um máximo global.

130

Page 131: Apostila teoria dos jogos

6.3 Trade-o¤ entre incentivos e risk-sharing: moral hazard

Moral hazard ocorre em um relacionamento quando a ação do A não é veri�cávelpelo P ou quando o A recebe algum tipo de informação privada após o estabelecimentodo contrato. Nesse caso o P não pode controlar diretamente a ação do A. No nossosetup o esforço e do A não é veri�cável e portanto não pode ser explicitamente incluídono contrato; o ganho do A não depende diretamente da ação que ele toma. A dinâmicado jogo é tal que

�gura4 (aqui)

Pode também ocorrer que antes de tomar a sua ação o A observe o estado denatureza e o P não. Daí

�gura5 (aqui)

e a dinâmica do jogo é a mesma.O fato de ação escolhida pelo A não ser veri�cável pelo P vai implicar em perda

de e�ciência no relacionamento especi�cado, alterando o tipo de contrato ofertado e asescolhas ótimas em relação à situações de simetria. Além disso disso, o contrato ótimoagora será determinado pelo trede-o¤ entre dois objetivos con�itantes: e�ciência (norisk-sharing, seguro, ótimo) e incentivos ao A (risco adicional). Segue dessa estruturaque para o contrato ter o poder de in�uenciar o comportamento do A, o P deve pagarmais por um �bom sinal�(resultado) que informa sobre o tipo de A.

6.3.1 Introdução

O modelo que nós iremos analisar é semelhante ao modelo da seção anterior excetopelo fato de que o esforço e não é veri�cável pelo P , ainda que o resultado desse esforçoo seja ao �m do período. Para entendermos a natureza exata do problema, suponha queo P ofereça um contrato de �rst-best ao A quando a ação e não é observável. Tome umP neutro e um A avesso ao risco. Como vimos, nesse caso o A teria uma remuneraçãoconstante w (xi) = w (xj) = wo 8xi; xj 2 X de modo que, substituindo na restriçãode participação, u (wo) = v (eo) + U , com todo o risco sendo alocado ao P .

Como a ação e não é veri�cável, se o contrato acima for ofertado a melhor respostaque o A pode dar é aceitá-lo e exercer o menor esforço possível (pois v

0(e) > 0), de

maneira que o retorno esperado do P seria menor do que o correspondente no casosimétrico, já que em�{n é menor do que o e�ciente, eo. Essa reação seria antecipada peloP , que proporia a remuneração

wo = wm�{n = u�1hU + v

�em�{n

�i.

131

Page 132: Apostila teoria dos jogos

Segue que, como(eo; wo) 6=

�em�{n; wm�{n

�caracteriza-se ine�ciência. Para lidar com essa situação o P irá tomar o ganho do Acomo dependente do estado, de modo que a remuneração não seja mais constante comoem �st best, ainda que tenhamos um P neutro e um A avesso ao risco.

6.3.2 Moral Hazard: otimalidade em second best

Com e não observável, ao propor o contrato (w; e), o P deve estar certo que a açãorequerida seja aceita pelo A. Isso signi�ca que

e 2 argmaxe

(nXi=1

pi (e)u (w (xi))� v (e)).

Essa restrição é dita restição de compatibilidade de incentivos (IC).e re�ete, nesse setup,a presença de moral hazard: dado que o contrato foi aceito e a ação e não é observável,o A escolhe e que maximiza o seu ganho esperado.

Disso decorre que o problema do P passa a ser

maxfe;[w(xi)]ni=1g

�nPi=1pi (e)B (xi � w (xi))

�st

nPi=1pi (e)u (w (xi))� v (e) � U

e 2 argmaxe

�nPi=1pi (e)u (w (xi))� v (e)

Escolha com e 2�eH ; eL

Considere que o espaço de ações do A seja

�eH ; eL

tal

que v�eH�> v

�eL�. Para um P neutro e um A avesso ao risco, qualquer desvio da

forma contratual padrão se deve a presença de moral hazard. Seja então

X = fx1; x2; :::; xng ; x1 < x2 < ::: < xn

pi�eH�= p

�x = xi=e

H�; pi

�eH�> 0 8x 2 X e

Xi

pi�eH�= 1

pi�eL�= p

�x = xi=e

L�, pi

�eL�> 0 8x 2 X e

Xi

pi�eL�= 1

Se o P prefere e = eL, basta ofertar um salário �xo, independente do resultado.Nesse caso o A escolheria e = em�{n = eL de modo que

w = wm�{n = u�1�U + v

�eL��

ondeu�wL�� v

�eL�� u

�wH�� v

�eH�| {z }

IC

132

Page 133: Apostila teoria dos jogos

é naturalmente satisfeita na medida em que a remuneração é constante.Por outro lado, se o P preferir eH , o seu problema seria

maxfe;[w(xi)]ni=1g

�nPi=1pi�eH�B (xi � w (xi))

�st

nPi=1pi�eH�u (w (xi))� v

�eH�� U

nPi=1pi�eH�u (w (xi))� v

�eH��

nPi=1pi�eL�u (w (xi))� v

�eL�

onde, notemos,nXi=1

pi�eH�<

nXi=1

pi�eL�

8k = 1; 2; :::; n� 1

que mostra que maus resultados ocorrem com mais frequência quando o A trabalha semmuito do esforço do que quando trabalha duro, caracterizado dominânica estocásticade primeira ordem,

p�x > xk=e = e

H�> p

�x > xk=e = e

L�

Com o P neutro ao risco, o problema seria

maxfe;[w(xi)]ni=1g

�nPi=1pi�eH�(xi � w (xi))

�st

nPi=1pi�eH�u (w (xi))� v

�eH�� U

nPi=1

�pi�eH�� pi

�eL��u (w (xi)) � v

�eH�� v

�eL�

de maneira que as condições necessárias implicariam que, 8i = 1; :::; n,

pi�eH�

u0 (w (xi))= �pi

�eH�+ �

�pi�eH�� pi

�eL��

onde � é o multiplicador de Lagrange associado à IC. Somando as restrições obtemos

nXi=1

(pi�eH�

u0 (w (xi))

)= �

nXi=1

pi�eH�+ �

"nXi=1

pi�eH��

nXi=1

pi�eL�#

Segue que na divisão ótima de risco (second best),

� =nXi=1

(pi�eH�

u0 (w (xi))

)

onde, como já vimos, � > 0, poisnPi=1pi�eH�u (w (xi))� v

�eH�= U .

133

Page 134: Apostila teoria dos jogos

Proposição 76 � > 0.

Prova. Por contradição, suponha que não, que � = 0. Nesse caso a restrição deincentivos não estaria ativa (voltaríamos ao caso sem assimetria, com e veri�cável) edaí

�w = wm�{n; e = em�{n

�. Logo � > 0 tal que

nXi=1

pi�eH�u (w (xi))� v

�eH�=

nXi=1

pi�eL�u (w (xi))� v

�eL�

Segue da proposição acima que há um custo incidindo sobre o P decorrente da nãoobservalidade de e (moral hazard).

Analisando a CPO, façamos

1

u0 (w (xi))= �+ �

"1�

pi�eL�

pi (eH)

#tal que

w (xi) = u0�1

8<: 1

�+ �h1� pi(eL)

pi(eH)

i9=;

Ou seja, quanto maior a razãopi(eL)pi(eH)

menor será a remuneração w, caracterizandoantes de mais nada o fato de que nesse setup o salário não é �xo, ainda que o P sejaneutro e o A avesso ao risco. Note que isso decorre do fato de que � > 0 (se � = 0

então a remuneração seria constante entre os estados de natureza), oque caracteriza ocusto que incide sobre o P em função da presença de moral hazard; os ganhos do P napresença de moral hazard são estritamente menores do que os seus ganhos em situaçãode simetria.

Seguindo a análise acima, podemos genericamente fazer

w (xi) = f

pi�eL�

pi (eH)

!; f

0< 0

ondepi(eL)pi(eH)

é dita razão de verossimilhança e nos informa a precisão na qual o resultado

realizado xi sinaliza que o esforço exercido foi eH - uma redução na razão de verossim-ilhança é um aumento na probabilidade de que o esforço exercido foi eH quando oresultado observado foi xi. É portanto uma estatística do esforço do A, não tão infor-mativa quanto o esforço em si mas o su�ciente para que o P pague (dê incentivos) aoA por resultados melhores.

Observação 77 No caso onde a ação e era veri�cável, se ambos P e o A são avessosao risco, vimos que é efeciente distribuir o risco de acordo com o grau de aversão ao

134

Page 135: Apostila teoria dos jogos

risco de cada um. Essa proposição continua sendo verdadeira na presença de moralhazard, porém com uma razão adicional, os incentivos que o P fornece ao A pararealização de uma dada ação.

Um ponto particularmente relevante que decorre da análise acima é que

w (xi) = u0�1

8<: 1

�+�

�1� pi(eL)

pi(eH)

�9=; não implica que sempre será ótimo pagar salários

maiores para resultados melhores (salários monótonos no resultado). Por exemplo, emsituações onde a probabilidade de resultados ruins e de resultados muito bons são altase a probabilidade de resultados intermediários é baixa, é preferível indexar saláriosmaiores à resultados ruins do que intermediários.

Uma condição necessária para que w0(xi) > 0 é que a razão de verossimilhança,

pi(eL)pi(eH)

, seja decrescente em xi. Nesse caso dizemos que vale a �propriedade de monotoni-cidade da razão de verossimilhança, MLRP�. Segue que se a MLRP é satisfeita, então

pi�eL�

pi (eH)<pj�eL�

pj (eH)8 xj > xi,

o que mostra que a razão é tanto mais informativa sobre o a ação e do A quanto maiorfor o resultado.

Como no ótimo w (xi) = u0�1

8<: 1

�+�

�1� pi(eL)

pi(eH)

�9=;, então

1- se pi�eL�= pi

�eH�, então w (xi) = u

0�1 � 1�

�= cte, de modo que w (xi) =

w (xj) = w 8 xi; xj 2 X. Tomando w como referência, podemos facilmente ver entãoque

2- se pi�eL�> pi

�eH�, w (xi) < w e se

3- se pi�eL�> pi

�eH�, w (xi) > w.

Proposição 78 A MLRP não é su�ciente para que @w(xi)@xi

> 0.

Prova. Exercício.Quando temos um principal neutro ao risco, note que se ele paga ao agente de

acordo com o resultado é tão somente para lhe dar incentivos. Decorre daí que o Pdeve buscar um equilíbrio entre os benefícios de segurar o A - como no �rst best- e osbenefícos de estabelecer os incentivos corretos. Para atingir esse objetivo, no contratoele usa a única variável veri�cável como uma fonte de informação do comportamento doagente; o P usa o resultado nesse caso com um objetivo similar ao de um problema deinferência estatística. Segue então que o benefíco de introduzir o resultado no contratoé a informação que tal resultado fornece sobre o esforço do A.

Por �m devemos notar que em última instância o P não se preocupa de fato com esseproblema de inferência estatística na medida em que é ele quem efetivamente escolhe o

135

Page 136: Apostila teoria dos jogos

nível de esforço do A ao resolver o problema de otimização acima especi�cado; ele sabecom certeza como o A se comportará. O salário do A depende do resultado porqueessa é a única maneira de in�uenciar o seu esforço e não porque a escolha que ele fazsobre o esforço uma vez que o contrato foi estabelecido não seja previsível.

Continuum de ações: a abordagem de primeira ordem Stole.

6.4 Seleção adversa

Vamos tratar agora de situações de informação assimétrica onde a assimetria surgeantes da confecção do contrato. Nessa estrutura a parte que estabelece as condiçõesdo contrato, o P , tem menos informação do que a outra parte, o A, sobre algumacaracterística importante que afeta o valor do contrato.

Nós abordaremos uma estrutura bastante simples com apenas um principal e umagente negociando um contrato sobre dois estados de natureza factíveis e os principaisresultados que nós mostraremos é que (i) é ótimo para o principal oferecer um menu decontratos para cada tipo possível de agente, incorporando termos que façam com quecada agente escolha o contrato que foi desenhado para o seu tipo, (ii) no menu ótimode contratos, o agente de tipo mais baixo (ou mais alto, dependendo do problema) vaiobter exatamente a sua utilidade de reserva, enquanto todos os demais agentes vãoobter alguma renda informacional que será crescente (decrescente) no tipo do agente.Note então que a existência dessa renda informacional vai caracterizar a ine�ciência decada contrato associado ao tipo do agente. Por �m, (iii) o único contrato e�ciente seráaquele desenhado e assinado pelo agente de tipo mais alto (baixo).

6.4.1 Introdução

Em relacionamentos contratuais o principal problema que surge decorre do fato deque via de regra as partes que compõem o contrato não têm toda a informação relevantesobre as outras partes52. Nós usamos o termo seleção adversa quando a característicade um A é observada de uma forma imperfeita pelo P . O termo vem do exemplo demercado de seguro: se uma companhia seguradora oferece o seu produto a um únicopreço baseado no risco médio da população, tal tarifa iria atrair apenas as pessoas demaior risco e portanto incorreria em perda de dinheiro pela �rma. Esse tipo de situaçãopode induzir a seguradora a transeferir algum risco para o segurado, mesmo quandoesse é avesso ao risco e a �rma caracterize um P neutro ao risco. Se o agente tenta,como seria razoável supor, obter algum ganho de informação mantendo-a privada, o

52Devemos notar que não apenas quando a vantagem informacional se dá em função de características�pessoais�nós caracterizamos a presença de seleção adversa. Quando há assimetria de informação comrespeito a qualquer variável relevante no relacionamento contratual nós teremos exatamente o mesmoproblema.

136

Page 137: Apostila teoria dos jogos

problema do principal passa a ser encontrar uma forma de reduzir a sua desvantageminformacional. Segue que essa dinâmica vai gerar uma situação claramente distinta do�rst-best no equilíbrio de mercado, caracterizando portanto ine�ciência.

Considere então um P que é um vendedor de vinhos e um A que é um comprador.O A é um amador na degustação de vinhos e tanto pode ser um apreciador de bonsvinhos quando ter gostos mais modestos. Nós vamos dizer que há dois �tipos�: um A

so�sticado (que está disposto a pagar um quantia maior por um bom vinho) e outrocujas preferências são menos esmeradas. Assumiremos que o P não pode observaro tipo do A ou que a lei o proíba de descriminar perfeitamente preços entre os doistipos. A chave para a solução do problema de seleção adversa é a seguinte: se o agenteso�sticado está disposto a pagar mais do que o outro por um aumento na qualidadedo vinho, então o P pode segmentar o mercado ofertando duas garrafas diferentes devinho: (

um vinho de alta qualidade por um alto preçoum vinho de baixa qualidade por um baixo preço

Veremos abaixo como essas qualidade e os preços serão determinados otimamente.Se todos se comportam de acordo o esquema acima, o tipo so�sticado ecolheria o

vinho de alta qualidade e de alto preço enquanto o agente de outro tipo selecionaria ovinho mais barato, de qualidade pior. Ou seja, os dois tipos de A �se revelam�atravésdas suas escolhas. Nós veremos logo adiante que o consumidor de tipo baixo escolheráum vinho que será de qualidade inferior do que aquela que seria socialmente ótima. Oponto central nos problemas de seleção adversa é fazer com que os agentes revelem osseus tipos sem incorrer em distorções sociais muito signi�cativas.

Antes de solucionar o problema acima, vamos ver alguns exemplos de seleção adversaque encontramos com alguma facilidade em diversas situações.

� no contexto de seguro de vida, o segurado sabe o seu próprio estado de saúde (eportanto qual o seu risco de morrer mais cedo ou mais tarde) melhor do que a�rma seguradora, ainda que ele tenha que fazer alguns tipos de exames médicos.Isso nos sugere que a seguradora deve oferecer vários pacotes de seguro, cada umdesenhado especi�camente para uma classe de risco dos consumidores.

� os bancos costumeiramente encontram clientes cujo risco de default não podem sermonitorarados perfeitamente. Por exemplo, considere empresários que desejam�nanciamento para algum projeto arriscado. Uma idéia natural é usar a taxade juros para discriminar entre os empresários; no entanto isso pode induzir umracionamento de crédito, a não ser que os bancos também variem os níveis decolateral.

137

Page 138: Apostila teoria dos jogos

� no mercado de trabalho, empregadores se deparam com empregados em potencialque têm vantagem no que eles sabem sobre suas habilidades melhor do que as�rmas. Essa então pode discriminar os trabalhadores de modo a selecionar aquelesque ela deseja e descartar os demais.

� várias �rmas (estatais ou não) são reguladas pelo governo ou por agências regu-ladoras especializadas na área. Claramente a �rma regulada tem mais imformaçãosobre os custos e sua produtividade do que o regulador. Isso implica que a �rmamuito provavelmente tentaria manipular a forma na qual ela informa o governode modo a aumentar os seus lucros.

6.4.2 Ummodelo discreto de discriminação de preços: Mussa-Rosen (1978)

Considere todas as informações acima sobre o relaciomento entre um consumidor eum vendedor de vinhos onde o vendedor oferta vinhos de qualidade distintas à preçosdistintos na tentativa de segmentar um mercado no qual as preferências dos consumi-dores são distintas - é portanto um modelo com diferenciação vertical e discriminaçãode preços de segunda ordem.

O consumidor (agente) Seja um agente apreciador moderado de vinho que planejacomprar no máximo uma garrafa de vinho no período no qual nós estamos analisando.Suas preferências são descritas pela função utilidade

U (�; q; t) = u (�; q)� t = �q � t

onde q é a qualidade do vinho que ele compra, � é um parâmetro positivo que indexaas suas preferências por qualidade e t é o preço do vinho. Se ele decide não comprar ovinho a sua utilidade é zero.

Com essa especi�cação,

8�0 > �; u (q; �)� u (q; �) é crescente em q.

Observação 79 A especi�cação acima é a forma discreta da condição de Spence-Mirlees, ou �single-crossing property�: em um determinado nível de qualidade, os con-sumidores mais so�sticados (maior �) estão dispostos a pagar mais do que os consum-idores de baixa qualidade pelo mesmo aumento na qualidade. A conidição de Spence-Mirlees implica que as curvas de indiferença de agentes de tipos distintos se cruzam,duas a duas, em um único ponto. Na verdade é essa propriedade que nos permitirásegmentar o mercado pela qualidade.

No caso contínuo, essa condição seria @2U(q;�)@q@� = 1 > 0, de modo que a utilidade

marginal da qualidade é crescente no tipo do agente: um aumento na qualidade do

138

Page 139: Apostila teoria dos jogos

vinho tem um impacto maior na satisfação de um consumidor de tipo alto do que noconsumidor de tipo baixo.

Há dois valores possíveis para �: �L < �H , o que nos permite identi�car o tipo doconsumidor (baixa ou alta qualidade). Esse tipo é de informação privada de cada agentemas a sua distribuição é conhecimento público e de conhecimento comum. Temos entãoque a distribuição de tipos é dada por (�L; �H) v (�; 1� �).

O vendedor (principal) O P é um monopolista local no mercado de vinho. Elepode produzir vinhos de qualquer qualidade q 2 (0;1) e produzir uma garrafa devinho de qualidade q custa c (q) para ele. Note que c (0) = 0; c

0(1) =1, c0 (q) > 0 e

c00(q) > 0. Suas preferências são descritas pela função abaixo

V = t� c (q)

exatamente a diferença entre sua receita e o seu custo.

6.4.3 First-best: discriminação perfeita

Se o produtor pode observar o tipo �i (i = H;L) do agente, o seu problema será(maxqi;ti

[ti � c (qi)]

st �iqi � ti � 0; i = L;H

Como todo poder de barganha é do principal, então �iqi � ti = 0, de modo que o P

maxqi[�iqi � c (qi)]

As condições de primeira ordem do problema acima nos mostram que no �rst-best

�i = c0(q�i )

t�i = �iq�i 7�! t�i = �ic

0�1 (�i)

Segue então que �t�i = �iq

�i e q

�i = c

0�1 (�i)�i=L;H

é o contrato ótimo ofertado para um consunidor de tipo �i, que por construção levaa um resultado e�ciente: o P extrai todo o excedente e o consumidor A �ca com suautilidade de reserva, 0 no caso.

�gura 6 (aqui)

139

Page 140: Apostila teoria dos jogos

Na �gura acima �ca claro que (q�L; q�H) são as qualidades e�cientes. Note então que

como q�i = c0�1 (�i) e c

00> 0, então o fato de que �H > �L implica que53 q�H > q

�L, de

modo que t�H > t�L.

Esse tipo de discriminação, chamada de discriminação de preços de primeiro grau(ou discriminação perfeita), geralmente não é permitida por lei - a venda dever seranônima e não se pode negar a um indivíduo qualquer um contrato que está sendoofertado para outro. Entretanto nós vamos abordar o caso em que o vendedor nãopode observar diretamente o tipo do agente, de modo que torna-se impossível praticardiscriminação perfeita, independente do arcabouço legal.

6.4.4 Informação imperfeita: discriminação de segundo grau (preços não-lineares)

Suponha gora que nós estamos em uma situação de second-best no qual a informaçãoé assimétrica: o tipo do A não é observável e o P sabe apenas a distribuição (�L; �H) v(�; 1� �) dos tipos dos agentes.

Proposição 80 se o P oferta o contrato de �rst-best (t�L; q�L), (t

�H ; q

�H), mesmo �H

escolhe (t�L; q�L), caracterizando seleção adversa.

Prova. Como

(U (�H ; t

�L; q

�L) = �Hq

�L � t�L

U (�H ; t�H ; q

�H) = �Hq

�H � t�H

, então podemos ver que

�Hq�L � t�L = �Hq

�L � �Lq�L = (�H � �L) q�L > 0

�Hq�H � t�H = �Hq

�H � �Hq�H = 0

de maneira que U (�H ; t�L; q�L) > U (�H ; t

�H ; q

�H). Segue que o agente de tipo alto, �H ,

prefere mentir e não se auto-seleciona.Concluímos portanto que o contrato (t�i ; q

�i )i=L;H não é implementável54 para

�i desconhecido. Nesse caso há um equilíbrio com pooling, com ambos os tipos se-lecionando o mesmo contrato. Segue que o P pode aumentar seus lucros dando osincentivos corretos aos agentes para que estes revelem os seus tipos. Nesse sentido oprograma do principal passa a ser

maxqi;ti

[� (tL � c (qL)) + (1� �) (tH � c (qH))]

st �LqL � tL � 0�HqH � tH � 0

�LqL � tL � �LqH � tH�HqH � tH � �HqL � tL

53 Isso é verdade na medida em que, como c00> 0, o fato de que c

0(qH)| {z }�H

> c0(qL)| {z }�L

implica que qH > qL.

54Para a nossa compreensão, vamos dizer que um contrato é implementável se ele satisfaz as restriçõesde compatibilidade de incentivos subjacente ao relacionamento.

140

Page 141: Apostila teoria dos jogos

de modo a garantir a implementalção do contrato ótimo sobre (IR) e (IC).

� as duas primeiras restrições acima são restrições de participação (ou restrição deracionalidade individual, IR) dos agentes e garantem que cada tipo de consumidoraceita o contrato desenhado para ele.

� as duas últimas restrições são as restrições de compatibilidade de incentivos, (IC),e nos mostram que cada consumidor, cada tipo, prefere o seu contrato do que ocontrato de algum outro tipo qualquer.

Vamos resolver o problema acima a partir de algumas digressões sobre as restriçõesespeci�cadas.

Proposição 81 �LqL � tL � 0 está ativa e �HqH � tH � 0 não está, de modo quetL = �LqL.

Prova. Sabemos que �HqH � tH � �HqL � tL � �LqL � tL � 0. Logo �LqL � tL �0 implica que �HqH � tH � 0 de modo que �HqH � tH � 0 é redundante. Como�LqL � tL � 0 está ativa no ótimo e todo poder de barganha é do principal, então�LqL � tL = 0 tal que

tL = �LqL

Proposição 82 �HqH � tH � �HqL� tL está ativa e �LqL� tL � �LqH � tH não está.Segue que tH � tL = �H (qH � qL).

Prova. Por contradição, suponha que não, que �HqH � tH � �HqL � tL não estáativa. Segue então que �HqH � tH � �HqL � tL � �LqL � tL = 0 de maneira que seriapossível aumentar tH sem violar �HqH � tH � 0 ou qualquer restrição de incentivos.No ótimo

tH � tL = �H (qH � qL)tH = �LqL + �H (qH � qL)

Proposição 83 qH � qL

Prova. Como �LqL�tL � �LqH�tH e �HqH�tH � �HqL�tL, então �H (qH � qL) �tH � tL � �L (qH � qL). Como �H > �L, então temos que qH � qL.

Dessa análise segue que o problema do principal pode ser posto como o problemade

141

Page 142: Apostila teoria dos jogos

maxqi;ti

[� (tL � c (qL)) + (1� �) (tH � c (qH))]

st �LqL � tL � 0�H�q � tH � tL

ou melhor55,

maxqi[� (�LqL � c (qL)) + (1� �) (�HqH � qL�� � c (qH))]

de modo que as condições de primeira ordem implicam que ���L � c

0(qL)

�= (1� �)��

tal que

�L = c0(qL) +

(1� �)�

��

e (1� �)��H � c

0(qH)

�= 0 e daí

�H = c0(qH) 7�! qH = q

�H .

Como tL = �LqL e tH = tL + �H�q, então o contrato ótimo (em second best) serátal que8>>>><>>>>:

qH = q�H

tH = �LqL + �H (q�H � qL) < t�H , pois �Hq�H � (1� �L) qL < t�H

qL = c0�1��L � (1��)

� ���< q�L

tL = �LqL < t�L

Observação 84 Substituindo o resultado na função objetivo do principal, temos que

maxqi[� (�LqL � c (qL)) + (1� �) (�HqH � qL�� � c (qH))]

maxqi[� (�LqL � c (qL))� (1� �) qL�� + (1� �) (�HqH � c (qH))]

maxqi

2664� (�LqL � c (qL))� (1� �)�

qL��| {z }custo informacional, ponderado por (�;1��)

+(1� �)�

(�HqH � c (qH))

3775Considerações �nais Da análise feita acima, os principais resultados são que

� o agente de tipo mais alto �ca com a alocação e�ciente, de �rst-best, qH = q�H ,�H = c

0(qH).

� todo tipo de agente - exceto o de tipo mais baixo - é indiferente entre o seucontrato e o contrato do tipo imediatamente inferior.

55Tome �q = qH�qL. Fazemos então tH = �LqL+�H (qH � qL) = �HqH�qL��, onde �� = �H��L.

142

Page 143: Apostila teoria dos jogos

� todo tipo de agente - exceto o de tipo mais baixo - tem um excedente (quase-rendainformacional) que é crescente no tipo do agente: F (�)f(�) (�i � �) q (�).

� todo tipo de agente - exceto o de tipo mais alto - tem alocação sube�ciente. Daíqi = q

�i 8i 6= H.

� o agente de tipo mais baixo tem excedente zero: F (�)f(�)

0B@ �i|{z}�

� �

1CA q (�) = 0.6.5 Sinalização

essa parte (Salanié e notas do Felli).

143