Processos Markovianos de Decisao1 - MBA · 2 Resulta, imediatamente, da segunda propriedade de P...

29
1 Processos Markovianos de Decisão Processos de Markov Um processo de Markov consiste num conjunto de objectos e num conjunto de estados tais que i) Em qualquer instante cada objecto deve estar num estado (objectos distintos não estão necessariamente em estados diferentes), ii) A probabilidade de que um objecto passe de um estado para outro (que pode ser o mesmo que o inicial) num período de tempo depende apenas desses dois estados. O número inteiro de períodos de tempo passados desde o início do processo é o estágio do processo. Esse número pode ser finito ou infinito. Se o número de estados é finito ou infinito numerável, o processo Markov é uma cadeia de Markov . Uma cadeia de Markov com um número finito de estados diz-se uma cadeia de Markov finita. Designaremos a probabilidade de passar do estado i para o estado j num certo período de tempo por ij p . Para uma cadeia de Markov de n estados (sendo n um número inteiro fixo), A matriz n n × (quadrada de ordem n ) [ ] ij p P = é a matriz de transição ou estocástica associada ao processo. Como primeiras propriedades de P temos: i) A soma de todos os elementos de cada linha da matriz P é 1, ii) Toda a matriz estocástica tem 1 como valor próprio (possivelmente com multiplicidade superior a 1) e nenhum dos seus valores próprios excede 1 em valor absoluto. Seja X um vector com n coordenadas (neste caso uma linha com n elementos. Recorde-se que os valores próprios de P verificam a igualdade X XP λ = Sendo λ um valor próprio e, como ( ) 0 = - = I P X X XP λ λ (sendo I a matriz identidade de ordem ) n , eles determinam-se resolvendo a equação 0 = - I P λ .

Transcript of Processos Markovianos de Decisao1 - MBA · 2 Resulta, imediatamente, da segunda propriedade de P...

Page 1: Processos Markovianos de Decisao1 - MBA · 2 Resulta, imediatamente, da segunda propriedade de P vista atrás que existe um vector X „ 0, tal que XP = X Que se designa por ponto

1

Processos Markovianos de Decisão Processos de Markov

Um processo de Markov consiste num conjunto de objectos e num conjunto de estados tais que

i) Em qualquer instante cada objecto deve estar num estado (objectos distintos não estão necessariamente em estados diferentes),

ii) A probabilidade de que um objecto passe de um estado para outro (que pode ser o mesmo que o inicial) num período de tempo depende apenas desses dois estados.

O número inteiro de períodos de tempo passados desde o início do processo

é o estágio do processo. Esse número pode ser finito ou infinito. Se o número de estados é finito ou infinito numerável, o processo Markov é

uma cadeia de Markov. Uma cadeia de Markov com um número finito de estados diz-se uma cadeia

de Markov finita. Designaremos a probabilidade de passar do estado i para o estado j num

certo período de tempo por ijp . Para uma cadeia de Markov de n estados (sendo n um número inteiro fixo), A matriz nn × (quadrada de ordem n ) [ ]ijpP = é a matriz de transição ou

estocástica associada ao processo. Como primeiras propriedades de P temos: i) A soma de todos os elementos de cada linha da matriz P é 1, ii) Toda a matriz estocástica tem 1 como valor próprio (possivelmente

com multiplicidade superior a 1) e nenhum dos seus valores próprios excede 1 em valor absoluto.

Seja X um vector com n coordenadas (neste caso uma linha com n

elementos. Recorde-se que os valores próprios de P verificam a igualdade

XXP λ=

Sendo λ um valor próprio e, como ( ) 0=−⇔= IPXXXP λλ (sendo I a matriz identidade de ordem )n , eles determinam-se resolvendo a equação

0=− IP λ .

Page 2: Processos Markovianos de Decisao1 - MBA · 2 Resulta, imediatamente, da segunda propriedade de P vista atrás que existe um vector X „ 0, tal que XP = X Que se designa por ponto

2

Resulta, imediatamente, da segunda propriedade de P vista atrás que existe um vector 0≠X , tal que

XXP =

Que se designa por ponto fixo de P . Exemplo

Os dados de um censo dividem as famílias em populações economicamente

estáveis e economicamente em depressão. Depois de um período de 10 anos, a probabilidade de que uma família estável assim permaneça é de 92,0 , enquanto que a probabilidade de ela ficar em depressão é 08,0 . A probabilidade de que uma família em depressão se torne estável é de 03,0 , enquanto a probabilidade de que ela assim permaneça é de 97,0 .

Designando por 1 -estabilidade económica 2 -depressão económica

Temos que

92,011 =p 08,012 =p 03,021 =p 97,022 =p

Ou seja

��

�=

03,0

92,0P .

97,0

08,0��

E, ainda,

��

03,092,0

��

�−�

0

1

97,0

08,0λ

03,092,0

010 λ−

⇔=��

� ⇔=

−0

97,0

08,0

λ

=−+−−⇔= 0024,092,097,08924,00 2λλλ 0 .089,089,12 =+−⇔ λλ

Uma solução da equação é 1: basta notar que .089,089,11 =+− λ Então, recorrendo à regra de Ruffini:

1 1 89,1− 89,0 1 89,0− 1 89,0− 0

Page 3: Processos Markovianos de Decisao1 - MBA · 2 Resulta, imediatamente, da segunda propriedade de P vista atrás que existe um vector X „ 0, tal que XP = X Que se designa por ponto

3

Conclui-se que o outro valor próprio é 89,0 . Por outro lado,

[ ]321 xxx ��

03,092,0 [ ] ⇔

��

=−=+−

⇔��

=+=+

⇔=��

003,008,0

003,008,0

97,008,0

03,092,0

97,008,0

21

21

221

12121 xx

xx

xxx

xxxxx

038 21 =−⇔ xx . Portanto um sistema indeterminado. Mas, como 121 =+ xx ( 1x e

2x são probabilidades e X é um vector de estado) podemos obter ( ) ⇔=−− 0138 11 xx

113

338 111 =⇔=+⇔ xxx . Assim o ponto fixo de P é ���

113

��

118

.

Potências de Matrizes Estocásticas

Designe-se a q -ésima potência de uma matriz P por ( )[ ]qij

q pP = . Se P é

estocástica, então ( )qijp representa a probabilidade de que um objecto passe do

estado i para o estado j em q períodos de tempo. qP é também uma matriz estocástica.

Designe-se a proporção de objectos no estado i no final do q -ésimo período

de tempo por ( )qix e designe-se

( ) ( ) ( ) ( )[ ]q

nqqq xxxX ,...,, 21=

Como sendo o vector de distribuição para o final do q -ésimo período de tempo. Da mesma forma

( ) ( ) ( ) ( )[ ]002

01

0 ,...,, nxxxX = Representa a proporção de objectos em cada estada no início do processo. O vector ( )qX está relacionado com ( )0X pela equação

( ) ( ) qq PXX 0= .

Assim, qP é a matriz estocástica correspondente a uma cadeia de Markov em que o período unitário corresponde à soma de q períodos.

Page 4: Processos Markovianos de Decisao1 - MBA · 2 Resulta, imediatamente, da segunda propriedade de P vista atrás que existe um vector X „ 0, tal que XP = X Que se designa por ponto

4

Matrizes Ergódicas

Uma matriz estocástica P é ergódica se existe q

qP

∞→lim ; isto é: se cada ( )q

ijp

tem limite quando ∞→q ; designaremos a matriz limite, necessariamente estocástica, por L . As componentes de ( )∞X são dadas por

( ) ( )LXX 0=∞

e representam as proporções aproximadas de objectos nos diversos estados de uma cadeia de Markov após um grande número de períodos de tempo. Vejamos os resultados seguintes:

- Uma matriz estocástica é ergódica se e somente se um único valor próprio λ tem módulo 1 ou se 1=λ tem multiplicidade k e existem k vectores próprios linearmente independentes associados a este valor próprio,

- Se todo o valor próprio de uma matriz P gera vectores próprios (à esquerda) linearmente independentes em número igual à sua multiplicidade, então existe uma matriz M não singular, cujas linhas são os vectores próprios de P , tal que 1−= MPMD é uma matriz diagonal. Os elementos da diagonal de D são os valores próprios de P , repetidos de acordo com a multiplicidade.

Adoptamos a conversão de posicionar os vectores próprios correspondentes

a 1=λ acima de todos os vectores próprios de M . Então, para uma matriz P diagonalizável, ergódica nn × com 1=λ de multiplicidade k , a matriz limite L pode ser calculada por

���������

=��

��= −

∞→

1

lim 11 MMDMLq

q

1

1 0

M

���������

0

.

A matriz diagonal tem k elementos 1 e ( )kn − elementos 0 na diagonal

principal.

Page 5: Processos Markovianos de Decisao1 - MBA · 2 Resulta, imediatamente, da segunda propriedade de P vista atrás que existe um vector X „ 0, tal que XP = X Que se designa por ponto

5

Matrizes Regulares Uma matriz estocástica é regular se uma das suas potências contém

somente elementos positivos. Assim,

- Se uma matriz é regular, então 1 é um valor próprio de multiplicidade 1 e

todos os outros elementos iλ satisfazem a 1<iλ , - Uma matriz regular é ergódica.

Se P é regular, com matriz limite L , então todas as linhas de L são

idênticas entre si e idênticas a um vector próprio associado com 1=λ e tendo a soma das suas componentes unitária. Designe-se este vector próprio por 1E . Assim se P é regular, qualquer que seja a distribuição inicial ( )0X ,

( )

1EX =∞ . Exemplos

1. Formule o processo seguinte como uma Cadeia de Markov. O fabricante do creme dental HI-GLO domina normalmente 60% o mercado de uma certa cidade. Dados do ano anterior mostram que 88% dos utilizadores de HI-GLO lhe permanecem leais, enquanto 12% mudam para outros concorrentes. Além disso, 85% dos utilizadores dos concorrentes permanecem-lhes leais, enquanto os outros 15% mudam para HI-GLO. Considerando-se que essa tendência é permanente, determine a participação de HI-GLO no mercado

- Daqui a 5 anos, - A longo prazo.

Considerando como estado

1- Consumo de creme dental HI-GLO

2- Consumo dos cremes dentais concorrentes Então

88,011 =p 12,012 =p 15,021 =p 85,022 =p

Page 6: Processos Markovianos de Decisao1 - MBA · 2 Resulta, imediatamente, da segunda propriedade de P vista atrás que existe um vector X „ 0, tal que XP = X Que se designa por ponto

6

Vindo a matriz estocástica correspondente

��

�=

15,088,0

P .85,012,0��

O vector de distribuição de probabilidade de inicial é ( ) [ 60,00 =X ]40,0 . Como

( ) ( ) [ 60,0505 == PXX ]40,0 ��

15,088,0

[ 60,085,012,0

5

=��

� ]40,0 �

4404,06477,0

=��

5596,03523,0

[ 5648,0= ]4352,0

Concluímos que, após 5 anos, a participação de HI-GLO no mercado cairá para 56,48%.

Por outro lado, como cada componente da primeira potência de P (evidentemente igual a P ) é positiva, P é regular e, portanto, ergódica. Daí a existência do limite quando q tende para infinito. O vector próprio

correspondente a 1=λ é dado por [ ]��

15,088,0

21xx ��

85,012,0

= [ ] 015,012,0 2121 =−⇔ xxxx .

Conjuntamente um 121 =+ xx somos conduzidos a [ ] [ ]94

95

211 == xxE .

Portanto��

�=

∞→

95

95

lim q

qP L=

��

94

94

e

( ) ( ) [ 60,00 ==∞ LXX ]40,0��

95

95 [ ] 19

49

5

94

94

E==��

�.

Com o tempo, a participação de HI-GLO no mercado estabilizar-se-à em 9

5

(aproximadamente 55,56%). 2. Resolva o problema anterior no caso de HI-GLO controlar normalmente

90% do mercado.

( ) ( ) [ 90,0505 == PXX ]10,0 ��

4404,06477,0

=��

5596,03523,0 [ 6270,0 ]3730,0

Page 7: Processos Markovianos de Decisao1 - MBA · 2 Resulta, imediatamente, da segunda propriedade de P vista atrás que existe um vector X „ 0, tal que XP = X Que se designa por ponto

7

e, após 5 anos, a participação de HI-GLO no mercado será de aproximadamente 63%.

Como P é regular, a distribuição limite mantém-se e o valor próprio de P associado a 1=λ é ( ) [ 9

51 ==∞ EX ]9

4 .

3. Formule o processo seguinte como uma cadeia de Markov. O programa de

treino de supervisores de produção de uma determinada companhia consiste em 2 fases. A fase 1, que envolve 3 semanas de aula teórica, é seguida de fase 2, que envolve três semanas de aprendizagem prática sob a direcção de supervisores treinados. Pelas experiências anteriores, a companhia espera que apenas 60% dos candidatos da fase teórica sejam graduadas na fase prática, com os 40% restantes a terem que refazer o programa de treino na totalidade. Dos que fazem a fase prática, 70% são graduados como supervisores, 10% voltam a repeti-la e 20% são dispensados. Quantos supervisores pode a companhia esperar formar do seu programa normal de treino se existem 45 pessoas na fase teórica e 21 na fase prática?

Consideramos um período de tempo como sendo de 3 semanas e definimos

os estados de 1 a 4 como as condições de ser 1-eliminado 2-um aprendiz teórico 3-um aprendiz prático 4-supervisor

Considerando que os candidatos eliminados não voltam ao programa de treino e que os supervisores permanecem supervisores, as probabilidades de transição são dadas pela matriz estocástica

����

����

=

10007,01,002,0

06,004,00001

P .

Existem 662145 =+ pessoas no programa inicial de treino, de modo que o

vector de probabilidade inicial é ( ) [00 =X 6645 66

21 ]0 .

Como nem todas as entradas de P são positivas não podemos concluir de imediato que ela é regular. Mas, em vez de calcular potências superiores de P na tentativa de obter uma com entradas todas positivas, vamos calcular os valores próprios de P , resolvendo a sua equação característica:

Page 8: Processos Markovianos de Decisao1 - MBA · 2 Resulta, imediatamente, da segunda propriedade de P vista atrás que existe um vector X „ 0, tal que XP = X Que se designa por ponto

8

( ) ( ) ⇔=−

−−⇔=

−−

−−⇔=

−−

−−

01,00

6,010

1007,01,00

06,010

10007,01,002,0

06,04,00001

2

λλ

λλ

λλ

λ

λλ

λλ

( ) ( )( ) 101,01 2 =⇔=−−−⇔ λλλλ (raiz dupla) 1,00 =∨=∨ λλ .

Determinemos os vectores próprios associados ao valor próprio 1=λ :

[ ]4321 xxxx [ ] ⇔

��

��

=+=+

==++

⇔=

����

����

443

332

2

1321

4321

7,01,06,0

02,04,0

10007,01,002,0

06,004,00001

xxx

xxx

x

xxxx

xxxx

��

��

∈==

��

��

==−

==+

IRx

x

x

IRx

x

xx

x

xx

4

3

2

1

3

32

2

32

00

07,009,06,0

002,04,0

ou seja: [ ]4100xx [11x= 0 0 ]0 [04x+ 0 0 ]1 .

Portanto, existem dois vectores próprios linearmente independentes associados a 1=λ (que tem multiplicidade 2). Portanto P é ergódica embora não seja regular.

Determinemos agora os vectores próprios associados a 1,0=λ :

[ ]4321 xxxx [ ] ⇔

��

��

=+=+

==++

⇔=

����

����

443

332

2

1321

4321

1,07,01,01,06,0

1,001,02,04,0

1,0

10007,01,002,0

06,004,00001

xxx

xxx

x

xxxx

xxxx

��

��

−=

=

−=

��

��

=+==

=+

34

2

31

43

2

31

97

092

09,07,0000

02,09,0

xx

x

xx

xx

x

xx

Ou seja: 392

x��

�−= 0 0 3x =���− 39

7x

��

�−=92

3x 0 1 ��

�−97

. Por exemplo, com 93 =x , obtemos [ 2− 0 9 ]7− .

Page 9: Processos Markovianos de Decisao1 - MBA · 2 Resulta, imediatamente, da segunda propriedade de P vista atrás que existe um vector X „ 0, tal que XP = X Que se designa por ponto

9

E, finalmente, os vectores próprios associados a 0=λ :

[ ] [ ] ⇔

��

��

=+=+

==++

⇔=

����

����

07,001,06,0

0002,04,0

0

10007,01,002,0

06,004,00001

.

43

32

321

43214321

xx

xx

xxx

xxxxxxxx

���

���

−=

−=

−=

���

���

−=

−=

−=

���

���

−=

−=

−=

34

32

31

34

32

331

34

32

331

10761152

10761

51

151

7,061

102

604

xx

xx

xx

xx

xx

xxx

xx

xx

xxx

.Então temos 3152

x��

�−

361

x− 3x ��

�−=���−

152

107

33 xx 61− 1 ��

�−107

e, com 303 −=x , obtemos [4 5 30− ]21 .

Então P é diagonalizável como vimos e, pondo

����

����

−−−

=

2130547902

10000001

M e

����

����

=

000001,00000100001

D

Obtemos sucessivamente:

- 4530590

21305790

100

2130547902

10000001

−=−

=−

−=

−−−

=M ,

- =

����

����

−−−−

−−−−−

−=

����

����

−−−

−−−−−−

=−

=−

004500535109302124

00045

451

00900530045352100102445

4511

T

M

Page 10: Processos Markovianos de Decisao1 - MBA · 2 Resulta, imediatamente, da segunda propriedade de P vista atrás que existe um vector X „ 0, tal que XP = X Que se designa por ponto

10

������

������

=

0010

091

97

92

153

1510

157

158

0001

- =

����

����

−−−

����

����

�����

�����

==

××

∞→

21305457902

10000001

0000000000100001

001009

19

79

215

315

1015

715

80001

lim1 MDML n

n

�����

�����

=

10009

70092

1570015

80001

.

Então ( ) ( ) [00 ==∞ LXX 6645 66

21 ] [ 4343,0

10009

70092

1570015

80001

0 =

�����

�����

× 0 0 ]5657,0 .

Portanto, eventualmente, 43,43% dos candidatos normalmente em treino (ou seja: aproximadamente 29 pessoas) serão eliminadas do programa e 56,57% (ou seja: aproximadamente 37 pessoas) tornar-se-ão supervisores.

4. Resolva um problema em tudo idêntico ao anterior excepto que se supõe que todos os 66 formandos estão na fase de aprendizagem teórica do programa de treino. Agora ( ) [00 =X 1 0 ]0 e, portanto,

( ) ( ) [00 ==∞ LXX 1 0 ]0 [ 158

10009

70092

1570015

80001

=

�����

�����

1 0 ]157 .

Page 11: Processos Markovianos de Decisao1 - MBA · 2 Resulta, imediatamente, da segunda propriedade de P vista atrás que existe um vector X „ 0, tal que XP = X Que se designa por ponto

11

Assim, 158 das 66 pessoas em treino (aproximadamente 35 pessoas) serão

eliminadas definitivamente do programa, permanecendo 31 pessoas eventualmente como supervisores.

Comparando estes resultados com os do Problema anterior, vemos que as distribuições iniciais, situação usual sempre que uma matriz estocástica é ergódica mas não regular.

5. Construa o diagrama de transição para a cadeia de Markov dos problemas 3. e 4. . Um diagrama de transição de estados é uma malha orientada na qual os nós representam os estados e os arcos as possíveis transições. Assim, tendo em conta as denominações dos estados vistos em 3. e 4. temos 0,4 0,6 1 1 0,2 0,1 em que o número em cada arco é a probabilidade de transição.

6. A matriz estocástica ��

�=

4,00

P ��

6,01

é regular? É ergódica? Calcule

n

nPL

∞→= lim se existe.

Como ��

�=×=

4,002 PPP �

6,01

��

4,00

��

�=�

24,04,0

6,01

��

76,06,0

tem todas as entradas

positivas, P é regular e, portanto, ergódica. Logo L existe. Fazendo

[ ]21xx ��

4,00 [ ] 04,0

6,01

2121 =−⇔=��

�xxxx , como 121 =+ xx obtemos [ 7

21 =E ]7

5 e

��

�=

72

72

L ��

75

75

.

1

2

3

4

Page 12: Processos Markovianos de Decisao1 - MBA · 2 Resulta, imediatamente, da segunda propriedade de P vista atrás que existe um vector X „ 0, tal que XP = X Que se designa por ponto

12

7. Uma costureira trabalha exclusivamente numa fase do processo de fabrico de uma determinada confecção de roupas. Esta fase necessita de exactamente meia hora por peça de roupa para se completar. A cada 30 minutos um estafeta passa pela mesa da costureira, apanha todas as peças de roupa que já estejam prontas e deixa novas peças de roupa para serem costuradas. O número de peças de roupa que o estafeta transporta é incerto: 30% das vezes o estafeta não tem peças para a costureira; 50% das vezes o estafeta tem apenas 1 peça para a costureira; 20% das vezes tem 2 peças para a costureira. Entretanto, o estafeta é instruído para nunca deixar na costureira mais do que três peças inacabadas de roupa (As peças inacabadas que não podem ser deixadas com a costureira, como resultado desta programação, são levadas a outra costureira para processamento). Determine a percentagem de vezes em que a costureira fica ociosa, considerando que todas as peças de roupa que se encontram na sua mesa no fim do expediente permanecem lá para serem processadas de forma útil.

Podemos modelar este processo como uma cadeia de Markov de três estados, considerando os estados como o número de peças de roupa inacabadas na mesa da costureira no instante em que o estafeta passa. Designamos os estados 1, 2 e 3, respectivamente, representando 0, 1 e 2 peças inacabadas de roupa; os estágios são os intervalos de meia hora entre cada passagem.

Se a costureira tem uma peça de roupa inacabada no começo de um estágio (no momento em que o estafeta passa) e se deixa uma peça (com probabilidade 0,5) então uma peça estará completada (pronta) no início do estágio seguinte, ficando a costureira novamente com uma peça inacabada, daí 5,022 =p .

Se a costureira tem duas peças inacabadas de roupa no começo de um estágio e se o estafeta passa 1 ou 2 peças (com a probabilidade de

7,02,05,0 =+ ) então o estafeta deixará apenas uma peça e no começo do período seguinte estará com duas peças inacabadas, já que uma terá sido processada durante o período. Portanto, 7,033 =p . Considerando todas as outras probabilidades do mesmo modo, temos a matriz estocástica

���

���

=7,02,002,05,03,0

02,08,0

P .

���

���

=���

���

���

���

=×=55,036,009,024,037,039,0

04,026,07,0

7,02,002,05,03,0

02,08,0

7,02,002,05,03,0

02,08,02 PPP tem todas as

entradas positivas. Portanto P é regular e, em consequência, ergódica. O vector próprio associado a 1=λ com a soma de todas as coordenadas positiva, determina-se fazendo

Page 13: Processos Markovianos de Decisao1 - MBA · 2 Resulta, imediatamente, da segunda propriedade de P vista atrás que existe um vector X „ 0, tal que XP = X Que se designa por ponto

13

[ 1x 2x ]3x [ 21 x7,03,002,05,03,0

02,08,0

x=���

���

]��

��

=+⇔=++

=+⇔

332

2321

121

3

7,02,0

3,05,02,0

3,08,0

xxx

xxxx

xxx

x

��

��

=−⇔=+−

=+−⇔

03,02,0

03,05,02,0

03,02,0

32

321

21

xx

xxx

xx

���

���

=

=

��

��

=−⇔=−

=+−

23

21

32

31

21

3223

03,02,0

03,02,0

03,02,0

xx

xx

xx

xx

xx

. Mas,

196

16

4691

32

23

1 22222321 =⇔=++⇔=++⇔=++ xxxxxxxx e, assim,

199

196

23

1 ==x e 194

196

32

3 ==x .

Assim, ��

�=199

1E 196

��

194

e, como P é regular, temos também que

( ) =∞X ��

199

196

��

194

.

Com o tempo a costureira começa um estágio no estado 1 (sem nenhuma peça inacabada) 19

9 das vezes. O mensageiro passa e, com probabilidade 3,0

não deixa peça alguma para processar, deixando portanto a costureira ociosa. Então a costureira fica ociosa

( ) 1421,03,0199 =

Ou seja: aproximadamente 14% do tempo.

8. Verifique que, para a matriz estocástica definida no exemplo dos censos, 2

ijp representa a probabilidade de passagem do estado i para o estado j em 2 períodos de tempo. Existem duas maneiras para uma família permanecer estável após vinte anos como se ilustra no esquema seguinte:

Page 14: Processos Markovianos de Decisao1 - MBA · 2 Resulta, imediatamente, da segunda propriedade de P vista atrás que existe um vector X „ 0, tal que XP = X Que se designa por ponto

14

Ou seja:

- Ela permanece estável durante os primeiros 10 anos e durante os 10 seguintes ou permanece em depressão após os 10 primeiros anos e então torna a estabilizar-se depois de outros 10. A probabilidade de que uma família permaneça estável durante um período de tempo é 0,92; daí, a probabilidade de que ela permaneça estável durante dois períodos de tempo seja (0,92) (0,92); A probabilidade de que uma família estável caia em depressão após 10 anos é 0,08; a probabilidade de que, em seguida, se torne estável é 0,03; assim a probabilidade de que ambos os acontecimentos se dêem na mesma família é (0,08) (0,03). Então, a probabilidade de que uma família estável permaneça estável após dois períodos de tempo é

( )( ) ( )( )03.008,092,092,0 +

que é exactamente o elemento (1,1) de 2P .

A figura seguinte

Descreve os modos como uma família em depressão se pode tornar estável após 2 períodos de tempo. A probabilidade de que ela continue em depressão durante o primeiro período de tempo e então se torne estável no seguinte é (0,97) (0,03). A probabilidade de que ela se torne estável após o primeiro

Estável Estável

Em depressão Estável

Em depressão

0,03

0,97

0,92

0,03

Estável Estável

Em depressão Estável

Estável

0,92

Após 10 anos Após 20 anos

0,08

0,92

0,03

Page 15: Processos Markovianos de Decisao1 - MBA · 2 Resulta, imediatamente, da segunda propriedade de P vista atrás que existe um vector X „ 0, tal que XP = X Que se designa por ponto

15

período de tempo e assim permaneça no período seguinte é (0,03) (0,92). Logo a probabilidade de que uma das situações ocorra é

( )( ) ( )( )03.097,092,003,0 + que é exactamente o elemento (2,1) de 2P . As outras situações ocorrem de modo semelhante.

9. Exemplo de um modelo de manutenção

Um processo de produção contém uma máquina que se deteriora com rapidez diminuindo tanto em qualidade como em rendimento a sua produção, quando sujeita a uma utilização pesada. Assim é inspeccionada periodicamente, digamos, diariamente (ao fim do dia de trabalho). Em cada inspecção, observa-se a situação da máquina e classifica-se em um de quatro estados possíveis:

Estado Situação

0 Boa como nova 1 Operacional (desgastes menores) 2 Operacional (desgastes importantes) 3 Inoperacional (produção de qualidade inaceitável)

Designemos por X o estado observado da máquina após a inspecção, no

final do dia t . È razoável supor que o estado do sistema evolui de acordo com algumas “leis de movimento” probabilísticas, de modo que a sucessão de estados { }tX se pode conceber como um processo estocástico. Supor-se-á ainda que o processo estocástico é uma cadeia de Markov com um número de estados finito, com uma “matriz de transição” dada por

Estado 0 1 2 3

0 0 87 16

1 161

1 0 43 8

1 81

2 0 0 21 2

1

3 0 0 0 1 A partir desta matriz de transição, é evidente que uma vez que a máquina se

torna inoperacional (isto é: entra no estado 3) permanece inoperacional. Portanto, provavelmente a análise deste processo estocástico é desinteressante porque o estado 3 é um estado absorvente e, a partir de algum momento, a máquina entrará neste estado e ali permanecerá; quer dizer, depois de um certo tempo, tX será sempre igual 3. É óbvio que, de um ponto de vista prático, este modelo é intolerável porque uma máquina que está inoperacional não pode

Page 16: Processos Markovianos de Decisao1 - MBA · 2 Resulta, imediatamente, da segunda propriedade de P vista atrás que existe um vector X „ 0, tal que XP = X Que se designa por ponto

16

continuar a permanecer no processo de produção e deve ser substituída (ou reparada). Esta acção de substituição altera o comportamento do sistema, de modo que agora o sistema evolui no tempo de acordo com o efeito conjunto das leis probabilísticas do movimento e a acção de substituição da máquina inoperacional. Note-se que a acção de substituir uma máquina inoperacional se pode conceber como definidora de uma política de manutenção.

Quando uma máquina se torna inoperacional e se substitui, a máquina substituta é “tão boa como nova”; quer dizer, a máquina volta, por assim dizer, ao estado 0, no momento da inspecção regular no final do dia seguinte. De um ponto de vista prático, pode-se imaginar o processo de substituição como necessitando de 1 dia para se completar, de modo que se perde a produção deste período de tempo.

Os custos em que se incorre enquanto o sistema evolui contêm várias componentes. Quando o sistema se encontra no estado 0,1 ou 2 podem produzir-se artigos defeituosos no dia seguinte e os custos esperados são dados por

Estado Custo esperado devido à produção de artigos defeituosos

0 0 1 1 000€ 2 3 000€

Se se substitui a máquina, incorre-se num custo de substituição de 4 000€, a

que se deve juntar um custo de produção perdida (utilidade perdida) de 2 000€. De modo que, o custo total em que se incorre, sempre que o sistema está no estado 3, é de 6 000€.

O processo estocástico que resulta do sistema com a política de manutenção delineada atrás, isto é: substituir uma máquina inoperacional, é ainda uma cadeia de Markov com um número de estados finito, mas com uma matriz de transição dada agora por

Estado 0 1 2 3

0 0 87 16

1 161

1 0 43 8

1 81

2 0 0 21 2

1

3 1 0 0 0 Pode ter interesse avaliar o custo desta política de manutenção. Se o custo médio esperado (a longo prazo) por dia, ou então, o custo médio

real (a longo prazo) forem medidas apropriadas podemos recorrer aos resultados vistos atrás.

Page 17: Processos Markovianos de Decisao1 - MBA · 2 Resulta, imediatamente, da segunda propriedade de P vista atrás que existe um vector X „ 0, tal que XP = X Que se designa por ponto

17

Assim, notando que

4

4

00012

12

1008

18

14

3016

116

18

70

�����

�����

=P

Tem as entradas todas positivas concluímos que P é regular. Para calcular 1E fazemos

[ 0x 1x 2x ]3x =

�����

�����

00012

12

1008

18

14

3016

116

18

70

[ 0x 1x 2x ]3x O que conduz a

����

����

++=

++=

+=

=

���

���

=++

=++

=+

=

2103

2102

101

30

3210

2210

110

03

21

81

161

21

181

161

43

87

21

81

61

21

81

161

43

87

xxxx

xxxx

xxx

xx

xxxx

xxxx

xxx

xx

o que conjuntamente com

13210 =+++ xxxx leva a ��

�=132

1E 137

132 ( )∞=��

� X132

.

Como consequência o custo médio esperado (a longo prazo) por dia é dado por

€08,1923132

6000132

3000137

1000132

06000300010000 3210 =+×+×+×=+++ xxxx ,

que representa o custo desta política de manutenção.

Modelos Markovianos de Decisão

Acabámos de ver, no último exemplo apresentado, um modelo de manutenção para uma máquina em que se apresentou uma política de manutenção; quer dizer, quando uma máquina se torna inoperacional, substiui-se, em alternativa, a máquina deixa-se tal e qual como está. Por outras palavras, toma-se a decisão de levar a cabo a acção de substituir a máquina, quando se encontra no estado 3, e toma-se a decisão de levar a cabo a acção de deixar a máquina tal e qual como está, quando se encontra nos estados 0, 1 ou 2. Mesmo quando estas duas acções são as únicas permitidas, podem implementar-se outras políticas; por exemplo, quando a máquina se torna inoperacional, ou mesmo, se acha que está operacional mas com desgastes importantes (isto é: a máquina está no estado 2 ou 3), substitui-se; caso

Page 18: Processos Markovianos de Decisao1 - MBA · 2 Resulta, imediatamente, da segunda propriedade de P vista atrás que existe um vector X „ 0, tal que XP = X Que se designa por ponto

18

contrário, deixa-se a máquina tal e qual como está. Como é evidente, esta política gera uma matriz de transição diferente:

Estado 0 1 2 3

0 0 87 16

1 161

1 0 43 8

1 81

2 1 0 0 0 3 1 0 0 0

Para se tornar mais realista o exemplo da manutenção da máquina,

suponha-se que se permite uma terceira opção: a reparação. Quando se repara uma máquina, regressa-se ao estado 1 (operacional – desgastes menores), no instante da inspecção regular no fim do dia seguinte. De um ponto de vista prático, à semelhança da substituição, pode imaginar-se o processo de reparação como se requeresse 1 dia para ser efectuado, perdendo-se em consequência a produção durante este período. A reparação da máquina não se considera como uma decisão viável quando a máquina se torna inoperacional.

Ao imaginar este sistema dinâmico, torna-se evidente que o sistema evolui no tempo de acordo com o efeito conjunto das leis probabilísticas do “movimento” e a sucessão de decisões que se tomam (acções implementadas). Em particular, inspecciona-se a máquina no final de cada dia e regista-se o seu estado. Deve-se tomar então uma decisão em relação à acção que se deve levar a cabo, ou seja:

Decisão Acção

1 Não fazer nada 2 Reparar (O sistema regressa ao estado 1) 3 Substituir (O sistema regressa ao estado 0)

Para o modelo original geral, supor-se-á que se observa um sistema no

instante ,...1,0=t e se classifica em um de um número finito de estados denominados N,...1,0 . Designaremos por { },...1,0, =tX t a sucessão de estados observados. Depois de cada observação, toma-se uma de k (finito) decisões (acções) possíveis, denominadas k,...,2,1 (O número de decisões possíveis pode depender do estado do sistema).

Designaremos por { },...1,0, =∆ tt a sucessão de decisões reais que se tomam. Uma política, designada por R , é uma regra para tomar decisões em cada

instante do tempo. Em princípio, uma política poderia utilizar toda a informação observada no passado até ao instante t , quer dizer, a “História” completa do sistema que consta de tXXX ,...,, 10 e 1210 ,...,,, −∆∆∆∆ t . No entanto, para a maior parte dos problemas que se encontram na prática, é suficiente restringir a nossa consideração àquelas políticas que dependem apenas do estado observado do

Page 19: Processos Markovianos de Decisao1 - MBA · 2 Resulta, imediatamente, da segunda propriedade de P vista atrás que existe um vector X „ 0, tal que XP = X Que se designa por ponto

19

sistema no instante tXt, , e às decisões possíveis de que se dispõe (caracteristicamente markoviana).

Em consequência, uma política R pode imaginar-se como uma regra que prescreve a decisão ( )Rd i quando o sistema se encontra no estado

Nii ,...,1,0, = . Portanto, R fica completamente caracterizado pelos valores

( ) ( ) ( ){ }RdRdRd N,...,, 10 . Note-se que esta descrição supõe que sempre que o sistema se encontre no

estado i , a decisão que deve tomar-se é a mesma para todos os valores de t . As políticas que têm esta propriedade chamam-se políticas estacionárias.

No exemplo que temos estado a seguir as políticas de interesse são: Política Descrição Verbal ( )Rd0 ( )Rd1 ( )Rd 2 ( )Rd3

aR Substitua-se no estado 3 1 1 1 3

bR Substitua-se no estado 3 e repare-se no estado 2 1 1 2 3

cR Substitua-se nos estados 2, 3 1 1 3 3

dR Substitua-se nos estados 1, 2 e 3 1 3 3 3

aR -é a política referida no exemplo 9. atrás,

cR -é a política acabada de referir agora.

Recorde-se, melhor, saliente-se que cada política conduz a uma diferente

matriz de transição. Já se salientou que um sistema evolui no tempo de acordo com o efeito

conjunto das leis probabilísticas do movimento e a sucessão de decisões que se devem tomar; a sua trajectória depende do estado inicial 0X . Supor-se-á que sempre que o sistema se encontre no estado i e se toma a decisão ( ) kRdi = , o sistema evolui para um novo estado j , com probabilidade de transição conhecida ( )kpij , para todo o Nji ,...,1,0, = e Kk ,..,2,1= . Portanto, se se segue uma dada política R , o processo estocástico resultante é uma cadeia de Markov com uma matriz de transição conhecida (que depende da política escolhida). Salvo indicação em contrário, por razões técnicas, supor-se-á que a cadeia de Markov associada com cada matriz de transição é irredutível.

Como exemplo de cadeia de Markov redutível temos a dada pela matriz

Page 20: Processos Markovianos de Decisao1 - MBA · 2 Resulta, imediatamente, da segunda propriedade de P vista atrás que existe um vector X „ 0, tal que XP = X Que se designa por ponto

20

������

������

81

8700

43

4100

0031

32

0021

21

A que corresponde o diagrama de transição

redutível a duas cadeias Markov.

No nosso exemplo temos as matrizes de transição seguintes: aR bR Estado 0 1 2 3 Estado 0 1 2 3

0

0 87 16

1 161 0 0 8

7 161 16

1

1

0 43 8

1 81 1 0 4

3 81 8

1

2

0 0 21 2

1 2 0 1 0 0

3

1 0 0 0 3 1 0 0 0

1 2 3 4

32

21

87

81

21

31

41

43

Page 21: Processos Markovianos de Decisao1 - MBA · 2 Resulta, imediatamente, da segunda propriedade de P vista atrás que existe um vector X „ 0, tal que XP = X Que se designa por ponto

21

cR dR Estado 0 1 2 3 Estado 0 1 2 3

0

0 87 16

1 161 0 0 8

7 161 16

1

1

0 43 8

1 81 1 1 0 0 0

2

1 0 0 0 2 1 0 0 0

3

1 0 0 0 3 1 0 0 0

Em Resumo: Dada uma distribuição { }iXP =0 sobre os estados iniciais do sistema, e uma

política R , um sistema evolui no tempo de acordo com o efeito conjunto das leis probabilísticas do movimento e a sucessão de decisões que se tomem (acções empreendidas). Em particular, quando o sistema se encontra no estado i e se toma a decisão ( ) kRd i = , então a probabilidade de que o sistema se encontre no estado j , no período observado seguinte, é dada por ( )kpij . Isto conduz a

uma sucessão de estados observados ,..., 10 XX e a uma sucessão de decisões tomadas ,..., 10 ∆∆ . Esta sucessão de estados observados e a sucessão de decisões tomadas chama-se processo markoviano de decisão. Usa-se o termo markoviano devido às hipóteses estabelecidas com respeito às leis probabilísticas do movimento.

Descreveram-se (isto é: exemplificou-se) quatro políticas de manutenção mas não se avaliaram as suas propriedades. Falta dar resposta a perguntas como

“Qual é a melhor?” Para prosseguir por este caminho, é necessário introduzir uma estrutura de

custos. Quando o sistema se encontra no estado i e se toma uma decisão ( ) kRd i = , seguindo a política R , incorre-se num custo ikC conhecido. Este custo

pode representar (e de facto representa mesmo) mais um custo esperado do que um custo real. Por exemplo, no problema da manutenção, o custo de deixar uma máquina tal e qual como está depende da variável aleatória, número de artigos defeituosos produzidos no período seguinte. O valor esperado (ou média) desta função de custo, tomado relativamente à distribuição do número de artigos defeituosos, conduzirá ao custo desejado ikC . É importante salientar que este custo depende apenas do estado em que se encontra o sistema e da decisão tomada, ou seja:

Page 22: Processos Markovianos de Decisao1 - MBA · 2 Resulta, imediatamente, da segunda propriedade de P vista atrás que existe um vector X „ 0, tal que XP = X Que se designa por ponto

22

ikC = Custo (esperado) conhecido em que se incorre durante a transição seguinte, se o sistema se encontra no estado i e se toma a decisão k .

Para as quatro políticas de manutenção, podem obter-se custos a partir da

informação seguinte:

Decisão

Custo Estado

Custo esperado devido à

produção de art. def.

Custo de manutenção

Custo (utilidade

perdida) da produção perdida

Custo Total por

dia

1. Deixe-se a máquina tal e

qual como está

0 1 2 3

0 1000€ 3000€

∗x

0 0 0 0

0 0 0 0

0 1000€ 3000€

2. Repare-se 0, 1, 2, 3

0 0

2000 ∗x

2000 2000

4000 ∞

3. Substitua-se 0, 1, 2, 3 0 4000 2000 6000 *Já que, por hipótese, não se pode deixar a máquina na condição de

inoperacional ou repará-la quando fica inoperacional imputa-se um custo infinito. Um modo alternativo seria omitir estas decisões do conjunto de decisões possíveis, quando a máquina se encontra no estado 3.

Note-se que o custo em que se incorre quando se toma a decisão de

substituir é independente do estado do sistema. Isto é evidente, porque não se tem produção alguma durante o dia seguinte, quando se opta por esta acção. Em suma, o custo total esperado por dia resume-se como se segue:

ikC (em milhares de euro) Decisão Estado

1 2 3

0

0 4 6

1

1 4 6

2

3 4 6

3

∞ ∞ 6

Page 23: Processos Markovianos de Decisao1 - MBA · 2 Resulta, imediatamente, da segunda propriedade de P vista atrás que existe um vector X „ 0, tal que XP = X Que se designa por ponto

23

Para comparar as políticas é necessário estabelecer uma medida apropriada do custo. Uma dessas medidas associadas com uma política é o custo médio esperado (a longo prazo) por unidade de tempo, e é a que utilizaremos. Ou seja: para qualquer política pode calcular-se o custo médio esperado (a longo prazo) por unidade de tempo, ( )CE , a partir da expressão

( ) i

N

iik xCCE �

=

=0

Em que ( )Rdk i= , para cada i , e ( )Nxxx ,...,, 10 representa a distribuição de estado estacionário do estado do sistema, governado pela política R que se está a avaliar. Claro que, pretende-se achar a política que minimize ( )CE . Utilizando este critério, é evidente que não é relevante a distribuição assumida para os estados iniciais, porque o efeito a longo prazo do custo da decisão inicial é desprezável. No exemplo da manutenção, é necessário calcular ( )3210 ,,, xxxx para cada uma das quatro políticas tomadas como interessantes e, de seguida, usar estes resultados para obter ( )CE . Procedendo tal como mostrámos (exemplificámos) atrás para aR agora, também, para cb RR , e dR obtemos:

Política ( )3210 .,, xxxx ( )CE

aR �

� �

132

,132

,137

,132

( ) ( ) ( ) ( )[ ] 923,11325

62321702131 ==+++

bR �

� �

212

,212

,75

,212

( ) ( ) ( ) ( )[ ] 667,11335

624211502211 ==+++

cR �

� �

111

,111

,117

,112

( ) ( ) ( ) ( )[ ] 727,11119

61611702111 ==+++

dR �

� �

321

,321

,167

,21

( ) ( ) ( ) ( )[ ] 33296

6161614016321 ==+++

É evidente que a política bR é a melhor. Entre as quatro políticas

consideradas, a política que exige a substituição da máquina quando se encontra no estado 3 (inoperacional) e a sua reparação quando se encontra no estado 2 é a melhor (estado 2: operacional - desgastes importantes), e o custo médio esperado (a longo prazo) por dia é 1 667 euro.

A técnica que acabamos de descrever é simplesmente uma enumeração exaustiva de um conjunto de políticas possíveis. É evidente que a enumeração directa se torna incómoda quando o número de políticas é grande e, em consequência, necessitam-se algoritmos para determinar políticas óptimas. Vamos ver, de seguida, alguns desses algoritmos.

Page 24: Processos Markovianos de Decisao1 - MBA · 2 Resulta, imediatamente, da segunda propriedade de P vista atrás que existe um vector X „ 0, tal que XP = X Que se designa por ponto

24

Programação linear e políticas óptimas

Na secção anterior definimos uma política. Salientar-se que uma política R se pode imaginar como uma regra que prescreve a decisão ( )Rd i , quando o sistema se encontra no estado i . Portanto, R caracteriza-se pelos valores

( ) ( ) ( ){ }RdRdRd N,...,, 10

Alternativamente, pode-se caracterizar R atribuindo os valores "0" ou "1" a

ikD na matriz Decisão, k 1 2 … 3

Estado

����

����

NkNN

k

k

DDD

DDD

DDD

N �

���

21

11211

00201

10

em que cada linha deve conter um único 1, com os restantes elementos iguais a

"0" (isto é: a soma dos elementos de cada linha deve ser 1). Quando um elemento 1=ikD , interpreta-se como sendo requerida a decisão k quando o sistema se encontra no estado i . No exemplo do modelo de manutenção, pode caracterizar-se a política bR por intermédio da matriz

Decisão, k 1 2 3

Estado

����

0011

3210

0100

����

1000

;

ou seja: substituir a máquina quando se encontra no estado 3, reparar a máquina quando se encontra no estado 2 e deixá-la tal e qual como está quando se encontra nos estados "0" ou "1" .

Esta interpretação dos ikD fornece a motivação para uma formulação em termos de programação linear.

Com alguma sorte, o custo esperado de uma política pode exprimir-se como uma função linear dos ikD , ou uma variável relacionada, sujeita a restrições lineares. Mas (e isto não é necessariamente bom) os ikD são inteiros ( "0" ou

"1" ) e são exigidas variáveis contínuas para uma formulação em termos de programação linear. Pode-se lidar com esta situação alargando a interpretação de uma política (melhor dizendo: generalizando).

Page 25: Processos Markovianos de Decisao1 - MBA · 2 Resulta, imediatamente, da segunda propriedade de P vista atrás que existe um vector X „ 0, tal que XP = X Que se designa por ponto

25

A definição anterior exige que se tome a mesma decisão cada vez que o sistema se encontre no estado i . A nova interpretação (agora proposta) de uma política exigirá a determinação de uma distribuição de probabilidade para a decisão que se deve tomar, quando o sistema se encontre no estado i . Portanto, agora deverá imaginar-se ikD como

[ ] NiKkiestadokdecisãoPDik ,...,1,0,,...2,1,0, ===== .

A uma política deste tipo dá-se o nome de política aleatória, enquanto que a

uma política que exige 0=ikD ou 1 se pode chamar política determinística. Ainda assim as políticas aleatórias podem caracterizar-se através da matriz

Decisão, k 1 2 … k

Estado

����

����

NkNN

k

k

DDD

DDD

DDD

N �

���

21

11211

00201

10

em que a soma de cada linha é igual a 1, mas agora

10 ≤≤ ikD

Note-se que cada linha ( )ikii DDD ,...,, 21 é a distribuição de probabilidade que se deve usar quando o sistema se encontra no estado i . Por exemplo, suponha-se que se vai usar uma nova política, eR , no modelo de manutenção, que é uma política aleatória e que está definida pela matriz

Decisão, k 1 2 3

Estado

�����

04111

3210

21

4100

�����

21

2100

.

Esta política solicita que se observe o estado da máquina no final do dia. Se

se encontra no estado 0 ou 1, deixa-se tal e qual como está. Se se encontra no estado 2, deixa-se tal e qual como está com probabilidade 4

1 , repara-se com

probabilidade 41 e substitui-se com probabilidade 2

1 . Provavelmente, pode-se

usar um artifício aleatório com estas probabilidades (possivelmente uma tabela

Page 26: Processos Markovianos de Decisao1 - MBA · 2 Resulta, imediatamente, da segunda propriedade de P vista atrás que existe um vector X „ 0, tal que XP = X Que se designa por ponto

26

de números aleatórios) para tomar a decisão real. Por fim, se se encontra a máquina no estado 3, repara-se com probabilidade 2

1 e substitui-se com

probabilidade 21 .

A formulação em termos de programação linear expressa-se melhor em termos de uma variável ikY , que está relacionada com ikD de modo seguinte:

- Seja ikY a probabilidade estacionária de que o sistema no estado i e que se tome a decisão k :

[ kdecisãopy IK == e ]iestado = .

Então, [ ] [ ] iikIK XDiestadoPiestadokdecisãopy ===== Note-se que

�=

=K

kiki yx

1

e, portanto,

�==

k

kik

ik

i

ikik

y

yxy

D

01

.

Existem várias restrições relativas a iky :

1. ,10

=�=

N

iix pelo que 1

0 01

=��=

N

i

K

kiky

2. Como vimos, ij

N

iij pxx �

=

=0

(recordar que 11 EPE = ) de modo que

( )kpyy ij

N

i

K

kik

K

kjk ���

= ==

=0 11

( 0 k de ( )kpij indica que a probabilidade de

transição considerada depende da decisão k ) para Nj ,...,1,0= .

3. Niyik ,...,1,0,0 =≥ e kk ,...,2,1= .

O custo médio esperado, a longo prazo, por unidade de tempo vem dado por

Page 27: Processos Markovianos de Decisao1 - MBA · 2 Resulta, imediatamente, da segunda propriedade de P vista atrás que existe um vector X „ 0, tal que XP = X Que se designa por ponto

27

( ) ik

N

i

K

kikikik

N

i

K

ki yCDCxCE ����

= == =

==0 10 1

Assim, o problema é determinar os iky de modo que:

ik

N

i

K

kik yC��

= =0 1

min

��= =

=

N

i

K

kikyas

0 11.

( ) Njkpyy ij

N

i

K

kik

K

kik ,...,1,0,0

0 11

==−���= ==

0≥iky kkNi ,...,2,1;,...,1,0 ==

Trata-se de um problema de programação linear que se pode resolver

através do método do simplex. Obtidos os iky , os ikD , que verdadeiramente nos interessam, obtêm

facilmente a partir de

�=

=K

kik

ikik

y

yD

1

.

A solução tem algumas propriedades interessantes: - Conterá ( )1+N variáveis básicas 0≥iky ; tem-se uma restrição redundante, - Pode demonstrar-se que 0>iky para pelo menos um kk ,...,1= , para cada

Ni ,...,1,0= , - Portanto, deduz-se que 0>iky para um único k , para cada Ni ,...,1,0= .

Quer dizer que 0=ikD ou 1, - Por outras palavras a política óptima é determinística e não aleatória. Por

fim, como se têm ( )2+N restrições funções e ( )1+NK variáveis originais, os problemas “práticos” tendem a ser grandes neste modo de formulação, de modo

Page 28: Processos Markovianos de Decisao1 - MBA · 2 Resulta, imediatamente, da segunda propriedade de P vista atrás que existe um vector X „ 0, tal que XP = X Que se designa por ponto

28

que é possível que não se possam obter soluções, mesmo recorrendo ao método do simplex.

Exemplo Como exemplo, pode formular-se deste modo o problema da manutenção da

máquina; Assim,

Min +++++ 1312110302 60004000100060004000 yyyyy

33322311232211 6000600040003000 yyMyMyyy ++++++

asuj. 13

0

3

1

=��= =i k

iky

( ) 033231303

3

10 =+++−�

=

yyyyyk

k

043

87

322212110201

3

11 =

� �

� +++++−�=

yyyyyyyk

k

021

81

161

211101

3

12 =

� �

� ++−�=

yyyyyk

k

021

81

161

31211101

3

13 =

� �

� +++−�=

yyyyyk

k

0≥iky , 3,2,1,0=i , 3,2,1=k

É possível resolver este problema aplicando o método do simplex. Trata-se

de um problema de programação linear. Todos os iky resultam nulos excepto

212

,75

,212

221101 === yyy e 212

33 =y .

Estes valores são precisamente as probabilidades de estado estacionário

para a política bR , provando-se assim que se trata da política óptima. Os

correspondentes

�=

=3

1kik

ikik

y

yD vêm

Page 29: Processos Markovianos de Decisao1 - MBA · 2 Resulta, imediatamente, da segunda propriedade de P vista atrás que existe um vector X „ 0, tal que XP = X Que se designa por ponto

29

133221101 ==== DDDD , e todos os restantes 0=ikD . Esta política requere que

- Se deixe a máquina tal e qual como está, se se encontra no estado 0 ou 1, - Se repare quando se encontre no estado 2, - Se substitua quando se encontre no estado 3.