Post on 18-Apr-2015
COMPARAÇÃO DO COMPORTAMENTO DO
BIC EM ALGUNS MODELOS
PROBABILÍSTICOS
Diogo Taurinho Prado
Orientadora: Denise Duarte
INTRODUÇÃO
BIC – Bayesian Information Criterion
Seleção de modelos: verossimilhança penalizada
Utilizado com estimação pontual: valor mínimo
INTRODUÇÃO
Função da amostra – variável aleatória
Diferentes valores para amostras de um mesmo modelo
Possível estimação intervalar
OBJETIVOS
Estimação intervalar do BIC
Analisar comportamento pra alguns modelos
METODOLOGIA
BIC: verossimilhança penalizada pelos parâmetros estimados ponderados
L = verossimilhança do modelo k = parâmetros estimados n = número de observações
𝐵𝐼𝐶= −2ln𝐿+ 𝑘ln𝑛
METODOLOGIA
Dados i modelos estimados, o BIC é utilizado como:
Apenas um valor
Variações amostrais não são consideradas
𝐵𝐼𝐶= arg 𝑚𝑖𝑛 {−2ln𝐿𝑖 + 𝑘𝑖 ln𝑛}
METODOLOGIA
Comportamento do BIC para variações de acordo com amostras de um mesmo modelo
Monte Carlo Várias amostras geradas de um modelo conhecido
BIC calculado para vários modelos para cada amostra
Variações de valores podem ser obtidas
METODOLOGIA
Estimação intervalar para BIC
Apenas uma amostra, nenhum modelo gerador conhecido
Bootstrap Obtenção de novas amostras a partir da amostra
inicial Intervalos com base na variação do valor do BIC
para as novas amostras
METODOLOGIA
Modelos Utilizados – BIC consistente
Cadeias de Markov
Família Exponencial
METODOLOGIA
Cadeias de Markov Ordem fixa Diferentes combinações de ordens e número de
estados Diferentes probabilidades de transição e
tamanhos de amostra
Família Exponencial Normal, Exponencial, Poisson, Binomial, (Weibull
com parâmetro conhecido), Gamma
METODOLOGIA
Para a geração dos resultados foram criadas [p/r/s] em R
Os [p/r/s] deveriam atender todos os objetivos
Três diferentes [p/r/s]
METODOLOGIA
O primeiro [p/r/s] é um gerador de amostras de Cadeias de Markov
Entradas: Matriz de transição Tamanho para a amostra (n) Estado inicial Número de amostras (n.sample)
Saída n.sample amostras de tamanho n
METODOLOGIA
O segundo é um estimador de modelos de Cadeias de Markov de ordem fixa
Cálculo do BIC
Utilização de bootstrap paramétrico para modelos estimados através do [p/r/s] gerador de amostras
METODOLOGIA
Entradas: Vetor com a seqüência de interesse Ordem da cadeia a ser estimada ou ordens mínima e
máxima para várias cadeias Realização de bootstrap Número de amostras para bootstrap
Saídas Cadeias estimadas para as ordens especificadas BIC para cada um dos modelos estimados Valores de BIC obtidos por bootstrap para cada
reamostra
METODOLOGIA
Por fim, um [p/r/s] para o cálculo de BIC para família exponencial
Entradas: Amostra Famílias de interesse Opção de bootstrap
Saídas BIC para cada distribuição especificada Valores do BIC para cada reamostra
RESULTADOS – CADEIAS DE MARKOV
BIC calculado para quatro ordens diferentes
Histogramas para comparação de resultados
Modelo gerador conhecido
RESULTADOS – CADEIAS DE MARKOV
Ordem 1, 2 estados, n=1000Histogram of Ordem1
Ordem1
Frequency
700 750 800 850 900 950
0100200300400
Histogram of Ordem2
Ordem2
Frequency
700 750 800 850 900 950
0100200300400
Histogram of Ordem3
Ordem3
Frequency
700 750 800 850 900 950
0100200300400
Histogram of Ordem4
Ordem4
Frequency
700 750 800 850 900 950
0100200300400
RESULTADOS – CADEIAS DE MARKOV
Ordem 1, 2 estados, n=10000Histogram of Ordem1
Ordem1
Frequency
8000 8200 8400 8600 8800
050100
200
300
Histogram of Ordem2
Ordem2
Frequency
8000 8200 8400 8600 8800
050100
200
300
Histogram of Ordem3
Ordem3
Frequency
8000 8200 8400 8600 8800
050100
200
300
Histogram of Ordem4
Ordem4
Frequency
8000 8200 8400 8600 8800
050
150
250
RESULTADOS – CADEIAS DE MARKOV
Ordem 1, 2 estados, n=50000Histogram of Ordem1
Ordem1
Frequency
41000 41500 42000 42500
050100150200250
Histogram of Ordem2
Ordem2
Frequency
41000 41500 42000 42500
050100150200250
Histogram of Ordem3
Ordem3
Frequency
41000 41500 42000 42500 43000
050100
200
Histogram of Ordem4
Ordem4
Frequency
41000 41500 42000 42500 43000
050100150200250
RESULTADOS – CADEIAS DE MARKOV
Ordem 1, 2 estados, n=1000Histogram of Ordem1
Ordem1
Frequency
1320 1340 1360 1380
0100200300400
Histogram of Ordem2
Ordem2
Frequency
1320 1340 1360 1380
0100200300400
Histogram of Ordem3
Ordem3
Frequency
1310 1330 1350 1370
0100200300400
Histogram of Ordem4
Ordem4
Frequency
1300 1320 1340 1360
0100
200
300
RESULTADOS – CADEIAS DE MARKOV
Ordem 1, 2 estados, n=10000Histogram of Ordem1
Ordem1
Frequency
13500 13550 13600 13650 13700
050100150200250
Histogram of Ordem2
Ordem2
Frequency
13500 13550 13600 13650 13700
050100150200250
Histogram of Ordem3
Ordem3
Frequency
13500 13550 13600 13650 13700
050100150200250
Histogram of Ordem4
Ordem4
Frequency
13500 13550 13600 13650 13700
050100150200250
RESULTADOS – CADEIAS DE MARKOV
Ordem 1, 2 estados, n=50000Histogram of Ordem1
Ordem1
Frequency
67900 68100 68300
050100
200
Histogram of Ordem2
Ordem2
Frequency
67900 68000 68100 68200 68300
050100
200
Histogram of Ordem3
Ordem3
Frequency
68000 68100 68200 68300 68400
050100
200
Histogram of Ordem4
Ordem4
Frequency
68000 68200 68400
050100
200
RESULTADOS – CADEIAS DE MARKOV
Há interseção nos valores obtidos do BIC
Os intervalos indicam uma possível falta de precisão
Os resultados próximos para probabilidades de transição próximas ou distantes de 0,5
RESULTADOS – CADEIAS DE MARKOV
Ordem 2, 2 estados, n=1000Histogram of Ordem1
Ordem1
Frequency
1200 1250 1300 1350 1400
0100200300400500
Histogram of Ordem2
Ordem2
Frequency
750 800 850 900 950 1000
0100200300400
Histogram of Ordem3
Ordem3
Frequency
750 800 850 900 950 1000
0100200300400
Histogram of Ordem4
Ordem4
Frequency
750 800 850 900 950 1000
0100200300400
RESULTADOS – CADEIAS DE MARKOV
Ordem 2, 2 estados, n=10000Histogram of Ordem1
Ordem1
Frequency
12900 13100 13300
050
100150
Histogram of Ordem2
Ordem2
Frequency
8800 9000 9200 9400
050
100
150
Histogram of Ordem3
Ordem3
Frequency
8800 9000 9200 9400
050
100
150
Histogram of Ordem4
Ordem4
Frequency
8800 9000 9200 9400
050
100
150
RESULTADOS – CADEIAS DE MARKOV
Ordem 2, 2 estados, n=50000Histogram of Ordem1
Ordem1
Frequency
65500 66000 66500
050
100
150
Histogram of Ordem2
Ordem2
Frequency
45000 45500 46000 46500
050100
200
300
Histogram of Ordem3
Ordem3
Frequency
45000 45500 46000 46500
050100
200
Histogram of Ordem4
Ordem4
Frequency
45000 45500 46000 46500
050100
200
300
RESULTADOS – CADEIAS DE MARKOV
Novamente, há interseção entre os valores
Isso ocorre apenas para ordens superiores à geradora
Não há outras diferenças com o aumento da ordem do modelo
RESULTADOS – CADEIAS DE MARKOV
Ordem 2, 3 estados, n=1000Histogram of Ordem1
Ordem1
Frequency
1850 1900 1950 2000 2050 2100
0100200300400
Histogram of Ordem2
Ordem2
Frequency
1200 1300 1400 1500 1600
0200
400
600
Histogram of Ordem3
Ordem3
Frequency
1300 1400 1500 1600 1700
0100
300
500
700
Histogram of Ordem4
Ordem4
Frequency
1600 1700 1800 1900 2000
0200
400
600
RESULTADOS – CADEIAS DE MARKOV
Ordem 2, 3 estados, n=10000Histogram of Ordem1
Ordem1
Frequency
19600 19800 20000 20200
050
100
150
Histogram of Ordem2
Ordem2
Frequency
13200 13600 14000 14400
050100150200
Histogram of Ordem3
Ordem3
Frequency
13400 13800 14200 14600
050100150200
Histogram of Ordem4
Ordem4
Frequency
13800 14200 14600 15000
050100150200
RESULTADOS – CADEIAS DE MARKOV
Ordem 2, 3 estados, n=50000Histogram of Ordem1
Ordem1
Frequency
19600 19800 20000 20200
050
100
150
Histogram of Ordem2
Ordem2
Frequency
13200 13600 14000 14400
050100150200
Histogram of Ordem3
Ordem3
Frequency
13400 13800 14200 14600
050100150200
Histogram of Ordem4
Ordem4
Frequency
13800 14200 14600 15000
050100150200
RESULTADOS – CADEIAS DE MARKOV
Comportamento semelhante aos anteriores
Valores máximos e mínimos diferentes dos anteriores
RESULTADOS – CADEIAS DE MARKOV
Ordem 2, 3 estados
< ESTÁ SENDO RODADO – demora =/ >
RESULTADOS – CADEIAS DE MARKOV
Ordem 2, 2 estados
Ordem 1 Ordem 2 Ordem 3 Ordem 41352,682 918,518 914,523 908,0301343,592 994,069 992,259 980,2931315,453 881,266 877,395 856,8251346,372 947,674 945,475 926,9731318,215 889,226 885,311 875,8031283,655 865,531 859,357 850,0311282,874 936,294 929,483 923,8501343,423 888,308 880,688 872,8781295,580 925,752 920,228 917,4551340,894 917,003 912,826 902,2331273,096 880,115 876,510 862,7091319,998 895,369 891,094 882,7941366,169 966,055 959,946 952,0581333,183 952,451 950,045 936,3061293,593 899,087 897,261 888,1611283,004 895,114 889,417 882,4221315,969 913,500 911,600 901,8761360,171 956,548 953,151 942,4811252,028 901,824 897,991 890,9051272,816 895,138 885,942 876,476
n = 1000Ordem 1 Ordem 2 Ordem 3 Ordem 413214,90 9257,28 9254,36 9242,0713098,55 9212,89 9204,05 9195,9913050,30 9084,02 9074,99 9071,5613124,25 9245,25 9236,79 9232,8313041,60 9138,06 9133,85 9126,0213141,97 9090,32 9088,14 9076,6813057,17 9195,11 9193,30 9186,9513371,26 9195,90 9184,87 9180,1313275,81 9123,51 9116,52 9105,8313059,51 9130,45 9126,10 9118,8913056,35 8966,89 8963,96 8951,7713130,76 9194,69 9188,72 9181,8513096,00 9078,69 9075,32 9070,1713144,03 9003,65 9002,13 8992,9312963,18 8993,62 8989,19 8979,7713230,12 9340,59 9337,35 9324,7113104,89 9086,74 9078,09 9070,2713175,18 9219,14 9216,99 9209,4113166,77 9221,23 9209,82 9202,7513080,88 9096,48 9093,03 9081,81
n = 10000Ordem 1 Ordem 2 Ordem 3 Ordem 466115,20 45946,48 45987,20 46069,9765996,32 46090,03 46128,93 46208,1165911,39 45772,72 45813,19 45880,3365771,38 45756,00 45796,47 45871,7665681,07 45826,71 45864,23 45944,2065892,66 45759,56 45799,06 45881,7966027,82 45986,70 46026,89 46110,9866028,51 45712,92 45750,60 45819,3165892,68 46313,55 46350,94 46433,9265840,31 45801,83 45841,52 45913,9065955,48 45909,77 45948,01 46021,0165946,77 45870,65 45905,53 45987,6765753,96 45645,32 45682,09 45748,8365957,68 46107,71 46146,02 46217,9665995,65 45886,43 45925,75 46000,0165541,87 45894,46 45933,61 46014,2365562,65 45770,55 45810,18 45886,8266156,01 45761,46 45801,48 45880,4266061,46 46057,69 46094,07 46171,6865680,03 45479,11 45520,34 45599,96
n = 50000
RESULTADOS – CADEIAS DE MARKOV
Ordem 1, 2 estados
Ordem 1 Ordem 2 Ordem 3 Ordem 4858,153 857,222 853,404 846,807763,454 757,729 744,211 737,335826,969 825,855 822,337 816,908862,615 859,456 854,649 841,241810,962 806,498 799,885 793,995832,711 829,832 825,936 812,495813,485 805,992 800,010 788,438881,527 880,318 875,385 857,515849,787 845,731 836,185 832,666808,456 802,825 796,586 794,855914,802 913,045 904,529 888,540841,470 840,370 837,234 835,439832,090 829,466 826,300 820,414832,711 831,375 827,441 822,738775,058 773,150 772,609 763,786893,659 887,183 880,851 873,184780,264 773,863 768,578 763,621767,328 766,122 760,880 758,352836,877 835,689 831,623 824,426852,103 851,055 848,637 844,436
n = 1000Ordem 1 Ordem 2 Ordem 3 Ordem 48406,037 8399,693 8386,043 8371,9648565,692 8562,138 8545,806 8541,1428247,204 8239,709 8235,321 8223,3318302,146 8300,076 8294,977 8289,2348485,693 8484,849 8479,367 8465,1608465,807 8464,671 8462,281 8443,5138206,796 8205,506 8194,702 8188,6598393,429 8391,659 8386,545 8379,8038333,156 8332,663 8329,087 8309,0438346,198 8340,504 8334,111 8325,5908503,988 8502,636 8497,031 8492,2628499,425 8492,160 8479,801 8470,4828519,124 8516,882 8513,616 8502,2758213,204 8211,171 8208,495 8205,8538194,368 8183,993 8179,125 8172,5648198,459 8196,383 8193,902 8187,1148402,145 8401,652 8397,873 8393,6158424,412 8423,138 8420,932 8412,2868230,132 8229,029 8227,974 8219,4178323,944 8320,477 8318,099 8309,472
n = 10000Ordem 1 Ordem 2 Ordem 3 Ordem 441756,23 41776,15 41816,93 41897,8941888,66 41908,56 41948,88 42023,7942072,10 42088,66 42127,91 42202,6841563,02 41583,92 41620,54 41696,3041692,42 41713,20 41753,18 41837,1241886,76 41907,77 41948,06 42027,0642276,77 42291,92 42334,19 42413,3342233,89 42251,91 42291,28 42374,3641847,20 41866,15 41907,27 41988,2341357,75 41376,02 41415,09 41497,8741827,59 41848,16 41883,48 41954,2841305,78 41326,92 41356,62 41426,0641629,96 41650,13 41687,62 41768,3841756,56 41773,41 41804,67 41880,9741487,79 41505,82 41542,02 41613,7941905,43 41922,42 41957,69 42022,3841775,35 41792,25 41834,01 41912,6041296,60 41315,44 41357,70 41434,9141884,25 41904,48 41936,31 42018,1241277,42 41295,17 41330,30 41409,92
n = 50000
RESULTADOS – CADEIAS DE MARKOV
Apesar da variação dos valores, a escolha é sempre a mesma
A variação dos valores do BIC não parece ser independente
Acertos e erros diretamente relacionados com o tamanho da amostra
RESULTADOS – FAMÍLIA EXPONENCIAL
“Última” dúvida
CONSIDERAÇÕES FINAIS
O BIC sofre variações para todas as amostras diferentes
A escolha do modelo correto depende de uma amostra suficientemente grande
Variações de valores entre diferentes modelos não são totalmente aleatórias
CONSIDERAÇÕES FINAIS
Para Cadeias de Markov, o modelo escolhido pelo BIC é sempre o mesmo
Em geral, há maior facilidade em rejeitar os modelos mais simples do que os mais complexos
Variação de valores de acordo com a amostra não interferem no modelo apontado pelo BIC