ATLAS BRASIL 2013 ALGUMAS VARIÁVEIS DA DIMENSÃO …...Com relação ao IDHM Educação: É o que...
Transcript of ATLAS BRASIL 2013 ALGUMAS VARIÁVEIS DA DIMENSÃO …...Com relação ao IDHM Educação: É o que...
PONTÍFICIA UNIVERSIDADE CATÓLICA DE SÃO PAULO
Faculdade de Economia, Administração, Contabilidade e Atuariais.
ATLAS BRASIL 2013
ALGUMAS VARIÁVEIS DA DIMENSÃO EDUCAÇÃO
Disciplina: Métodos Quantitativos
Professor: Dr. Arnoldo Jose de Hoyos
Dione Fagundes Nunes Gomes
1º Semestre 2014
2
1. INTRODUÇÃO
A análise discriminante é uma técnica da estatística multivariada utilizada para discriminar e
classificar objetos. É uma técnica da estatística multivariada que estuda a separação de objetos
de uma população em duas ou mais classes. A discriminação ou separação é a primeira etapa,
sendo a parte exploratória da análise e consiste em se procurar características capazes de
serem utilizadas para alocar objetos em diferentes grupos previamente definidos. A
classificação ou alocação pode ser definida como um conjunto de regras que serão usadas
para alocar novos objetos.
O presente trabalho tem por objetivo efetuar uma análise comparativa de médias, intervalos
de confiança e regressões de dados de indicadores relacionados ao desenvolvimento humano
dos municípios do Brasil. Utilizamos a análise discriminante para tentar predizer ou explicar
os indicadores relacionados ao desenvolvimento da educação dos municípios do Brasil.
Contudo, a função que separa objetos pode também servir para alocar, e o inverso, regras que
alocam objetos podem ser usadas para separar. Normalmente, discriminação e classificação se
sobrepõem na análise, e a distinção entre separação e alocação é confusa. O problema da
discriminação entre dois ou mais grupos, visando posterior classificação consiste em obter
funções matemáticas capazes de classificar um indivíduo X (uma observação X) em uma de
várias populações, com base em medidas de um número p de características, buscando
minimizar a probabilidade de má classificação.
Os dados são originários da pesquisa da Atlas Brasil 2013 com base nos dados sobre a
dimensão Desenvolvimento Humano dos municípios do Brasil. Neste trabalho abordaremos
as variáveis referentes IDHM, IDHM_R e ESPVIDA dos municípios. O software estatístico
utilizado é o MINITAB16.
2. ENTENDENDO OS DADOS
2.1 – Os Indivíduos
Os indivíduos deste trabalho são os municípios brasileiros, que serão analisados pelos seus
indicadores relativos ao Desenvolvimento Humano presentes no relatório Atlas Brasil 2013,
dados referentes ao ano de 2010. Este sujeito da análise é composto por um total de 5565
municípios brasileiros e os dados analisados de cada município são as variáveis que serão
descritas na próxima seção.
A dimensão Educação (acesso ao conhecimento) é uma das três dimensões que compõem o
IDHM, juntamente com Longevidade e Renda. Ela é medida pela composição de dois
subíndices: a escolaridade da população adulta e o fluxo escolar da população jovem.
3
Portanto, é preciso que o crescimento econômico seja transformado em conquistas concretas
para as pessoas, por meio de ações que proporcionem uma realidade que apresente crianças
mais saudáveis, educação universal e de qualidade, ampliação da participação política dos
cidadãos, preservação ambiental, equilíbrio da renda e das oportunidades entre toda a
população, maior liberdade de expressão, entre outras. Além disso, ao colocar as pessoas no
centro da análise, a abordagem de desenvolvimento humano redefine a maneira com que
pensamos e lidamos com o desenvolvimento de forma nacional e local, ou seja, no âmbito dos
municípios.
2.2 As Variáveis
São oito as variáveis desta pesquisa (extraídas do total de 59 variáveis disponibilizadas pelo
Atlas na dimensão Educação), além de Município, Unidade da Federação (UF) e Região. As
mesmas são melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são
referentes ao ano de 2010.
Tabela 1 – As Variáveis
VARIÁVEL SIGNIFICADO TIPO
UNIDADE
DE
MEDIDA
T_ANALF15M Razão entre a população de 15 anos ou mais de idade que não sabe ler nem escrever um bilhete simples e o total de pessoas nesta faixa etária multiplicado por 100.
Variável Quantitativa
Percentual
T_ANALF25M Razão entre a população de 25 anos ou mais de idade que não sabe ler nem escrever um bilhete simples e o total de pessoas nesta faixa etária multiplicado por 100.
Variável Quantitativa
Percentual
T_FREQ6A17 Razão entre população de 6 a 17 anos de idade que estava frequentando a escola, em qualquer nível ou série e a população total nesta faixa etária multiplicado por 100.
Variável Quantitativa
Percentual
T_FUND25M Razão entre a população de 25 anos ou mais de idade que concluiu o ensino fundamental, em quaisquer de suas modalidades (regular seriado, não seriado, EJA ou supletivo) e o total de pessoas nesta faixa etária multiplicado por 100.
Variável Quantitativa
Percentual
T_FLMED Razão entre o número de pessoas na faixa etária de 15 a 17 anos frequentando o ensino médio regular seriado e a população total dessa mesma faixa etária multiplicado por 100. As pessoas de 15 a 17 anos frequentando a 4ª série do ensino médio foram consideradas como já tendo concluído esse nível de ensino.
Variável Quantitativa
Percentual
T_FLSUPER Razão entre o número de pessoas na faixa etária de 18 a 24 anos frequentando o ensino superior (graduação, especialização, mestrado ou doutorado) e a população total dessa mesma faixa etária multiplicado por 100.
Variável Quantitativa
Percentual
T_MED18M Razão entre a população de 18 anos ou mais de idade que concluiu o ensino médio, em quaisquer de suas modalidades (regular seriado, não seriado, EJA ou supletivo) e o total de pessoas nesta faixa etária multiplicado por 100. Foram consideradas como tendo concluído o ensino médio as pessoas frequentando a 4ª série desse nível.
Variável Quantitativa
Percentual
4
T_SUPER25M Razão entre a população de 25 anos ou mais de idade que concluiu pelo menos a graduação do ensino superior e o total de pessoas nesta faixa etária multiplicado por 100.
Variável Quantitativa
Percentual
MUNICÍPIO Nome do Município Variável Categórica
n/a
UF Código utilizado pelo IBGE para identificação do Estado. Variável Categórica
n/a
REGIÃO Código utilizado pelo IBGE para identificação da Região. Variável Categórica
n/a
Fonte: Atlas Brasil, 2013.
3. ANÁLISE DAS VARIÁVEIS
3.1 Variáveis Categóricas
Este tipo de variável indica que o foco de concentração deve ser a análise de gráficos do tipo
pie chart e/ou barras.
3.1.1 Variável: “Estado”
Fazem parte desta pesquisa os 27 estados brasileiros e suas cidades. O gráfico abaixo exibe o
número de cidades por estado.
DFRRAPACROAMSEMSESRJALTOM
TPARNCEPEMAPBPIGOSCPRBARSSPM
G
900
800
700
600
500
400
300
200
100
0
UFN
Co
un
t
Cidades por Estado
A variação no número de cidades por estado é acentuada. Considerando que o Distrito Federal
é um estado brasileiro, é o estado com o menor número de cidades (1), enquanto o Mato
Grosso possui mais de 852 cidades.
5
3.1.2 Variável: “Região”
Figura 3. Número de Cidades por Estado e Região do Brasil
NCOSSENE
35
30
25
20
15
10
5
0
Região
Pe
rce
nt
Percent within all data.
CIDADES POR REGIÃO
Podemos verificar no gráfico acima que a Região Nordeste é a que possui o maior número de
cidades do Brasil (1790) e seguido pela Região Sudeste (1669). A Região que possui o menor
número de cidades é a Norte, com 447 cidades, muito próxima da Região Centro-Oeste (468).
A Região Sul possui 1191 cidades.
A ilustração a seguir monstra a divisão do Brasil por região e por estado
6
3.1.3 Variável: “Município”
A amostra totaliza 5565 municípios, que pode ser verificada na distribuição no território
nacional de acordo com a região no gráfico 1.
Gráfico 1 - distribuição dos municípios nas Regiões Brasileiras.
Fonte: elaborado pelo autor, 2014 (Atlas Brasil, 2014)
De acordo com gráfico 1 pode-se observar que as maiores concentrações de municípios
brasileiros estão nas regiões do Nordeste com 32,20% e Sudeste com 30% somando juntas
mais de 50% dos municípios pesquisados (62,20%).
O Gráfico 2 demonstra a distribuição dos municípios pelas Unidades Federativas do Brasil.
N
CO
S
SE
NE
Categoria
NE
1794; 32,2%
SE
1668; 30,0%
S
1188; 21,3%
CO
466; 8,4%
N
449; 8,1%
Gráfico de Setores de Região
7
Gráfico 2 – Representação dos municípios nas Unidades da Federação
Fonte: elaborado pelo autor, 2014 (Atlas Brasil, 2014)
Conforme pode ser observado no Gráfico 2, as Unidades da Federação mais representativas
são Minas Gerais (15,3%), São Paulo (11,6%) e Rio Grande do Sul (8,9%). As menos
expressivas são de Amazonas, Sergipe, Espírito Santos, entre outros.
O Mapa 1 (Atlas Brasil, 2014) apresenta o IDHM (Índice de Desenvolvimento Humano
Municipal) dos municípios brasileiros em 1991, 2000 e 2010. Com base nesta representação
pode se observar que, com relação IDHM, existe uma concentração de índices mais altos nos
municípios da região centro-sul do Brasil.
Contudo, também pode ser percebido que as regiões Norte e Nordeste que concentravam os
municípios que apresentavam índices muito baixos de desenvolvimento humano, conseguiram
reverter para índices baixos e médios de desenvolvimento.
RN
CE
PE
MA
PB
PI
GO
SC
PR
BA
AM
RS
SP
MG
Outros
SE
ES
MS
RJ
AL
TO
MT
PA
CategoriaOther
1,9%
MG
15,3%
SP
11,6%
RS
8,9%
BA
7,5%PR
7,2%
SC
5,3%
GO
4,4%
PI
4,0%
PB
4,0%
MA
3,9%
PE
3,3%
CE
3,3%
RN
3,0%
PA
2,6%
MT
2,5%
TO
2,5%
AL
1,8%
RJ
1,7%
MS
1,4%
ES
1,4%
SE
1,3%AM
1,1%
Gráfico de Setores de UFN
8
Mapa 1 - IDHM evolução 1991, 2000 e 2010
Fonte: Atlas Brasil, 2014.
Para entender esta evolução do IDHM dos municípios brasileiros são apresentadas
informações na tabela 2, ilustrada pelo gráfico 1. A classificação IDHM proposta pelo Atlas
Brasil tem sua variação entre Muito Baixo Desenvolvimento Humano (IDHM inferior a
0,500) a Muito Alto Desenvolvimento Humano (IDHM igual ou superior a 0,800).
9
Conforme estas informações pode-se perceber a evolução dos municípios entre o período de
1991 e 2010. Em 1991, mais de 85% dos municípios encontravam-se na faixa de Muito Baixo
Desenvolvimento Humano. Já nos anos 2000, pouco mais que 70% deles encontravam-se nas
faixas de Baixo e Muito Baixo Desenvolvimento Humano.
Na última análise referente a 2010, apenas um quarto (25%) dos municípios brasileiros
encontravam-se nessas faixas e mais de 70% deles já figuravam nas faixas de Médio e Alto
Desenvolvimento Humano. Segundo as informações constantes no Atlas Brasil 2013 isso
ilustra os avanços do desenvolvimento humano no país nas últimas duas décadas.
Com relação ao IDHM Educação:
É o que menos contribui para o IDHM do Brasil
• Saiu de 0,279 (1991) para 0,637 (2010). É a dimensão que mais avançou nos últimos 20 anos
Em termos absolutos: 0,358
Em termos relativos: 128,3%
• Movimento puxado pelo fluxo escolar de jovens
2,5 vezes maior em 2010, em relação a 1991
Crescimento de 156% neste subíndice
• Porém
É o componente com maior hiato: 0,363
É o único subíndice classificado na faixa Médio Desenvolvimento Humano
3.2 Variáveis Quantitativas
A análise deste tipo de variável permite a utilização de uma maior gama de ferramentas de
análise como histogramas, curvas de densidade, gráfico de ramos, box-plot e dot-plot, além de
informações numéricas como média, desvio-padrão, mediana, quartis, 5 números, intervalo de
confiança e teste de normalidade de Anderson-Darling. Também podemos fazer classificações
supervisionadas das variáveis quantitativas, através da análise discriminante.
3.2.1. Análise discriminante linear por região
A análise discriminante é uma técnica da estatística multivariada utilizada para discriminar e
classificar objetos, e estuda a separação de objetos de uma população em duas ou mais
classes. Neste caso queremos discriminar os valores das variáveis T_ANALF15Mnp1 e
T_ANALF25Mnp dos municípios2 do Brasil, e utilizaremos inicialmente a variável categórica
Região. Para geração de análise discriminante utilizaremos o comando do Minitab:
STAT >> MULTIVARIATE >> DISCRIMINANT ANALISYS
1 As letras “np” no final das variáveis representam que as mesmas foram normalizadas e positivadas. 2 Para está análise excluiu-se o DF – Distrito Federal.
10
Discriminant Analysis: Região versus T_ANALF15M_np; T_ANALF25M_np Linear Method for Response: Região
Predictors: T_ANALF15M_np; T_ANALF25M_np
Group CO N NE S SE
Count 465 449 1794 789 2067
Summary of classification
True Group
Put into Group CO N NE S SE
CO 197 53 79 76 455
N 53 226 244 3 195
NE 12 82 1432 0 92
S 72 14 20 607 879
SE 131 74 19 103 446
Total N 465 449 1794 789 2067
N correct 197 226 1432 607 446
Proportion 0,424 0,503 0,798 0,769 0,216
N = 5564 N Correct = 2908 Proportion Correct = 0,523
Squared Distance Between Groups
CO N NE S SE
CO 0,0000 1,4673 7,2759 1,0006 0,0750
N 1,4673 0,0000 3,2749 4,4480 1,9595
NE 7,2759 3,2749 0,0000 13,6695 8,7574
S 1,0006 4,4480 13,6695 0,0000 0,5485
SE 0,0750 1,9595 8,7574 0,5485 0,0000
Linear Discriminant Function for Groups
CO N NE S SE
Constant -16,530 -11,534 -4,664 -22,782 -18,078
T_ANALF15M_np -21,484 31,766 -6,500 -24,523 -16,908
T_ANALF25M_np 65,693 5,175 30,015 76,428 63,182
Summary of Misclassified Observations
Figura 2. Resultado do comando STAT >> MULTIVARIATE >> DISCRIMINANT ANALISYS
Com base nas informações apresentadas na figura 2 pode ser notado que a região que acertou
mais é Nordeste (0,798) e a que errou mais foi a região Sudeste (0,216). As informações ainda
exibem o cruzamento de dados entre as regiões, por exemplo, a região Nordeste possui 1794
municípios e apenas 1432 correspondem a região. O nome desta matriz é confusion matrix ou
matriz de confusão. Podemos concluir que o agrupamento por região não é uma boa escolha
segundo esta avaliação.
11
3.2.2. ANÁLISE DISCRIMINANTE LINEAR POR “2 BRASIS”
Esta segunda análise está interessada em verificar os possíveis agrupamentos dos dados
utilizando a variável 2 Brasis, calculada a partir do exercício anterior, e demonstra os
agrupamentos do Brasil segundo sua proximidade de dados de educação. Para esta análise
foram agrupadas as regiões de Sul, Sudeste e Centro-Oeste como COSSE, e as regiões de
Norte e Nordeste como NNE.
Discriminant Analysis: Reclassifica versus T_ANALF15M_n; T_ANALF25M_n Linear Method for Response: Reclassificação Regiões
Predictors: T_ANALF15M_np; T_ANALF25M_np
Group COSSE NNE
Count 3321 2243
Summary of classification
True Group
Put into Group COSSE NNE
COSSE 3063 381
NNE 258 1862
Total N 3321 2243
N correct 3063 1862
Proportion 0,922 0,830
N = 5564 N Correct = 4925 Proportion Correct = 0,885
Squared Distance Between Groups
COSSE NNE
COSSE 0,00000 6,12526
NNE 6,12526 0,00000
Linear Discriminant Function for Groups
COSSE NNE
Constant -15,078 -4,579
T_ANALF15M_np -37,141 -8,871
T_ANALF25M_np 74,702 29,623
Summary of Misclassified Observations
Existem duas possibilidades de realizar a análise discriminante que são a linear e a quadrática.
Dependendo da variável deve-se dar mais peso e mais atenção a um método em detrimento do
outro. Neste caso a linear já nos apresenta informações satisfatórias. Podemos observar que
alguns estados e municípios da região COSSE tem características da região NNE, visto pelo
número 638 municípios foram encontrados na intersecção entre COSSE e NNE.
12
3.2.3. ANÁLISE DISCRIMINANTE QUADRÁTICA POR “3 BRASIS”
Uma boa classificação deve resultar em pequenos erros, isto é, deve haver pouca
probabilidade de classificação inadequada, e para que isso ocorra a regra de classificação deve
considerar as probabilidades a priori e os custos de classificação errada. Outro fator que uma
regra de classificação deve considerar é se as variâncias das populações são iguais ou não.
Quando a regra de classificação assume que as variâncias das populações são iguais, as
funções discriminantes são ditas lineares e quando não são funções discriminantes
quadráticas. Vamos agora verificar a função quadrática para os 2 Brasis apresentado na
análise anterior.
Discriminant Analysis: Reclassifica versus T_ANALF15M_n; T_ANALF25M_n Quadratic Method for Response: Reclassificação Regiões
Predictors: T_ANALF15M_np; T_ANALF25M_np
Group COSSE NNE
Count 3321 2243
Summary of classification
True Group
Put into Group COSSE NNE
COSSE 3053 359
NNE 268 1884
Total N 3321 2243
N correct 3053 1884
Proportion 0,919 0,840
N = 5564 N Correct = 4937 Proportion Correct = 0,887
From Generalized Squared Distance to Group
Group COSSE NNE
COSSE -13,60 -7,14
NNE -4,89 -11,41
Summary of Misclassified Observations
No modelo quadrático a proporção apresentou uma diferença de 0,002. Seguindo o princípio
da simplicidade, vamos escolher o método linear, pois este é o mais simples.
Em Ciência, a parcimônia é a preferência pela explicação mais simples para uma observação.
Esta geralmente é considerada a melhor maneira de julgar as hipóteses. Parcimônia também é
um conceito utilizado na sistemática moderna que estabelece que ao construir e selecionar
árvores filogenéticas, ou seja, os dados, o melhor critério é baseado em seus princípios:
normalmente é correto o relacionamento mais simples encontrado entre dois indivíduos,
aquele que apresente o menor número de passos intermediários ou mudanças evolucionárias.
Portanto, é mínima a diferença entre o método linear e o quadrático, o que não justifica a
utilização do método quadrático.
13
3.2.4. ANÁLISE DISCRIMINANTE LINEAR PARA DADOS AGRUPADOS
Gráfico2. Dendograma da variáveis T_ANALF15Mnp x T_ANALF25Mnp por estados do
Brasil (classificação não supervisionada)
No gráfico 2 acima é possível verificar cinco grupos de variáveis, agrupadas pela similaridade
dos dados. Os estados que possuem maior similaridade são Mato Grosso e Rondônia, no
grupo laranja; e Rio de Janeiro e São Paulo, mais Rio Grande do Sul e Santa Catarina, no
grupo rosa. O nível de similaridade dos dados destes estados está acima de 99 %, conforme
indicado na escala apresentada no eixo Y do gráfico.
SCRSSPRJPRROMT
MS
GOESMGAPTORRPAAMALPIPBSERNPEM
ACEBAAC
82,69
88,46
94,23
100,00
Observations
Sim
ilari
ty
Dendograma média por estado T_ANALF15Mnp x T_ANALF25Mnp
14
No mapa acima pode ser percebido a divisão por cores dos estados de acordo com seu
agrupamento por similaridade. Nesta representação vale destacar há certa coerência com as
particularidades de cada estado, com o exemplo do agrupamento dos estados na cor rosa se
justifica por aparentemente apresentarem resultados positivos de educação em relação aos
outros estados.
Neste exemplo abaixo vamos através do dendograma pesquisar o grau de similaridade das
médias das variáveis T_ANALF15Mnp e T_ANALF25Mnp agrupamentos. Com base na
análise discriminante poderemos verificar a proporção correta dos agrupamentos.
Discriminant Analysis: Agrupamentos versus MÉDIA T_ANAL; MÉDIA T_ANAL Linear Method for Response: Agrupamentos de Estados
Predictors: MÉDIA T_ANALF15Mnp; MÉDIA T_ANALF25Mnp
Group G1 G2 G3 G4
Count 10 4 8 4
Summary of classification
15
True Group
Put into Group G1 G2 G3 G4
G1 10 0 0 0
G2 0 4 0 0
G3 0 0 8 0
G4 0 0 0 4
Total N 10 4 8 4
N correct 10 4 8 4
Proportion 1,000 1,000 1,000 1,000
N = 26 N Correct = 26 Proportion Correct = 1,000
Squared Distance Between Groups
G1 G2 G3 G4
G1 0,000 25,006 69,699 127,256
G2 25,006 0,000 11,227 39,892
G3 69,699 11,227 0,000 9,043
G4 127,256 39,892 9,043 0,000
Linear Discriminant Function for Groups
G1 G2 G3 G4
Constant -43,81 -103,05 -156,76 -212,96
MÉDIA T_ANALF15Mnp -170,88 -229,01 -289,60 -427,86
MÉDIA T_ANALF25Mnp 393,40 570,36 710,61 918,17
Neste caso a proporção correta é de 100%, ou seja, os agrupamentos gerados anteriormente
pelo agrupamento em 4 Brasis gerou a mesma proporção do método linear utilizado na análise
discriminante.
4. REGRESSÃO LOGÍSTICA ORDINAL PARA AS VARIÁVEIS: T_ANALF15Mnp e
T_ANALF25Mnp.
Inicialmente foram classificadas pela análise ANOVA as regiões para as variáveis:
T_ANALF15Mnp e T_ANALF25Mnp.
One-way ANOVA: T_ANALF15M_np versus Região Source DF SS MS F P
Região 4 191,0707 47,7677 2819,35 0,000
Error 5559 94,1849 0,0169
Total 5563 285,2556
S = 0,1302 R-Sq = 66,98% R-Sq(adj) = 66,96%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev ----+---------+---------+---------+-----
CO 465 0,7390 0,0939 (*)
N 449 0,6251 0,1534 (*
NE 1794 0,3938 0,1535 *)
S 789 0,8678 0,0746 (*
SE 2067 0,7744 0,1262 (*
----+---------+---------+---------+-----
0,45 0,60 0,75 0,90
Pooled StDev = 0,1302
16
One-way ANOVA: T_ANALF25M_np versus Região Source DF SS MS F P
Região 4 194,6781 48,6695 2891,70 0,000
Error 5559 93,5621 0,0168
Total 5563 288,2402
S = 0,1297 R-Sq = 67,54% R-Sq(adj) = 67,52%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev ----+---------+---------+---------+-----
CO 465 0,7449 0,0903 (*
N 449 0,6205 0,1503 *)
NE 1794 0,3960 0,1523 *)
S 789 0,8746 0,0712 *)
SE 2067 0,7795 0,1284 *
----+---------+---------+---------+-----
0,45 0,60 0,75 0,90
Pooled StDev = 0,1297
Após esta análise chegou-se à classificação das regiões de acordo com as médias: NE (1); N
(2); CO (3); SE (4) e S (5). Neste momento é realizado a Regressão Logística Ordinal.
Ordinal Logistic Regression: Regiões codi versus T_ANALF15M_n; T_ANALF25M_n Link Function: Logit
Response Information
Variable Value Count
Regiões codificadas 1 1794
2 449
3 465
4 2067
5 789
Total 5564
Logistic Regression Table
95% CI
Predictor Coef SE Coef Z P Odds Ratio Lower
Const(1) 6,68305 0,144841 46,14 0,000
Const(2) 7,68866 0,157532 48,81 0,000
Const(3) 8,48830 0,166881 50,86 0,000
Const(4) 11,5514 0,196074 58,91 0,000
T_ANALF15M_np 15,0270 2,41607 6,22 0,000 3358418,96 29483,26
T_ANALF25M_np -27,2779 2,43125 -11,22 0,000 0,00 0,00
Predictor Upper
Const(1)
Const(2)
Const(3)
Const(4)
T_ANALF15M_np 3,82555E+08
T_ANALF25M_np 0,00
Log-Likelihood = -5219,760
17
Test that all slopes are zero: G = 5366,115, DF = 2, P-Value = 0,000
Goodness-of-Fit Tests
Method Chi-Square DF P
Pearson 24647,3 22090 0,000
Deviance 10400,7 22090 1,000
Measures of Association:
(Between the Response Variable and Predicted Probabilities)
Pairs Number Percent Summary Measures
Concordant 9876441 88,1 Somers' D 0,76
Discordant 1318443 11,8 Goodman-Kruskal Gamma 0,76
Ties 18528 0,2 Kendall's Tau-a 0,55
Total 11213412 100,0
Destaca-se que esta análise é confiável, pois o valor de P foi de “0”. O modelo apresentou
nível de concordância de 88,1% (acerto).
Foi aplicada também a análise de Regressão Logística Ordinal para os dados agrupados em
região, no entanto, este não se mostrou confiável por causa do número de dados analisados
serem muito baixos.
Ordinal Logistic Regression: Grupos versus MÉDIA T_ANAL; MÉDIA T_ANAL * WARNING * Algorithm has not converged after 20 iterations.
* WARNING * Convergence has not been reached for the parameter estimates
criterion.
* WARNING * The results may not be reliable.
* WARNING * Try increasing the maximum number of iterations.
Link Function: Logit
Response Information
Variable Value Count
Grupos 1 10
2 4
3 8
4 4
Total 26
Logistic Regression Table
95% CI
Predictor Coef SE Coef Z P Odds Ratio Lower Upper
Const(1) 260,118 17156,0 0,02 0,988
Const(2) 321,255 19084,4 0,02 0,987
Const(3) 400,967 23286,5 0,02 0,986
MÉDIA T_ANALF15Mnp 335,916 285615 0,00 0,999 7,70028E+145 0,00 *
MÉDIA T_ANALF25Mnp -823,174 285321 -0,00 0,998 0,00 0,00 *
Log-Likelihood = -0,000
Test that all slopes are zero: G = 67,918, DF = 2, P-Value = 0,000
Goodness-of-Fit Tests
18
Method Chi-Square DF P
Pearson 0,0000005 73 1,000
Deviance 0,0000009 73 1,000
Measures of Association:
(Between the Response Variable and Predicted Probabilities)
Pairs Number Percent Summary Measures
Concordant 240 100,0 Somers' D 1,00
Discordant 0 0,0 Goodman-Kruskal Gamma 1,00
Ties 0 0,0 Kendall's Tau-a 0,74
Total 240 100,0
5. CONSIDERAÇÕES FINAIS
A tarefa da análise discriminante é encontrar a melhor função discriminante linear ou
quadrática de um conjunto de variáveis que reproduza, tanto quanto possível, um
agrupamento a priori de casos considerados.
Um procedimento em passos é utilizado nesse programa, e em cada passo a variável mais
poderosa é introduzida na função discriminante. A função critério para selecionar a próxima
variável depende do número de grupos especificados (o número de grupos varia de 2 a 20).
Quando o número de variáveis é maior do que dois, então o critério de seleção de variáveis é
o traço do produto da matriz de covariância para as variáveis envolvidas e a matriz de
covariância interclasse em um passo particular.
Os cálculos podem ser realizados em toda a população ou em amostra de dados ou mesmo em
dados previamente agrupados.
Em nossas análises com as variáveis T_ANALF15Mnp e T_ANALF25Mnp, utilizamos a
análise discriminante linear e conseguimos um resultado de 0,885 de proporção correta. Isto
demonstra coerência na divisão em dois grupos. Além disso, é relevante ressaltar a
similaridade destes grupos (municípios) com base nestas variáveis, levando em conta
inclusive sua situação geográfica.
Na outra análise realizada com base no agrupamento apresentado no dendograma, onde pode
ser percebido 4 “Brasis”, a proporcionalidade ficou em 100%.