ATLAS BRASIL 2013 ALGUMAS VARIÁVEIS DA DIMENSÃO …...Com relação ao IDHM Educação: É o que...

18
PONTÍFICIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Faculdade de Economia, Administração, Contabilidade e Atuariais. ATLAS BRASIL 2013 ALGUMAS VARIÁVEIS DA DIMENSÃO EDUCAÇÃO Disciplina: Métodos Quantitativos Professor: Dr. Arnoldo Jose de Hoyos Dione Fagundes Nunes Gomes 1º Semestre 2014

Transcript of ATLAS BRASIL 2013 ALGUMAS VARIÁVEIS DA DIMENSÃO …...Com relação ao IDHM Educação: É o que...

Page 1: ATLAS BRASIL 2013 ALGUMAS VARIÁVEIS DA DIMENSÃO …...Com relação ao IDHM Educação: É o que menos contribui para o IDHM do Brasil • Saiu de 0,279 (1991) para 0,637 (2010).

PONTÍFICIA UNIVERSIDADE CATÓLICA DE SÃO PAULO

Faculdade de Economia, Administração, Contabilidade e Atuariais.

ATLAS BRASIL 2013

ALGUMAS VARIÁVEIS DA DIMENSÃO EDUCAÇÃO

Disciplina: Métodos Quantitativos

Professor: Dr. Arnoldo Jose de Hoyos

Dione Fagundes Nunes Gomes

1º Semestre 2014

Page 2: ATLAS BRASIL 2013 ALGUMAS VARIÁVEIS DA DIMENSÃO …...Com relação ao IDHM Educação: É o que menos contribui para o IDHM do Brasil • Saiu de 0,279 (1991) para 0,637 (2010).

2

1. INTRODUÇÃO

A análise discriminante é uma técnica da estatística multivariada utilizada para discriminar e

classificar objetos. É uma técnica da estatística multivariada que estuda a separação de objetos

de uma população em duas ou mais classes. A discriminação ou separação é a primeira etapa,

sendo a parte exploratória da análise e consiste em se procurar características capazes de

serem utilizadas para alocar objetos em diferentes grupos previamente definidos. A

classificação ou alocação pode ser definida como um conjunto de regras que serão usadas

para alocar novos objetos.

O presente trabalho tem por objetivo efetuar uma análise comparativa de médias, intervalos

de confiança e regressões de dados de indicadores relacionados ao desenvolvimento humano

dos municípios do Brasil. Utilizamos a análise discriminante para tentar predizer ou explicar

os indicadores relacionados ao desenvolvimento da educação dos municípios do Brasil.

Contudo, a função que separa objetos pode também servir para alocar, e o inverso, regras que

alocam objetos podem ser usadas para separar. Normalmente, discriminação e classificação se

sobrepõem na análise, e a distinção entre separação e alocação é confusa. O problema da

discriminação entre dois ou mais grupos, visando posterior classificação consiste em obter

funções matemáticas capazes de classificar um indivíduo X (uma observação X) em uma de

várias populações, com base em medidas de um número p de características, buscando

minimizar a probabilidade de má classificação.

Os dados são originários da pesquisa da Atlas Brasil 2013 com base nos dados sobre a

dimensão Desenvolvimento Humano dos municípios do Brasil. Neste trabalho abordaremos

as variáveis referentes IDHM, IDHM_R e ESPVIDA dos municípios. O software estatístico

utilizado é o MINITAB16.

2. ENTENDENDO OS DADOS

2.1 – Os Indivíduos

Os indivíduos deste trabalho são os municípios brasileiros, que serão analisados pelos seus

indicadores relativos ao Desenvolvimento Humano presentes no relatório Atlas Brasil 2013,

dados referentes ao ano de 2010. Este sujeito da análise é composto por um total de 5565

municípios brasileiros e os dados analisados de cada município são as variáveis que serão

descritas na próxima seção.

A dimensão Educação (acesso ao conhecimento) é uma das três dimensões que compõem o

IDHM, juntamente com Longevidade e Renda. Ela é medida pela composição de dois

subíndices: a escolaridade da população adulta e o fluxo escolar da população jovem.

Page 3: ATLAS BRASIL 2013 ALGUMAS VARIÁVEIS DA DIMENSÃO …...Com relação ao IDHM Educação: É o que menos contribui para o IDHM do Brasil • Saiu de 0,279 (1991) para 0,637 (2010).

3

Portanto, é preciso que o crescimento econômico seja transformado em conquistas concretas

para as pessoas, por meio de ações que proporcionem uma realidade que apresente crianças

mais saudáveis, educação universal e de qualidade, ampliação da participação política dos

cidadãos, preservação ambiental, equilíbrio da renda e das oportunidades entre toda a

população, maior liberdade de expressão, entre outras. Além disso, ao colocar as pessoas no

centro da análise, a abordagem de desenvolvimento humano redefine a maneira com que

pensamos e lidamos com o desenvolvimento de forma nacional e local, ou seja, no âmbito dos

municípios.

2.2 As Variáveis

São oito as variáveis desta pesquisa (extraídas do total de 59 variáveis disponibilizadas pelo

Atlas na dimensão Educação), além de Município, Unidade da Federação (UF) e Região. As

mesmas são melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são

referentes ao ano de 2010.

Tabela 1 – As Variáveis

VARIÁVEL SIGNIFICADO TIPO

UNIDADE

DE

MEDIDA

T_ANALF15M Razão entre a população de 15 anos ou mais de idade que não sabe ler nem escrever um bilhete simples e o total de pessoas nesta faixa etária multiplicado por 100.

Variável Quantitativa

Percentual

T_ANALF25M Razão entre a população de 25 anos ou mais de idade que não sabe ler nem escrever um bilhete simples e o total de pessoas nesta faixa etária multiplicado por 100.

Variável Quantitativa

Percentual

T_FREQ6A17 Razão entre população de 6 a 17 anos de idade que estava frequentando a escola, em qualquer nível ou série e a população total nesta faixa etária multiplicado por 100.

Variável Quantitativa

Percentual

T_FUND25M Razão entre a população de 25 anos ou mais de idade que concluiu o ensino fundamental, em quaisquer de suas modalidades (regular seriado, não seriado, EJA ou supletivo) e o total de pessoas nesta faixa etária multiplicado por 100.

Variável Quantitativa

Percentual

T_FLMED Razão entre o número de pessoas na faixa etária de 15 a 17 anos frequentando o ensino médio regular seriado e a população total dessa mesma faixa etária multiplicado por 100. As pessoas de 15 a 17 anos frequentando a 4ª série do ensino médio foram consideradas como já tendo concluído esse nível de ensino.

Variável Quantitativa

Percentual

T_FLSUPER Razão entre o número de pessoas na faixa etária de 18 a 24 anos frequentando o ensino superior (graduação, especialização, mestrado ou doutorado) e a população total dessa mesma faixa etária multiplicado por 100.

Variável Quantitativa

Percentual

T_MED18M Razão entre a população de 18 anos ou mais de idade que concluiu o ensino médio, em quaisquer de suas modalidades (regular seriado, não seriado, EJA ou supletivo) e o total de pessoas nesta faixa etária multiplicado por 100. Foram consideradas como tendo concluído o ensino médio as pessoas frequentando a 4ª série desse nível.

Variável Quantitativa

Percentual

Page 4: ATLAS BRASIL 2013 ALGUMAS VARIÁVEIS DA DIMENSÃO …...Com relação ao IDHM Educação: É o que menos contribui para o IDHM do Brasil • Saiu de 0,279 (1991) para 0,637 (2010).

4

T_SUPER25M Razão entre a população de 25 anos ou mais de idade que concluiu pelo menos a graduação do ensino superior e o total de pessoas nesta faixa etária multiplicado por 100.

Variável Quantitativa

Percentual

MUNICÍPIO Nome do Município Variável Categórica

n/a

UF Código utilizado pelo IBGE para identificação do Estado. Variável Categórica

n/a

REGIÃO Código utilizado pelo IBGE para identificação da Região. Variável Categórica

n/a

Fonte: Atlas Brasil, 2013.

3. ANÁLISE DAS VARIÁVEIS

3.1 Variáveis Categóricas

Este tipo de variável indica que o foco de concentração deve ser a análise de gráficos do tipo

pie chart e/ou barras.

3.1.1 Variável: “Estado”

Fazem parte desta pesquisa os 27 estados brasileiros e suas cidades. O gráfico abaixo exibe o

número de cidades por estado.

DFRRAPACROAMSEMSESRJALTOM

TPARNCEPEMAPBPIGOSCPRBARSSPM

G

900

800

700

600

500

400

300

200

100

0

UFN

Co

un

t

Cidades por Estado

A variação no número de cidades por estado é acentuada. Considerando que o Distrito Federal

é um estado brasileiro, é o estado com o menor número de cidades (1), enquanto o Mato

Grosso possui mais de 852 cidades.

Page 5: ATLAS BRASIL 2013 ALGUMAS VARIÁVEIS DA DIMENSÃO …...Com relação ao IDHM Educação: É o que menos contribui para o IDHM do Brasil • Saiu de 0,279 (1991) para 0,637 (2010).

5

3.1.2 Variável: “Região”

Figura 3. Número de Cidades por Estado e Região do Brasil

NCOSSENE

35

30

25

20

15

10

5

0

Região

Pe

rce

nt

Percent within all data.

CIDADES POR REGIÃO

Podemos verificar no gráfico acima que a Região Nordeste é a que possui o maior número de

cidades do Brasil (1790) e seguido pela Região Sudeste (1669). A Região que possui o menor

número de cidades é a Norte, com 447 cidades, muito próxima da Região Centro-Oeste (468).

A Região Sul possui 1191 cidades.

A ilustração a seguir monstra a divisão do Brasil por região e por estado

Page 6: ATLAS BRASIL 2013 ALGUMAS VARIÁVEIS DA DIMENSÃO …...Com relação ao IDHM Educação: É o que menos contribui para o IDHM do Brasil • Saiu de 0,279 (1991) para 0,637 (2010).

6

3.1.3 Variável: “Município”

A amostra totaliza 5565 municípios, que pode ser verificada na distribuição no território

nacional de acordo com a região no gráfico 1.

Gráfico 1 - distribuição dos municípios nas Regiões Brasileiras.

Fonte: elaborado pelo autor, 2014 (Atlas Brasil, 2014)

De acordo com gráfico 1 pode-se observar que as maiores concentrações de municípios

brasileiros estão nas regiões do Nordeste com 32,20% e Sudeste com 30% somando juntas

mais de 50% dos municípios pesquisados (62,20%).

O Gráfico 2 demonstra a distribuição dos municípios pelas Unidades Federativas do Brasil.

N

CO

S

SE

NE

Categoria

NE

1794; 32,2%

SE

1668; 30,0%

S

1188; 21,3%

CO

466; 8,4%

N

449; 8,1%

Gráfico de Setores de Região

Page 7: ATLAS BRASIL 2013 ALGUMAS VARIÁVEIS DA DIMENSÃO …...Com relação ao IDHM Educação: É o que menos contribui para o IDHM do Brasil • Saiu de 0,279 (1991) para 0,637 (2010).

7

Gráfico 2 – Representação dos municípios nas Unidades da Federação

Fonte: elaborado pelo autor, 2014 (Atlas Brasil, 2014)

Conforme pode ser observado no Gráfico 2, as Unidades da Federação mais representativas

são Minas Gerais (15,3%), São Paulo (11,6%) e Rio Grande do Sul (8,9%). As menos

expressivas são de Amazonas, Sergipe, Espírito Santos, entre outros.

O Mapa 1 (Atlas Brasil, 2014) apresenta o IDHM (Índice de Desenvolvimento Humano

Municipal) dos municípios brasileiros em 1991, 2000 e 2010. Com base nesta representação

pode se observar que, com relação IDHM, existe uma concentração de índices mais altos nos

municípios da região centro-sul do Brasil.

Contudo, também pode ser percebido que as regiões Norte e Nordeste que concentravam os

municípios que apresentavam índices muito baixos de desenvolvimento humano, conseguiram

reverter para índices baixos e médios de desenvolvimento.

RN

CE

PE

MA

PB

PI

GO

SC

PR

BA

AM

RS

SP

MG

Outros

SE

ES

MS

RJ

AL

TO

MT

PA

CategoriaOther

1,9%

MG

15,3%

SP

11,6%

RS

8,9%

BA

7,5%PR

7,2%

SC

5,3%

GO

4,4%

PI

4,0%

PB

4,0%

MA

3,9%

PE

3,3%

CE

3,3%

RN

3,0%

PA

2,6%

MT

2,5%

TO

2,5%

AL

1,8%

RJ

1,7%

MS

1,4%

ES

1,4%

SE

1,3%AM

1,1%

Gráfico de Setores de UFN

Page 8: ATLAS BRASIL 2013 ALGUMAS VARIÁVEIS DA DIMENSÃO …...Com relação ao IDHM Educação: É o que menos contribui para o IDHM do Brasil • Saiu de 0,279 (1991) para 0,637 (2010).

8

Mapa 1 - IDHM evolução 1991, 2000 e 2010

Fonte: Atlas Brasil, 2014.

Para entender esta evolução do IDHM dos municípios brasileiros são apresentadas

informações na tabela 2, ilustrada pelo gráfico 1. A classificação IDHM proposta pelo Atlas

Brasil tem sua variação entre Muito Baixo Desenvolvimento Humano (IDHM inferior a

0,500) a Muito Alto Desenvolvimento Humano (IDHM igual ou superior a 0,800).

Page 9: ATLAS BRASIL 2013 ALGUMAS VARIÁVEIS DA DIMENSÃO …...Com relação ao IDHM Educação: É o que menos contribui para o IDHM do Brasil • Saiu de 0,279 (1991) para 0,637 (2010).

9

Conforme estas informações pode-se perceber a evolução dos municípios entre o período de

1991 e 2010. Em 1991, mais de 85% dos municípios encontravam-se na faixa de Muito Baixo

Desenvolvimento Humano. Já nos anos 2000, pouco mais que 70% deles encontravam-se nas

faixas de Baixo e Muito Baixo Desenvolvimento Humano.

Na última análise referente a 2010, apenas um quarto (25%) dos municípios brasileiros

encontravam-se nessas faixas e mais de 70% deles já figuravam nas faixas de Médio e Alto

Desenvolvimento Humano. Segundo as informações constantes no Atlas Brasil 2013 isso

ilustra os avanços do desenvolvimento humano no país nas últimas duas décadas.

Com relação ao IDHM Educação:

É o que menos contribui para o IDHM do Brasil

• Saiu de 0,279 (1991) para 0,637 (2010). É a dimensão que mais avançou nos últimos 20 anos

Em termos absolutos: 0,358

Em termos relativos: 128,3%

• Movimento puxado pelo fluxo escolar de jovens

2,5 vezes maior em 2010, em relação a 1991

Crescimento de 156% neste subíndice

• Porém

É o componente com maior hiato: 0,363

É o único subíndice classificado na faixa Médio Desenvolvimento Humano

3.2 Variáveis Quantitativas

A análise deste tipo de variável permite a utilização de uma maior gama de ferramentas de

análise como histogramas, curvas de densidade, gráfico de ramos, box-plot e dot-plot, além de

informações numéricas como média, desvio-padrão, mediana, quartis, 5 números, intervalo de

confiança e teste de normalidade de Anderson-Darling. Também podemos fazer classificações

supervisionadas das variáveis quantitativas, através da análise discriminante.

3.2.1. Análise discriminante linear por região

A análise discriminante é uma técnica da estatística multivariada utilizada para discriminar e

classificar objetos, e estuda a separação de objetos de uma população em duas ou mais

classes. Neste caso queremos discriminar os valores das variáveis T_ANALF15Mnp1 e

T_ANALF25Mnp dos municípios2 do Brasil, e utilizaremos inicialmente a variável categórica

Região. Para geração de análise discriminante utilizaremos o comando do Minitab:

STAT >> MULTIVARIATE >> DISCRIMINANT ANALISYS

1 As letras “np” no final das variáveis representam que as mesmas foram normalizadas e positivadas. 2 Para está análise excluiu-se o DF – Distrito Federal.

Page 10: ATLAS BRASIL 2013 ALGUMAS VARIÁVEIS DA DIMENSÃO …...Com relação ao IDHM Educação: É o que menos contribui para o IDHM do Brasil • Saiu de 0,279 (1991) para 0,637 (2010).

10

Discriminant Analysis: Região versus T_ANALF15M_np; T_ANALF25M_np Linear Method for Response: Região

Predictors: T_ANALF15M_np; T_ANALF25M_np

Group CO N NE S SE

Count 465 449 1794 789 2067

Summary of classification

True Group

Put into Group CO N NE S SE

CO 197 53 79 76 455

N 53 226 244 3 195

NE 12 82 1432 0 92

S 72 14 20 607 879

SE 131 74 19 103 446

Total N 465 449 1794 789 2067

N correct 197 226 1432 607 446

Proportion 0,424 0,503 0,798 0,769 0,216

N = 5564 N Correct = 2908 Proportion Correct = 0,523

Squared Distance Between Groups

CO N NE S SE

CO 0,0000 1,4673 7,2759 1,0006 0,0750

N 1,4673 0,0000 3,2749 4,4480 1,9595

NE 7,2759 3,2749 0,0000 13,6695 8,7574

S 1,0006 4,4480 13,6695 0,0000 0,5485

SE 0,0750 1,9595 8,7574 0,5485 0,0000

Linear Discriminant Function for Groups

CO N NE S SE

Constant -16,530 -11,534 -4,664 -22,782 -18,078

T_ANALF15M_np -21,484 31,766 -6,500 -24,523 -16,908

T_ANALF25M_np 65,693 5,175 30,015 76,428 63,182

Summary of Misclassified Observations

Figura 2. Resultado do comando STAT >> MULTIVARIATE >> DISCRIMINANT ANALISYS

Com base nas informações apresentadas na figura 2 pode ser notado que a região que acertou

mais é Nordeste (0,798) e a que errou mais foi a região Sudeste (0,216). As informações ainda

exibem o cruzamento de dados entre as regiões, por exemplo, a região Nordeste possui 1794

municípios e apenas 1432 correspondem a região. O nome desta matriz é confusion matrix ou

matriz de confusão. Podemos concluir que o agrupamento por região não é uma boa escolha

segundo esta avaliação.

Page 11: ATLAS BRASIL 2013 ALGUMAS VARIÁVEIS DA DIMENSÃO …...Com relação ao IDHM Educação: É o que menos contribui para o IDHM do Brasil • Saiu de 0,279 (1991) para 0,637 (2010).

11

3.2.2. ANÁLISE DISCRIMINANTE LINEAR POR “2 BRASIS”

Esta segunda análise está interessada em verificar os possíveis agrupamentos dos dados

utilizando a variável 2 Brasis, calculada a partir do exercício anterior, e demonstra os

agrupamentos do Brasil segundo sua proximidade de dados de educação. Para esta análise

foram agrupadas as regiões de Sul, Sudeste e Centro-Oeste como COSSE, e as regiões de

Norte e Nordeste como NNE.

Discriminant Analysis: Reclassifica versus T_ANALF15M_n; T_ANALF25M_n Linear Method for Response: Reclassificação Regiões

Predictors: T_ANALF15M_np; T_ANALF25M_np

Group COSSE NNE

Count 3321 2243

Summary of classification

True Group

Put into Group COSSE NNE

COSSE 3063 381

NNE 258 1862

Total N 3321 2243

N correct 3063 1862

Proportion 0,922 0,830

N = 5564 N Correct = 4925 Proportion Correct = 0,885

Squared Distance Between Groups

COSSE NNE

COSSE 0,00000 6,12526

NNE 6,12526 0,00000

Linear Discriminant Function for Groups

COSSE NNE

Constant -15,078 -4,579

T_ANALF15M_np -37,141 -8,871

T_ANALF25M_np 74,702 29,623

Summary of Misclassified Observations

Existem duas possibilidades de realizar a análise discriminante que são a linear e a quadrática.

Dependendo da variável deve-se dar mais peso e mais atenção a um método em detrimento do

outro. Neste caso a linear já nos apresenta informações satisfatórias. Podemos observar que

alguns estados e municípios da região COSSE tem características da região NNE, visto pelo

número 638 municípios foram encontrados na intersecção entre COSSE e NNE.

Page 12: ATLAS BRASIL 2013 ALGUMAS VARIÁVEIS DA DIMENSÃO …...Com relação ao IDHM Educação: É o que menos contribui para o IDHM do Brasil • Saiu de 0,279 (1991) para 0,637 (2010).

12

3.2.3. ANÁLISE DISCRIMINANTE QUADRÁTICA POR “3 BRASIS”

Uma boa classificação deve resultar em pequenos erros, isto é, deve haver pouca

probabilidade de classificação inadequada, e para que isso ocorra a regra de classificação deve

considerar as probabilidades a priori e os custos de classificação errada. Outro fator que uma

regra de classificação deve considerar é se as variâncias das populações são iguais ou não.

Quando a regra de classificação assume que as variâncias das populações são iguais, as

funções discriminantes são ditas lineares e quando não são funções discriminantes

quadráticas. Vamos agora verificar a função quadrática para os 2 Brasis apresentado na

análise anterior.

Discriminant Analysis: Reclassifica versus T_ANALF15M_n; T_ANALF25M_n Quadratic Method for Response: Reclassificação Regiões

Predictors: T_ANALF15M_np; T_ANALF25M_np

Group COSSE NNE

Count 3321 2243

Summary of classification

True Group

Put into Group COSSE NNE

COSSE 3053 359

NNE 268 1884

Total N 3321 2243

N correct 3053 1884

Proportion 0,919 0,840

N = 5564 N Correct = 4937 Proportion Correct = 0,887

From Generalized Squared Distance to Group

Group COSSE NNE

COSSE -13,60 -7,14

NNE -4,89 -11,41

Summary of Misclassified Observations

No modelo quadrático a proporção apresentou uma diferença de 0,002. Seguindo o princípio

da simplicidade, vamos escolher o método linear, pois este é o mais simples.

Em Ciência, a parcimônia é a preferência pela explicação mais simples para uma observação.

Esta geralmente é considerada a melhor maneira de julgar as hipóteses. Parcimônia também é

um conceito utilizado na sistemática moderna que estabelece que ao construir e selecionar

árvores filogenéticas, ou seja, os dados, o melhor critério é baseado em seus princípios:

normalmente é correto o relacionamento mais simples encontrado entre dois indivíduos,

aquele que apresente o menor número de passos intermediários ou mudanças evolucionárias.

Portanto, é mínima a diferença entre o método linear e o quadrático, o que não justifica a

utilização do método quadrático.

Page 13: ATLAS BRASIL 2013 ALGUMAS VARIÁVEIS DA DIMENSÃO …...Com relação ao IDHM Educação: É o que menos contribui para o IDHM do Brasil • Saiu de 0,279 (1991) para 0,637 (2010).

13

3.2.4. ANÁLISE DISCRIMINANTE LINEAR PARA DADOS AGRUPADOS

Gráfico2. Dendograma da variáveis T_ANALF15Mnp x T_ANALF25Mnp por estados do

Brasil (classificação não supervisionada)

No gráfico 2 acima é possível verificar cinco grupos de variáveis, agrupadas pela similaridade

dos dados. Os estados que possuem maior similaridade são Mato Grosso e Rondônia, no

grupo laranja; e Rio de Janeiro e São Paulo, mais Rio Grande do Sul e Santa Catarina, no

grupo rosa. O nível de similaridade dos dados destes estados está acima de 99 %, conforme

indicado na escala apresentada no eixo Y do gráfico.

SCRSSPRJPRROMT

MS

GOESMGAPTORRPAAMALPIPBSERNPEM

ACEBAAC

82,69

88,46

94,23

100,00

Observations

Sim

ilari

ty

Dendograma média por estado T_ANALF15Mnp x T_ANALF25Mnp

Page 14: ATLAS BRASIL 2013 ALGUMAS VARIÁVEIS DA DIMENSÃO …...Com relação ao IDHM Educação: É o que menos contribui para o IDHM do Brasil • Saiu de 0,279 (1991) para 0,637 (2010).

14

No mapa acima pode ser percebido a divisão por cores dos estados de acordo com seu

agrupamento por similaridade. Nesta representação vale destacar há certa coerência com as

particularidades de cada estado, com o exemplo do agrupamento dos estados na cor rosa se

justifica por aparentemente apresentarem resultados positivos de educação em relação aos

outros estados.

Neste exemplo abaixo vamos através do dendograma pesquisar o grau de similaridade das

médias das variáveis T_ANALF15Mnp e T_ANALF25Mnp agrupamentos. Com base na

análise discriminante poderemos verificar a proporção correta dos agrupamentos.

Discriminant Analysis: Agrupamentos versus MÉDIA T_ANAL; MÉDIA T_ANAL Linear Method for Response: Agrupamentos de Estados

Predictors: MÉDIA T_ANALF15Mnp; MÉDIA T_ANALF25Mnp

Group G1 G2 G3 G4

Count 10 4 8 4

Summary of classification

Page 15: ATLAS BRASIL 2013 ALGUMAS VARIÁVEIS DA DIMENSÃO …...Com relação ao IDHM Educação: É o que menos contribui para o IDHM do Brasil • Saiu de 0,279 (1991) para 0,637 (2010).

15

True Group

Put into Group G1 G2 G3 G4

G1 10 0 0 0

G2 0 4 0 0

G3 0 0 8 0

G4 0 0 0 4

Total N 10 4 8 4

N correct 10 4 8 4

Proportion 1,000 1,000 1,000 1,000

N = 26 N Correct = 26 Proportion Correct = 1,000

Squared Distance Between Groups

G1 G2 G3 G4

G1 0,000 25,006 69,699 127,256

G2 25,006 0,000 11,227 39,892

G3 69,699 11,227 0,000 9,043

G4 127,256 39,892 9,043 0,000

Linear Discriminant Function for Groups

G1 G2 G3 G4

Constant -43,81 -103,05 -156,76 -212,96

MÉDIA T_ANALF15Mnp -170,88 -229,01 -289,60 -427,86

MÉDIA T_ANALF25Mnp 393,40 570,36 710,61 918,17

Neste caso a proporção correta é de 100%, ou seja, os agrupamentos gerados anteriormente

pelo agrupamento em 4 Brasis gerou a mesma proporção do método linear utilizado na análise

discriminante.

4. REGRESSÃO LOGÍSTICA ORDINAL PARA AS VARIÁVEIS: T_ANALF15Mnp e

T_ANALF25Mnp.

Inicialmente foram classificadas pela análise ANOVA as regiões para as variáveis:

T_ANALF15Mnp e T_ANALF25Mnp.

One-way ANOVA: T_ANALF15M_np versus Região Source DF SS MS F P

Região 4 191,0707 47,7677 2819,35 0,000

Error 5559 94,1849 0,0169

Total 5563 285,2556

S = 0,1302 R-Sq = 66,98% R-Sq(adj) = 66,96%

Individual 95% CIs For Mean Based on

Pooled StDev

Level N Mean StDev ----+---------+---------+---------+-----

CO 465 0,7390 0,0939 (*)

N 449 0,6251 0,1534 (*

NE 1794 0,3938 0,1535 *)

S 789 0,8678 0,0746 (*

SE 2067 0,7744 0,1262 (*

----+---------+---------+---------+-----

0,45 0,60 0,75 0,90

Pooled StDev = 0,1302

Page 16: ATLAS BRASIL 2013 ALGUMAS VARIÁVEIS DA DIMENSÃO …...Com relação ao IDHM Educação: É o que menos contribui para o IDHM do Brasil • Saiu de 0,279 (1991) para 0,637 (2010).

16

One-way ANOVA: T_ANALF25M_np versus Região Source DF SS MS F P

Região 4 194,6781 48,6695 2891,70 0,000

Error 5559 93,5621 0,0168

Total 5563 288,2402

S = 0,1297 R-Sq = 67,54% R-Sq(adj) = 67,52%

Individual 95% CIs For Mean Based on

Pooled StDev

Level N Mean StDev ----+---------+---------+---------+-----

CO 465 0,7449 0,0903 (*

N 449 0,6205 0,1503 *)

NE 1794 0,3960 0,1523 *)

S 789 0,8746 0,0712 *)

SE 2067 0,7795 0,1284 *

----+---------+---------+---------+-----

0,45 0,60 0,75 0,90

Pooled StDev = 0,1297

Após esta análise chegou-se à classificação das regiões de acordo com as médias: NE (1); N

(2); CO (3); SE (4) e S (5). Neste momento é realizado a Regressão Logística Ordinal.

Ordinal Logistic Regression: Regiões codi versus T_ANALF15M_n; T_ANALF25M_n Link Function: Logit

Response Information

Variable Value Count

Regiões codificadas 1 1794

2 449

3 465

4 2067

5 789

Total 5564

Logistic Regression Table

95% CI

Predictor Coef SE Coef Z P Odds Ratio Lower

Const(1) 6,68305 0,144841 46,14 0,000

Const(2) 7,68866 0,157532 48,81 0,000

Const(3) 8,48830 0,166881 50,86 0,000

Const(4) 11,5514 0,196074 58,91 0,000

T_ANALF15M_np 15,0270 2,41607 6,22 0,000 3358418,96 29483,26

T_ANALF25M_np -27,2779 2,43125 -11,22 0,000 0,00 0,00

Predictor Upper

Const(1)

Const(2)

Const(3)

Const(4)

T_ANALF15M_np 3,82555E+08

T_ANALF25M_np 0,00

Log-Likelihood = -5219,760

Page 17: ATLAS BRASIL 2013 ALGUMAS VARIÁVEIS DA DIMENSÃO …...Com relação ao IDHM Educação: É o que menos contribui para o IDHM do Brasil • Saiu de 0,279 (1991) para 0,637 (2010).

17

Test that all slopes are zero: G = 5366,115, DF = 2, P-Value = 0,000

Goodness-of-Fit Tests

Method Chi-Square DF P

Pearson 24647,3 22090 0,000

Deviance 10400,7 22090 1,000

Measures of Association:

(Between the Response Variable and Predicted Probabilities)

Pairs Number Percent Summary Measures

Concordant 9876441 88,1 Somers' D 0,76

Discordant 1318443 11,8 Goodman-Kruskal Gamma 0,76

Ties 18528 0,2 Kendall's Tau-a 0,55

Total 11213412 100,0

Destaca-se que esta análise é confiável, pois o valor de P foi de “0”. O modelo apresentou

nível de concordância de 88,1% (acerto).

Foi aplicada também a análise de Regressão Logística Ordinal para os dados agrupados em

região, no entanto, este não se mostrou confiável por causa do número de dados analisados

serem muito baixos.

Ordinal Logistic Regression: Grupos versus MÉDIA T_ANAL; MÉDIA T_ANAL * WARNING * Algorithm has not converged after 20 iterations.

* WARNING * Convergence has not been reached for the parameter estimates

criterion.

* WARNING * The results may not be reliable.

* WARNING * Try increasing the maximum number of iterations.

Link Function: Logit

Response Information

Variable Value Count

Grupos 1 10

2 4

3 8

4 4

Total 26

Logistic Regression Table

95% CI

Predictor Coef SE Coef Z P Odds Ratio Lower Upper

Const(1) 260,118 17156,0 0,02 0,988

Const(2) 321,255 19084,4 0,02 0,987

Const(3) 400,967 23286,5 0,02 0,986

MÉDIA T_ANALF15Mnp 335,916 285615 0,00 0,999 7,70028E+145 0,00 *

MÉDIA T_ANALF25Mnp -823,174 285321 -0,00 0,998 0,00 0,00 *

Log-Likelihood = -0,000

Test that all slopes are zero: G = 67,918, DF = 2, P-Value = 0,000

Goodness-of-Fit Tests

Page 18: ATLAS BRASIL 2013 ALGUMAS VARIÁVEIS DA DIMENSÃO …...Com relação ao IDHM Educação: É o que menos contribui para o IDHM do Brasil • Saiu de 0,279 (1991) para 0,637 (2010).

18

Method Chi-Square DF P

Pearson 0,0000005 73 1,000

Deviance 0,0000009 73 1,000

Measures of Association:

(Between the Response Variable and Predicted Probabilities)

Pairs Number Percent Summary Measures

Concordant 240 100,0 Somers' D 1,00

Discordant 0 0,0 Goodman-Kruskal Gamma 1,00

Ties 0 0,0 Kendall's Tau-a 0,74

Total 240 100,0

5. CONSIDERAÇÕES FINAIS

A tarefa da análise discriminante é encontrar a melhor função discriminante linear ou

quadrática de um conjunto de variáveis que reproduza, tanto quanto possível, um

agrupamento a priori de casos considerados.

Um procedimento em passos é utilizado nesse programa, e em cada passo a variável mais

poderosa é introduzida na função discriminante. A função critério para selecionar a próxima

variável depende do número de grupos especificados (o número de grupos varia de 2 a 20).

Quando o número de variáveis é maior do que dois, então o critério de seleção de variáveis é

o traço do produto da matriz de covariância para as variáveis envolvidas e a matriz de

covariância interclasse em um passo particular.

Os cálculos podem ser realizados em toda a população ou em amostra de dados ou mesmo em

dados previamente agrupados.

Em nossas análises com as variáveis T_ANALF15Mnp e T_ANALF25Mnp, utilizamos a

análise discriminante linear e conseguimos um resultado de 0,885 de proporção correta. Isto

demonstra coerência na divisão em dois grupos. Além disso, é relevante ressaltar a

similaridade destes grupos (municípios) com base nestas variáveis, levando em conta

inclusive sua situação geográfica.

Na outra análise realizada com base no agrupamento apresentado no dendograma, onde pode

ser percebido 4 “Brasis”, a proporcionalidade ficou em 100%.