Download - Segmentação dos municípios da região Nordeste do Brasil ... · Gerência de Risco, ... As árvores de decisão são construídas utilizando o recurso de partição ... “Estatística

Transcript

Segmentação dos municípios da região Nordeste do Brasil utilizando uma

árvore de decisão

Marcos S. Oliveira, Clarckson M. A. do N. Júnior,

Departamento de Estatística e Ciências Atuariais, Universidade Federal de Sergipe

Av. Marechal Rondon s/n, Rosa Elze, 49100-000, São Cristóvão-SE E-mail: [email protected], [email protected]

Neilson S. Lopes

Gerência de Risco, Serviços Financeiros, Cencosud Brasil

Rod. BR 235, s/n, km 4, Sobrado, 49160-000, Nossa Senhora do Socorro-SE

E-mail: [email protected]

Palavras-chaves: Qui-quadrado, segmentação de municípios, Árvore de decisão.

Resumo: Este estudo utiliza a técnica árvore de decisão, construída através de um algoritmo

baseado no teste Qui-quadrado com o intuito de detectar de forma automática a interação de

variáveis, e gerar um modelo que classifica os municípios da região Nordeste do Brasil. Utilizando

o SPSS, versão 18 demo, o seu método de CHAID para desenvolvimento de árvores de decisão. Os

resultados foram satisfatórios para utilização da árvore de decisão em processos de segmentação

dos municípios.

1. Introdução

O Brasil está vivendo um início de uma era de prosperidade neste século XXI, e a Região Nordeste

participa ativamente com perspectivas acima da realizada pelo país. Desde a agricultura à indústria

essa região vem sendo foco de investidores nacionais e estrangeiros por encontrar a disponibilidade

de mercado para atuação, como também retornos econômicos e financeiros bem convidativos.

Para que haja um desenvolvimento regional completo o mesmo deveria ocorrer uniformemente

por todos os municípios, mas na prática essa situação não acontece dessa forma. Assim, surge a

necessidade do controle e gerenciamento eficaz do diversos níveis de progresso locais através de

ferramentas econométricas e estatísticas.

Neste trabalho, propomos uma segmentação de municípios da região Nordeste do Brasil,

elaborada pela técnica árvore de decisão feita através do teste do Qui-quadrado. A árvore de decisão

é uma técnica que possibilita uma representação intuitiva e de fácil entendimento [1].

2. Dados e metodologia

2.1. Dados

A segmentação de municípios foi desenvolvida através da utilização do Índice de Desenvolvimento

Humano por Município (IDH-M) ao classificá-los como Desenvolvido ou Subdesenvolvido e por

variáveis econômicas divulgadas pelo IBGE do ano de 2000, com informações dos os 1.787

municípios.

2.2. Teste do Qui-quadrado para independência

O teste do Qui-quadrado é aplicado quando a uma mostra em que a variável nominal assume duas

263

ISSN 2317-3297

ou mais categorias. O teste compara as frequências observadas com as esperadas em cada categoria

[3].

n

i i

ii

Calc E

EO

1

22 )(

(1)

Em que:

2

Calc é valor do Qui-quadrado calculado;

iO é o número de casos observados na i-ésima categoria;

iE é o número dos casos esperados na i-ésima categoria quando 0H é verdadeira;

n é o número de categorias.

Com a comparação do valor Qui-quadrado calculado ao Qui-quadrado tabelado através do grau

de liberdade, nível de significância, hipótese nula e alternativa estabelecidos, podemos determinar a

associação ou dependência entre variáveis [2].

2.3. Árvore de decisão

As árvores de decisão são construídas utilizando o recurso de partição recursiva binária. O termo

“binário” indica que as variáveis são divididas em duas quando é identificada uma diferença de

comportamento que possa aumentar o poder preditivo [1]. Estas divisões, chamadas “nós” se

repetem enquanto for identificada uma quebra que conduza a uma melhor predição.

O processo consiste em examinar as tabelas de tabulação cruzada entre cada uma das variáveis

independentes e os resultados e os testes de significância utilizando um teste independente do Qui-

quadrado. Se mais de uma dessas relações é estatisticamente significativa, irá selecionar a variável

independente que é mais significativa (menor p valor).

3. Resultados

Submetermos ao aplicativo “SPSS versão 18 demo” e o seu método CHAID gerou 10 nós finais

correspondendo à segmentação de clientes disponibilizada pela árvore de decisão.

Figura 1: Árvore de decisão gerada pelo CHAID do SPSS.

264

ISSN 2317-3297

Tabela 1: Nós finais gerados pelo CHAID no SPSS 18.

Nó Dados Ganhos Gerais Ganhos

no Nó

Índice de

Ganhos Quantidade % Quantidade %

9 121 6,8% 114 12,8% 94,2% 189,0%

4 228 12,8% 183 20,5% 80,3% 161,0%

8 119 6,7% 88 9,9% 73,9% 148,3%

14 213 11,9% 132 14,8% 62,0% 124,3%

10 141 7,9% 73 8,2% 51,8% 103,8%

12 152 8,5% 73 8,2% 48,0% 96,3%

15 146 8,2% 59 6,6% 40,4% 81,0%

11 348 19,5% 118 13,2% 33,9% 68,0%

13 128 7,2% 25 2,8% 19,5% 39,2%

5 191 10,7% 26 2,9% 13,6% 27,3%

De acordo com a Tabela 1 temos o “Nó 9” indicado como o melhor, com 121 municípios, sendo

6,8% do Nordeste, onde 114 foram classificados como Desenvolvido, 12,8% do total dos

Desenvolvidos e a 94,2% de todos os municípios nordestinos segmentados no nó. O índice de

ganhos neste nó é de 189,0%, isto é, todos os municípios incluídos neste nó possui o nível de

desenvolvimento percentualmente bem maior em relação aos demais.

Tabela 2: Resultado da segmentação

Observado Previsto

Subdesenvolvido Desenvolvido Acertos (%)

Subdesenvolvido 664 232 74,1%

Desenvolvido 301 590 66,2%

Acertos Gerais 70,2%

4. Conclusões

Neste estudo foi realizada a construção de um modelo para segmentação de municípios da Região

Nordeste do Brasil através da árvore de decisão baseado no teste estatístico do Qui-quadrado, com o

intuito de classificá-los e obteve resultados satisfatórios.

O bom desempenho da segmentação corrobora para progressão deste estudo a nível Brasil.

5. Referências

[1] L. Breiman, J. H. Freidman, R. A. Olshen, C. J. Stone, “Classification and Regression Trees”,

Wadsworth, Belmont, 1984.

[2] A. L. Bruni, “Estatística Aplicada à Gestão Empresarial”, Atlas, São Paulo, 2008.

[3] L. P. Fávero, P. Belfiore, F. L. da Silva, B. L. Chan, “Análise de Dados: modelagem

multivariada para tomada de decisões”, Elsevier, Rio de Janeiro, 2009.

265

ISSN 2317-3297