Segmentação dos municípios da região Nordeste do Brasil ... · Gerência de Risco, ... As...

3
Segmentação dos municípios da região Nordeste do Brasil utilizando uma árvore de decisão Marcos S. Oliveira, Clarckson M. A. do N. Júnior , Departamento de Estatística e Ciências Atuariais, Universidade Federal de Sergipe Av. Marechal Rondon s/n, Rosa Elze, 49100-000, São Cristóvão-SE E-mail: [email protected], [email protected] Neilson S. Lopes Gerência de Risco, Serviços Financeiros, Cencosud Brasil Rod. BR 235, s/n, km 4, Sobrado, 49160-000, Nossa Senhora do Socorro-SE E-mail: [email protected] Palavras-chaves: Qui-quadrado, segmentação de municípios, Árvore de decisão. Resumo: Este estudo utiliza a técnica árvore de decisão, construída através de um algoritmo baseado no teste Qui-quadrado com o intuito de detectar de forma automática a interação de variáveis, e gerar um modelo que classifica os municípios da região Nordeste do Brasil. Utilizando o SPSS, versão 18 demo, o seu método de CHAID para desenvolvimento de árvores de decisão. Os resultados foram satisfatórios para utilização da árvore de decisão em processos de segmentação dos municípios. 1. Introdução O Brasil está vivendo um início de uma era de prosperidade neste século XXI, e a Região Nordeste participa ativamente com perspectivas acima da realizada pelo país. Desde a agricultura à indústria essa região vem sendo foco de investidores nacionais e estrangeiros por encontrar a disponibilidade de mercado para atuação, como também retornos econômicos e financeiros bem convidativos. Para que haja um desenvolvimento regional completo o mesmo deveria ocorrer uniformemente por todos os municípios, mas na prática essa situação não acontece dessa forma. Assim, surge a necessidade do controle e gerenciamento eficaz do diversos níveis de progresso locais através de ferramentas econométricas e estatísticas. Neste trabalho, propomos uma segmentação de municípios da região Nordeste do Brasil, elaborada pela técnica árvore de decisão feita através do teste do Qui-quadrado. A árvore de decisão é uma técnica que possibilita uma representação intuitiva e de fácil entendimento [1]. 2. Dados e metodologia 2.1. Dados A segmentação de municípios foi desenvolvida através da utilização do Índice de Desenvolvimento Humano por Município (IDH-M) ao classificá-los como Desenvolvido ou Subdesenvolvido e por variáveis econômicas divulgadas pelo IBGE do ano de 2000, com informações dos os 1.787 municípios. 2.2. Teste do Qui-quadrado para independência O teste do Qui-quadrado é aplicado quando a uma mostra em que a variável nominal assume duas 263 ISSN 2317-3297

Transcript of Segmentação dos municípios da região Nordeste do Brasil ... · Gerência de Risco, ... As...

Segmentação dos municípios da região Nordeste do Brasil utilizando uma

árvore de decisão

Marcos S. Oliveira, Clarckson M. A. do N. Júnior,

Departamento de Estatística e Ciências Atuariais, Universidade Federal de Sergipe

Av. Marechal Rondon s/n, Rosa Elze, 49100-000, São Cristóvão-SE E-mail: [email protected], [email protected]

Neilson S. Lopes

Gerência de Risco, Serviços Financeiros, Cencosud Brasil

Rod. BR 235, s/n, km 4, Sobrado, 49160-000, Nossa Senhora do Socorro-SE

E-mail: [email protected]

Palavras-chaves: Qui-quadrado, segmentação de municípios, Árvore de decisão.

Resumo: Este estudo utiliza a técnica árvore de decisão, construída através de um algoritmo

baseado no teste Qui-quadrado com o intuito de detectar de forma automática a interação de

variáveis, e gerar um modelo que classifica os municípios da região Nordeste do Brasil. Utilizando

o SPSS, versão 18 demo, o seu método de CHAID para desenvolvimento de árvores de decisão. Os

resultados foram satisfatórios para utilização da árvore de decisão em processos de segmentação

dos municípios.

1. Introdução

O Brasil está vivendo um início de uma era de prosperidade neste século XXI, e a Região Nordeste

participa ativamente com perspectivas acima da realizada pelo país. Desde a agricultura à indústria

essa região vem sendo foco de investidores nacionais e estrangeiros por encontrar a disponibilidade

de mercado para atuação, como também retornos econômicos e financeiros bem convidativos.

Para que haja um desenvolvimento regional completo o mesmo deveria ocorrer uniformemente

por todos os municípios, mas na prática essa situação não acontece dessa forma. Assim, surge a

necessidade do controle e gerenciamento eficaz do diversos níveis de progresso locais através de

ferramentas econométricas e estatísticas.

Neste trabalho, propomos uma segmentação de municípios da região Nordeste do Brasil,

elaborada pela técnica árvore de decisão feita através do teste do Qui-quadrado. A árvore de decisão

é uma técnica que possibilita uma representação intuitiva e de fácil entendimento [1].

2. Dados e metodologia

2.1. Dados

A segmentação de municípios foi desenvolvida através da utilização do Índice de Desenvolvimento

Humano por Município (IDH-M) ao classificá-los como Desenvolvido ou Subdesenvolvido e por

variáveis econômicas divulgadas pelo IBGE do ano de 2000, com informações dos os 1.787

municípios.

2.2. Teste do Qui-quadrado para independência

O teste do Qui-quadrado é aplicado quando a uma mostra em que a variável nominal assume duas

263

ISSN 2317-3297

ou mais categorias. O teste compara as frequências observadas com as esperadas em cada categoria

[3].

n

i i

ii

Calc E

EO

1

22 )(

(1)

Em que:

2

Calc é valor do Qui-quadrado calculado;

iO é o número de casos observados na i-ésima categoria;

iE é o número dos casos esperados na i-ésima categoria quando 0H é verdadeira;

n é o número de categorias.

Com a comparação do valor Qui-quadrado calculado ao Qui-quadrado tabelado através do grau

de liberdade, nível de significância, hipótese nula e alternativa estabelecidos, podemos determinar a

associação ou dependência entre variáveis [2].

2.3. Árvore de decisão

As árvores de decisão são construídas utilizando o recurso de partição recursiva binária. O termo

“binário” indica que as variáveis são divididas em duas quando é identificada uma diferença de

comportamento que possa aumentar o poder preditivo [1]. Estas divisões, chamadas “nós” se

repetem enquanto for identificada uma quebra que conduza a uma melhor predição.

O processo consiste em examinar as tabelas de tabulação cruzada entre cada uma das variáveis

independentes e os resultados e os testes de significância utilizando um teste independente do Qui-

quadrado. Se mais de uma dessas relações é estatisticamente significativa, irá selecionar a variável

independente que é mais significativa (menor p valor).

3. Resultados

Submetermos ao aplicativo “SPSS versão 18 demo” e o seu método CHAID gerou 10 nós finais

correspondendo à segmentação de clientes disponibilizada pela árvore de decisão.

Figura 1: Árvore de decisão gerada pelo CHAID do SPSS.

264

ISSN 2317-3297

Tabela 1: Nós finais gerados pelo CHAID no SPSS 18.

Nó Dados Ganhos Gerais Ganhos

no Nó

Índice de

Ganhos Quantidade % Quantidade %

9 121 6,8% 114 12,8% 94,2% 189,0%

4 228 12,8% 183 20,5% 80,3% 161,0%

8 119 6,7% 88 9,9% 73,9% 148,3%

14 213 11,9% 132 14,8% 62,0% 124,3%

10 141 7,9% 73 8,2% 51,8% 103,8%

12 152 8,5% 73 8,2% 48,0% 96,3%

15 146 8,2% 59 6,6% 40,4% 81,0%

11 348 19,5% 118 13,2% 33,9% 68,0%

13 128 7,2% 25 2,8% 19,5% 39,2%

5 191 10,7% 26 2,9% 13,6% 27,3%

De acordo com a Tabela 1 temos o “Nó 9” indicado como o melhor, com 121 municípios, sendo

6,8% do Nordeste, onde 114 foram classificados como Desenvolvido, 12,8% do total dos

Desenvolvidos e a 94,2% de todos os municípios nordestinos segmentados no nó. O índice de

ganhos neste nó é de 189,0%, isto é, todos os municípios incluídos neste nó possui o nível de

desenvolvimento percentualmente bem maior em relação aos demais.

Tabela 2: Resultado da segmentação

Observado Previsto

Subdesenvolvido Desenvolvido Acertos (%)

Subdesenvolvido 664 232 74,1%

Desenvolvido 301 590 66,2%

Acertos Gerais 70,2%

4. Conclusões

Neste estudo foi realizada a construção de um modelo para segmentação de municípios da Região

Nordeste do Brasil através da árvore de decisão baseado no teste estatístico do Qui-quadrado, com o

intuito de classificá-los e obteve resultados satisfatórios.

O bom desempenho da segmentação corrobora para progressão deste estudo a nível Brasil.

5. Referências

[1] L. Breiman, J. H. Freidman, R. A. Olshen, C. J. Stone, “Classification and Regression Trees”,

Wadsworth, Belmont, 1984.

[2] A. L. Bruni, “Estatística Aplicada à Gestão Empresarial”, Atlas, São Paulo, 2008.

[3] L. P. Fávero, P. Belfiore, F. L. da Silva, B. L. Chan, “Análise de Dados: modelagem

multivariada para tomada de decisões”, Elsevier, Rio de Janeiro, 2009.

265

ISSN 2317-3297