Segmentação dos municípios da região Nordeste do Brasil ... · Gerência de Risco, ... As...
Transcript of Segmentação dos municípios da região Nordeste do Brasil ... · Gerência de Risco, ... As...
Segmentação dos municípios da região Nordeste do Brasil utilizando uma
árvore de decisão
Marcos S. Oliveira, Clarckson M. A. do N. Júnior,
Departamento de Estatística e Ciências Atuariais, Universidade Federal de Sergipe
Av. Marechal Rondon s/n, Rosa Elze, 49100-000, São Cristóvão-SE E-mail: [email protected], [email protected]
Neilson S. Lopes
Gerência de Risco, Serviços Financeiros, Cencosud Brasil
Rod. BR 235, s/n, km 4, Sobrado, 49160-000, Nossa Senhora do Socorro-SE
E-mail: [email protected]
Palavras-chaves: Qui-quadrado, segmentação de municípios, Árvore de decisão.
Resumo: Este estudo utiliza a técnica árvore de decisão, construída através de um algoritmo
baseado no teste Qui-quadrado com o intuito de detectar de forma automática a interação de
variáveis, e gerar um modelo que classifica os municípios da região Nordeste do Brasil. Utilizando
o SPSS, versão 18 demo, o seu método de CHAID para desenvolvimento de árvores de decisão. Os
resultados foram satisfatórios para utilização da árvore de decisão em processos de segmentação
dos municípios.
1. Introdução
O Brasil está vivendo um início de uma era de prosperidade neste século XXI, e a Região Nordeste
participa ativamente com perspectivas acima da realizada pelo país. Desde a agricultura à indústria
essa região vem sendo foco de investidores nacionais e estrangeiros por encontrar a disponibilidade
de mercado para atuação, como também retornos econômicos e financeiros bem convidativos.
Para que haja um desenvolvimento regional completo o mesmo deveria ocorrer uniformemente
por todos os municípios, mas na prática essa situação não acontece dessa forma. Assim, surge a
necessidade do controle e gerenciamento eficaz do diversos níveis de progresso locais através de
ferramentas econométricas e estatísticas.
Neste trabalho, propomos uma segmentação de municípios da região Nordeste do Brasil,
elaborada pela técnica árvore de decisão feita através do teste do Qui-quadrado. A árvore de decisão
é uma técnica que possibilita uma representação intuitiva e de fácil entendimento [1].
2. Dados e metodologia
2.1. Dados
A segmentação de municípios foi desenvolvida através da utilização do Índice de Desenvolvimento
Humano por Município (IDH-M) ao classificá-los como Desenvolvido ou Subdesenvolvido e por
variáveis econômicas divulgadas pelo IBGE do ano de 2000, com informações dos os 1.787
municípios.
2.2. Teste do Qui-quadrado para independência
O teste do Qui-quadrado é aplicado quando a uma mostra em que a variável nominal assume duas
263
ISSN 2317-3297
ou mais categorias. O teste compara as frequências observadas com as esperadas em cada categoria
[3].
n
i i
ii
Calc E
EO
1
22 )(
(1)
Em que:
2
Calc é valor do Qui-quadrado calculado;
iO é o número de casos observados na i-ésima categoria;
iE é o número dos casos esperados na i-ésima categoria quando 0H é verdadeira;
n é o número de categorias.
Com a comparação do valor Qui-quadrado calculado ao Qui-quadrado tabelado através do grau
de liberdade, nível de significância, hipótese nula e alternativa estabelecidos, podemos determinar a
associação ou dependência entre variáveis [2].
2.3. Árvore de decisão
As árvores de decisão são construídas utilizando o recurso de partição recursiva binária. O termo
“binário” indica que as variáveis são divididas em duas quando é identificada uma diferença de
comportamento que possa aumentar o poder preditivo [1]. Estas divisões, chamadas “nós” se
repetem enquanto for identificada uma quebra que conduza a uma melhor predição.
O processo consiste em examinar as tabelas de tabulação cruzada entre cada uma das variáveis
independentes e os resultados e os testes de significância utilizando um teste independente do Qui-
quadrado. Se mais de uma dessas relações é estatisticamente significativa, irá selecionar a variável
independente que é mais significativa (menor p valor).
3. Resultados
Submetermos ao aplicativo “SPSS versão 18 demo” e o seu método CHAID gerou 10 nós finais
correspondendo à segmentação de clientes disponibilizada pela árvore de decisão.
Figura 1: Árvore de decisão gerada pelo CHAID do SPSS.
264
ISSN 2317-3297
Tabela 1: Nós finais gerados pelo CHAID no SPSS 18.
Nó Dados Ganhos Gerais Ganhos
no Nó
Índice de
Ganhos Quantidade % Quantidade %
9 121 6,8% 114 12,8% 94,2% 189,0%
4 228 12,8% 183 20,5% 80,3% 161,0%
8 119 6,7% 88 9,9% 73,9% 148,3%
14 213 11,9% 132 14,8% 62,0% 124,3%
10 141 7,9% 73 8,2% 51,8% 103,8%
12 152 8,5% 73 8,2% 48,0% 96,3%
15 146 8,2% 59 6,6% 40,4% 81,0%
11 348 19,5% 118 13,2% 33,9% 68,0%
13 128 7,2% 25 2,8% 19,5% 39,2%
5 191 10,7% 26 2,9% 13,6% 27,3%
De acordo com a Tabela 1 temos o “Nó 9” indicado como o melhor, com 121 municípios, sendo
6,8% do Nordeste, onde 114 foram classificados como Desenvolvido, 12,8% do total dos
Desenvolvidos e a 94,2% de todos os municípios nordestinos segmentados no nó. O índice de
ganhos neste nó é de 189,0%, isto é, todos os municípios incluídos neste nó possui o nível de
desenvolvimento percentualmente bem maior em relação aos demais.
Tabela 2: Resultado da segmentação
Observado Previsto
Subdesenvolvido Desenvolvido Acertos (%)
Subdesenvolvido 664 232 74,1%
Desenvolvido 301 590 66,2%
Acertos Gerais 70,2%
4. Conclusões
Neste estudo foi realizada a construção de um modelo para segmentação de municípios da Região
Nordeste do Brasil através da árvore de decisão baseado no teste estatístico do Qui-quadrado, com o
intuito de classificá-los e obteve resultados satisfatórios.
O bom desempenho da segmentação corrobora para progressão deste estudo a nível Brasil.
5. Referências
[1] L. Breiman, J. H. Freidman, R. A. Olshen, C. J. Stone, “Classification and Regression Trees”,
Wadsworth, Belmont, 1984.
[2] A. L. Bruni, “Estatística Aplicada à Gestão Empresarial”, Atlas, São Paulo, 2008.
[3] L. P. Fávero, P. Belfiore, F. L. da Silva, B. L. Chan, “Análise de Dados: modelagem
multivariada para tomada de decisões”, Elsevier, Rio de Janeiro, 2009.
265
ISSN 2317-3297