Análise Discriminante Múltipla

ANLISE DISCRIMINANTE MLTIPLA O que , para que serve e como se faz.Autores: Istvan Karoly Kasznar, PhD Professor Titular da FGV e Presidente da IBCI

Bento Mario Lages Gonalves, MSc Consultor Snior da IBCI

IBCI Institutional Business Consultoria Internacional Rua da Alfndega, 25, sala 805/806, Centro, Rio de Janeiro, RJ. Telefax: (21)2263-7017 / 2233-8552 / 2263-0563 e-mail: [email protected] Home Page: www.ibci.com.br

ANLISE DISCRIMINANTE MLTIPLA1- Introduo As relaes e funes resultantes no possuem caractersticas inditas; pelo contrrio, trata-se de metodologia estatstica multivariada consagrada que busca exclusivamente interpretar as relaes entre inmeras variveis (observaes) ao longo do tempo. A utilizao extensiva de medidas estatsticas e derivaes matemticas devem-se exclusivamente : Necessidade de se buscar um conjunto reduzido de variveis explicativas que possa introduzir uma reduo estrutural do modelo. Necessidade de se ordenar e agrupar um conjunto de variveis visando a sua classificao em grupos homogneos. Investigar o grau de dependncia entre as variveis. 2 - Conceito de Anlise Discriminante A anlise discriminante uma ferramenta estatstica utilizada para classificar um determinado elemento (E) num determinado grupo de variveis; entre os diversos grupos existentes 1, 2, 3,.... i. Para tal necessrio que o elemento (E) a ser classificado pertena realmente a um dos i grupos, e que sejam conhecidas as caractersticas dos elementos dos diversos grupos. Essas caractersticas so especificadas a partir de n variveis aleatrias (X1 , X2 , X3 ,..., Xn). No processo de classificao consideram-se os custos decorrentes de eventuais erros de classificao, bem como as probabilidades a priori de que o elemento pertena a cada um dos grupos. Como exemplo, considere-se uma agncia que queremos classificar. Inicialmente desconhecemos a sua condio de complexidade. Para fins de exemplo, vamos supor que os nicos indicadores financeiros existentes sejam os de inadimplncia [Crditos em Liquidao (CL) / Total de Operaes de Crdito (OC)] e de rentabilidade [Resultado Financeiro (RF) / Ativo Total (AT)]. Dessa forma calculamos os ndices de inadimplncia e de rentabilidade para a agncia que desejamos classificar e comparamos com um conjunto de agncias com ndices de elevada inadimplncia e outro conjunto de agncias com baixos ndices deIBCI Institutional Business Consultoria Internacional Rua da Alfndega, 25, sala 805/806, Centro, Rio de Janeiro, RJ. Telefax: (21)2263-7017 / 2233-8552 / 2263-0563 e-mail: [email protected] Home Page: www.ibci.com.br

inadimplncia, com a finalidade de discriminar a agncia atravs dos ndices, classificando-a num dos dois grupos. A anlise discriminante mltipla consiste em estabelecer o melhor critrio de classificao, tendo em vista minimizar as consequncias do erro de discriminao, isto , evitar que uma agncia com baixa inadimplncia seja classificada como de alta inadimplncia e vice-versa. Cabe enfatizar que uma das vantagens do uso de anlise discriminante mltipla que os pesos a serem atribudos aos ndices ou coeficientes tcnicos (, , ou ) so determinados por clculos e processos estatsticos, o que exclui a subjetividade ou mesmo o estado de esprito do analista no instante da anlise. Assim, como j citado em nosso exemplo, estamos considerando dois grupos de agncias : um composto de agncias com elevado grau de inadimplncia e outro, com agncias com baixos ndices de inadimplncia. Cada um desses grupos constitui uma populao que denominamos 1e 2. De cada populao, tomamos uma amostra, conforme as Tabelas A.1 e A2.

Tabela A.1 Amostra da Populao de Agncias com Baixa Inadimplncia (1)Agncias

Tabela A.2 Amostra da Populao de Agncias com Elevada Inadimplncia (2)Agncias Eie X1 CL/OC X2 RF/AT

E11 E12 E13 E14 E15 E16 E17 E18 E19 E110

Eie

X1 CL/OC

X2 RF/AT

1,34 1,21 1,48 0,81 1,15 0,66 0,73 0,69 1,53 0,30 9,90

0,24 0,20 0,36 0,15 0,21 0,20 0,17 0,29 0,17 0,12 2,11

E21 E22 E23 E24 E25 E26 E27 E28 E29 E210

7,45 3,21 4,27 1,85 1,45 9,25 2,76 3,54 4,88 4,41 43,07

-0,14 -0,02 0,06 -0,08 0,11 -0,62 0,25 0,01 0,25 0,08 -0,10

Conforme se pode observar nas Tabelas A.1 e A.2 cada amostra das populaes 1e 2 composta por 10 agncias ( Eie ), onde i = 1,2 identifica a populao, enquanto que e = 1,.2,....,10 identifica o indivduo, isto , a agncia dentro da amostra. A cada agncia esto associados dois ndicadores de complexidade : X1, que representa a inadimplncia, e X2, que representa a rentabilidade.IBCI Institutional Business Consultoria Internacional Rua da Alfndega, 25, sala 805/806, Centro, Rio de Janeiro, RJ. Telefax: (21)2263-7017 / 2233-8552 / 2263-0563 e-mail: [email protected] Home Page: www.ibci.com.br

Pelas Tabelas A.1 e A.2, observa-se que os indicadores de inadimplncia apresentam valores maiores para as agncias da amostra de elevada inadimplncia, enquanto que os ndices de rentabilidade, de uma forma geral, so maiores para as agncias com baixa inadimplncia. Apesar da aparncia bvia, esse comportamento dos ndices, no exemplo, caracteriza uma forma de discriminao.


Cabe enfatizar tambm, que o exemplo considera apenas dois grupos de agncias, mas, como se trata de uma anlise multivariada, pode-se considerar um nmero superior de grupos. O ponto de partida do foi um longo e rigoroso processo de identificao, anlise qualitativa e quantitativa, e seleo operacional bsica de dados, referente aos 1027 municipios do Brasil (universo amostral). A ADM, neste caso, serve como instrumental para a determinao de quais variveis podem ser utilizadas para que sejam as mais representativas no que se refere caracterizao de Municipios (Praas) bancrias. Neste mbito, um grupo tcnico normalmente identifica o que deveria ser visto como dado relevante para caracterizar os dados de pesquisa. Neste caso particular, um grupo de fato debateu, selecionou e verificou (em certos casos ainda que em carter preliminar), quais variveis poderiam, em sendo disponveis no Banco de Dados, prever melhor as caractersticas de semelhana entre grupos. Ao plotar-se os dados do nosso exemplo, includos nas Tabelas A 1 e A.2, num Grfico de Disperso (Scatter Graphic) obtm-se a seguinte representao grfica :


Agncias (Inadimplncia x Rentabilidade)0,6

0,4

Resultado Financeiro/Ativos Totais

0,2

0 0 -0,2 2 4 6 8 10

Elevada Inadimplncia Baixa Inadimplncia

-0,4

-0,6

-0,8

Crditos em Liquidao/Operaes de Crdito

Do grfico resultante, observa-se que as agncias dos grupos 1e 2 se situam em regies distintas, enquanto as agncias com um nvel reduzido de inadimplncia se localizam numa regio caracterizada por baixa inadimplncia e rentabilidade elevada; a situao do outro grupo exatamente inversa. 3 A Funo Discriminante de Fisher A funo discriminante de Fisher tida como a primeira soluo especfica para o problema da discriminao, assim como a prpria anlise discriminante durante muito tempo se resumiu ao uso dessa funo.


Para as situaes de discriminao entre duas populaes normais de mesma matriz de Covarincia, a funo discriminante de Fisher apresenta propriedades timas. Para o escopo deste trabalho, uma breve apresentao da funo discriminante de Fisher, cujo artigo original data de 1936, o suficiente para uma idia genrica do que seja esse instrumento estatstico. Cabe, no entanto, frizar que aps Fisher a anlise discriminante evoluiu com a contribuio de outros trabalhos. A idia bsica de Fisher foi transformar observaes multivariadas X em observaes univariadas Y derivadas das populaes 1 e 2 aonde estas apresentassem o maior grau de separao (Desvio Padro) possvel. Fisher sugere tomar-se combinaes lineares de X para criar-se Ys porque tais combinaes podem ser facilmente manipuladas, no justificando o porque da escolha de uma funo discriminante linear. Usando nosso exemplo de agncias e ndices de desempenho, podemos dizer que a funo discriminante uma combinao linear dos ndices de inadimplncia (X1) e de rentabilidade (X2), isto : Z = aX1 + bX2 Onde a e b so determinados de forma a maximizar o quosciente entre a diferena ao quadrado entre os valores de Z calculados para a mdia das amostras (1 e 2 ) e a varincia de Z estimada dentro das amostras, o que equivalente a :(Z 1 Z 2 )2 ( Z1i Z 1 )2 + (Z 2i Z 2 )2i i

Da o que se procura uma funo Z que maximize a distncia entre as populaes 1 e 2. A maximizao deste quosciente leva resoluo de um sistema de equaes lineares em a e b. A soluo (a,b) deste sistema define a funo Z = aX1 + bX2 que atenda ao objetivo. O sistema : aS11 + bS12 = D1 aS12 + bS 22 = D2 Sendo X o valor da varivel X (no caso, inadimplncia ou rentabilidade) associada a um e elemento (agncia) da amostra da populao (de agncias com baixo ou alto grau de inadimplncia), temos : i = 1,2 (Varivel) j = 1,2 (Populao) e = 1,.....,10 (Agncia)IBCI Institutional Business Consultoria Internacional Rua da Alfndega, 25, sala 805/806, Centro, Rio de Janeiro, RJ. Telefax: (21)2263-7017 / 2233-8552 / 2263-0563 e-mail: [email protected] Home Page: www.ibci.com.br

Dessa forma, temos : S11 = Soma, das somas dos quadrados dos desvios em relao mdia; para o ndice de endividamento, isto ,1 2 S11 = S11 + S11

Aonde :10 1 S11 = ( X 11e X 11 ) 2 e =1

10 2 S11 = ( X 12e X 12 ) 2 e =1

S22 = Soma, das somas dos quadrados dos desvios em relao mdia; em cada uma das amostras das populaes, para o ndice de rentabilidade, isto ,1 2 S 22 = S 22 + S 22

Aonde :10 1 S 22 = ( X 21e X 21 ) 2 e =1

10 2 S 22 = ( X 22e X 22 ) 2 e =1

S12 = Soma, das somas dos produtos dos desvios em relao s mdias; em cada uma das amostras das populaes, para os ndices de inadimplncia e rentabilidade, isto ,


1 2 S12 = S12 + S12

Aonde :

10 1 S 12 =

(Xe =1 10

11 e

X 11 )( X 21e X 21 )

1 S 12 = ( X 12 e X 12 )( X 22 e X 22 ) e =1

D1 = Diferena entre as mdias do ndice de inadimplncia nas duas amostras das populaes, isto ,D1 = ( X 11 X 21 )

D2 = Diferena entre as mdias do ndice de rentabilidade nas duas amostras das populaes, isto ,D2 = ( X 12 X 22 )

Os clculos inerentes obteno dos coeficientes a e b, de X1 e X2, respectivamente, esto nas Tabelas A.3 a A.6, evidentemente a partir dos dados constantes das Tabelas A.1 e A.2.


Tabela A.3 Dados para clculos das mdias e desvios (Agncias com Baixa Inadimplncia)

Agncias A com Baixa Inadimplncia CL/OC (X1)

Inadimplncia B _(X11e X11)

Rentabilidade C _ D2

E _(X12e X12)

F _(X12e X12)2

G(B.E)

(X11e X11)

E11 E12 E13 E14 E15 E16 E17 E18 E19 E110

RF/AT (X2)

1,34 1,21 1,48 0,81 1,15 0,56 0,73 0,69 0,53 0,30 9,90

0,350 0,220 0,490 -0,180 0,160 -0,330 -0,260 -0,300 0,540 -0,690 0,000 _ X1 = X1n

0,1225 0,0484 0,2401 0,0324 0,0256 0,1089 0,0676 0,0900 0,2916 0,4761 1,422

0,24 0,20 0,36 0,15 0,21 0,20 0,17 0,29 0,17 0,12 2,11

0,029 -0,011 0,149 -0,061 -0,001 -0,011 -0,041 0,079 -0,041 -0,091 0,000 _ X2 = X2N

0,0008 0,0001 0,0222 0,0037 0,0000 0,0001 0,0017 0,0062 0,0017 0,0083 0,0448

0,0102 -0,0024 0,0730 0,0110 -0,0002 0,0036 0,0107 -0,0237 -0,0221 0,0628 0,1229

Mdias

_X1 = 9,90 = 0,99 10

_X2 = 2,11 = 0,211 10

0


Tabela A.4 Dados para clculos das mdias e desvios (Agncias com Elevada Inadimplncia)Agncias A com Elevada Inadimplncia CL/OC (X1)

Inadimplncia B _(X21e X21)

Rentabilidade C D _RF/AT (X2)

E _(X22e X22)

F(X22e X22)2

G _(B.E)

(X21e X21)2

E21 E22 E23 E24 E25 E26 E27 E28 E29 E210

7,45 3,21 4,27 1,85 1,45 9,25 2,76 3,54 4,88 4,41 43,07

3,143 -1,097 -0,037 2,457 -2,857 4,943 -1,547 -0,767 0,573 0,103 0,000 _ X1 = X1N

9,8784 1,2034 0,0014 6,0368 8,1624 24,4332 2,3932 0,5883 0,3283 0,0106 53,0360

-0,14 -0,02 0,06 -0,08 0,11 -0,62 0,25 0,01 0,25 0,08 -0,10

-0,130 -0,010 0,070 -0,070 0,120 -0,610 0,260 0,020 0,260 0,090 0,000 _ X2 = X2N

0,0169 0,0001 0,0049 0,0049 0,0144 0,3721 0,0676 0,0004 0,0676 0,0081 0,5570

-0,4086 0,0109 -0,0026 -0,1720 -0,3428 -3,0152 -0,4022 -0,0153 0,1490 0,0093 -4,1895

Mdias

_X1 = 43,07 = 4,307 10

_X2 = -0,10 = -0,01 10

0

Tabela A.5 - Mdias e Diferenas entre MdiasBaixa Inadimplncia Elevada Inadimplncia

Diferena

Mdia dos ndices de Inadimplncia (X1) Mdia dos ndices de Rentabilidade (X2)

0,990 0,211

4,307 -0,010

-3,317 (D1) 0,221 (D2)

Tabela A.6 - Dados para Matriz de CovarinciaBaixa Inadimplncia Elevada Inadimplncia

Diferena

Soma dos Quadrados (desvios) da Inadimplncia = (X1e X1)2 Soma dos Quadrados (desvios) da

1,422 0,0488

53,0360 0,5570

54,4582 (S11) 0,6018 (S22)


Rentabilidade = (X2e X2)2 Soma dos Produtos (desvios) entre Inadimplncia e Rentabilidade = (X1e X1) (X2e X2)

0,1229

-4,1895

-4,0596 (S12)

Dada a funo : Z = aX1 + bX2 Obtm-se o seguinte sistema : S11a + S12b = D1 S12a + S22b = D2 54,4582 a + (-4,0596) b = -3,317 -4,0596 a + 0,601 b = 0,221 Resolvendo esse sistema de equaes, encontramos os coeficientes de X1 e X2, isto , os valores de a e b, respectivamente : a = -0,06745 b = -0,08779 o que nos d : Z = -0,06745 X1 0,08779 X2 4 Interpretao e Uso da Funo Discriminante Uma vez conhecidos os coeficientes de X1 e X2, podemos calcular os valores mdios para cada Z em cada uma das amostras das populaes 1 e 2. Assim temos : Z1 = -0,06745 (0,99) 0,08779 (0,211) = -0,0853 Z2 = -0,06745 (4,307) 0,08779 (-0,01) = -0,2896


Dessa forma Z1 representa o valor da funo linear Z para a mdia da amostra das agncias com baixa inadimplncia, enquanto que Z2 representa o valor da funo linear Z para mdia das agncias com elevada inadimplncia. Grficamente tem-se :


Ponto de Separao

Z2 -0,2896 -0,18745

Z1 -0,0853

Vale acrescentar que quando usamos a funo discriminante de Fisher, que assume duas populaes de mesma matriz de covarincia, o ponto de separao entre as duas populaes o ponto mdio entre os valores que representam as funes para as mdias das amostras das duas populaes. A aplicao da funo discriminante Z = -0,06745 X1 0,08779 X2 para uma agncia em particular, a qual desconhecemos suas condies de inadimplncia, levar a um resultado que dever ser comparado com os valores das funes que representam as mdias das amostras das duas populaes. Se o valor encontrado for maior que 0,18745, a agncia ser classificada como de baixa inadimplncia; se for menor, sofrer classificao inversa. Na Tabela A.7 apresentamos os valores Z para as 20 agncias que estamos utilizando na montagem de nosso exemplo. Tabela A7 Valores de Z para as Vinte Agncias Analisadas Baixa InadimplnciaAgncias Eie

Alta InadimplnciaAgncias Eie

E11 E12 E13 E14 E15 E16 E17 E18 E19 E110

Z1 -0,111453 -0,099173 -0,131430 -0,067803 -0,096003 -0,062075 -0,064163 -0,072000 -0,116123 -0,030770

E21 E22 E23 E24 E25 E26 E27 E28 E29 E210

Z2 -0,490212 -0,214759 -0,293279 -0,117760 -0,107460 -0,569483 -0,208110 -0,239651 -0,351104 -0,304478


Observando as dez primeiras agncias, da Tabela A.7, E11 a E110, que constituem a amostra de agncias com baixa inadimplncia, nota-se que todas elas apresentaram um Z maior que 0,18745, o que corresponde a uma classificao corrente de 100% desse grupo. Quanto as agncias pertencentes amostra de populao de alta inadimplncia, nota-se que, em dez, oito apresentaram Z menor que o ponto de separao; apenas duas, E24 e E25, tm Z acima de 0,18745. Para o grupo de elevada inadimplncia, o erro de classificao seria de 20%; no geral, nas 20 agncias o erro seria de 10%. Para duas populaes (1 e 2) normais, com a mesma matriz de covarincia, temos a seguinte representao grfica :

2

1

Z2 Classificamos em 2

Z1 Classificamos em 1

Note-se a existncia de uma rea de superposio na qual temos : = probabilidade de classificar em 1 um elemento pertencente a 2 = probabilidade de classificar em 2 um elemento pertencente a 1 Classificar uma agncia de baixa inadimplncia (de 1) como de elevada inadimplncia (de 2) pode trazer consequncias. Se estivermos em um ciclo de expanso do crdito de varejo, aonde a extenso da rede de agncias de baixa inadimplncia e do nmero de clientes seja fator determinante para uma alocao de recursos de emprstimo eficiente (rentabilidade), a intensidade do efeito do erro de classificao pode ser significativa; o custo de oportunidade de abrir novas agncias pode inviabilizar uma poltica de crdito expansionista. Por outro lado, classificar uma agncia de elevada inadimplncia (de 2) como de baixa inadimplncia (de 1) pode, diante do mesmo cenrio expansionista, implicar no crescimento dos crditosIBCI Institutional Business Consultoria Internacional Rua da Alfndega, 25, sala 805/806, Centro, Rio de Janeiro, RJ. Telefax: (21)2263-7017 / 2233-8552 / 2263-0563 e-mail: [email protected] Home Page: www.ibci.com.br

de qualidade duvidosa e de outros custos adicionais como cobrana, recuperao de crdito, etc. Quanto a ponto de separao, a mdia entre Z1 e Z2 pode no ser a melhor forma de minimizar o risco de erro de classificao, uma vez que depende das probabilidades a priori e dos custos decorrentes do erro de classificao. Se assumirmos que o custo de classificar uma agncia de alta inadimplncia como de baixa inadimplncia o mesmo de classificarmos uma agncia de baixa inadimplncia como de alta inadimplncia, assim teremos iguais probabilidades a priori (0,5), o que torna a regra de classificao tima. 5 Separao e Classificao de Observaes/Populaes A separao e classificao de observaes/populaes no tarefa simples; ainda mais em um projeto aonde deveremos lidar com um universo amostral significativo. Dada a Lei dos Grandes Nmeros, ao lidarmos com 1.027 Municpios e seus dados nos aproximaremos em diversos casos de dados distribudos possivelmente de forma similar a uma curva normal (curva de Gauss). Embora isto nem sempre ocorra, pois h assimetrias sistemticas como as geradas pelo sistema de distribuio de renda e de PIB , de bom alvitre utilizar a aproximao da distribuio normal na gesto das funes bsicas. Um bom procedimento de classificao deve resultar em poucas desclassificaes. Em outras palavras, as chances, ou probabilidades, de desclassificao devem ser reduzidas uma vez que o custo da desclassificao em um universo amostral maior podem comprometer a anlise. Em um sistema simples de duas classes, como o nosso exemplo, a insero de um dado evento/observao numa determinada classe da populao/amostra em detrimento de outra, pode ter probabilidades diferenciadas em funo das diferenas de tamanho da amostra. Assim, a classificao tida como tima deve levar em considerao as probabilidades a priori de ocorrncia dos eventos/observaes. Outro aspecto a ser considerado na classificao o custo. Um procedimento classificatrio timo deve, quando possvel, considerar o custo da desclassificao. 6 Teste de Significncia da Discriminao Para conhecermos se a discriminao boa ou no, Fisher sugere que se faa uma Anlise da Varincia - ANOVA (ANalysis Of VAriance). Este teste citado por inmeros autores como teste F ou Estatstica F em virtude de fazer uso da Distribuio F de Snedecor para verificar a significncia ou no do poder discriminador das variveis X1, X2, ,Xn consideradas.


Na Anlise Discriminante sabemos que as populaes so diferentes e o que queremos construir uma funo dicotmica para o caso de duas populaes que discrimine se um dado elemento pertence a uma ou a outra populao. Na Anlise da Varincia - ANOVA no se sabe a priori se as populaes so diferentes, mas queremos testar se o so. Para tal, como na Anlise Discriminante, devemos extrair uma amostra de cada uma das populaes/grupos e buscar analisar as variaes entre grupos e intragrupos. A Varincia total explicada pelas variaes dentro dos grupos/populaes e entre os grupos/populaes.


A Varincia (S2)de uma amostra definida por :2

S

=

(X

i

X )2

n 1

Onde Xi a isima observao _ X a mdia das observaes, ou seja;X =

Xn

i

e n o nmero de observaes/eventos. Estatsticamente, a Varincia S2 indica a disperso dos dados Xi em relao a mdia. Cada desvio da mdia das observaes obtido atravs do desmembramento da soma dos quadrados e dividido por n-1 o que torna a Varincia semelhante a uma mdia dos quadrados das distncias entre os dados observados. A Varincia particularmente importante quando a distribuio de frequncia dos dados aproxima-se da curva normal (Curva de Gauss) pois a Varincia e a Mdia a especificam nica e completamente. Na maioria dos casos, a previso de dados assume a normalidade. Isto porque a distribuio amostral dos estimadores pode ser aproximada a curva normal onde n possua amplitude suficiente, o que na maior parte ocorre quando n igual a 30. O Teorema do Limite Central da estatstica permite esta aproximao e torna possvel o uso da curva normal na avaliao da disperso dos dados da amostra em torno do parmetro central (mdia). Assim ao calcularmos sua mdia e varincia, a extenso de possveis erros pode ser avaliada; o que introduz um intervalo de confiana de 30 observaes para a varincia. Assim, no caso do nosso exemplo constante das Tabelas A.1 e A.2, podemse testar se um grupo de agncias com baixa inadimplncia e outro com alta inadimplncia so diferentes quanto a rentabilidade. A Anlise da Varincia - ANOVA no fornece uma funo que permita classificar elementos em uma ou outra populao, que, como j vimos, o objetivo da Anlise Discriminante. Contudo, seu contedo informacional est vinculado s diferenas significativas em torno das mdias. Assim, a utilizao do Teste de Significncia F pode dizer se de fato uma varivel discrimina bem entre dois grupos. A Estatstica F uma razo, uma proporo da varincia entre grupos em relao a uma taxa mdia ponderada de varincia intergrupal. Caso a relao entreIBCI Institutional Business Consultoria Internacional Rua da Alfndega, 25, sala 805/806, Centro, Rio de Janeiro, RJ. Telefax: (21)2263-7017 / 2233-8552 / 2263-0563 e-mail: [email protected] Home Page: www.ibci.com.br

estas razes seja pequena, ento a razo entre os dois significativa. Desta forma, existe pelo menos uma diferena notvel entre as mdias dos grupos.


No caso de estatsticas multi-grupais e multi-funes, que o que ocorre aonde introduziremos trs dimenses, dadas pelas funes FUS DIPE (DIscriminante de PErfil), FUS DIAT (DIscriminante de ATratividade) e FUS DICO (DIscriminante de COmplexidade), e estaremos trabalhando com cerca de159 variveis para 1.027 Municpios deveremos nos ater a uma Anlise Multivariada da Varincia MANOVA (Multivariate ANalysis Of VAriance) aonde as interaes em torno das mdias ocorrem de forma multivariada, e no linear como em ANOVA. Neste caso, teremos uma matriz de Varincias totais e de Covariancias. Estas matrizes sero comparadas por meio de dois Testes F multivariados. Assim, poderemos definir se h diferenas significativas entre os grupos, em relao a todas as variveis das funes FUS que trabalharemos. Para definir o procedimento de corte entre variveis dependentes e variveis independentes nas trs dimenses selecionadas para este caso especfico - Perfil, Atratividade e Complexidade os analistas vo entender que em cada dimenso h indicadores claros que definem riqueza (fora econmica), enquanto outros dirigemse sinalizao da pobreza (ou de carncias municipais). Desta forma, o corte ocorrer em dois niveis, bem claros e discriminatrios. O que um Banco deseja identificar aonde possui reais formas de gerar resultados maximizantes para os acionistas, por Municpio neste caso. 7 A Varincia como Medida de Risco Como vimos nos blocos anteriores, os mtodos estatsticos de previso podem utilizar as propriedades estatsticas dos dados observados/populaes para construir intervalos de confiana e testar diferentes hipteses acerca dos dados de uma previso. Este processo envolve o Teorema do Limite Central, o qual permite que a distribuio dos valores previstos sofra uma aproximao curva normal. A Mdia da distribuio normal valor mais esperado, e a Varincia a medida de disperso de todos os valores em torno da Mdia. A Varincia uma medida estatstica extremamente til porque sumariza as incertezas e erros na estimativa dos parmetros de um modelo. Alm do que, com estas duas medidas a Mdia e a Varincia o intervalo de todos os valores futuros esperados e a sua probabilidade de ocorrncia podem ser previstos. Alm do uso destas medidas na construo de um intervalo de confiana para uma previso, a Varincia de uma previso uma medida de risco e pode ser utilizada como tal. Funciona como um indicativo do grau de incerteza associado na previso de uma varivel. Ao analisarmos um plano de ao, em qualquer rea da atividade empresarial, a Anlise da Variancia ANOVA pode ser utilizada como balizadora do risco envolvido e na preparao de medidas contingenciais para cenrios otimistas e/ou pessimistas.IBCI Institutional Business Consultoria Internacional Rua da Alfndega, 25, sala 805/806, Centro, Rio de Janeiro, RJ. Telefax: (21)2263-7017 / 2233-8552 / 2263-0563 e-mail: [email protected] Home Page: www.ibci.com.br


Um trabalho volumoso em termos de clculos estatsticos, e de contedo informacional bastante extenso na Anlise de Carteiras de Investimento, foi desenvolvido por Markowitz 9, em 1952, envolvendo a Covarincia como base para minimizao do risco da administrao (compra e venda) de papis e na otimizao do retorno da carteira para um dado nvel de risco (vide Referncias Bibliogrficas). De maneira similar, os modelos de previso podem ser construdos de forma a minimizar os erros de previso quando um volume significativo de observaes ou reas da administrao est envolvido. Em outras palavras, o risco total de impreciso nas previses de um determinado conjunto de fatores multivariados, pode ser examinado a partir da Anlise Multivariada da Varincia MANOVA e da Anlise Multivariada da Covarincia MANCOVA. Estas tcnicas podem reduzir substancialmente os efeitos de super/sub estimao de um conjunto de dados/observaes agrupando as previses de uma forma que a sua Varincia e Covarincia sejam as menores possveis. 8 Recursos Computacionais em Utilizao Definida a amostra, optamos pela utilizao do STATISTICA Release 5 (1997) para ambiente operacional Microsoft Windows 3.11/95/NT da StatSoft Inc. de Tulsa EUA. Desenvolvido em compiladores Microsoft C/C++ este pacote apresentou a melhor relao custo-benefcio relativamente a outros pacotes de software especficos como o Statistical Analysis System - SAS e do Statistical Package for Social Sciences SPSS ambos do North Carolina Institute EUA. Com ampla utilizao internacional em plataformas do tipo IBM-PC e compatveis, o STATISTICA, conhecido pela sua ampla capacidade de armazenar dados, versatilidade em dialogar com os principais pacotes de software de planilha eletrnica (do tipo Microsoft Excel) e de banco de dados (do tipo Microsoft Access) do mercado, alm de enorme capacidade no processamento estatstico interativo de um grande nmero (tende a infinito) de dados. Assim, o STATISTICA analisar cada um dos dados inseridos no seu mdulo de administrao de dados (Data Management) e verificar qual deles contribui mais ou menos, para a discriminao entre os grupos determinados. A varivel de maior relevncia ser ento includa no modelo, e o sistema proceder etapa seguinte, da anlise interativa dos dados. Neste procedimento de incluso das variveis de alto poder explicativo e excluso das de baixo poder explicativo, sero mantidas as variveis mais relevantes. bviamente, estas sero as que mais discriminam entre os grupos.


Municipios, praas e logradouros de baixo "potencial", vistos sob as dimenses de "Atratividade" e "Complexidade", indicaro caractersticas menos interessantes s atividades de Banking; e vice - versa. Naturalmente, o que sera desejvel dispor do maior nmero de Municipios com alta Atratividade, baixa Complexidade e Perfil bem definido. 9 Referncias Bibliogrficas 1. Altman, E.I., Corporate Financial Distress A Complete Guide to Predicting, Avoiding, and Dealing with Bankruptcy, New York : John Wiley & Sons, 1993. 2. Anderson, T.W., An Introduction to Multivariate Statistical Methods (Second Edition), New York : John Wiley & Sons, 1984. 3. Fisher, R.A., The Statistical Utilization of Multiple Measurements, Annals of Eugenics, Vol.8 (1938). 4. Haley, C.W. & Schall, L.D., The Theory of Financial Decisions (Second Edition), New York : McGraw-Hill Book Company, 1979. 5. Hand, D.J., Discrimination and Classification, New York : John Wiley & Sons, 1981. 6. Johnson, R.A. & Wichern, D.W., Applied Multivariate Statistical Analysis (Third Edition) , New Jersey : Prentice Hall, 1992. 7. Kasznar, I.K., Falncias e Concordatas de Empresas Modelos Tericos e Estudos Empricos (1978 1982/87) Dissertao submetida Congregao da Escola de Ps-Graduao em Economia (EPGE/FGV) para Obteno do Grau de Mestre em Economia Novembro de 1987. 8. Kendall, M.G., Multivariate Analysis, New York: Hafner Press, 1975. 9. Markowitz, H., Portfolio Selection, Journal of Finance, Vol.7, pp 77-91 (1952). 10. Sharpe, W.F., Investments, New Jersey : Prentice Hall, 1982. 11. Wonnacott T.H. & Wonnacott R.J., Introdutory Statistics for Business and Economics (Second Edition), New York : John Wiley & Sons, 1979.


Análise Discriminante Múltipla

Documents

Transcript of Análise Discriminante Múltipla