Regressão logística politômica

10

Click here to load reader

description

Regressão logísticapolitômica

Transcript of Regressão logística politômica

  • ACTA SCIENTIAE v.5 n.1 jan./jun. 2003 77

    Regresso logsticapolitmica: reviso terica e

    aplicaes

    Hlio Radke Bittencourt

    Resumo

    O tradicional modelo de regresso logstica tornou-se um mtodo padro de anlise na readas cincias da sade, especialmente Epidemiologia, pois capaz de estabelecer uma relao dedependncia entre uma nica varivel-resposta binria e um conjunto de variveis independentesquantitativas ou qualitativas. A tcnica considerada uma abordagem parcialmente no-paramtrica,no exigindo suposies sobre o comportamento probabilstico dos dados de entrada. Neste traba-lho uma extenso da regresso logstica para variveis-resposta politmicas apresentada, bemcomo uma reviso sobre os aspectos tericos mais importantes e aplicaes da tcnica com autilizao de bancos de dados reais.

    Palavras-chave: Regresso Logstica, Anlise Discriminante.

    Abstract

    The traditional logistic regression model became a standard method in the medical and biologicalsciences, especially in epidemiology, because allows modeling of binary response variables onlyand a set of quantitative or qualitative independent variables. Logistic regression can be regarded asa partially parametric approach, since it assumes nothing about the probability distribution of variables.This paper describes an extension of the logistic regression to polytomous response variables, as wellas presents a revision about the most important theoretical aspects and gives some results obtainedwhen using real databases.

    Key-Words: Logistic Regression, Discriminant Analysis.

    Cincias Naturais e Exatas

    1 IntroduoVariveis qualitativas nominais so

    aquelas que mais limitam a possibilidadede utilizao de tcnicas estatsticas, espe-cialmente quando o nmero de categorias

    excede dois. muito comum a utilizaode tabelas de contingncia para verifica-o de associao entre variveis nominaisque, geralmente, so acompanhadas dobem conhecido teste Qui-quadrado. A pro-va no-paramtrica do Qui-quadrado, as-

    Hlio Radke Bittencourt - Laboratrio de Eestatstica - Ulbra

    Canoas v.5 n.1 p. 77 - 86 jan./jun. 2003ACTA SCIENTIAE

  • 78 ACTA SCIENTIAE v.5 n.1 jan./jun. 2003

    sim como as medidas de associao deri-vadas, pode ser adequada para um grandenmero de casos, entretanto s permite aanlise simultnea de duas variveis e, nocaso de variveis quantitativas, necess-ria a prvia categorizao, implicando emperda de informao.

    De acordo com Allison (1999) existempesquisadores utilizando inadequadamente atcnica de regresso linear para tratamento devariveis-resposta qualitativas nominais eordinais o que, na sua opinio, se deve ao des-conhecimento de tcnicas mais avanadas.

    O presente estudo inicia com uma re-viso do modelo de regresso logstica tra-dicional e, em seguida, apresentada aextenso da tcnica para variveispolitmicas, resultados prticos e as con-sideraes finais.

    2 O modelo de regres-so logstica tradicional

    De acordo com Hosmer e Lemeshow(1989) a regresso logstica, em sua formatradicional, consiste de um modelo que re-laciona um conjunto de p variveis indepen-dentes X1 , X2, ... , Xp a uma varivel depen-dente Y que assume apenas dois possveisestados, digamos 0 ou 1. O modelo logsticopermite a estimao direta da probabilida-de de ocorrncia de um evento (Y=1):

    pp

    ppxx

    xxYP

    110

    110

    exp1exp

    )1(

    e, conseqentemente,

    pp xxYPYP

    110exp11)1(1)0( .

    onde i so os parmetros do mode-

    lo, estimados pelo mtodo de mxima ve-rossimilhana.

    A transformao que est por trs domodelo logstico a chamada transforma-o logit, denotada por g(x). uma funolinear nos parmetros , contnua e quepode variar de - a + :

    )Y(P

    )Y(Pln)x(g)x(logit11

    1

    pp xx 110

    Hosmer e Lemeshow (1989) dizemque h pelo menos duas razes para utili-zao do modelo logstico na anlise devariveis-resposta dicotmicas: 1) de umponto de vista matemtico, extremamenteflexvel e fcil de ser utilizado; 2) permiteuma interpretao de resultados bastanterica e direta. A Figura 1 apresenta a funologstica com o seu caracterstico formatoem S e a relao linear entre uma nicavarivel x e o logit g(x).

    Figura 1: Funo logstica e a relao logit

    Funo logstica

    -

    0,2

    0,4

    0,6

    0,8

    1,0

    X

    P(Y=

    1)

    Logit (funo linear)

    X

    logi

    t(x)=

    g(x)

  • ACTA SCIENTIAE v.5 n.1 jan./jun. 2003 79

    Anderson (1982) enfatiza que a dis-criminao logstica pode ser aplicada auma grande variedade de famlias de dis-tribuies, pois a suposio de linearidadedo logit vlida numa grande quantidadede funes de distribuio de probabilida-de, como por exemplo, a distribuio nor-mal multivariada.

    2.1 Histrico do ModeloLogstico e Principais Aplica-es

    difcil precisar exatamente o ano noqual o modelo logstico foi utilizado pelaprimeira vez, mas Cox e Snell (1989) eHosmer e Lemeshow (1989) concordamque o modelo de regresso logstica ganhoureconhecimento aps o trabalho de Truett,Cornfield e Kennel (1967) que analisava orisco de doena coronria em um grandeprojeto conhecido por Framingham heartstudy. Esse trabalho ganhou fama e athoje considerado um marco inicial dosestudos envolvendo regresso logstica nasreas da sade. McLachlan (1992) tambmafirma que as primeiras aplicaes do mo-delo logstico foram em estudosprospectivos de doenas coronrias. Con-tudo, nessas aplicaes, os autores realiza-ram o processo de estimao de parmetrossob a suposio de normalidade, que setorna desnecessria quando a estimao feita por mxima verossimilhana via m-todos numricos. O procedimento de esti-mao em um contexto mais genrico foiproposto por Day and Kerridge (1967) epor Walker and Duncan (1967).

    Hosmer e Lemeshow (1989) afirmamque o modelo de regresso logstica tornou-se um mtodo padro de anlise de regres-so de dados dicotmicos, especialmentenas cincias da sade. De fato, aplicaesda regresso logstica so comumente en-contradas em peridicos da rea de sade,tais como The American Journal ofEpidemiology, The American Journal of PublicHealth, The International Journal ofEpidemiology e The Journal of ChronicDiseases.

    A literatura sobre regresso logstica muito vasta, tendo apresentado um cresci-mento muito rpido. Alm das inmerasaplicaes na rea da sade, a regressologstica tambm tem sido utilizada no cam-po da econometria, administrao e edu-cao. Por esse motivo, encontramos arti-gos envolvendo regresso logstica em pe-ridicos de diversas reas.

    3 Regresso logsticapolitmica

    O modelo de regresso logstica, ori-ginalmente desenvolvido para variveis-resposta binrias, extensvel para vari-veis-resposta politmicas (trs ou maiscategorias). O entendimento da regres-so logstica politmica fica mais simplesse for ut ilizado como exemplointrodutrio um modelo cuja varivel-resposta Y assume apenas trs nveis, di-gamos 0, 1 e 2, assim como descrito emHosmer e Lemeshow (1989). Agora, omodelo logstico ter duas funes logit:a razo entre Y=1 e Y=0 e a razo entreY=2 e Y=0. Nesse caso, o nvel Y=0 foiassumido como base.

    )Y(P)Y(Pln)x(g

    01

    1

    pp xx 111110

    )Y(P)Y(Pln)x(g

    02

    2

    pp xx 212120

    A partir das funes lineares gi(x),cujos parmetros so estimados por mxi-ma verossimilhana, possvel calcular asprobabilidades condicionais de ocorrnciade cada categoria da varivel-resposta Ydado um vetor de observaes x, confor-me segue:

  • 80 ACTA SCIENTIAE v.5 n.1 jan./jun. 2003

    xgxg ee)|Y(P

    21110

    x

    xgxg

    xg

    eee)|Y(P

    21

    1

    11

    x

    xgxg

    xg

    eee)|Y(P

    21

    2

    12

    x

    Krzanowski (1988) afirma que, no mo-mento em que as probabilidades a posterioriP(Y=y|x) do modelo logstico so utiliza-das para se estabelecer uma regra dealocao, a abordagem chamada de discri-minao logstica. Na rea de Reconhecimentode Padres esse o termo mais utilizado,conforme se pode verificar em McLachlan(1992) e Bittencourt e Clarke (2002).

    A generalizao do modelo logsticopara variveis-resposta com k nveis (k>2) direta, permitindo sua utilizao para dis-criminao entre k classes. Na regressologstica politmica a probabilidade de umadada observao x pertencer a uma dasclasses yi estimada diretamente por meioda seguinte expresso:

    1

    11

    k

    jj

    ii

    )x(gexp

    )x(gexp)|yY(P x

    1, 2, ,1 k-i

    onde a funo logit, assumindo o n-vel yk como base, dada por

    )|yY(P)|yY(P

    ln)x(gk

    ii x

    x

    pipii xx 1101, 2, ,1 k-i

    0xg k .

    Considerando y1, y2,..., yk categoriasexaustivas e exclusivas da varivel Y, pode-

    mos afirmar que

    k

    1ii )|y(P 1x . Portan-

    to, a probabilidade de uma observao xpertencer a classe yk, denotada por P(yk|x),pode ser obtida por diferena:

    1k

    1iik )|y(P |yP xx 1

    A utilizao do modelo logstico paradiscriminao de classes pode ser direta.A regra de classificao para alocar umaobservao x numa das classes yi muitosimples:

    ij )|y(P)|y(P se y jii xxx

    O modelo logstico necessita da esti-mao de k-1 vetores de parmetros

    p'i ,,, 21 , correspondentes a k-1 categorias da varivel Y. A k-sima cate-goria assumida como base. O processode estimao dos parmetros em regressologstica est baseado na maximizao da

    funo de verossimilhana ),( x . Paratornar possvel a realizao desse procedi-mento so necessrias n amostras de trei-

    namento nxxx ,,, 21 , cujas classes a quepertencem so conhecidas.

    Os vetores soluo bi que maximizam

    a funo ),( x so aqueles que tornammxima a probabilidade da particular

    amostra de treinamento nxxx ,,, 21 tersido selecionada. Sendo assim, sob a hip-tese da amostra ser representativa da po-pulao em estudo, obtm-se um modeloque maximiza as chances de classificar to-das observaes da populao nas classesyi as quais realmente pertencem. Como asequaes derivadas da funo de verossi-milhana so no lineares, h necessidadeda utilizao de mtodos numricos para

  • ACTA SCIENTIAE v.5 n.1 jan./jun. 2003 81

    encontrar uma soluo. Esses processos soiterativos e esto disponveis em algunssoftwares estatsticos. No presente estudo foiutilizado o procedimento MultinomialLogistic Regression disponvel no softwareSPSS verso 10.0 e que se encontra-se des-crito em Norusis e SPSS Inc. (1999). Oprocedimento CATMOD do sistema SAStambm pode ser utilizado.

    3.1 Testes deSignificncia

    O primeiro teste de significncia im-portante na regresso logstica o teste darazo de verossimilhana, onde a hiptesede que pelo menos um dos parmetros

    ij diferente de zero (exceto os

    interceptos parmetros 0i ) testada.Esse teste faz uma comparao entre o va-lor da funo de verossimilhana para omodelo contendo apenas os interceptos ea verossimilhana do modelo final com to-dos os parmetros estimados. A estatsticade teste D, chamada de deviance, tem umadistribuio qui-quadrado e calculada daseguinte forma:

    ),(ln2)(ln2) ,()(

    ln2 0 xx

    0D

    ~ 2)1( pk

    onde,

    0( ) o valor da funo de verossi-milhana apenas com os interceptos

    )( ,x o valor da funo de veros-similhana para o modelo final

    k o nmero de categorias da vari-vel-resposta Y

    p o nmero de variveis indepen-dentes (x) includas no modelo

    Para a realizao de testes designificncia individuais para os parmetros

    ij , bastante comum a utilizao da bem-

    conhecida estatstica de Wald, onde a hi-ptese nula a de que o particular coefici-

    ente ij igual a zero. A estatstica W de

    Wald definida como o quadrado da razoentre a estimativa de mxima verossimi-lhana para o coeficiente e seu respectivoerro-padro (EP). Essa estatstica tem umadistribuio assintoticamente qui-quadra-do com um nico grau de liberdade:

    21

    2

    ~

    ij

    ij

    EPW

    As sadas dos programas estatsticosSPSS e SAS apresentam os testes da razode verossimilhana e de Wald.

    3.2 Interpretao deparmetros

    A interpretao dos parmetros estima-dos no modelo de regresso logstica torna-se similar ao caso da regresso mltipla tra-dicional. No caso de uma varivel respostacom k nveis, o k-simo nvel ser assumi-do como base e, portanto, pode-se estabe-lecer k-1 funes logit, contrastando cadanvel contra o nvel base, conforme segue:

    xx|yPx|yPln)x(g `ii0

    k

    ii

    11 ki

    Aplicando a funo exponencial nosdos lados da igualdade:

    x

    k

    i)x(g ii0i ex|yPx|yPe

    11 ki

    Assim, um incremento de uma uni-dade na varivel xj causar um aumento

    de ije unidades na razo entre as proba-

  • 82 ACTA SCIENTIAE v.5 n.1 jan./jun. 2003

    bilidades da observao x pertencer a clas-se yi em relao classe yk. Portanto, quan-do xj aumenta em uma unidade, a classe yitorna-se ije vezes mais provvel que yk.

    4 AplicaesNos itens subsequentes so apresenta-

    dos dois exemplos de aplicao da regressologstica politmica, enfatizando a utilizaoprtica e a interpretao dos modelos esti-mados. Os bancos de dados utilizados foramencontrados a partir do trabalho deAeberhard et al. (1994) que fez um compa-rativo entre uma grande quantidade de m-todos de reconhecimento de padres utili-zando dados reais e simulados.

    4.1 Reconhecimento de Vi-nhos (Aplicao no 1)

    O banco de dados Wine RecognitionData encontra-se disponvel na home page doDepartamento de Informao e Cincias daComputao da Universidade da Califrnia Irvine e deve-se a Forina et al. (1988). Tra-ta-se do resultado de uma anlise qumicarealizada com vinhos provenientes de uma

    mesma regio da Itlia, mas derivados detrs diferentes cultivares (y1, y2 y3) Um totalde 13 caractersticas de cada amostra de vi-nho foi analisado. Os tamanhos amostraispara os trs diferentes tipos de cultivares so59, 71 e 48, considerados suficientes paraestimativas confiveis.

    Por razes didticas, apenas trs vari-veis, dentre as 13 disponveis, sero con-sideradas no presente exemplo (x1: teoralcolico, x2: total de fenis e x3: intensi-dade da cor). A sada do software SPSS 10.0 apresentada na Figura 2.

    O teste da razo de verossimilhanaresultou altamente significativo(Deviance=67,257) indicando que o mo-delo estimado pode ser til na discrimi-nao dos trs tipos de cultivares. Os va-lores Pseudo R-Square so uma espcie decoeficiente de determinao (R2), mascom uma interpretao mais complexa,entretanto segue a regra bsica: quantomaior, melhor o ajuste do modelo. Den-tre as trs medidas apresentadas d-sepreferncia a de Nagelkerke, visto ser umamedida no intervalo [0;1]. Nesse caso amedida resultou 0,941, muito prxima dovalor mximo.

    Figura 2 Sada da regresso logstica politmica no software SPSS 10.0 para o exemplo do Reconhecimento de Vinhos

    Model Fitting Information

    386,63067,257 319,372 6 ,000

    ModelIntercept OnlyFinal

    -2 LogLikelihood Chi-Square df Sig.

    Pseudo R-Square

    ,834,941,826

    Cox and SnellNagelkerkeMcFadden

    Parameter Estimates

    -29,539 15,974 3,419 1 ,0641,558 1,255 1,541 1 ,214 4,749 ,406 55,5667,757 1,909 16,515 1 ,000 2338,084 55,477 98538,407

    -1,413 ,508 7,729 1 ,005 ,243 8,987E-02 ,65933,421 14,621 5,225 1 ,022-2,471 1,196 4,270 1 ,039 8,454E-02 8,116E-03 ,8806,208 1,829 11,524 1 ,001 496,881 13,790 17903,238

    -2,919 ,668 19,093 1 ,000 5,397E-02 1,457E-02 ,200

    InterceptALCOHOLPHENOLSCOLORInterceptALCOHOLPHENOLSCOLOR

    CLASS1

    2

    B Std. Error Wald df Sig. Exp(B) Lower Bound Upper Bound

    95% Confidence Interval forExp(B)

    Classification

    54 5 0 91,5%3 65 3 91,5%1 2 45 93,8%

    32,6% 40,4% 27,0% 92,1%

    Observed123Overall Percentage

    1 2 3PercentCorrect

    Predicted

  • ACTA SCIENTIAE v.5 n.1 jan./jun. 2003 83

    As estimativas para os parmetros domodelo tambm so apresentadas na Figu-ra 2. O nmero de parmetros a ser esti-mado de (k-1)(p+1) parmetros. Noexemplo h trs classes e trs variveis(k=p=3), o que leva a um total de oitoparmetros. As duas funes logit estima-das foram as seguintes:

    3211 413,1757,7558,1539,29 xxxxg (Cultivar Tipo 1)

    3212 919,2208,6471,2421,33 xxxxg (Cultivar Tipo 2).

    O Cultivar Tipo 3 foi considerado

    como base e, portanto, 03 xg . De acor-do com o teste de Wald apenas doisparmetros estimados no resultaram sig-nificativos ao nvel de 5% (Sig.>0,05), en-tretanto verifica-se que todas as variveistm coeficientes significativos em pelomenos uma das equaes, o que constituiuma situao altamente desejvel. Geral-mente no h interesse nos testes de hip-teses das constantes (bi0). A aplicao domodelo simples, sendo necessrio inse-rir os valores de x nas funes logit paraobteno das probabilidades de pertenceras classes:

    )x(gexp)x(gexp

    )x(gexp)|yY(P21

    11 1

    x

    )x(gexp)x(gexp

    )x(gexp)|yY(P21

    22 1

    x

    )|yY(P)|yY(P)|yY(P xxx 213 1

    De acordo com o modelo estimado,um vinho com graduao alcolica de12,0o, fenis totais de 2,5 e intensidade dacor de 6,0 x=[12,0 ; 2,5 ; 6,0] teria asseguintes probabilidades de classificao:

    135,0)|( 1 xyYP

    740,0)|( 2 xyYP

    125,0)|( 3 xyYP .

    Portanto, um vinho com tais caracte-rsticas seria classificado como provenien-te do Cultivar Tipo 2. A Figura 2 apresen-ta a tabela de classificao utilizando to-das as 178 observaes do conjunto dedados, onde percebe-se uma habilidadesatisfatria do modelo para classificao,com taxa de acerto de 92,1%.

    Ainda explorando a Figura 2, perce-be-se a presena da coluna Exp(B) e seurespectivo intervalo de confiana. Numarpida inspeo visual percebe-se que osintervalos de confiana so muito amplos,ocasionados pelos grandes erros-padrodas estimativas. Por meio da interpretaoda coluna Exp(B) chega-se a interpretaesdo tipo: a cada aumento de uma unidadena graduao alcolica, espera-se um au-mento de 0,406 a 55,566 vezes na probabi-lidade do vinho ser proveniente do Culti-var Tipo 1 em relao probabilidade dovinho pertencer ao Cultivar Tipo 3.

    4.2 As ris de Fisher (Aplica-o no 2)

    O banco de dados das ris de Fisher, sem dvida, um dos mais famosos con-juntos de observaes na rea de classifi-cao e discriminao e encontra-se dis-ponvel em diversas pginas da Internet.Esse sucesso deve-se ao importante traba-lho publicado por Fisher (1936) no qual aanlise discriminante foi abordada. Trata-se de um caso onde h trs espcies de flo-res (y1: ris Setosa, y2: ris Versicolor e y3:ris Virgnica) e quatro variveis indepen-dentes (x1: comprimento da spala, x2: lar-gura da spala, x3: comprimento da pta-la, x4: largura da ptala). O banco de da-dos composto de 150 observaes, sen-do 50 para cada tipo de flor. A sada dosoftware SPSS 10.0 para esse problema apresentada na Figura 3.

  • 84 ACTA SCIENTIAE v.5 n.1 jan./jun. 2003

    O teste da razo de verossimilhanaresultou altamente significativo(Deviance=11,899) indicando que pelo me-nos uma das quatro caractersticas pode serutilizada para discriminao dos trs tiposde flores. O valor do coeficiente de deter-minao de Nagelkerke foi praticamentemximo: 0,99.

    As estimativas para os dez parmetrosdo modelo tambm so apresentadas na Fi-gura 3. Ocorreram problemas numricosdevido a uma separao completa da classe

    ris Setosa, o que comprometeu a parteinferencial do modelo (testes designificncia) provocando erros padro vi-sivelmente inflados. Tambm verificou-sealta correlao entre as variveis indepen-dentes o que provoca aumento nos errospadres e prejudica o procedimento de es-timao. Verifica-se que, apesar da ocorrn-cia de tais problemas, as estimativas encon-tradas continuam sendo teis, como provaa taxa de classificao correta de 98,7% apre-sentada na tabela de classificao.

    Figura 3 Sada da regresso logstica politmica no software SPSS 10.0 para o exemplo Fisher Iris Data

    Mode l Fitting Information

    329,58411,899 317 ,685 8 ,000

    ModelIntercept OnlyFinal

    -2 LogL ikelihood Chi-Squa re df Sig.

    Pse udo R -Squa re

    ,88 0,99 0,96 4

    Cox a nd SnellNagelkerkeM cFadden

    Para mete r Estimat es

    30,291 2272547 ,0 00 1 1,00014,670 667745,9 ,0 00 1 1,000 235 05 69 ,000 ,a

    14,474 313392,1 ,0 00 1 1,000 193 15 22 ,000 ,a

    -31,522 310957,5 ,0 00 1 1,000 2,043E-14 ,000 ,a

    -43,107 ,000 , 1 , 1,900E-19 1 ,9 00 E- 19 1,900 E-1942,638 25,708 2,751 1 ,0 972,465 2,394 1,060 1 ,3 03 11 ,7 66 ,108 1284,2936,681 4,480 2,224 1 ,1 36 797,026 ,123 518 18 47,602

    -9 ,4 29 4,737 3,962 1 ,0 47 8,033E-05 7 ,4 57 E- 09 ,865-18,286 9,743 3,523 1 ,0 61 1,144E-08 5 ,8 28 E- 17 2,246

    Inte rceptSEP_LENSEP_WIDPET_LENPET_ WIDInte rceptSEP_LENSEP_WIDPET_LENPET_ WID

    ClassIris Setosa

    Iris Versico lour

    B Std. Error Wald df Sig. Exp( B) Low er Bound Upper Bound

    95% Co nfidence Interval forExp(B)

    Flo at ing po int overflo w occurred while computing this stat istic. Its value is therefore set to syste m missing.a.

    Classification

    50 0 0 100 ,0 %0 49 1 98 ,0 %0 1 49 98 ,0 %

    33 ,3 % 33 ,3 % 33 ,3 % 98 ,7 %

    ObservedIris Seto saIris Versicolo urIris VirginicaOverall Perce ntage

    Iris SetosaI ris

    Versico lour Iris VirginicaPercentC orrect

    Pre dicted

    As duas funes logit estimadas foramas seguintes:

    43211 1074352231474146701429130 x,x,x,x,,xg (Setosa)

    43212 2861842996816465263842 x,x, x, x, ,xg (Versicolor).

    Considerando uma observao x=[4; 3,5 ; 4 ; 2], obtm-se as seguintes proba-bilidades:

    01 )|yY(P x

    83102 ,)|yY(P x

    16903 ,)|yY(P x

    nesse caso, uma flor com tais caracte-rsticas seria classificada como risVersicolor porque a maior probabilidadeest associada classe y2.

    5 Consideraes finaisA regresso logstica politmica con-

    siste de uma poderosa ferramenta paraanlise de variveis qualitativas nominais,apresentando algumas caractersticas bas-tante interessantes e desejveis em tcni-cas de modelagem estatstica. A primeira

  • ACTA SCIENTIAE v.5 n.1 jan./jun. 2003 85

    caracterstica refere-se ao fato da regressologstica no fazer suposies sobre o com-portamento probabilstico das variveis in-dependentes. A segunda consiste da pos-sibilidade de estimao direta da probabi-lidade de uma observao pertencer a de-termina classe. Por fim, possvel testar asignificncia de um grande nmero de va-riveis independentes e, assim, eleger asvariveis que contribuem mais para aseparabilidade entre as classes.

    Como em todas tcnicas estatsticas,tambm h problemas na regresso logsticapolitmica, conforme se pode observar noitem 4.2. Um dos principais problemas sed em casos de separabilidade completaentre as classes, o que inviabiliza uma solu-o nica nas equaes de verossimilhan-a. Segundo Hosmer e Lemeshow (1989)esse problema ocorre principalmente comamostras pequenas acompanhadas de umgrande nmero de variveis independentes,sendo muito improvvel haver separaocompleta em modelos estimados a partir deamostras substanciais. Uma forma simplesde identificar o problema verificar se hpresena de erros padro exageradamentegrandes nas estimativas. Outro problemaque ocorre freqentemente chamado decolinearidade e se refere presena de cor-relao entre as variveis independentes. Acolinearidade facilmente identificadanuma matriz de correlao. Uma soluoeficiente para o problema escolher ape-nas uma varivel quando houver um parde variveis altamente correlacionadas. Apresena de colinearidade tambm ocasio-na erros-padro grandes.

    No item 4.2 os dois problemas men-cionados foram identificados e, realmen-te, os erros padro das estimativas, especi-almente para a classe ris Setosa, forammuito exagerados. Percebe-se que, mesmocom a ocorrncia dos problemas, o mode-lo apresentou boa habilidade preditiva. Noh como resolver o problema daseparabilidade completa entre as classes,mas o problema da colinearidade seria fa-

    cilmente resolvido com a excluso de umaou duas variveis. No item 4.1 tem-se umexemplo bem-comportado onde noocorreram problemas e, portanto, todaparte inferencial pode ser aproveitada.

    Como ltima considerao, sugere-seque a regresso logstica seja utilizada sem-pre que houver necessidade de entenderalgum fenmeno onde a varivel indepen-dente do nvel nominal. No caso de ocor-rncia de problemas o pesquisador podeoptar por tcnicas mais simples, caso nohaja como resolv-los, porque a parteinferencial ser necessariamente sacrificada.Se o interesse for nico e exclusivamentede discriminao entre classes, a amostrapode ser dividida em duas partes: uma paraestimao e outra para validao. Mesmohavendo problemas numricos o modelopode ser respaldado pelos resultados daamostra de validao.

    Refernciasbibliogrficas

    AEBERHARD, S; COOMANS, D. e DE VEL, O.(1994) Comparative Analysis of StatisticalPattern Recognition Methods in HighDimensional Settings. Pattern Recognition.Vol. 27, No. 8, p. 1065-77.

    ALLISON, P. D. (1999) Logistic Regression usingthe SAS System: Theory and Application. Cary,NC: SAS Institute Inc.

    ANDERSON, J. A. (1982) Logistic Discrimination.In Handbook of Statistics (Vol. 2) P. R. Krishnaiahand L. Kanal (Eds.) Amsterdam: North-Holland, p. 169-191.

    BITTENCOURT, H. R. e CLARKE, R.T. (2002) Useof Logistic Discrimination to ClassifyRemotely-Sensed -Digital Images. In.: 12THPORTUGUESE CONFERENCE ON PATTERNRECOGNITION. Proceedings... Aveiro, Portu-gal: Associao Portuguesa de Reconhecimen-to de Padres. BULL, S. and DONNER, A.(1987) The efficiency of multinomial logisticregression compared with multiple group

  • 86 ACTA SCIENTIAE v.5 n.1 jan./jun. 2003

    discriminant analysis. Journal of the AmericanSatistical Association. vol. 82, p. 1118-1122.

    COX, D.R. and SNELL, E. J. (1989). The Analysisof Binary Data. Second Edition. London:Chapman and Hall.

    DAY, N. and KERRIDGE, D. (1967) A generalmaximum likelihood discriminant. Biometrics,vol. 23, p. 313-324.

    FISHER, R. A. (1936) The use of multiplemeasures in taxonomic problems. AnnalsEugenica, vol. 7(II), p. 179-188.

    FORINA, M. LEARD, R. ARMANINO C. LAUTER,S. (1988) Parvus an extendible package fordata exploration, classification and correlation.Institute of Pharmaceutical and FoodAnalysis and Technologies, Genoa Italy.

    HOSMER, D. and LEMESHOW, S.. (1989)

    Applied Logistic Regression. New York: JohnWiley & Sons.

    KRZANOWSKY, W. J. (1988) Principles ofMultivariate Analysis. Oxford: Clarendon Press.

    McLACHLAN, G. (1992) Discriminant Analysisand Statistical Pattern Recognition. New York:John Wiley & Sons.

    NORUSIS, M. J. and SPSS Inc. (1999) SPSSRegression Models 10.0. Chicago, IL: SPSS Inc.

    TRUETT, J. CORNFIELD, J. and KANNEL, W.(1967) A multivariate analysis of the riskof coronary heart disease in Framinghan.Journal of Chronic Diseases. v. 20, p. 511-524.

    WALKER, S. H. and DUNCAN, D. B. (1967)Estimation of the probability of an eventas a function of several independentvariables. Biometrika vol. 54, p. 167-169.