Regressao-Suely-UFPR

download Regressao-Suely-UFPR

of 64

Transcript of Regressao-Suely-UFPR

UNIVERSIDADE FEDERAL DO PARAN DEPARTAMENTO DE ESTATSTICA ANLISE DE REGRESSO Responsvel Profa. Suely Ruiz Giolo C U R I T I B A Estado do Paran Brasil 2003 1.Introduo Aanlisederegressolinearmltiplapodeservistacomoumaextensoda anlisederegressolinearsimples,aqualenvolvesomenteumavarivel independente,paraasituaoemqueestsendoconsideradamaisdoqueuma varivel independente.Tratarcomdiversasvariveisindependentessimultaneamenteemumaanlisede regressoconsideravelmentemaiscomplexodoquetratarcomumanicavarivel independente pelas seguintes razes: mais difcil escolher o melhor modelo; mais difcil visualizar o modelo ajustado (especialmente se existirem mais do que duasvariveisindependentes)vistoserimpossvelproduzirumgrficocommais de trs dimenses; algumas vezes mais difcil interpretar o significado em termos prticos do melhor modelo ajustado. Oobjetivoaoajustarummodeloderegressolinearmltiplapredizera varivelrespostapormeiodasvariveisindependentes.Emmuitassituaesse concluirqueprediesdavarivelrespostacontendoumanicavarivel independentesomuitoimprecisase,modeloscontendomaisvariveis independentes,seroanalisadosparamelhoriadestapreciso.Dentreumconjunto possveldevariveisindependentes,pretende-seescolherumsubconjuntoque produzaumbommodelo,isto,ummodeloqueforneaestimativasprecisasda varivelrespostaequefaasentidoprticoumavezquenemsempreomelhor modelo, em termos estatsticos, aplicvel ou faz sentido na prtica. O conhecimento e interao com o pesquisador imprescindvel para a escolha do modelo final. Formalmente,paraoajustedeummodeloderegressolinearmltipla,a varivelrespostabemcomoasvariveisindependentesdevemsercontnuas.Na prtica,contudo,asvariveisindependentespodemserdequalqueroutrotipodesde que sejam devidamente representadas por meio de variveis dummy (fictcias). 1.1 Modelos de regresso linear mltipla (MRLM) Considerandoduasvariveisindependentes(regressoras)X1eX2,omodelo de regresso linear mltipla dado por Y = o + 1X1 + 2X2 + ser chamado modelo de 1a. ordem por ser linear nos parmetros e nas variveis independentes. Assumindo-se, para esse modelo, que E() = 0 tem-se E(Y | X) = o + 1X1 + 2X2oqualgeometricamentedescreveumplano(superfciederesposta).Acada pontonoplanorespostacorrespondeumarespostamdiaE(Y|X)emumadada combinao dos nveis de X1 e X2. Um outro exemplo de modelo de regresso linear mltipladadoporqualquerpolinomialdeordem 2.NotequeemumMRLM,o termo linear refere-se linearidade dos parmetros e no das variveis. Giolo,Suely RuizAnlise de regresso 2 1.1.1 Interpretao dos parmetros Considere o modelo de regresso linear mltipla: E(Y| X) = o + 1 X1 + 2 X2 Oparmetrooointerceptodoplanoderegresso.Seaextensodomodelo incluiopontoX=(X1,X2)=(0,0)(veremosistoemmaioresdetalhesmais adiante),oparmetroofornecearespostamdianesteponto.Casocontrrio, no possui qualquer significado como um termo isolado no modelo de regresso. O parmetro 1 indica a mudana na resposta mdia a cada unidade de mudana em X1 quando X2 mantida constante. Similarmente 2 indica a mudana na resposta mdia a cada unidade de mudana em X2 quando X1 mantida constante. Exemplo: Considere o modelo E(Y| X) = 20 + 0,95X1 - 0,5X2 SuponhaqueX2mantidaconstanteemX2=20E(Y)=10+0,95X1. Ento, 1 = 0,95 indica que a cada acrscimo de uma unidade em X1, a resposta mdia crescerem0,95unidadesparaX2mantidaconstanteem20.Omesmoverdadeiro para qualquer outro valor de X2. Similarmente,2 =-0,5indicaquearespostamdiadecrescerem0,5 unidades a cada acrscimo de uma unidade em X2 e para X1 mantida constante. Osparmetros1e2sofreqentementechamadoscoeficientesde regressoparciaisporquerefletemoefeitoparcialdeumavarivelindependente quando a outra varivel includa no modelo e mantida constante. Deummodogeral,arespostaYpodeestarrelacionadacompvariveis regressoras X1, X2, ...., Xp e, ento: Y = o + 1X1 + 2X2 + ....... + pXp + Y =o +=pj 1jXj

+ Assumindo-se que E() = 0, segue que:E(Y| X) =o + =pj 1jXj

oqualdescreveumhiperplano(nemsemprepossveldeservisualizado)noespao p-dimensional das variveis regressoras Xj(j= 1, 2, ..., p). O significado dos parmetros anlogo ao caso de duas regressoras, ou seja, o parmetro j (j = 1, 2, ..., p) indica a mudana na resposta mdia com o acrscimo de umaunidadeemXjquandotodasasdemaisvariveisregressorassomantidas constantes.

Giolo,Suely RuizAnlise de regresso 3 Obs:Osmodelosderegressode1a.ordemapresentadossodesignadospara variveisindependentescujosefeitosnaresposta mdia so aditivos e, portanto, no interagem.Porexemplo,parap=2,quandooefeitodeX1narespostamdiano dependedosnveisdeX2e,correspondentemente,oefeitodeX2nodependedos nveisdeX1,asduasvariveissoditasapresentaremefeitosaditivosousoditas no interagirem. 1.2 Efeito de interao Considere o modelo de regresso linear com duas variveis independentes X1 e X2 dado porY = o + 1X1 + 2X2 + 3X1X2+ ou E(Y| X) = o + 1X1 + 2X2 + 3X1X2se for assumido que E() = 0. No modelo citado, X1X2 representa a interao entre as variveis independentes X1 e X2.Seinteraoestpresenteesignificativaento,oefeitodeX1naresposta mdiadependedonveldeX2e,analogamente,oefeitodeX2narespostamdia depende do nvel de X1. O significado de 1 e 2 no o mesmo visto anteriormente devido a 3X1X2. QuandoX2mantidaconstante,acadamudanadeumaunidadeemX1,a mudana na resposta mdia ser 1 + 3X2 . QuandoX1mantidaconstante,acadamudanadeumaunidadeemX2,a mudana na resposta mdia ser 2 + 3X1. 1.3Representao Matricial do Modelo de Regresso Linear Geral A representao matricial para o modelo de regresso linear geral dadopor: Y = o + 1X1 + 2X2 + ....... + pXp +=o + =pj 1jXj

+ dada por: Yn x 1 = Xn x ( p +1) ( p +1) x 1 + n x 1comp = no. de regressoras

em que: Y = X= = = YYYn12. . .

(((((((((((

npppn nXXXXXXXXX.............. .1.11212221212111((((((

p...1012...n

(((((Y = vetor da varivel resposta X = matriz de constantes = vetor de (p+1) parmetros desconhecidos = vetor de erros ( NormalcomE( ) = 0e matriz de var-cov = ( ) = 2 I ). Conseqentemente: E (Y | X) = Xe (Y ) = 2 I Y Normal (X;2 I ).

Giolo,Suely RuizAnlise de regresso 4 1.4Estimao dos parmetros por M.Q.O. ParaaobtenodosparmetrosporM.Q.O.deve-seminimizarasomade quadrados dos erros, isto , minimizar: SQ erros= iin=12= 12 + 22 + ...+n2 = [ 1 2 ..... n ] = 12. . .n

(((((Como Y = X + = Y - X Assim,SQerros= = (Y - X)(Y - X)=YY - YX - XY + XX (*)= YY - 2 XY +XX (*) YX = escalareXY = (YX) = escalar YX = XY Logo, SQerros / = 0 -2 XY + 2 XX= 0 XX= XY = (XX)-1XY desde que (XX) seja inversvel. Amatriz(XX)-1sempreexistirseasregressorasforemlinearmente independentes,isto,senenhumacolunadeXforcombinaolineardeoutras colunas. ParaomodeloY=X+osestimadoresdeM.Q.O.so,tambm,estimadores de mxima verossimilhana. 1.5 Valores Ajustados (preditos) e Resduos OvetordevaloresajustadosY serdenotadopor $i$Y eovetordostermos residuais ei = Yi - pore de modo que: $Yi

$Yn x 1 =e$$. . .$YYY n12

((((((n x 1 = . eeen12..

(((((Assim, o vetor de valores ajustados, em termos matriciais, ser representado por:

$Y= X( como= ( XX) -1 XY ) $Y= X (XX)-1 XY ( fazendo H = X (XX)-1 X ) $Y= H Y matriz chapu

Giolo,Suely RuizAnlise de regresso 5 e, osresduos, por sua vez, sero representados por: e = Y - $Y ( como$Y= X)e = Y - X ( comoX= H Y ) e = Y - HY= ( I -H ) Y( fazendo I - H = M ) e = M Y matriz de projeo 1.6Propriedades dos estimadores de M.Q.O. Oestimador temtodasaspropriedadesvistasparaocasolinearsimples,ou seja: no-viciado, isto , E( ) = no-viciado de mnima varincia e sua matriz de var-cov dada por:Var-Cov ( ) =2 (XX)-1 em que se denominarmos C = ( XX )-1 = ((((((

+ +++1 , 1...1 , 21 , 12221211211............... ...p pppp pCCCCCCCCC temos:Var( $j ) = 2 Cj+1,j+1j = 0,1, 2, ..., p Cov( $k; $j) = 2 Ck+1,j+1k, j = 0, 1, 2, ..., pe k j ComoassumimosqueoserrosisoNormalmentedistribudos,ento tambmE.M.V.(estimadordemximaversossimilhana)dee,assim, no-viciado, de mnima varincia, consistente e suficiente. 1.7 Estimao de 2

Comoemregressolinearsimples,podemosobterumestimadorde2pela SQres, isto , por: SQres =(= = e e $) Y Yi iin=21eiin21 =SQres = (Y - X ) (Y - X ) = YY - 2 XY + XX Visto queXX= XX (XX)-1 XY = XYsegue que:

Giolo,Suely RuizAnlise de regresso 6 SQres = YY - XY ASQrespossuin-(p+1)=n-p-1grausdeliberdadeassociadosvistoquep+1 parmetros so estimados no modelo de regresso. Assim, QMres = SQres / (n-p-1) Podemos,ainda,mostrarqueE(QMres)=2.Portanto,umestimadorno-viciado de2 dado por: =QMres $2 1.8 Anlise de Varincia (ANOVA) Em termos matriciais temos que: SQres = YY -XYSQreg = XY- nYnii21|.|

\|=

SQtotal = YY- nYnii21|.|

\|= De fato, SQtotal= ( )21=niiY Y = ( )=+ nii iY Y Y Y12 22 = = = =+ niniiniiY Y Y Y121 122=YY n 2Y=YY- nYnii21|.|

\|= SQreg =SQtotal - SQres =(YY n 2Y ) (YY - XY) =XY n 2Y= XYnYnii21|.|

\|=

Giolo,Suely RuizAnlise de regresso 7 Assim temos: Tabela da Anlise de Varincia (ANOVA)F.V.S.Q. g.l.Q.M.Fp-valor Regresso XY- nYnii21|.|

\|=p SQreg/ pQMreg/QMres depende de F Resduos YY - XY n p 1SQres/(n-p-1)------ Total YY- nYnii21|.|

\|=n 1---- O teste F testa a existncia de regresso linear entre a varivel resposta Y e o conjuntodevariveisindependentesX1,X2,....,Xp.Formalmenteashiptesessob teste so: Ho : 1 = 2 = .... =p = 0 Ha : nem todos os j (j = 1, 2,..., p) so iguais a zero. Obs:Somenteaexistnciadeumarelaoderegressonoasseguraquepredies possam ser feitas usando tal relao. Outra medida que podemos definir o coeficiente de determinao mltiplo, denotado po R2. R2 =SQregSQtotalSQresSQtotal= 1( 0 R2 1 ). Este coeficiente mede a reduo proporcional da variao total de Y associada aousodoconjuntodevariveisX1,X2,...,Xp.R2assumeovalorzeroquando todososj=0(j=1,2,...,p)eR2assumeovalorumquandotodasas observaescaem diretamente na superfcie de resposta, isto , quando Yi = para todo i. iY

Giolo,Suely RuizAnlise de regresso 8 Comentrios UmgrandevalordeR2noimplicanecessariamentequeomodeloajustadoseja til; AdicionarmaisvariveisindependentesnomodelopodesomenteaumentarR2e nuncareduz-lo,porqueSQresnuncapodetornar-semaiorcommaisvariveis independenteseSQtotalsempreamesmaparaumdadoconjuntoderespostas. ComoR2podetornar-segrandepelainclusodeumgrandenmerodevariveis independentes,sugere-seousodeumamedidamodificada.Ocoeficientede determinaomltiploajustado,oqualdenotaremosporR2a ,ajustaR2 dividindo cada Soma de Quadrados por seus graus de liberdade associados. Ento, tem-se: R2a =1 - SQtotal p nSQres nn SQtotalp n SQres) 1 () 1 (1) 1 /(() 1 /( = Estecoeficientepodetornar-semenorquandooutravarivelindependente includanomodeloporqueodecrscimonaSQrespodesercompensadopelaperda de graus de liberdade do denominador (n-p-1). OcoeficienteR2afrequentementetilnoprocessodeseleodevariveis pois ele penaliza o analista que inclui variveis desnecessrias no modelo. Se R2 e R2a diferirem dramaticamente um do outro, ento existe boa chance de queomodelotenhasidosuperespecificado,isto,termosquecontribuemno significativamente para o ajuste devem ter sido includos desnecessariamente. Ainda, possvel definirmos o coeficiente de correlao mltipla entre Y e X1, X2, ...Xp por: r = +R2 Estecoeficienteumageneralizaodocoeficientedecorrelaolinear simples entre duas variveis fornecendo, desse modo, a correlao linear entre Y e o conjunto de variveis X1, X2, ...Xp.

Giolo,Suely RuizAnlise de Regresso9 1.9Diagrama de Disperso Emregressolinearsimples,odiagramadedispersoumaferramenta importanteparaanalisararelaoentreYeX.Poderamos,ento,pensarqueesta ferramenta seria tambm til em regresso linear mltipla de modo que, o exame dos grficosdeYversusX1,YversusX2,...,YversusXpnosajudariaaacessaras relaesentreYecadavarivelindependente.Infelizmenteistono,emgeral, verdadeiroe,paradiscutirtalfato,consideraremos,comoexemplo,osdados apresentados a seguirque foram gerados pela equao Y = 8 - 5X1 + 12 X2. YX1X2 1021 1732 4845 2712 5556 2664 973 1684 Paraessesdados,odiagramadeYversusX1noexibirqualqueraparente relao entre essas duas variveis. J o diagrama deY versus X2 indicar uma relao linearpositivacominclinaodeaproximadamente8.Ambososdiagramasnos conduziro, portanto, a informaes errneas a respeito da relao de Y com X1 e X2. OsdiagramasdedispersodeYversusXj(j=1,2,...,p)podem,como acabamosdeexemplificar,gerarenganosquandotemossomenteduasvariveis regressorasoperandodemodoaditivoesemrudo(erro).Situaesmaisrealsticas comdiversasvariveisregressoraseerrosnosYipodemconfundirasituaoainda mais.Seexistirapenasumavarivelregressoradominante,ocorrespondente diagrama de disperso geralmente revelar isto. Contudo, quando diversas regressoras soimportantesouquandoasregressorassoelasprpriascorrelacionadas,esses diagramas sero praticamente inteis. 2Intervalos de confiana em regresso linear mltipla 2.1Intervalo de confiana para os coeficientes da regresso Para construir intervalos de confiana para os coeficientes j paraj = 0, 1,.., p,devemos assumir i N(0; 2),i = 1, 2,..., n. Conseqentemente, temos: Yi N(o + , j ijjpx=12)i = 1, 2,..., n. e como uma combinao linear dos Y is segue que: N(, 2 (XX)-1). Giolo,Suely RuizAnlise de Regresso10 Ento,j N( j ; 2 Cii )j = 0, 1, ..., pEnto, j N( j ; 2 Cii )j = 0, 1, ..., pi = j + 1i = j + 1 em que Cii o i-simo elemento da diagonal da matriz (XX)-1. Assim,em que Cii o i-simo elemento da diagonal da matriz (XX)-1. Assim, $$ jiiC2j t n p 1para j = 0, 1,..., p e i = j + 1 em que p + 1 = nmero de parmetros no modelo ajustado e= QMres. $2 Portanto, um I.C.(1-)100% para j (j = 0, 1,..., p) dado por: t j/2, n-p-1$2Cii

Obs: Usualmente $2Cii chamado de erro padro do coeficiente de regresso . $j 2.2 Intervalo de confiana para a resposta mdia Paraumparticularpontoxo=(1,x01,x02,....,x0p)podemosestimararesposta mdiaesperadabemcomoseurespectivointervalodeconfiana.Ovalorestimado em xo e sua varincia estimada so obtidos por: $Yo =x0 = x$( $) V Y02 0 (XX)-1 xo Obtemos, portanto, um I.C.(1-)100% para a resposta mdia em x0 por: Yt$0/2, n-p-1$( $) V Y0 Giolo,Suely RuizAnlise de Regresso11 3Testes de hipteses em regresso mltipla3Testes de hipteses em regresso mltipla 3.1Teste para a significncia da regresso3.1Teste para a significncia da regresso Paratestarmosasignificnciadaregresso,isto,testarmosaexistnciada relao linear entre Y e pelo menos uma varivel regressora X1, X2, ...., Xp, utilizamos o teste F apresentado anteriormente na ANOVA. Paratestarmosasignificnciadaregresso,isto,testarmosaexistnciada relao linear entre Y e pelo menos uma varivel regressora X1, X2, ...., Xp, utilizamos o teste F apresentado anteriormente na ANOVA. 3.2Testes para os coeficientes individuais da regresso3.2Testes para os coeficientes individuais da regresso Devemossempreestaratentosainclusodesomenteregressoras(variveis independentes)quesoderealimportncianaexplicaodaresposta.Ashipteses para testar a significncia de qualquer coeficiente individual da regresso, tal como j, so:Devemossempreestaratentosainclusodesomenteregressoras(variveis independentes)quesoderealimportncianaexplicaodaresposta.Ashipteses para testar a significncia de qualquer coeficiente individual da regresso, tal como j, so: H0: j = 0 H0: j = 0 Ha: j 0. Ha: j 0.

SeHonoforrejeitada,entoteremosindicativasdequearegressoraXj no contribui para a explicao de Y e pode, portanto, ser retirada do modelo. A estatstica de teste dada por:SeHonoforrejeitada,entoteremosindicativasdequearegressoraXj no contribui para a explicao de Y e pode, portanto, ser retirada do modelo. A estatstica de teste dada por:sob H0sob H0 t* =t* = $$$. . ( $)jiijjC dp2= t n p 1( j = 0, 1, 2, ..., p e i = j + 1). em queCii o i-simo elemento da diagonal da matriz (XX)-1e = QMres. 2 EstetestechamadotesteparcialoumarginalporqueocoeficientedependedetodasasoutrasregressorasXji(ij)queestonomodelo.Ento,este um teste da contribuio de Xj dado outras regressoras no modelo. 3.2.1 Mtodo daS. Q. Extra para testar os coeficientes da regresso mltipla Podemos,ainda,determinaracontribuioparaaSQregdeumavarivelXj dado que outras regressoras Xi(i j) esto includas no modelo, usando o mtodo da SQextra. Este mtodo pode, tambm, ser usado para investigar a contribuio de um subconjunto de variveis regressoras para o modelo. ASQextramedeoacrscimomarginalnaSQregquandoumaoudiversas regressorassoadicionadasaomodeloderegressoou,equivalentemente,areduomarginalnaSQresquandoumaoumaisregressorassoadicionadasao modelo. Vejamos,ento,oseguinteexemploemquetemosn=20,Y=varivel respostaeasregressorasX1,X2eX3.Considere,tambm,paraesseexemplo,os modelos e resultados apresentados a seguir: Giolo,Suely RuizAnlise de Regresso12 Regresso de Y em X1:Regresso de Y em X$$1:Y = -1,496 + 0,8572X1 F.V.SQg.l. QMd.p.( ) = 0,1288 $1Reg352,271 352,27 Res143,12187,95 Total495,3919 --- Regresso de Y em X2 : $Y = -23,634 + 0,8565X2 F.V.SQg.l.QMd.p.($2) = 0,11 Reg381,971 381,97Res113,42186,30 Total495,3919 --- Regresso de Y emX1 eX2 : $Y = -19,174 + 0,2224X1+ 0,6594X2 F.V.SQg.l. QMd.p.( ) = 0,3034 $1Reg385,442 192,72d.p.( ) = 0,2912 $2Res109,9517 6,47 Total495,3919--- Regresso de Y emX1 , X2 e X3 : $Y = 117.08 + 4.344X1- 2.857 X2 - 2.186X3 F.V.SQg.l. QMd.p.( ) = 3,016 $1Reg396,983132,33 d.p.( ) = 2,582 $2Res98,41166,15 d.p.( ) = 1,596 $3Total495,3919 --- Observe que: Quando X1 e X2 esto no modelo SQres (X1,X2) = 109,95 Quando somente X1 est no modelo SQres (X1)= 143,12 eainda,Quando X1 e X2 esto no modelo SQreg (X1,X2) = 385,44 Quando somente X1 estno modelo SQreg (X1) = 352,27 A diferena entre as duas SQ de resduos, ou entre as duas SQ da regresso, chamada Soma de Quadrados extra e ser denotada por SQE (X2| X1). Ento: SQE (X2| X1) = SQres (X1) - SQres(X1, X2) = SQreg (X1,X2) -SQreg (X1) = 33,17. Esta reduo na SQres ou acrscimo na SQreg o resultado de adicionar X2aomodeloquandoX1jseencontranomodelo.Assim,aSQE(X2|X1)medeo efeito marginal em adicionar X2 ao modelo quando X1 j se encontra no modelo. Analogamente,podemosconsideraroutrasSomasdeQuadradosExtratais como: efeito marginal de adicionar X3 ao modelo quando X1 e X2 esto presentes. SQE (X3| X1, X2) = SQres (X1, X2) - SQres (X1, X2, X3) = 109,95 98,41 = 11,54 ouSQE (X3| X1, X2) = SQreg (X1, X2, X3) - SQreg (X1, X2) = 396,98 385,44 = 11,54 Giolo,Suely RuizAnlise de Regresso13

Temos,ento,umareduonaSQresde11,54unidadesaoquadradoou, equivalentemente,umacrscimonaSQregde11,54unidadesaoquadradoao adicionar X3 ao modelo em que X1 e X2 encontram-se no mesmo.Temos,ento,umareduonaSQresde11,54unidadesaoquadradoou, equivalentemente,umacrscimonaSQregde11,54unidadesaoquadradoao adicionar X3 ao modelo em que X1 e X2 encontram-se no mesmo. efeito marginal de adicionar X2 e X3 ao modelo quando X1 est presente.efeito marginal de adicionar X2 e X3 ao modelo quando X1 est presente. SQE (X2, X3| X1 ) = SQres (X1) - SQres (X1, X2, X3) = 143,12 98,41 =44,71SQE (X2, X3| X1 ) = SQres (X1) - SQres (X1, X2, X3) = 143,12 98,41 =44,71 ouou SQE (X2, X3| X1 ) =SQreg (X1, X2, X3) - SQreg (X1)= 396,98 352,27=44,71SQE (X2, X3| X1 ) =SQreg (X1, X2, X3) - SQreg (X1)= 396,98 352,27=44,71 Assim,temosumareduonaSQresde44,71unidadesaoquadradoou, equivalentemente,umacrscimonaSQregde44,71unidadesaoquadradoao adicionarmos X2 e X3 ao modelo em que X1 j se encontra presente. Assim,temosumareduonaSQresde44,71unidadesaoquadradoou, equivalentemente,umacrscimonaSQregde44,71unidadesaoquadradoao adicionarmos X2 e X3 ao modelo em que X1 j se encontra presente. Noestamosinteressados,noentanto,somenteemobtertaisreduesou acrscimos. O interesse maior est em saber se a varivel (ou as variveis) Xj deve, ou no, ser includa no modelo. Noestamosinteressados,noentanto,somenteemobtertaisreduesou acrscimos. O interesse maior est em saber se a varivel (ou as variveis) Xj deve, ou no, ser includa no modelo. J vimos que a estatstica de teste parcialt* apropriada para esta finalidade. Porm,alternativamente,podemosusaraestatsticadetesteparcialF*aqualusaas Somas de Quadrados extra. J vimos que a estatstica de teste parcialt* apropriada para esta finalidade. Porm,alternativamente,podemosusaraestatsticadetesteparcialF*aqualusaas Somas de Quadrados extra. Noexemplotratadoanterioremente,podemosdesejartestarseavarivelX3 deve, ou no, ser adicionada ao modelo contendo X1 e X2 . Isto equivalente a testar as hipteses:H0: 3 = 0versusHa: 3 0. Noexemplotratadoanterioremente,podemosdesejartestarseavarivelX3 deve, ou no, ser adicionada ao modelo contendo X1 e X2 . Isto equivalente a testar as hipteses:H0: 3 = 0versusHa: 3 0. Se H0 no for rejeitada teremos o modelo reduzido E(Y) = 0 +1X1 + 2X2 Se H0 no for rejeitada teremos o modelo reduzido E(Y) = 0 +1X1 + 2X2

Se H0 for rejeitada teremos o modelo completo E(Y) = 0 +1X1 + 2X2 + 3X3Se H0 for rejeitada teremos o modelo completo E(Y) = 0 +1X1 + 2X2 + 3X3 A estatstica de teste parcial F* para testar as hipteses acima expressa por:A estatstica de teste parcial F* para testar as hipteses acima expressa por: F* = F* =SQ X X X n nSQres X X X nSQ X X XQMres X X XE E( | , ) / [( ) ( )]( , , ) / ( )( | , ) /( , , )3 1 21 2 33 1 21 2 33 441 = F 1;n - 4 No exemplo citado temos: F* =11,54 / 6,15= 1,88 ( p-valor = 0,189 ) t*=-2,186 / 1,596 = -1,37 ( p-valor = 0,189 ) Conclumos,pelosresultadosobtidos,queX3notrazcontribuiosignificativae pode portanto ser retirada do modelo de regresso contendo X1 e X2

Obs:Relembre queF* = (t*)2 Podemos,ainda,usandootesteparcialF*,testarsemaisdeumavarivel independente pode ser retirada do modelo completo. Por exemplo: Giolo,Suely RuizAnlise de Regresso14 TestarseX2eX3podemserretiradasdomodelocompleto,isto,domodelo contendo X1, X2 e X3. Hipteses: Ho: 2 = 3 = 0versus Ha:2 0 ou 3 0 Se Ho no for rejeitada modelo reduzido:Y = o + 1X1 + Se H0 for rejeitada modelo completo:Y = o + 1X1 + 2X2 + 3X3 + F* = [(33,17 + 11,54)/2] / [98,41/16] = [44,71/2] / 6,15 =3,63 Concluso:ComoresultadoF* =3,63temosovalorp=0,05associado distribuioF2,16.Assim,possvelconcluirpelarejeiodahiptesenulae,desse modo, optamos pelo modelo completo. Diversos outros testes, dependendo do interesse, podem ser realizados usando o teste parcial F*. 3.2.2 - Anova contendo decomposio da SQreg Em regresso mltipla, uma variedade de decomposies (desdobramentos) da SQregem SQE podem ser obtidas. Por exemplo, no caso de 2 variveis independentes X1 e X2 podemos ter:SQreg (X1, X2) = SQE (X1) + SQE (X2| X1)ou SQreg (X1, X2) = SQE (X2) + SQE (X1| X2). A Anova, contendo uma dessas duas possveis decomposies, representada por: F.V. S.Q g.l. Q.M. Regresso SQreg (X1,X2)2QMreg (X1,X2) X1 SQE (X1)1QME (X1) X2| X1 SQE (X2| X1) 1QME ( X2| X1) Resduos SQres (X1, X2)n - 3QMres(X1, X2) Total Sqtotaln - 1--------

Paramaisdeduasvariveisregressoras,aAnovacomadecomposio obtidadeformaanloga.Algunspacotesestatsticosfornecemtaldecomposioo quefacilitaarealizaodealgunstestesdeinteresse.Adecomposiofeita,em geral,obedecendo a ordem de escolha das variveis independentes.Paraoexemplocitadonaseoanteriortemoscomoumapossvel decomposio a tabela a seguir: F.V. S.Q g.l. Q.M. Regresso 396,983132,33 X1 352,271352,27 X2| X1 33,17133,17 X3 | X1, X2 11,54111,54Resduos 98,41166,15 Total 495,3919---- Giolo,Suely RuizAnlise de Regresso15 Com a decomposio apresentada possvel realizar alguns testes que possam vir a ser de interesse. Por exemplo: Com a decomposio apresentada possvel realizar alguns testes que possam vir a ser de interesse. Por exemplo: (a)Teste da significncia da regresso(a)Teste da significncia da regresso (b)Teste da significncia de X3 na presena de X1 e X2(b)Teste da significncia de X3 na presena de X1 e X2 (c)Teste da significncia de X2 e X3 na presena de X1(c)Teste da significncia de X2 e X3 na presena de X1 (a)F* =[396,98/3] / [98,41/16] = 132,33/6,15 = 21,51 (p-valor = 7,3e-7)(a)F* =[396,98/3] / [98,41/16] = 132,33/6,15 = 21,51 (p-valor = 7,3e-7) (b)F* =[11,54/1] / [98,41/16] =11,54/6,15= 1,88(p-valor = 0,1892)(b)F* =[11,54/1] / [98,41/16] =11,54/6,15= 1,88(p-valor = 0,1892) (c)F* =[(33,17 + 11,54)/2] / [98,41/16] = [44,71/2] / 6,15 = 3,63(p-valor = 0,0500)(c)F* =[(33,17 + 11,54)/2] / [98,41/16] = [44,71/2] / 6,15 = 3,63(p-valor = 0,0500) 3.5 - Coeficientes de determinao parcial3.5 - Coeficientes de determinao parcial As SQ extras no so somente teis para testar coeficientesde um modelo de regressomltipla,mastambmparaencontrarumamedidadescritivaderelao denominada coeficiente de determinao parcial.As SQ extras no so somente teis para testar coeficientesde um modelo de regressomltipla,mastambmparaencontrarumamedidadescritivaderelao denominada coeficiente de determinao parcial.EnquantoocoeficientededeterminaomltiploR2medeaproporcional reduonavariabilidadedeYobtidapelaintroduodeumconjuntodevariveis regressorasnomodelo,ocoeficientededeterminaoparcialmedeacontribuio marginal de uma varivel Xj quando outras variveis se encontram no modelo. EnquantoocoeficientededeterminaomltiploR2medeaproporcional reduonavariabilidadedeYobtidapelaintroduodeumconjuntodevariveis regressorasnomodelo,ocoeficientededeterminaoparcialmedeacontribuio marginal de uma varivel Xj quando outras variveis se encontram no modelo. Temos ento:Temos ento: coeficiente de determinao parcial entre Y e X2 dado que X1 est no modelocoeficiente de determinao parcial entre Y e X2 dado que X1 est no modelo r2Y2 . 1 Y2 . 1 =r2 = SQ X XSQresXE( | )( )2 11 coeficientededeterminaoparcialentreYeX1dadoqueX2eX3 encontram-se no modelo r2Y1 . 23 = SQ X X XSQres X XE( | , )( , )1 2 32 3 e assim por diante. Para o exemplo tratado nas sees anteriores temos: (a)r2Y2 . 1 =33,17/143,12 = 0,2317 (23,17%) (b)r2Y3 . 12 = 11,54/109,95 = 0,105 (10,5%) (c)r2Y1 . 2 =3,47/113,42 = 0,031 (3,1%) Ento,quandoX2adicionadaaomodelocontendoX1aSQres(X1) reduzidaem23,17%.Ainda,aSQres(X1, X2)reduzidaem10,5%quandoX3 adicionadaaomodeloe,finalmente,seomodelocontmX2,adicionarX1reduza SQresem 3,1%. Giolo,Suely RuizAnlise de Regresso16 3.5.1 - Coeficientes de correlao parcial Araizquadradadeumcoeficientededeterminaoparcialdenominado coeficientedecorrelaoparcial.Osinaldecadacoeficientedecorrelaoparcial correspondente ao do coeficiente de regresso no modelo ajustado. Assim temos: (a)rY2 . 1 =(0,2317)1/2 = -0,48(o sinal negativo porque= -2,857 ) 2 (b)rY3 . 12 = (0,105)1/2 = -0,324 (o sinal negativo porque= -2,186) 3 (c)rY1 . 2 =(0,031)1/2 =0,176(o sinal positivo porque= 4,344) 1 Obs:oscoeficientesdecorrelaoparciaissogeralmenteusadosnasrotinas computacionaisparaencontraraprximamelhorvarivelindependenteaentrarno modelo (veremos tal fato maisadiante). 4.Diagnstico do modelo de regresso linear mltiplo J vimos que a ANOVA til para diagnosticar alguns aspectos do modelo de regressoajustado.Necessitamoscontudo,verificaroutrosaspectostaiscomo: suposiesdoserros,no-linearidadedealgumasvariveisindependentes, multicolinearidade e a existncia e o efeito de pontos atpicos. 4.1 - Anlise dos Resduos Os mtodos grficos usados em regresso linear simples so tambm teis em regressolinearmltipla.Grficosadicionaispodemtambmtrazerinformaes importantes. Em sntese temos os seguintes grficos e suas utilidades: (a)Resduos em papel de probabilidade Normal (ei x Fi) examinar se os erros apresentam distribuio aproximadamente Normal; auxiliar na detecode pontos atpicos. (b)Resduos versus valores ajustados (ei x)$ yi verificar homogeneidade das varincias dos erros; fornecer informaes sobre pontos atpicos. (c) Resduos versus seqncia de coleta (se conhecida) (e(i)xi) informaes sobre possvel correlao entre os erros. (d)Resduos versus cada Xj includa no modelo(eix Xij) informaesadicionaissobreaadequacidadedafunoderegressocom respeito a j-sima varivel independente, ou seja, auxilia na deteco de no-linearidade na regressora Xj; informaessobrepossvelvariaonamagnitudedavarinciadoserrosem relao a varivel independente Xj; informaes sobre dados atpicos. Giolo,Suely RuizAnlise de Regresso17 (e)Resduos parciais versus Xijpara cada Xj no modelo(e*ij ij versus Xij)(e)Resduos parciais versus Xijpara cada Xj no modelo(e* versus Xij) Essesgrficostmporfinalidaderevelarmaisprecisamentearelaoentreos resduos e cada varivel regressora Xj . O i-simo resduo parcial para a regressora Xj definido por: Essesgrficostmporfinalidaderevelarmaisprecisamentearelaoentreos resduos e cada varivel regressora Xj . O i-simo resduo parcial para a regressora Xj definido por: eij** = ei+xij(i = 1, 2, ..., n)eij = ei+x$jij(i = 1, 2, ..., n) $j$ yi$jeij** = (yi- )+xij(i = 1, 2, ..., n)eij = (yi- )+x $ yi$jij(i = 1, 2, ..., n) Ogrficodosresduosparciais,comocomumentereferenciado, semelhanteaogrficodosresduosversusXijepermiteaoexperimentadoravaliar: falhas de linearidade, presena de outliers e heterogeneidade de varincias. Ogrficodosresduosparciais,comocomumentereferenciado, semelhanteaogrficodosresduosversusXijepermiteaoexperimentadoravaliar: falhas de linearidade, presena de outliers e heterogeneidade de varincias. Se, por exemplo, a relao entre Xj e Y for no linear, o grfico dos resduos parciais indicar mais precisamente do que o grfico ei versus Xj como transformar os dadosparaobteralinearidade.Ajustificativaparaistoqueogrficoderesduos parciais mostra a relao entre Y e Xj aps o efeito das outras regressoras Xi (i j) ter sido removido e, desse modo, este grfico mostrar mais claramente a influncia de Xj em Y na presena das outras regressoras. Se, por exemplo, a relao entre Xj e Y for no linear, o grfico dos resduos parciais indicar mais precisamente do que o grfico ei versus Xj como transformar os dadosparaobteralinearidade.Ajustificativaparaistoqueogrficoderesduos parciais mostra a relao entre Y e Xj aps o efeito das outras regressoras Xi (i j) ter sido removido e, desse modo, este grfico mostrar mais claramente a influncia de Xj em Y na presena das outras regressoras. Observequeeij*versusXjdeveserlinear Observequeeij*versusXjdeveserlinearcominclinaoprximaasea relao entre Y e X$jj for linear. (f) Resduos versus Xk omitidas do modelo ajudamarevelardependnciadaresposta Y com uma ou mais das regressoras nopresentesnomodelo.Qualquerestrutura(padrosistemtico)quenoo aleatrio indicaro que a incluso daquela varivel pode melhorar o modelo. (g) Resduos versus interaes no includas no modelo teisparaexaminarsealguma,algumasoutodasasinteraessorequeridas no modelo. Um padro sistemtico nestes grficos (que no o aleatrio) sugere que o efeito da interao pode estar presente. (h) Grfico da regressora Xi versus regressora Xj

tilparaestudararelaoentreasvariveisregressoraseadisposiodos dados no espao X; encontrar pontos atpicos. Considere, como exemplo, o grfico a seguir: Giolo,Suely RuizAnlise de Regresso18 Este grfico mostra que as regressoras X1 e X2 so altamente correlacionadas e conseqentemente, pode no ser necessrio incluir ambas no modelo. Seduasoumaisvariveisregressorassoaltamentecorelacionadas,dizemos quemulticolinearidadeestpresentenosdados.Apresenademulticolinearidade podeafetarseriamenteoajusteporM.Q.O.e,emalgumassituaes,produzir modelos quase que inteis. Equivalentemente, podemos dizer que o problema de multicolinearidade existe quando h uma dependncia quase-linear entre as regressoras.A matriz de correlao rXX das variveis regressoras uma ferramenta til na deteco de multicolinearidade. rXX = 1111221 21 2r rr rr rikkk k.... .. .. .... A matriz rXX simtrica, isto , rij = rji e se rij for prximo de zero, ento Xi e Xj no so altamente correlacionadas. Por outro lado, se rji for prximo de um, ento Xi e Xjso altamente correlacionadas. Obs:Paraaanliseresidualpodemos,ainda,usarosresduosstandardized (padronizados),os resduos studentized,os resduos PRESS, os resduos studendized externamente, dentre outros. 1) Resduos standardized di = eQMresi 2) Resduos studentized ri = eQMres hiii( ) 1 3) Resduos PRESS e(i) = ehiii1 4) Resduos studendized externamente ( R-Student) ti = eS hiiii21( )( ) em que S2(i) = p nh e QMres p nii i ) 1 ( ) 1 (2 hii corresponde ao i-simo componente da diagonal da matriz H = X(XX)-1X 0 hii 1 Giolo,Suely RuizAnlise de Regresso19 Observe que: e = (I - H) YObserve que: e = (I - H) Y e = (I - H) (X + )e = (I - H) (X + ) e = X + HX + (I - H) e = X + HX + (I - H) e = X - X(XX)-1XX + (I - H) e = X - X(XX)-1XX + (I - H) e = (I - H) e = (I - H) e a varincia:e a varincia: V( e ) = V [(I - H) ]V( e ) = V [(I - H) ] V( e ) = (I - H) V ( ) ( I - H )V( e ) = (I - H) V ( ) ( I - H ) V( e ) = (I - H) 2 I ( I - H ) = 2( I - H ) V(ei) = 2( I - hii )V( e ) = (I - H) 2 I ( I - H ) = 2( I - H ) V(ei) = 2( I - hii ) Nota: (I - H) simtrica (I - H ) = (I - H)Nota: (I - H) simtrica (I - H ) = (I - H) (I - H) idempotente (I - H)(I-H) = (I - H) (I - H) idempotente (I - H)(I-H) = (I - H) Diversos autores recomendam o uso dos resduos studentized ao invs de ei oudi.Ajustificativaquehiiumamedidadalocalizaodoi-simopontono espao X e a varincia de eidepende de onde o ponto xi cai. Ento, como 0 hii 1, usaroQMresparaestimaravarinciadosresduosfazcomquesuperestimemosa varincia de e.Diversos autores recomendam o uso dos resduos studentized ao invs de ei oudi.Ajustificativaquehiiumamedidadalocalizaodoi-simopontono espao X e a varincia de eidepende de onde o ponto xi cai. Ento, como 0 hii 1, usaroQMresparaestimaravarinciadosresduosfazcomquesuperestimemosa varincia de e.Pontoscomgranderesduoegrandehiisoobservaespossivelmentealtamente influentes no ajuste por M.Q.O.; Pontoscomgranderesduoegrandehiisoobservaespossivelmentealtamente influentes no ajuste por M.Q.O.; Resduos associados com pontos para os quais hii grande tero grandes resduos PRESS. Esses pontos geralmente sero altamente influentes.Resduos associados com pontos para os quais hii grande tero grandes resduos PRESS. Esses pontos geralmente sero altamente influentes. 5.Multicolinearidade5.Multicolinearidade AdicionalsanalisesdosgrficosdeXiversusXj(ij)edamatrizde correlaorXX,podemosutilizaroutrosrecursosparadiagnosticarapresenade colinearidade ou multicolinearidade. AdicionalsanalisesdosgrficosdeXiversusXj(ij)edamatrizde correlaorXX,podemosutilizaroutrosrecursosparadiagnosticarapresenade colinearidade ou multicolinearidade. 5.1 Fatores de Inflao da Varincia (VIF)5.1 Fatores de Inflao da Varincia (VIF) O VIF para o j-simo coeficiente de regresso pode ser escrito por:O VIF para o j-simo coeficiente de regresso pode ser escrito por: VIFj =VIFj = 12j1 R

em que R2j o coeficiente de determinao mltiplo obtido pela regresso de Xj com as demais variveis regressoras. Claramente,seXjforquaselinearmentedependentecomalgumadasoutras regressoras,entoR2jserprximode1eVIFjsergrande.Experinciasprticas indicamqueVIFmaioresque10(ou5,poroutrosautores)implicamqueos coeficientesderegressoassociadosestosendopobrementeestimadosdevidoa multicolineridade. Giolo,Suely RuizAnlise de Regresso20 5.2 Anlise dos autovalores na matrizrXX 5.2 Anlise dos autovalores na matrizrXX

As razes caractersticas, ou autovalores de rXX , digamos 1, 2, ..., k, podem ser usados para medir a extenso da multicolinearidade nos dados. Se existirem uma ou mais dependncias lineares nos dados, ento uma ou mais das razes caractersticas sero pequenas. As razes caractersticas, ou autovalores de rXX , digamos 1, 2, ..., k, podem ser usados para medir a extenso da multicolinearidade nos dados. Se existirem uma ou mais dependncias lineares nos dados, ento uma ou mais das razes caractersticas sero pequenas. Algunsanalistaspreferem,noentanto,examinaronmerodecondioda matriz rXX dado por: Algunsanalistaspreferem,noentanto,examinaronmerodecondioda matriz rXX dado por:

k =k =

maxmin Geralmente se:k < 100 no existe srios problemas de multicolinearidade 100 < k < 1000 moderada a fortemulticolinearidade k >1000 severa multicolinearidade. Os ndices de condio da matriz rXX so dados por: kj = maxj Lembrete: auto valores de rXX so as razes caractersticas da equao | rXX - I | = 0 Exemplo: Suponha Y = varivel resposta e X1, ...., X9 as regressoras de modo que os autovalores obtidos sejam: 1 = 4,20484 = 1,04137 = 0,0136 2 = 2,16265 = 0,38458 = 0,0051 3 = 1,13846 = 0,04959 = 0,0001 Assim,k = 42048 o que implica emsevera multicolinearidade. Ainda, k1 = 1,0k4 = 4,04k7 = 309,18 k2 = 1,94k5 = 10,94k8 = 824,47 k3 = 3,69k6 = 84,96k9 = 42048 Comok7ek8>100ek9>1000,hindciosdemulticolinearidadeenvolvendoas variveis X7, X8 e X9. 5.3 Determinante da matriz rxx O determinante da matriz rXX pode ser usado como um indicador de existncia de multicolineridade. Os valores possveis deste determinante so 0 det(rXX) 1. Se det(rXX)=1,asregressorassoortogonais,enquantodet(rXX)=0implicaem dependncialinearexataentreasregressoras.Ograudemulticolinearidadetorna-se mais severo quando o determinante aproxima-se de zero. 21Giolo, Suely RuizAnlise de Regresso 6. Diagnstico de influncia Ocasionalmenteencontramosumsubconjuntodeobservaesqueexercem umadesproporcionalinfluncianomodeloderegressoajustado.Gostaramos, portanto,delocalizaressasobservaes(pontos)eacessarseuimpactonomodelo. Discutiremos, ento, a seguir, diversas medidas de influncia teis. 6.1 Pontos de Alavancagem AdisposiodospontosnoespaoXimportanteparaadeterminaodas propriedadesdomodelo.Emparticular,observaespotencialmenteremotastm desproporcionalalavancagemnosparmetrosestimadosbemcomonosvalores preditosenasusuaisestatsticassumrias.Paralocalizaressespontosremotosno espao X, Daniel e Wood (1980) sugeriram o uso da soma ponderada das distncias ao quadrado do i-simo ponto ao centro dos dados a qual expressa por: WSSDi = 21) (= pjj ij jQMresx x ( i = 1, 2, .., n) O procedimento de anlise desses valores o de ordenar os pontos em ordem crescentecomrelaoaosWSSDieconcentraratenoaospontoscomWSSDi

grandes.difcilestabelecerumaregraparaidentificarumgrandevalorde WSSDi.Geralmente,seosvaloresdeWSSDicrescemgradativamentedomenor paraomaiorvalor,ento,provavelmentenoexistempontosremotos.Contudo, saltosnamagnitudedosWSSDifreqentementeindicamqueumoumaispontos extremos esto presentes. JosautoresHoaglineWelsh(1978),sugeriramparaaidentificaode observaesinfluentes,ousodamatrizchapuoumatrizHaqualobtida, como vimos anteriormente,por H = X (XX)-1X. De acordo com os autores citados, oselementoshijdamatrizHpodemserinterpretadoscomoaquantidadede alavancagemexercidaporyieme,dessemodo,ainspeodoselementosdeH podemrevelarpontosquesopotencialmenteinfluentesemvirtudedesua localizaonoespaoX.Atenousualmentefocalizadanoselementosda diagonaldamatrizH,ouseja,nosh$ yiii.Como =rank(H)=rank(X)=p+1,o tamanhomdiodeumelementodadiagonaldamatrizH(p+1)/netemos,assim, como uma regra um tanto grosseira,que: hiiin=1 sehii > 2(p+1)/n observao i um possvel ponto de alta alavancagem. 22Giolo, Suely RuizAnlise de Regresso 6.2Influncia nos coeficientes de regresso Sefordesejado,contudo,considerarambos,alocalizaodopontoea varivelresposta,Cook(1979)sugeriuousodeumamedidadoquadradoda distncia entre as estimativas obtidas por M.Q.O. baseadas em todos os n pontos (observaes)easestimativas(i)obtidasapsaretiradadoi-simoponto.Esta medida expressa por:

Di =1)QMres (p) ( ' )' () ( ) (+ i i X X ( i = 1, 2, ..., n ) Pontos com grandes valores de Di tm considervel influncia nas estimativas obtidas por M.Q.O. Os valoresD iso comparados com a distribuio F,p,n-p-1. Se Di F, p, n-p-1 ento, retirar o ponto i deve deslocarpara o limite de uma regio deconfianade50%debaseadonosdadoscompletos.Istoumagrande discordncia e indica que as estimativas obtidas porM.Q.O. so sensveis ao i-simo ponto.ComoF0.5;n;n-p-11,usualmenteconsideramospontosparaosquaisDi>1 comosendopossivelmenteinfluentes.Idealmentegostaramosquecadaestimativa (i) permanecesse dentro dos limites de uma regio de confiana de 10 ou 20%. A estatstica Di acima pode, ainda, ser reescrita como: Di = ) 1 )( 1 (2iiii ih ph r + (i = 1, 2, .., n) em que ri=resduo studentized, p + 1= nmero de parmetros estimados e hii oi-simo elemento da diagonal da matriz H. Uma outra verso alternativa da distncia de Cook dada por: Di = QMres py y y yi i) 1 () ( )' (+ (i = 1, 2, ..., n) demodoqueDipodeserinterpretadacomooquadradodadistnciaeuclidiana(a menos de (p+1)QMres) que o vetor de valores ajustados desloca-se quando a i-sima observao retirada. 23Giolo, Suely RuizAnlise de Regresso Belsley, Kuh e Welsch (1980) sugeriram, ainda, uma estatstica que indica o quantoocoeficientederegressojmuda,emunidadesdedesvio-padro,seai-simaobservaoforremovida.Estaestatsticadadaparacadaj(j=0,1,...,p)por: DFBETASj,i = $ $( )( ), j j iij jS C+ +21 1i = 1, 2, .., n emqueCj+1, j+1 o (j +1)-simo elemento da diagonal da matrizC = (XX)-1 . Um grande valor de DFBETASj,iindica que a observao i tem considervel influncianoj-simocoeficientederegresso.Opontodecorte 2n,emgeral,usadoparacompararosDFBETASj,i,isto,se|DFBETASj,i|> 2n,entoa i-sima observao merece ateno. Obs: para amostras pequenas ou moderadas comum o uso de| DFBETASj,i | > 1 e para amostras grandes o uso de | DFBETASj,i | >2n. 6.3Influncia nos valores ajustados Podemos, tambm, investigar a influncia da i-sima observao nos valores ajustados (preditos). Uma medida razovel : DFFITSi = $ $( )( )y yS hi iiii2 ( i = 1, 2, ..., n) em que o valor predito de y $( )y ii sem o uso da i-sima observao. O denominador justoumapadronizao.Assim,DFFITSionmerodedesviospadroqueo valor ajustado muda se a i-sima observao removida. Geralmentepontosemque|DFFITSi|>1(paraamostraspequenasou moderadas) e | DFFITSi | >np ) 1 ( +2 (para amostras grandes) merecem ateno. 6.5Influncia na preciso da estimao AsmedidasDi,DFBETASj,ieDFFITSifornecemumavisodoefeitode cadaobservaonoscoeficientesestimadosenosvaloresajustados.Elasnofornecem,contudo,qualquerinformaosobreaprecisogeraldaestimao.Para expressar o papel da i-sima observao na preciso da estimao podemos definir: 24Giolo, Suely RuizAnlise de Regresso COVRATIOi = | QMres ) ' ( || ) ' ( |1) (2 1) ( ) (X XX X ii iS( i = 1, 2, ..., n ) PontosdecorteparaCOVRATIOi no so fceis de serem obtidos. Belsley, Kuh e Welsh (1980) sugeriram o seguinte: se COVRATIOi > 1 + 3(p+1)/nou se COVRATIOi 3(p+1).Estespontosdecortesomais apropriados para amostras grandes. EXEMPLO:Umengarrafadordebebidasestanalisandoosserviosderotina realizadosnosistemadedistribuiodemquinasacionadaspormoedas.Eleest interessado em predizer o tempo requerido para esses servios de rotina que incluem: estocagemdamquinacombebidasemanutenespequenas.Oengenheiro industrialresponsvelsugeriuduasvariveiscomoasquemaisafetamotempo requerido por estes servios: quantidade de bebida estocada e a distncia percorrida pelo profissional responsvel pelos servios. Tabela 1: Dados observadosTempo requerido (em minutos) Quantidade estocada (em unidades) Distncia percorrida (em ps) 16.68 7560 11.50 3220 12.03 3340 14.88 4 80 13.75 6150 18.11 7330 8.00 2110 17.83 7210 79.24301460 21.50 5605 40.3316688 21.0010215 13.50 4255 19.75 6462 24.00 9448 29.0010776 15.35 6200 19.00 7132 9.50 3 36 35.1017770 17.9010140 52.3226810 18.75 9450 19.83 8635 10.75 4150 Fonte: Montgomery and Peck (1992) 25Giolo, Suely RuizAnlise de Regresso Parapredizerotemporequeridoparaosserviosderotina,utilizandocomo regressoras a quantidade de bebida estocada e a distncia percorrida pelo profissional responsvelpelosservios,temosdiversospossveismodelosderegressoaserem investigados e, dentre eles:a) regresso de Y em X1 e X2,b) regresso de Y em X1 e c) regresso de Y em X2 Obtendo e observando, inicialmente, a matriz de correlao rXX rXX = 1 8242 , 08242 , 0 1 e os fatores de inflao da varincia (VIFj) VIF1 = 1/[1-(0,8242)2] = 3,1185< 5 VIF2 = 1/[1-(0,8242)2] = 3,1185< 5, podemos observar que embora X1 e X2 sejam multicolineares, temos ambos os VIFj menoresque5,oqueindicaqueoscoeficientesdaregressonoestaroto pobremente estimados por causa dessa multicolinearidade. Ajustando, ento, os 3 modelos mencionados acima obtivemos os resultados apresentados a seguir. Modelos o 12QMres R2 Ra2 Y em X1 e X22,3411,6150,01410,6 0,95960,9559 Y em X13,3212,176-17,5 0,93050,9275 Y em X24,961 -0,04251,5 0,79510,7862 Dosresultadosapresentadosacima,podemosobservar,dentreosmodelos considerados, que os dois primeiros parecem ser bons candidatos ao melhor modelo. Pelos testes t associados aos parmetros, h evidncias para a rejeio das hipteses nulas Ho: 1 = 0 e Ho: 2 = 0. Logo, h evidncias de que ambas as regressoras X1 e X2soimportantesnaprediodeY.Casonohajaproblemasrelativosaos pressupostosassumidosparaesteMRLM,teremos,deacordocomocoeficientede determinaoqueasregressorasX1eX2estariam,conjuntamente,explicandoem torno de 96% da variao total de Y. Observe,ainda,queomodelodeYemX1 pareceser,tambm,umbom candidatovistoserummodelocomumaquantidadepequenadeparmetroseem que, a regressora X1, sozinha, estaria explicando em torno de 93% da variao total de Y.Escolhendo,ento,omodelodeYemX1eX2temosasestimativasdos parmetros apresentadas a seguir. Estimativas dos parmetros do modelo de Y em X1 e X2 j e.p( )t p-valor jIntercepto X1 X2 2,341 1,0962,135 0,044 1,615 0,1709,4643,25e-9 0,014 0,0033,9810,0006 26Giolo, Suely RuizAnlise de Regresso Ainda,aAnovacomadecomposiodaSQreg,apresentadaabaixo,mostra queomodelocomsomenteX1reduzaSQtotalem5382,4unidadesaoquadradoe que, ao adicionarmos X2 ao modelo contendo X1, h uma reduo na SQres de 168,4 unidades ao quadrado. Quadro da anlise de varincia do MRLM de Y em X1 e X2 F.V. G.L.SQQM FPr(>F) Regresso25550,82775,4 261,24,687e-16 X1 X2 1 1 5382,4 168,4 5382,4 168,4 506,62 15,85 < 2,2e-16 0,0006312 Resduos22233,710,6 Total245784,5

A anlise de resduos evidenciou, como pode ser observado nos grficos dos resduos apresentados na figura abaixo, que a observao 9 causa alguns problemasao modelo ajustado, Figura 1. Anlise grfica dos resduos do modelo de Y em X1 e X2 Pelo diagnstico de influncia, apresentado na Tabela 1, podemos observar: 1)oselementoshiidadiagonaldamatrizHmostramqueasobservaes9e22 somaioresdoque2(p+1)/n=6/25=0,24oqueevidenciaquetaispontos devam ser investigados pois so potenciais pontos influentes; 2)omaiorvalordadistnciadeCookD9=3,42,indicandoqueasestimativas dos parmetros obtidas por M.Q.O. so sensveis a essa observao; 3)inspeo dos DFFits revela que as observaes 9 e 22 excedem o valor 1 (ponto de corte para pequenas amostras); 27Giolo, Suely RuizAnlise de Regresso 4)inspeodosDFBetasmostram,considerandoovalor1comopontodecorte,queasobservaes9e22apresentamgrandeefeitoempelomenosumadas trs estimativas dos parmetros; 5)ospontosdecorteparaCovratio,nesseestudo,so0,64e1,36.Assim,as observaes 9 e 22 e, tambm, a observao 16, apresentam-se como possveis pontos influentes. Tabela 1 - Estatsticas para deteco de pontos influentes dfb.1. dfb.X1 dfb.X2 dffit cov.rcook.d hat1-0.187270.41131 -0.43486 -0.5709 0.871 1.00e-01 0.1018 2 0.08979 -0.047760.014410.0986 1.215 3.38e-03 0.0707 3-0.003520.00395 -0.00285 -0.0052 1.276 9.46e-06 0.0987 4 0.451960.08828 -0.273370.5008 0.876 7.76e-02 0.0854 5-0.03167 -0.013300.02424 -0.0395 1.240 5.43e-04 0.0750 6-0.014680.001790.00108 -0.0188 1.200 1.23e-04 0.0429 7 0.07807 -0.02228 -0.011020.0790 1.240 2.17e-03 0.0818 8 0.071200.03338 -0.053820.0938 1.206 3.05e-03 0.0637 9-2.575740.928741.507554.2961 0.342 3.42e+00 0.4983 * 100.10792 -0.338160.341330.3987 1.305 5.38e-02 0.1963 11 -0.034270.09253 -0.002690.2180 1.172 1.62e-02 0.0861 12 -0.03027 -0.048670.05397 -0.0677 1.291 1.60e-03 0.1137 130.07237 -0.035620.011340.0813 1.207 2.29e-03 0.0611 140.04952 -0.067090.061820.0974 1.228 3.29e-03 0.0782 150.02228 -0.004790.006840.0426 1.192 6.32e-04 0.0411 16 -0.002690.06442 -0.08419 -0.0972 1.369 3.29e-03 0.1659 170.028860.00649 -0.015700.0339 1.219 4.01e-04 0.0594 180.248560.18973 -0.272430.3653 1.069 4.40e-02 0.0963 190.172560.02357 -0.098970.1862 1.215 1.19e-02 0.0964 200.16804 -0.21500 -0.09292 -0.6718 0.760 1.32e-01 0.1017 21 -0.16193 -0.297180.33641 -0.3885 1.238 5.09e-02 0.1653 220.39857 -1.025410.57314 -1.1950 1.398 4.51e-01 0.3916 * 23 -0.159850.03729 -0.05265 -0.3075 0.890 2.99e-02 0.0413 24 -0.119720.40462 -0.46545 -0.5711 0.948 1.02e-01 0.1206 25 -0.016820.000850.00559 -0.0176 1.231 1.08e-04 0.0666 Claramente,asobservaes9e22soasquemerecemmaioratenoem nossaanlise.ParainvestigaroefeitodessasobservaesnomodelodeYemX1e X2, observe os resultados apresentados a seguir. Modelo o 12QMresR2 com obs. 9 e 222,3411,6160,01410,620,9596 sem obs. 94,4471,4980,0105,900,9487 sem obs. 221,9161,7860,01210,060,9564 sem obs. 9 e 224,6431,4560,0116,160,9072 Retiraraobservao9produzmudanasde90%em0,7,3%em1e28% em2e,portanto,temosqueestaobservaoexercerazovelinfluncianos coeficientes.Poroutrolado,aretiradadaobservao22produzmudanas relativamentemenoresnoscoeficientesdaregressoearetiradadeambasproduz mudanas similares quelas observadas quando da retirada somente da observao 9.Conclumos, assim, que as observaes 9 e 22, mais fortemente a 9, influenciam no ajuste do modelo por M.Q.O. Investigaessubsequentes,realizadasjuntoaopesquisador,podemrevelar razesparaaretiradadeumaouambasasobservaesdaanlise.Nessecaso,as anlises devem ser refeitas. 28Giolo, Suely RuizAnlise de Regresso GrficosdosresduosdomodeloYemX1eX2semaobservao9so apresentadosaseguir.Notequehumamelhoraconsiderveldosmesmosno sentidodequeospressupostosencontram-semelhoresatendidossemareferida observao. Figura 2. Grficos dos resduos do modelo Y em X1 e X2 sem a observao 9. RelembrequeomodelosomentecomaregressoraX1 mostrou ser, tambm, umbomcandidato,R2=0,9305,paraaanlisedessesdados.Seria,portanto, interessante comparar os resduos desse modelo com os do modelo que utiliza Y em X1eX2,ambossemaobservao9.Essesgrficosencontram-seapresentadosa seguir e mostram resultados muito similares aos obtidos anteriormente. Figura 3. Grficos dos resduos do modelo Y em X1 sem a observao 9. Comadiscussodosresultadosobtidos,pode-se,ento,juntamentecomo pesquisador,procederaescolhaporumdosmodelos,dentreosanalisados,que apresentarem-se razoveis para a predio da varivel resposta Y. 29Giolo, Suely RuizAnlise de Regresso Considerando que o modelo escolhido foi aquele com as regressoras X1 e X2 e sem a observao 9 temos: o modelo ajustado:E(Y | X1, X2) =Y=4,447 + 1,498 X1 +0,010 X2 a representao grfica dos valores observados Yi e do plano ajustado Figura 4. Valores observados e plano ajustado Figura 5. Plano ajustado pelos parmetros estimados podemos dizer que quando X1 (quantidade de bebida estocada) mantida constante, teremos um acrscimo de 0,010 minutos no tempo mdio para a realizao dos servios de rotina a cada acrscimo de 1 unidade na distncia(X2).Deformaanloga,teremosumacrscimode1,498minutosno tempomdioparaarealizaodosserviosderotinaacadaacrscimode1 unidade em X1 (quantidade de bebida estocada). Intervalosdeconfianaparaarespostamdiaemque,porexemplo,x1=8ex2=275 resulta emY= 19,22 minutos e I.C.(Y)95% = (17,65; 20.79) minutos. 30 Giolo, Suely Ruiz Anlise de Regresso 7.Mtodospara tratar com a multicolinearidade 7.1 Coleta adicional de dados Em alguns casos, coletar dados adicionais para combinaes de Xi e Xj em que setenhapoucosdadosobservadospodeajudarasolucionar,ouamenizar,oproblema da multicolinearidade. Infelizmente,acoletadedadosadicionaisnemsemprepossveldevidoaos custos ou mesmo a impossibilidade devido ao processo sendo estudado. Alm disso, o problema pode ser devido a caractersticas estruturais da populao e, portanto, coletar novos dados nesses casos tem pouco valor. ParaX1 = renda familiar e X2 = tamanho da residncia,altamenteprovvelnoencontrarmosalgumascombinaesdessas2 variveis, como, por exemplo, a combinao renda alta e residncia muito pequena. 7.2Reespecificao do modelo Emsituaestaiscomoquando2regressorasaltamentecorrelacionadasso usadasnomodelo,podemosfazeralgumareespecificaocomoredefiniras variveis.Porexemplo,seX1, X2 e X3 so quase linearmente dependentes, podeser possvel encontrar uma funo dessas variveis tal como: X = (X1 + X2) / X3 ouX = X1*X2*X3 ououtras,que preserve a informao contida nas regressoras originais mas reduzem o problema da multicolinearidade (mal condicionamento da matriz X).Outrareespecificaoamplamenteusadaaeliminaodevariveis.Por exemplo,seX1,X2eX3soquaselinearmentedependentes,eliminarX3(ououtra) podesertil.Atcnicadeeliminaoaltamenteefetiva,pormpodeprejudicaro poder preditivo do modelo. 7.3Regresso Ridge OmtododeM.Q.O.usadoparaaestimaodoscoeficientesdaregresso linearrequerquesejaumestimadorno-viciadode.Porm,seosdadosnoso ortogonais, estimativas muito pobres so obtidas. Umaalternativa,ento,retiraraexignciadeque sejano-viciadoe encontrar um estimador * com um pequeno vcio mas que tenha menor varincia do que . Obs: veja Montgomery e Peck (1992) paramaiores detalhes. 31 Giolo, Suely Ruiz Anlise de Regresso 8.- Seleo de variveis e construo do modelo 8.1 Problemas na construo do modelo Emmuitosproblemasprticosoanalistatemumagrandequantidadede regressorascandidatasqueeleacreditaestareminfluenciandonaresposta. Precisamos,ento,encontrarumsubconjuntoapropriadodessasregressorasparao modeloetemos,portanto,ochamadoproblemadeseleodevariveisoqual envolve dois objetivos conflitantes: 1O) gostaramos que o modelo inclusse tantas quantas regressoras possveis de modo que a informao contida nessas regressoras possam auxiliar no valor predito de y e, 2o)precisamosqueomodeloincluatopoucas regressoras quanto possvel (modelo parcimonioso)porqueavarinciadaprediocrescequandoonmeroderegressoras cresce.Almdisso,quantomaisregressorasexistiremnomodelo,maiorserocusto para coleta e manuteno do modelo. Oprocessodeencontrarummodeloqueamarreessesdoisobjetivos chamado seleo da melhor equao de regresso. Infelizmente, no existe uma nica definio de melhor.Diversosalgortmospodemserusadosparaselecionarasvariveiseesses procedimentosfrequentementeespecificamdiferentessubconjuntosdevariveis regressorascomoasmelhores.Nenhumdosprocedimentosqueveremosfornecem garantiasdeproduziramelhorequaoderegresso,massimumadaspossveis melhoresequaes.Osprocedimentosdevem,portanto,servistospeloanalistacomo um mtodo para explorar a estrutura dos dados. 8.2Critrios para avaliao dos modelos No problema de seleo de variveis, dois aspectos so importantes: i) encontrar umsubconjuntodevariveisdentreoconjuntodelaseii)decidirseosubconjunto escolhidomelhordoqueumoutro.Paraessafinalidade,utilizaremososseguintes critrios: Coeficiente de determinao mltiplo: R2 Paracadasubconjuntodepvariveisregressorastemosumvalorparao coeficientededeterminaomltiplo,oqualdenotaremosporR2p.OvalordeR2p cresce quando p (p = no. de regressoras) cresce e mximo quando todas as p variveis regressorassousadas.Assim,oanalistapodeusarocritriodeadicionarregressoras at o ponto em que a adio de uma varivel no mais til pois fornece um acrscimo muito pequeno em R2p. Coeficiente de determinao mltiplo ajustado R2a ou QMres Devido a algumas dificuldades em interpretar o coeficiente R2, alguns analistas preferem usar o coeficiente de determinao mltiplo ajustado. O critrio escolher um subconjunto de variveis regressoras que tenha o mximo R2a. Note que esse critrio, equivalenteaencontrarumsubconjuntodevariveisregressorasqueminimizeo QMres, ou seja, o subconjunto que maximiza R2a, minimizar o QMres. 32 Giolo, Suely Ruiz Anlise de Regresso Estatstica Cp de Mallows Mallowspropsumcritriooqualbaseia-senaSQres.Deacordocomesse critrio,devemoscalcular,paracadasubconjuntodepvariveisregressoras,a correspondente SQres(p)e, ento, obter: Cp = SQres(p)- n+ 2(p+1) 2 em que 2 estimado pelo QMres do modelo com as p variveis regressoras candidatase(p +1)=no. de parmetros em cada modelo. Para o modelo completo temos Cp = p+1. Geralmente, pequenos valores de Cp sodesejveis.RegressescomCpprximosdalinhaCp=p+1eabaixodelaso candidatas ao melhor modelo. 8.3 - Tcnicas computacionais para seleo de variveis 8.3.1 - Todas as regresses possveis Esteprocedimentorequerqueoanalistaajustetodasasequaesderegresso envolvendoumaregressoracandidata,duasregressorascandidataseassim sucessivamente. As equaes so, ento, avaliadas de acordo com os critrios vistos (ou umaponderaodeles),eomelhormodeloselecionado.claroqueonmerode equaescrescerapidamentequandoonmeroderegressorascandidatastambmcresce. Se p =10, por exemplo, ento teremos 1024 regresses possveis. 8.3.2. Pesquisa direta dos ts AestatsticadetesteparatestarHo:j=0paraomodelocompletocomp+1 parmetrostj=j/d.p.(j).Regressorasquecontribuemsignificativamenteparao modelo tero | tj | grandes e tendero a serem includas no subconjunto das melhores regressoras.Assim,ordenarasregressorasdeacordocomaordemdecrescentede magnitude dos | tj |(j = 1, 2, ... p) e, ento, inclu-las uma a uma no modelo, deve nos levar ao melhor modelo (ou a um dos melhores). Estaestratgiadeseleofrequentementemuitoefetivaquandoonmerode variveis regressoras relativamente grande (p > 20 ou 30). 8.3.3. Mtodos Stepwise Devidoaoprocedimentoqueavaliatodasasregressespossveisser,em algumassituaes,muitorduo,vriosoutrosmtodostmsidodesenvolvidospara avaliao somente de um pequeno nmero de modelos de regresso, seja pela adio ou retiradaderegressorasemcadatempo.Essesmtodossoreferidoscomo procedimentos do tipo stepwise e podem ser classificados em 3 categorias: 33 Giolo, Suely Ruiz Anlise de Regresso 1a.) seleo forward (passo a frente); 2a.) eliminao backward (passo atrs) e 3a.) seleo stepwise (passo a passo). Seleo Forward(passo a frente) Esseprocedimentocomeacomnenhumavarivelnomodeloevaiinserindo regressoras,umadecadavez,nomodeloatqueomelhor(ouumdosmelhores) modelo seja obtido. A 1a. regressora a entrar no modelo aquela que tem a maior correlao simples com a varivel resposta Y, isto , omaior rYXj(j = 1, 2, ..., p). A 2a. regressora a entrar ,agora,aquelacommaiorcorrelaocomY,dadoquejexisteumaregressorano modelo.Emoutraspalavras,a2a. regressora escolhida aquela com maior correlao parcial(maiorrYj.i para jiei=ndicedavarivelescolhidanopasso1ou, equivalentemente, maior estatstica F parcial F* = SQR ( Xj | Xi) / QMres ( Xi, Xj). O procedimento pra quando a estatstica F-parcial, em um particular passo, no exceder FIN ou quando a ltima regressora candidata adicionada ao modelo. Obs: FIN =F(; 1; n-p-1) aum nvel de significncia pr-selecionado. Eliminao Backward(passo atrs) AeliminaoBackwardcomeacomomodelooqualcontmtodasask regressorascandidatasevairetirando,umaauma,asquenoforemsignificativas.A escolha para a retirada da 1a. regressora o seguinte: i)paracadaregressoracalculadoaestatsticaF-parcialcomoseelafossealtimaregressora a entrar no modelo; ii)amenordessasestatsticasF*comparadacomFout(ouFto remove). Se a menor F* for menor que Fout, ento aquela regressora removida. Agora,omodelocomp-1regressorasajustadoenovasestatsticasF*so calculadas para este novo modelo e o procedimento repetido. Obs:Fout = F(, 1,n-p-1)aum nvel de significncia pr-selecionado. Seleo Stepwise(passo a passo) AseleoStepwiseumamodificaodaseleoForwardemque,emcada passo, todas as regressoras que entraram no modelo so reacessadas via sua estatstica F parcial. Uma regressora adicionada em um passo anterior pode agora ser redundante. Se aestatsticaFparcialparaumavarivelformenorqueFout,entoaquelavarivel retirada do modelo. AseleoStepwiserequerdoisvaloresdecorte:FineFout.Algunsanalistas preferemescolherFin=Fout,masistononecessrio.FreqentementeescolhemosFin>Fout,demodoatermos,relativamente,maisdificuldadesparaadicionarmosdo que para retirarmos uma regressora.

34 Giolo, Suely Ruiz Anlise de Regresso Comentrios: Osprocedimentosvistos(seleoforward,eliminaobackwardeseleo stepwise) no necessariamente levam a escolha do mesmo modelo final; Recomenda-sequetodososprocedimentossejamaplicadosnaesperanadeque hajaalgumaconcordnciaentreelesoumesmoparaaprenderalgomaissobrea estrutura dos dados; Oprocedimentodeseleoforwardtendeaconcordarcomodetodasas regressespossveisparasubconjuntospequenosderegressoras,enquantoo procedimento de eliminao backward para subconjuntos grandes de regressoras. Omodelofinalobtidoporqualquerumdosprocedimentosdeveseranalisado quantoaoseusentidoprtico.Analistasinexperientespodemconcluirporummodelonorealstico.Sugere-se,portanto,queoanalistarespondaasseguintes questes: 1a) o modelo obtido razovel? Isto , as regressoras no modelo fazem sentido luz do problema real? 2a) o modelo utilizvel para seu propsito pretendido? (custos para coleta dos dados, regressora no observvel na prtica, ....). 3a)Sooscoeficientesderegressorazoveis?Isto,ossinaisemagnitudedos coeficientes so realsticos e seus erros-padro relativamente pequenos? 4a)Soosusuaisdiagnsticosdeadequacidadedomodelosatisfatrios?(anlisede resduos, diagnstico de influncia, ...). 9. Extrapolaes Novamente,devemostomarmuitocuidadoquantoaextrapolaes.Em regressolinearmltiplanopodemosolharmeramenteparaavariaodecada varivelindependente,massimparaaregioconjuntadefinidaporelas.Observeo exemplo abaixo: X2

X1 Figura 5 Regio conjunta de X1 e X2 regio coberta por X1 eX2 conjuntamente Paradetectarseumnovopontox=(1,xi1,xi2,...,xi,p)caidentrodaregio usaremos o seguinte procedimento baseado nos elementos da diagonal da matrizH, ou seja, nos elementos hii. Considere hmx = maior valor de hii . O conjunto de pontos x que satisfazem: x( XX)-1 x hmx 35 Giolo, Suely Ruiz Anlise de Regresso estoinclusosnoelipside(regioconjuntadefinidapelasregressoras).Ento,se estamosinteressadosnaestimaonopontoxo =[1xo1xo2....xop],alocalizao deste ponto relativa ao elipside obtida por: hoo = xo ( XX)-1 xo sehoo >hmx, ento xo est fora do elipside e sehoo hmx, ento xo est dentro ou nos limites do elipside. Exemplo:ParaosdadosdaTabela2temos4regressorase,portanto,24=16 possveis equaes de regresso (considerando todas com o intercepto e sem a presena de interaes). Tabela 2: Dados observados em um estudo Observao iYi Xi1 Xi2 Xi3Xi4 1 78,5726660 2 74,31291552 3104,31156820 4 87,61131847 5 95,9752633 6109,21155922 7102,7371176 8 72,51312244 9 93,12541822 10115,92147426 11 83,81402334 12113,31166912 13109,41068812 Fonte: Montgomery e Peck, 1992. OsresultadosdasSQres(p),R2p,R2a, QMres(p)eC(p),das16regresses mencionadas, encontram-se apresentados na Tabela 3. Tabela 3. Resumo de todas as regresses possveis com o intercepto e seminteraes. no. de regressoras no. de parmetros regressoras no modelo SQres R2p R2a QMres Cp Nenhuma1Nenhuma2715,7600226,31442,92 12X1 1265,680,53390,4915115,06202,55 12X2 906,330,66620,635982,39142,49 12X3 1939,400,28580,2209176,31315,16 12X4 883,860,67450,644980,35138,73 23X1 X2 57,900,97860,97445,792,68 23X1 X3 1227,070,54810,4578122,70198,10 23X1 X4 74,760,97240,96697,475,50 23X2 X3 415,440,84700,816441,5462,44 23X2 X4868,880,68000,616086,88138,23 23X3 X4 175,730,93520,922317,5722,37 34X1 X2 X3 48,110,98220,9763 5,343,04 34X1 X2 X4 47,970,98230,9764 5,333,02 34X1 X3 X4 50,830,98120,9750 5,643,50 34X2 X3 X4 73,810,97280,9637 8,207,34 45X1 X2 X3 X4 47,860,98230,9735 5,985,00 36 Giolo, Suely Ruiz Anlise de Regresso NasTabelas4e5temos,ainda,amatrizdecorrelaessimpleseos coeficientesdasregressesestimadosporMQO.paracadaumadas16regresses consideradas, respectivamente. Tabela 4. matriz de correlaes simplesX1X2 X3 X4 X1 1,0 X2 0,2291,0 X3 -0,824-0,139 1,0 X4 -0,245-0,973 0,030 1,0 Y 0,731 0,816-0,535-0,821 Tabela 5: Estimativas por MQO para as 16 regresses consideradas regressoras no modelo o 1234X1 81,4791,869 X2 57,424 0,789 X3 110,203-1,256 X4 117,568-0,738 X1 X2 52,5771,468 0,662 X1 X3 72,3492,3120,494 X1 X4 103,0971,440-0,614 X2 X3 72,075 0,731-1,008 X2 X494,160 0,331-0,457 X3 X4 131,282-1,200-0,724 X1 X2 X3 48,1941,696 0,657 0,250 X1 X2 X4 71,6481,452 0,416-0,237 X1 X3 X4 111,6841,052-0,410-0,643 X2 X3 X4 203,642-0,923-1,448-1,557 X1 X2 X3 X4 62,4051,551 0,102-0,144 ObservepelaTabela5queaoconsiderarmossomentearegressoraX2 no modelo,aestimativadeseuefeitonarespostamdiade0,789.Se,contudo,X4 adicionadaaessemodelo,esseefeitoreduzidopara0,311e,ainda,seX3 adicionada ao modelo (permanecendo X2 e X4), o efeito de X2 muda para 0,923. Est claro,portanto,queaestimativaobtidaporM.Q.O.deumcoeficienteindividual dependemuitodequaisoutrasregressorasestonomodelo.Asgrandesmudanas observadasnoscoeficientesderegressoquandoregressorassoadicionadas,ou removidas,indicamaexistnciadesubstancialcorrelaoentreasregressorasoque podesernotadonamatrizdecorrelaessimplesapresentadanaTabela4.Est presente, portanto, o problema da colinearidade (ou multicolinearidade). Note, pela matriz de correlaes simples, que os pares (X1, X3)e(X2, X4) so altamente correlacionados visto que tais correlaes correspondem a valores prximos de 1. Esta estrutura de correlao parcialmente responsvel pelas grandes mudanas observadas nos coeficientes estimados. Conseqentemente, adicionar outras regressoras quandoX1eX2ouX1eX4jestonomodelo,serdepoucautilidadevistoquea informao contida nestas demais regressoras est essencialmente presente em X1 e X2 ou X1 e X4.AvaliandoosmodelospeloR2pobservamos,pelosresultadosapresentadosna Tabela 3, que aps duas regressoras estarem no modelo, pouco se ganha em termos de R2 com a introduo de novas variveis. Ambos os modelos com 2 regressoras, modelo comX1eX2eomodelocomX1eX4,possuemessencialmenteomesmoR2eem termos deste critrio faria pouca diferena na escolha de um ou outro. 37 Giolo, Suely Ruiz Anlise de Regresso UtilizandoocritriodemaximizarR2aou,equivalentemente,ocritriodeminimizaroQMrespodemosobservar,tambmpelaTabela5,queomodelocom menor QMres o que contm as regressoras X1, X2 e X4 (QMres = 5,33). Observe que, comoesperado,omodeloqueminimizaoQMresoquemaximizaR2a.Podemos, ainda,observar,destamesmatabela,quedoisoutrosmodeloscom3regressoras (modelo com X1, X2 e X3e o modelo com X1, X3 e X4) e dois outros modelos com 2 regressoras(modelo com X1 e X2 e o modelo com X1 e X4) tm valores para o QMres comparveis.SeX1eX2ouX1eX4 estonomodelo,existepequenareduono QMresseoutrasregressorasforemadicionadas.Porestecritrio,eentreosdois ltimos modelos mencionados, o modelo com X1 e X2 pode ser mais apropriado por ter menor QMres. PelocritriodeMallows,observamosquatromodelosconsideradosaceitveis (modeloscomCpmenoresquep+1=5).Selevarmosoutrosfatoresemconsiderao (como por exemplo: custos, dificuldades na obteno das medidas etc.) parece ser mais apropriado a escolha do modelo com X1 e X2 por possuir o menor Cp. NosQuadros1,2e3podemosobservarosresultadosdosmtodosdeseleo forward, backward e stepwise, respetivamente. Desses resultados, temos: i) modelo resultante da seleo forward: Y em X4, X1 e X2 ii) modelo resultante da seleo backward: Y em X1 e X2 iii) modelo resultante da seleo stepwise:Y em X1 e X2

Quadro 1. Resultados da seleo forward (passo a frente) obtidos no software R Start:AIC= 443.14 Y ~ 1 Df Sum of Sq RSS CpF value Pr(F) + X41 1831.90883.87 138.803822.7985 0.0005762 *** + X21 1809.43906.34 142.561321.9606 0.0006648 *** + X11 1450.08 1265.69 202.653312.6025 0.0045520 **+ X31776.36 1939.40 315.3145 4.4034 0.0597623 . 2715.76 443.1410

Step:AIC= 138.8 Y ~ X4 Df Sum of SqRSS CpF value Pr(F) + X11809.1074.76 5.5020 108.2239 1.105e-06 *** + X31708.13 175.7422.387640.2946 8.375e-05 *** + X21 14.99 868.88 138.2977 0.17250.6867 883.87 138.8038

Step:AIC= 5.5 Y ~ X4 + X1 Df Sum of SqRSS Cp F value Pr(F) + X2126.789 47.973 3.02225.0259 0.05169 . + X3123.926 50.836 3.50104.2358 0.06969 . 74.762 5.5020

Step:AIC= 3.02 Y ~ X4 + X1 + X2 Df Sum of SqRSS Cp F value Pr(F) 47.973 3.0222 + X31 0.109 47.864 5.00400.0182 0.896 Call: lm(formula = Y ~ X4 + X1 + X2) Coefficients: (Intercept) X4 X1 X2 71.6483-0.2365 1.4519 0.4161 38 Giolo, Suely Ruiz Anlise de Regresso Quadro 2. Resultados da seleo backward (passo atrs) obtidos no software R Start:AIC= 5 Y ~ X1 + X2 + X3 + X4 Df Sum of SqRSS Cp F value Pr(F) - X31 0.109 47.973 3.02220.0182 0.89592 - X41 0.247 48.111 3.04530.0413 0.84407 - X21 2.972 50.836 3.50100.4968 0.50090 47.864 5.0040 - X1125.951 73.815 7.34364.3375 0.07082 .

Step:AIC= 3.02 Y ~ X1 + X2 + X4 Df Sum of SqRSS CpF value Pr(F) - X419.9357.90 2.6830 1.8633 0.20540 47.97 3.0222- X21 26.7974.76 5.5020 5.0259 0.05169 . - X11820.91 868.88 138.2977 154.0076 5.781e-07 ***

Step:AIC= 2.68 Y ~ X1 + X2 Df Sum of Sq RSSCp F value Pr(F) 57.90 2.683 - X11848.43906.34 142.561 146.523 2.692e-07 *** - X21 1207.78 1265.69 202.653 208.582 5.029e-08 ***

Call: lm(formula = Y ~ X1 + X2, data = exe5) Coefficients: (Intercept) X1 X2 52.5773 1.4683 0.6623 Quadro 3. Resultados da seleo stepwise (passo a passo) obtidos no software R Start:AIC= 443.14 Y ~ 1 Df Sum of Sq RSS CpF value Pr(F) + X41 1831.90883.87 138.803822.7985 0.0005762 *** + X21 1809.43906.34 142.561321.9606 0.0006648 *** + X11 1450.08 1265.69 202.653312.6025 0.0045520 **+ X31776.36 1939.40 315.3145 4.4034 0.0597623 . 2715.76 443.1410

Step:AIC= 138.8 Y ~ X4 Df Sum of Sq RSS CpF value Pr(F) + X11809.10 74.76 5.5020 108.2239 1.105e-06 *** + X31708.13175.7422.387640.2946 8.375e-05 *** + X21 14.99868.88 138.2977 0.1725 0.6866842 883.87 138.8038- X41 1831.90 2715.76 443.141022.7985 0.0005762 ***

Step:AIC= 5.5 Y ~ X4 + X1 Df Sum of Sq RSS CpF value Pr(F) + X21 26.79 47.97 3.0222 5.0259 0.05169 . + X31 23.93 50.84 3.5010 4.2358 0.06969 . 74.76 5.5020- X11809.10883.87 138.8038 108.2239 1.105e-06 *** - X41 1190.92 1265.69 202.6533 159.2952 1.815e-07 ***

Step:AIC= 3.02 Y ~ X4 + X1 + X2 Df Sum of SqRSS CpF value Pr(F) - X419.9357.90 2.6830 1.8633 0.20540 47.97 3.0222+ X310.1147.86 5.0040 0.0182 0.89592 - X21 26.7974.76 5.5020 5.0259 0.05169 . - X11820.91 868.88 138.2977 154.0076 5.781e-07 ***

Step:AIC= 2.68 Y ~ X1 + X2 Df Sum of Sq RSS CpF value Pr(F) 57.90 2.6830+ X419.93 47.97 3.0222 1.86330.2054 + X319.79 48.11 3.0453 1.83210.2089 - X11848.43906.34 142.5613 146.5227 2.692e-07 *** - X21 1207.78 1265.69 202.6533 208.5818 5.029e-08 *** Call: lm(formula = Y ~ X1 + X2) Coefficients: (Intercept) X1 X2 52.5773 1.4683 0.6623 39 Giolo, Suely Ruiz Anlise de Regresso Observequenoexisteumaescolhaclaradamelhorequaoderegresso. muitofreqentecritriosdiferentessugeriremequaesdiferentes.Todomodelo candidatoamodelofinaldeve,contudo,seranalisadoquantoasuaadequacidade, pontos influentes, efeito de multicolinearidade etc. Utilizandoumaponderaodosresultadosobtidosquandodautilizaodos critriosemtodosdeseleo,parecerazovelindicarmosdoismodeloscomo candidatos ao melhor modelo. So eles, o modelo Y em X1 e X2 seguido do modelo YemX1eX4.Essesmodelosdevem,portanto,serinvestigadosquantoasua adequacidade(anlisederesduos,pontosinfluentes,necessidadedeinteraoetc.). 10. Validao dos Modelos de Regresso Paratodomodeloajustadodeveserverificado,dealgumamaneira,sua validade.Oobjetivodavalidaodeummodeloodeverificarseelefuncionarna prticafornencendo,assim,umaproteotantoparaomodeloajustadoquantoparao usurio. 10.1 - Tcnicas de Validao Trs procedimentos so teis para verificar a validade de um modelo: Anlise dos coeficientes do modelo e dos valores preditos por meio de: - comparaes com experimentos anteriores, quando existirem; - resultados de simulao. Coleta de novos dados para verificar o desempenho preditivo do modelo. Partio (split) dos dados que consiste em deixar parte dos dados originais fora da anlise para investigar o desempenho preditivo do modelo com a parte no utilizada no ajuste. Astcnicasdevalidaomencionadaassumemqueomodelotenhasido ajustadode dados provenientes de experimentos no planejados. Devem, contudo, ser aplicadasssituaesemqueexperimentosplanejadostenhamsidoconduzidos.O planejamento ajuda a minimizar problemas quanto a: fatores importantes no serem deixados de lado; identificao apropriada da variao (range) dos fatores. comumemexperimentosplanejados,ainclusodeumconjuntodepontos extras para verificao do desempenho preditivo do modelo ajustado. 40 Giolo, Suely Ruiz Anlise de Regresso 11. Regresso com varivel dummy 11.1Varivel dummy ou varivel fictcia As variveis usadas em anlise de regresso so usualmente quantitativas, isto ,possuemumaescalademedidabemdefinida(porexemplo:temperatura,presso arterial,rendaetc.).Ocasionalmentenecessrioousodevariveisindependentes qualitativasoucategricascomoporexemplo:operadores,estaodoano,turno do trabalho, sexoetc.Variveisqualitativascomoascitadaspodemserusadasemmodelosde regresso. Em geral, uma varivel qualitativa no possui uma escala de medida natural, maspodemosdesignarumconjuntodenveisparaestavarivelafimdequantificar seu possvel efeito na resposta. Isso feito por meio do uso de variveis indicadoras ou, assim, tambm denominadas variveis dummy ou fictcias.Existemmuitasmaneirasdeidentificarquantitativamenteasclassesdeuma varivel qualitativa. Usaremos variveis indicadoras que tomam os valores 0 e 1. Esse tipo de varivel indicadora fcil de usar e amplamente empregada, mas no representa o nico modo de quantificar uma varivel qualitativa.Comoumexemplo,considereumexperimentoemquetemosY=varivel respostacontnua,X1=varivelindependentecontnuaeX2=varivelindependente qualitativa com dois nveis: nvel 1 e nvel 2. Deveramos, ento, definir duas variveis indicadoras, digamos: X21 = 1 se nvel 1eX22 =1 senvel20 caso contrrio 0 caso contrrio para representar cada classe da varivel X2. Essaabordagemintuitivadecriarumavarivelindicadoraparacadaclasseda varivelqualitativalevainfelizmenteadificuldadescomputacionais.Observequena situao acima descrita,econsiderando n = 4, teramos: X = 1X1110 1X2110 1X3101 1X4101 Notequea1acolunaigualasomada3ae4acolunase,sendoassim,as colunas so linearmente dependentes. Em conseqncia a matriz XXno ter inversa e,dessemodo,noserpossvelobterestimadoresnicosdoscoeficientesda regresso.Umamaneirasimplesdecontornarestadificuldaderetirarumadasvariveis indicadoras, por exemplo X22. A retirada de uma das variveis indicadoras no somente resolveoproblemacitado,maslevatambmainterpretaessimplesdosparmetros. Em geral, seguiremos o seguinte princpio: Uma varivel qualitativa com K classes ser representadapor K-1 variveis indicadoras, cada qual tomando os valores 0 e 1. 41 Giolo, Suely Ruiz Anlise de Regresso Exemplo:Suponhaqueumengenheiromecnicotemporinteresserelacionaravida efetiva de uma ferramenta de corte usada em um torno mecnico com a velocidade do torno em rpm (rotaes por minuto) e com o tipo de ferramenta de corte utilizada (tipo A ou B). Os dados coletados esto apresentados na tabela a seguir: vida efetiva (horas) velocidade (rpm) tipo ferramenta vida efetiva(horas) velocidade (rpm) tipo ferramenta 18.73610A30.16670B 14.52950A27.09770B 17.43720A25.40880B 14.54840A26.051000B 13.44980A33.49760B 24.39530A35.62590B 13.34680A26.07910B 22.71540A36.78650B 12.68890A34.95810B 19.32730A43.67500B Fonte: Montgomery e Peck (1992) Avariveltipodeferramentaqualitativaepossui2nveis(tipoAetipoB). Usando uma varivel indicadora (dummy) teremos: X2 =0 se ferramenta tipo A 1 se ferramenta tipo B Assumindo o modelo Y = o + 1X1 + 2X2 + e como X2 assume somente os valores 0 e 1 temos: X2 = 0 Y = o + 1X1 + X2 = 1 Y = (o +2) + 1X1 + . Portanto,paraotipodeferramentaA(X2=0),arelaoentreavidaefetiva desta ferramenta e a velocidade do torno uma reta com intercepto o e inclinao 1. Analogamente,paraotipoB,umaretacomintercepto(o+2)einclinao1.Os modelosso,portanto,duasregresseslinearesparalelas,isto,duasretascom inclinao comum 1 e interceptos diferentes. Oparmetro2expressaadiferena,emtempodevidamdio,resultanteda mudana da ferramenta tipo A para o tipo B. Intervalo de confiana e teste de hipteses para 2 so obtidos de forma anloga aos apresentados para o e 1. Podemos,ento,generalizaressaabordagemparafatoresqualitativoscom qualquer nmero de nveis. Suponha que tivssemos 3 tipos de ferramentas (A, B e C). Nessecaso,duasvariveisdummyseriamrequeridasparaincorporarostrsnveisno modelo e estas seriam, por exemplo: X2 = 1 se ferramenta tipo A e X3 = 1 se ferramenta tipo B 0 caso contrrio 0 caso contrrio 42 Giolo, Suely Ruiz Anlise de Regresso Ento, X2X3 10ferramenta tipo A 01ferramenta tipo B 0 0ferramenta tipo C e o modelo deregresso ficaria expresso por: Y = o + 1X1 + 2X2 +3X3 + , em que:

X2X3 10Y = (o +2)+ 1X1 + 01Y = (o +3)+ 1X1 + 0 0Y = o + 1X1 + isto , trs retas paralelas com mesma inclinao e interceptos diferentes. Comentrio:Aseguintequestopodeserfeitanessescasos:nopoderamoster ajustadoinicialmenteummodelolinearparacadatipodeferramentaaoinvsdeum nico modelo com uma varivel dummy ? A resposta sim, poderamos. No entanto, a abordagem de um nico modelo , em geral, prefervel porque o analista tem somente uma equao final para trabalhar ao invs de duas, o que mais prtico. Alm disso, como ambas as retas so assumidas terem a mesma inclinao, faz sentido combinar os dados de ambas as ferramentas para produzirumaestimativacomumdesseparmetro.Tambm,temosumaestimativa comumdavarinciadoserrosemaisgrausdeliberdadedoquedeveramosterno ajuste de dois modelos de regresso lineares separados.

11.2Modelo contendo efeito da interao Suponhaagoraasituaoemquearegressolinear,relacionandootempode vida das ferramentas e a velocidade do torno, produza retas em que tanto as inclinaes quantoosinterceptossejamdiferentes.Podemosmodelaressasituaoconsiderando umavariveldummyeainteraodelacomavelocidadedotorno,isto,X1X2de modo a termos o seguinte modelo: Y = o + 1X1 + 2X2 +3X1X2 + . Nessecaso,2noindicamaisoefeitonotempodevidamdioparaqualquerdado nvel de X1. O efeito do tipo de ferramenta depende agora de X1 (velocidade). ParaverificarseotipodeferramentarealmentedependedonveldeX1basta testarashiptesesHo:3=0versusHa:30.Adependnciaserafirmativase rejeitarmos Ho. 43 Giolo, Suely Ruiz Anlise de Regresso Como no exemplo, X2 assume somente os valores 0 e 1 temos: X2 = 0 Y = o + 1X1 + X2 = 1 Y = (o + 2) + (1 +3)X1 + , as quais no so retas paralelas. Pergunta: Qual o modelo mais adequado para o exemplo? Com ou sem interao? 11.3Algumas consideraes Ousodevariveis(dummy)pararepresentarvariveisindependentes qualitativasmaisindicadodoqueaalocaodecdigosquaisquerscategorias dessas variveis. A dificuldade bsica com cdigos alocados que eles definem uma mtricaparaosnveisdavarivelqualitativaoqualpodenoserrazovel.Podemos, por exemplo, alocar arbitrariamente os cdigos 1, 2 e 3 para uma varivel independente qualitativacomtrsnveis.Estescdigosimplicamquearespostamdiamudaa mesmaquantidadequandomudamosdeumnvelparaoutro.Istopodenoestarde acordocomarealidademasconsequnciadoscdigos1,2e3osquaisassumem distnciasiguaisentreos3nveis.Poderamos,claro,alocaroutroscdigoscom espaamentos diferentes, mas continuariam ainda sendo arbitrrios. Variveis indicadoras, em contraste, no fazem suposio sobre o espaamento dos nveis e dependemos dos dados para mostrar os efeitos diferenciais que ocorrem. Exemplo:Suponhaumexperimentoemquetem-seY=variveldependente quantitativa;X1=varivelindependentequantitativaeX2=varivelindependente qualitativa com trs nveis (A, B e C). Se considerarmos cdigos alocados aos nveis, como por exemplo 1, 2 e 3, teremos: 1 se nvel A X2 = 2 se nvel B 3 se nvel C e, conseqentemente, E(Y) = 0 + 1X1 + 2X2 em que, se X2 = 1 E(Y) =(0 + 2) + 1X1 se X2 = 2 E(Y) =(0 +22)+ 1X1 se X2 = 3 E(Y) =(0 + 32) + 1X1 Quandomudamos,porexemplo,donvelAparaonvelB,amudanana respostamdiaserigualaE(Y|X2=2)-E(Y|X2=1)=2.Analogamente,deB para C ser igual a E(Y | X2 = 3) - E (Y | X2 = 2) = 2. Ento, usar os cdigos 1, 2 e 3,implica que a resposta mdia muda a mesma quantidade quando mudamos do nvelA para B ou de B para C. Isto pode no estar de acordo com a realidade mas resultado dos cdigos 1, 2 e 3os quais assumem distncias iguais entre os trs nveis. 44 Giolo, Suely Ruiz Anlise de Regresso

Por outro lado, se usarmos variveis dummy, como, por exemplo: X21 = 1 se nvel A eX22 = 1 se nvel B 0 c.c.0 c.c. teremos:E(Y) = 0 + 1X1 + 2X21 +3X22de modo que,

se X21 = 1 e X22 = 0 E(Y) = (0 + 2) + 1X1 se X21 = 0 e X22 = 1 E(Y) = (0 + 3) + 1X1

se X21 = 0 e X22 = 0 E(Y) =0 + 1X1 Assim,mudardeAparaBimplicaemumamudananarespostamdiade(2 -3)unidades.Analogamente,mudardeAparaC,implicaemumamudana(ou efeito diferencial entre A e C) de 2 unidades emudar de B para C em uma mudana de 3 unidades. Note que no existem restries arbitrrias entre os efeitos diferenciais e, sendo assim,as variveis dummy so preferveis aos cdigos alocados. 11.4Outros cdigos para variveis indicadoras Usamosataquiumesquemaparacodificarosnveisdeumavarivel qualitativa em que k-1 variveis indicadoras do tipo 0,1 so criadas para representar os k nveis da respectiva varivel qualitativa. Outros esquemas possveis soapresentados a seguir. 1o. esquema alternativo Podemosusarvariveisindicadorasdotipo1e-1.Ento,paraumavarivel qualitativa com dois nveis (A e B) temos: X2 = 1se nvel A -1se nvel B. Analogamente, para uma varivel qualitativa com trs nveis (A, B e C) temos: X21 =1 se nvel AX22 =1 se nvel B -1 se nvel C-1 se nvel C 0c. c. 0c. c. em que, NvelX21 X22 A 10 B 01 C-1-1 Por analogia podemos representar variveis qualitativas com mais de trs nveis. 45 Giolo, Suely Ruiz Anlise de Regresso 2o. esquema alternativo Outra alternativa o uso de k variveis qualitativas do tipo 0, 1 para representar cadaumdosknveisdestavarivelretirando-seotermointerceptodomodelode regresso.Setemos,porexemplo,umavarivelindependentequantitativa(X1)euma varivel independente qualitativa (X2) com dois nveis (A e B) ento: E(Y) = 1X1 + 2X21 +3X22 em que: X21= 1se nvel A eX22 = 1se nvel B 0c. c.0c. c. Importante: No podemos comparar o R2 obtido ao usar o modelo de regressocom intercepto zero (denotaremos por R2(0) ) com o R2 obtido ao usar o modelo de regresso cominterceptoincluso.Nomodelocominterceptozero,avariaodescritapelo numeradoredenominadordeR2(0)representaadispersoemtornodezeroe,no modelocominterceptoinclusoavariaodescritarepresentaadispersoemtornoda mdiay . Existir assim uma forte tendncia para o R2(0) ser maior do que o R2 . Fato anlogoserobservadoparaaqualidadedoajustequetenderasersuperiorno modelo com intercepto zero. Isto resulta do fato que somas de quadrados no corrigidas sousadasemesmocomperformanceequivalenteR2(0)podeserconsideravelmente maiorqueR2.Aconseqnciaumagraveconfusoquando,erroneamente,modelos cominterceptoszerosocomparadoscommodeloscominterceptosinclusos.Os modeloscominterceptoszeroseroclassificadoserroneamente,emumrankde diversos modelos sendo comparados, como melhores. UmaalternativaparaoclculodeR2(0)demodoapodermosfazerrazoveis comparaes entre osmodelos dada por: R2(0) = 1 - [/=niiy12i) (y=niy12i) (y ] em que: =- [/ ]=niiy12i) (y=ni 12i) (y21i) (y =niix=ni 12i) (x Obs: Para maiores detalhes sobre esse assunto consultar: MYERS, R.H. Classsical and Modern Regression with Aplications. Massachusetts: PWS Publishers,1986. CASELLA, G. Leverage and regression through the origin. American Statistician,v.37,n.2, p.147, 1983. HAHN, G.J.Fitting regression models with no intercept term. Journal of QualityTechnology, p. 9- 56, 1977. 46 Giolo, Suely Ruiz Anlise de Regresso EXEMPLO: Para o exemplo das ferramentas descrito anteriormente temos: 1a. anlise: Usando a varivel dummy X2 para o tipo da ferramenta em que: X2 = 0 se ferramenta A 1 c.c. (se ferramenta B) obtivemos,comopodeserobservadonatabeladaAnovaabaixo,queainterao apresentou-se no significativa. Tabela da anlise de varincia do modelo com interao DfSum Sq Mean SqF valuePr(>F) X1 1293.01293.0133.2545 2.889e-05 *** X2B1 1125.03 1125.03 127.6847 4.891e-09 *** X1:X21 16.08 16.08 1.82480.1955 Residuals 16140.988.81 Assim, o modelo sem interao produziu os seguintes resultados:

Tabela da anlise de varincia do modelo sem interao DfSum Sq Mean Sq F valuePr(>F) X1 1293.01293.0131.716 2.990e-05 *** X2B1 1125.03 1125.03 121.776 3.587e-09 *** Residuals 17157.059.24 Quadro com as estimativas dos coeficientes e outros resultados relevantes Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 36.985603.5103810.536 7.16e-09 *** X1-0.026610.00452-5.887 1.79e-05 *** X2B 15.004251.3596711.035 3.59e-09 *** --- Signif. codes:0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 Residual standard error: 3.039 on 17 degrees of freedom Multiple R-Squared: 0.9003, Adjusted R-squared: 0.8886F-statistic: 76.75 on 2 and 17 DF,p-value: 3.086e-09 Figura 7.Anlise dos resduos do modelo sem interao 47 Giolo, Suely Ruiz Anlise de Regresso

Pelos resultados apresentados podemos observar que a anlise de varincia bem comoaanlisederesduosdomodeloajustado,isto,domodeloexpressopor E(Y) = 36,986 0,027X1 + 15,004X2apresentaram-se satisfatrias. Oparmetro2cujaestimativafoi15,004indicaamudana(nestecaso,o acrscimo,emhoras)namdiadevidaefetivadaferramentaresultantedatrocada ferramentatipoAparaB.Umaestimativaintervalarpara2(95%deconfiana) resultou em 12,135 horas 2 17,873 horas. Assim, espera-se com 95% de confiana, que o intervalo mencionado contenha o verdadeiro acrscimo na mdia de vida efetiva da ferramenta ao mudar da ferramenta A para B. Asretasparaasferramentasso,deacordocomaanliseapresentada,consideradasparalelas(mesmainclinaoeinterceptosdiferentes)eencontram-se representadas no grfico a seguir. E(Y) 0 + 2 tipo BE(Y) = 51,99 0,027X1 2 0 tipo A E(Y) = 36,986 0,027X1

X1 2a. anlise: Usando, agora, a varivel dummy X2 em queX2 =1 se ferramenta A -1 se ferramenta B obtivemos: Tabela da anlise de varincia do modelo sem interao DfSum Sq Mean Sq F valuePr(>F) X1 1293.01293.0131.716 2.990e-05 *** X2 1 1125.03 1125.03 121.776 3.587e-09 *** Residuals 17157.059.24 Quadro com as estimativas dos coeficientes e outros resultados relevantes Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 44.487733.4594712.860 3.47e-10 *** X1-0.026610.00452-5.887 1.79e-05 *** X2-7.502130.67983 -11.035 3.59e-09 *** --- Signif. codes:0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 Residual standard error: 3.039 on 17 degrees of freedom Multiple R-Squared: 0.9003, Adjusted R-squared: 0.8886F-statistic: 76.75 on 2 and 17 DF,p-value: 3.086e-09 48 Giolo, Suely Ruiz Anlise de Regresso Figura 8.Anlise dos resduos do modelo sem interao e dummy 1 e -1 Observequeaanlisedevarinciadestemodelobemcomoaanlisede resduosproporcionamresultadosiguaisaosproduzidosna1a.anliseeso,desse modo satisfatrios.O modelo ajustado , nesse caso, expressso por: E[Y] = 44,488 0,027X1 7,502X2 em que o parmetro 0 (intercepto) visto nesse modelo como a mdia dos interceptos das2linhasderegressodaqualaferramentaAeBdiferempor2unidadesem direesopostas.Dessemodo,temososmodelosparaasferramentasAeB representados no grfico a seguir. E(Y) 0 + 2 tipo B E[Y] = 51,99 0,027X1

0

0 - 2tipo A E[Y] = 36,986 0,027X1

X1 Note que os modelos para as ferramentas A e B so exatamente os encontrados na 1a anlise. A nica diferena que temos que na 1a anlise usamos um dos nveis da varivelqualitativacomoreferenciale,portanto,todososdemaisnveissero comparadoscomele.Jna2aanliseusamoscomoreferencialamdiadosnveisda varivelqualitativae,sendoassim,ascomparaessofeitasemrelaoamdiade vidadasferramentasAeBenocomamdiadevidadaferramentaAcomona1a anlise. 49 Giolo, Suely Ruiz Anlise de Regresso 3a. anlise: Usando duas variveis dummy do tipo 0, 1 em que: X21 = 1se ferramenta A eX22 = 1se ferramenta B 0c. c.0c. c eretirando o intercepto temos: Tabela da anlise de varincia do modelo sem interaoDfSum Sq Mean SqF valuePr(>F) X1 1 10847.3 10847.3 1174.142 < 2.2e-16 *** X211 602.6 602.6 65.228 3.206e-07 *** X2211991.71991.7215.590 4.343e-11 *** Residuals 17 157.1 9.2 Quadro com as estimativas dos coeficientes e outros resultados relevantes Coefficients: Estimate Std. Error t value Pr(>|t|) X1-0.026610.00452-5.887 1.79e-05 *** X21 36.985603.5103810.536 7.16e-09 *** X22 51.989853.5408214.683 4.34e-11 *** --- Signif. codes:0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 Residual standard error: 3.039 on 17 degrees of freedom Multiple R-Squared: 0.9885, Adjusted R-squared: 0.9864F-statistic: 485 on 3 and 17 DF,p-value: < 2.2e-16 Observe, como j chamado ateno anteriormente,que a anlise de varincia e, conseqentemente,ovalordeR2nosoiguaisaosobtidosnasanlisesanteriores. ParaqueoR2dessemodelopossasercomparadoaosdasduasanlisesanteriores devemos calcular R2(o) pois, em caso contrrio, teremos a falsa impresso de que este modelo melhor do que os demais, quando na realidade eqivalente a eles.Dos resultados obtidos podemos observar que o modelo ajustado e expresso por: E[Y] =- 0.027 X1 + 36,98 X21+ 51,99 X22

resulta em duas retas de regresso semelhantes s encontradas anteriormente. OBS: Obtenha R2(o) para este exemplo! 50 Giolo, Suely Ruiz Anlise de Regresso 12.Regresso Polinomial Omodeloderegressopolinomial(MRP)umcasoespecialdomodelode regressolineargeralY=X+.Estemodelopodeconteruma,duasoumais regressoras (variveis independentes) as quais podem estar em diversas potencias. Asregressorassoexpressascomumentecomoodesviodesuasrespectivas mdiasporquenosmodelospolinomiaistem-sefrequentementetermosaltamente correlacionados. Expressar as regressoras como o desvio de sua mdia pode, em muitos casos,auxiliar na reduo da multicolineridade. Em outros casos, mesmo centrando as regressorasnamdia,pode-secontinuartendonveisaltosdemulticolinearidade.Os polinmios ortogonais podem ser teis nessas situaes. 12.1Polinmios com uma regressora Suponha o modelo polinomialYi = o + 1X1i + 2X1i 2 + .. +kX1ik + i parai = 1, ., n.. Para tais modelos, as colunas da matriz X sero, geralmente, no ortogonais e, alm disso, se aumentarmos a ordem do polinmio por adicionar um termo k +1Xik+1, devemos recalcular a inversa (XX)-1 e as estimativas dos parmetros de ordem menor devero mudar. Se, no entanto, for ajustado o modelo: Yi=0 P0 (xi) +1 P1(xi ) +2 P2(xi )+ .... + k P(xi )+i i = 1,..., n em quePu (xi) a u-sima ordem do polinmio ortogonal definido de tal modo que, r s( r, s =0, 1, 2, .., k )0 ) ( ) (1==i snii rx P x P Po (xi ) = 1, o modelo torna-se, ento,Y =X + emque a matriz X : X =(((((

) () () () ( ) () ( ) () ( ) (2112 1 21 1 1n kkkn n ooox Px Px Px P x Px P x Px P x PMLM M MLL a qual tem colunas ortogonais e, portanto, XX = (((((((((

===nii kniinii ox Px Px P1212112) ( 0 000 ) ( 00 0 ) (LM M MLL 51 Giolo, Suely Ruiz Anlise de Regresso OscincoprimeirospolinomiaisPj(xi)paraocasodosnveisdeXserem ig