Regressão Linear (Ex. Resolvido)

4
AN ´ ALISE DE REGRESS ˜ AO LINEAR E DE CORRELAC ¸ ˜ AO Problemas Resolvidos 17.1 Suponha que um analista toma uma amostra aleat´ oria de 10 carregamentos recentes por caminh˜ ao feitos por uma companhia e anota a distˆ ancia em quilˆ ometros e o tempo de entrega ao meio-dia mais pr´ oximo. Construir o diagrama de dispers˜ ao para os dados da Tabela-1 e fazer considera¸ oes sobre se parece apropriada a an´ alise de regress˜ ao linear simples. Tabela-1 Amostra de observa¸ oes de distˆ ancias rodovi´ arias e tempo de entrega para 10 carrega- mentos aleatoriamente selecionados. Carregamento amostrado 1 2 3 4 5 6 7 8 9 10 Distˆ ancia X, em km 825 215 1070 550 480 920 1350 325 670 1215 Tempo de entrega, Y, em dias 3,5 1,0 4,0 2,0 1,0 3,0 4,5 1,5 3,0 5,0 Resp. Pelo diagrama, parece que os pontos seguem, de modo geral, uma rela¸ ao linear. Ent˜ ao, parece apropriada ao caso a an´ alise de regress˜ ao linear. 17.2 Determinar a equa¸ ao de regress˜ ao de m´ ınimos quadrados para os dados no Problema 17.1, e tra¸ car a linha de regress˜ ao no diagrama de dispers˜ ao para os dados. Resp. Com referˆ encia ` a Tabela 17.2, β = 10 i=1 X i Y i - n X Y 10 i=1 X 2 i - n X = (26.370) - (10)(762)(2, 85) 7.104.300 - (10)(762) 2 = 4653 1.297.860 =0, 0036. α = Y - β X =2, 85 - (0, 0036)(762) = 0, 1068 =0, 11. Portanto, Y (X )= α + βX =0.11 + 0.0036X Tabela 17.2 C´ alculos para a determina¸ ao da equa¸ ao de regress˜ ao linear para estimar o tempo de entrega com base na distˆ ancia rodovi´ aria 1

description

Problemas resolvidos de Análise de Regressão Linear e de Correlação

Transcript of Regressão Linear (Ex. Resolvido)

  • ANALISE DE REGRESSAO LINEAR E DE CORRELACAO

    Problemas Resolvidos

    17.1 Suponha que um analista toma uma amostra aleatoria de 10 carregamentos recentes porcaminhao feitos por uma companhia e anota a distancia em quilometros e o tempo de entregaao meio-dia mais proximo. Construir o diagrama de dispersao para os dados da Tabela-1 e fazerconsideracoes sobre se parece apropriada a analise de regressao linear simples.

    Tabela-1 Amostra de observacoes de distancias rodoviarias e tempo de entrega para 10 carrega-mentos aleatoriamente selecionados.

    Carregamento amostrado 1 2 3 4 5 6 7 8 9 10Distancia X, em km 825 215 1070 550 480 920 1350 325 670 1215Tempo de entrega,Y, em dias 3,5 1,0 4,0 2,0 1,0 3,0 4,5 1,5 3,0 5,0

    Resp. Pelo diagrama, parece que os pontos seguem, de modo geral, uma relacao linear. Entao,parece apropriada ao caso a analise de regressao linear.

    17.2 Determinar a equacao de regressao de mnimos quadrados para os dados no Problema 17.1,e tracar a linha de regressao no diagrama de dispersao para os dados.Resp. Com referencia a` Tabela 17.2,

    =10

    i=1XiYi nXY10i=1X

    2i nX

    =(26.370) (10)(762)(2, 85)7.104.300 (10)(762)2 =

    46531.297.860

    = 0, 0036.

    = Y X = 2, 85 (0, 0036)(762) = 0, 1068 = 0, 11.Portanto,Y (X) = + X = 0.11 + 0.0036X

    Tabela 17.2 Calculos para a determinacao da equacao de regressao linear para estimar o tempode entrega com base na distancia rodoviaria

    1

  • Carregamento Distancia X, Tempo de entrega,amostrado em km Y, em dias XiYi X2i Y

    2i

    1 825 3,5 2887,5 680.625 12,252 215 1,0 215,0 46.225 1,003 1070 4,0 4280,0 1.144.900 16,004 550 2,0 1100,0 302.500 4,005 480 1,0 480,0 230.400 1,006 920 3,0 2760,0 846.400 9,007 1350 4,5 6075,0 1.822.500 20,258 325 1,5 487,5 105.625 2,259 670 3,0 2010,0 448,900 9,0010 1215 5,0 6075,0 1.476.225 25,00

    Totais 7620 28,5 26.370,0 7.104.300 99,75

    Media X =P10

    i=1Xin Y =P10

    i=1 Yin =

    28,510

    = 762010 =762 = 2,85

    Note que as linhas tracejadas indicam o desvio entre cada valor amostrado de Yi e o correspon-dente valor estimado, Yi, i = 1, ..., n. A soma dos quadrados destes desvios e minimizada pela linhade regressao linear determinada pelo procedimento acima.

    17.3 Usando a equacao de regressao desenvolvida no Problema 17.2, estimar o tempo de entregapara um carregamento para 1.000 quilometros. Esta equacao de regressao poderia ser usada paraestimar o tempo de entrega para um carregamento de 2.500 quilometros?

    Resp. Y (x) = 0, 11 + 0, 0036X = 0, 11 + 0, 0036(1000) = 3, 71 dias.Nao e apropriado usar a equacao acima para uma viagem de 2.500 quilometros, porque os dados daamostra para esta equacao de regressao linear estimada incluem viagens de ate 1.350 quilometrossomente.

    17.4 Calcular o desvio padrao estimada de para o problema de analise do tempo de entrega,utilizando os valores determinados na solucao do Problema 17.2.Resp.

    2 =10

    i=1(Yi Yi)2n 2 =10

    i=1 Y2i

    10i=1 Yi

    10i=1XiYi

    n 2 =99, 75 (0, 11)(28, 5) (0, 0036)(26.370)

    8=

    1,6838 = 0, 2104 =

    0, 2104 = 0, 4587 = 0, 46

    17.5 Com as solucoes dos Problemas 17.3 e 17.4, construir um intervalo estimado de predicaoY de 95% para o tempo de entrega, envolvendo um carregamento para 1.000 quilometros, semconsiderar a incerteza associada com a propria posicao da linha de regressao.Resp. Uma vez que Y (x) (para X = 1.000) = 3,71 dias (do Problema 17.3), e = 0,46 (do Problema17.4), o intervalo de predicao de 95% (com graus de liberdade = 10 - 2 = 8) e:

    Y (1000) t(n 2; = 0, 05) =3,71 (2,306)(0,46) = 3,71 1,06 = 2,65 a 4,77 dias.

    Entao, dado um carregamento por caminhao que envolve uma distancia de 1.000 quilometros,estimamos que o tempo de entrega estara entre 2,65 e 4,77 dias, com uma probabilidade de 0,95.

    2

  • 17.6 Usando os valores determinados nos problemas anteriores, construir um intervalo de con-fianca de 95% para a media do tempo (E(Y |X) = +X) de entrega para um carregamento para1.000 quilometros.

    Resp. Dado Y (x) (para X = 1.000) = 3,71 dias, = 0,46 e os valores na Tabela 17.2,

    SbY (x)

    =

    1n

    +(Xi X)2

    (n

    i=1X2i (Pn

    i=1Xi)2

    n )= 0.46

    110

    +(1000 762)2

    7.104.300 (7620)210= 0, 1748 = 0, 17.

    O intervalo de confianca de 95% para a media condicional (onde os graus de liberdade = 10 -2 = 8) e:

    Y (1000) t(n 2; = 0, 05)SbY (x)

    = =3,71 (2,306)(0,17)= 3,710,39 = 3,32 a 4,10 diasEntao, para carregamentos por caminhao em distancias de 1.000 quilometros, estimamos que o

    tempo medio de entrega esta entre 3,32 e 4,10 dias, com 95% de confianca.

    17.7 Usando os valores determinados nos problemas anteriores, calcular o intervalo de predicaode. 95% para o tempo de entrega de um carregamento, dado que a distancia e de 1.000 quilometros,levando em conta a incerteza sobre a posicao da linha de regressao. Comparar este intervalo como construdo no Problema 17.5.

    Resp. Uma vez que Y (1000) = 3,71 dias, e que = 0,46, e SbY (x)

    = 0,17;

    SYseg =2 + S2bY (x)

    =(0, 46)2 + (0, 17)2 =

    0, 2405 = 0, 4904 = 0, 49

    O intervalo de confianca de 95% para a media condicional (onde os graus de liberdade = 10 -2 = 8) e:

    Y (1000) t(n 2; = 0, 05)SYseg = =3,71 (2,306)(0,49)= 3,711,13 = 2,58 a 4,84 dias.

    Como esperado, este intervalo de predicao e um pouco mais amplo do que o intervalo do Prob-lema 17.5, o qual foi construdo usando-se o erro padrao de estimacao e sem considerar a incertezaassociada com a localizacao do valor de regressao medio.

    17.8 Determinar o intervalo de confianca de 95% para para os dados de distancia e tempo deentrega discutidos nos problemas anteriores.Resp. Dados = 0,46 e os valores da Tabela 17.2,

    Sb=

    ni=1X

    2i nX

    2=

    0, 467.104.300 10(762)2 =

    0, 461.139, 24

    = 0, 0004.

    Uma vez que = 0,0036 (do Problema 17.2) e que graus de liberdade = n - 2 = = 10 - 2 = 8,o intervalo de confianca de 95% para e: t Sb= 0,0036 (2,306)(0,0004) = 0,0036 0,0009

    = 0,0027 a 0,0045.17.9 Com referencia ao Problema 17.8, testar a hipotese nula Ho: =0 para os dados de distanciae tempo de entrega a um nvel de significancia de 5%.Resp.

    Ho: =0 vs H1: 6==0tTab(gl = 8, = 0, 05) = 2, 306

    tcalc =boSb

    = 0003800,0004 = 9, 00.

    3

  • Portanto, rejeita-se a hipotese nula, e conclui-se que ha uma relacao significante entre a distanciados carregamentos e o tempo de entrega.

    17.10

    Coeficiente de determinacao

    R2 =SQReg

    SQT= 1 SQR

    SQT=

    16, 84218

    = 0, 9091

    Portanto podemos concluir que cerca de 91% da variacao no tempo de entrga e explicada peladistancia rodoviaria envolvida.

    4