J oanne Smaile Angela McGrane - acervodigital.ssp.go.gov.br · Administração com Excel ....

33
J oanne Smaile Angela McGrane 8 : :

Transcript of J oanne Smaile Angela McGrane - acervodigital.ssp.go.gov.br · Administração com Excel ....

Page 1: J oanne Smaile Angela McGrane - acervodigital.ssp.go.gov.br · Administração com Excel . 11111/ilf . Ili! 1111 Ili . 00011890 . ... lizado para demonstrar ou mostrar às pessoas

J oanne Smaile Angela McGrane

8

• •: •:

Page 2: J oanne Smaile Angela McGrane - acervodigital.ssp.go.gov.br · Administração com Excel . 11111/ilf . Ili! 1111 Ili . 00011890 . ... lizado para demonstrar ou mostrar às pessoas

Estatística Aplicada a Administração com Excel

11111/ilf Ili! 1111 Ili 00011890

Page 3: J oanne Smaile Angela McGrane - acervodigital.ssp.go.gov.br · Administração com Excel . 11111/ilf . Ili! 1111 Ili . 00011890 . ... lizado para demonstrar ou mostrar às pessoas

2000 by Editora Atlas S.A.

1. ed. 2002; 9. reimpressão 2014

Traduzido para o português de Essentic! Business Sttuistics

Copyright© Pearson Educaríon Límjted 2000

Esta tradução de Bssentia! Busir1ess Storisiics, primeira edição, é publicada por acordo com Pearson Education Limited.

A panír desta 7• reimpressão da 1 • edição, as planilhas, antes disponibilizadas cm disquete que acompanhava o livro, podem ser acessadas para download no site: www.EditoraAtlas.com.br

Composição: Uno-Jato Editoração Gráfica

Dados Internacionais de Catalogação na Publicação (CIP) (Câmara Brasileira do Livro, SP, Brasil)

maíles, Joanne Estatística aplicada à administração com Excel / Joanne Srnailes, Angela Mcgrane ; tradução

Bazán Tecnologia e Lingüística, Christiane Brito. - 1. ed. - 9. reimp. - São Paulo : Atlas, 2014.

Tfrulo original: Essential busíness statistics ISBN 978-85-224-3050-5

1. Administração - Métodos estatísticos 2. Microsoft Excel (Programa de computador) L McGrane, Angela. II. Título.

01-5373 CDD-519.5024658

Índice para catálogo sistemático:

1. Estatística aplicada à administração : Estatística matemática 519.5024658

TODOS OS DIREITOS RESERVADOS - É proibida a reprodução total ou parcial, de qualquer forma ou por qualquer meio. A violação dos direitos de autor (Lei ne 9.610/98) é crime estabelecido pelo artigo 184 do Código Penal.

Depósito legal na Biblioteca Nacional conforme Lei n2 10.994, de 14 de dezembro de 2004.

Impresso no Brasil/Printed in Brasii

Editora Atlas S.A. Rua Conselheiro Nébías, 1384 (Campos Elísios) 01203-904 São Paulo (SP) Tel.: (011) 3357-9144 www .EdítoraAtlas.com.br

Page 4: J oanne Smaile Angela McGrane - acervodigital.ssp.go.gov.br · Administração com Excel . 11111/ilf . Ili! 1111 Ili . 00011890 . ... lizado para demonstrar ou mostrar às pessoas

Sumário

Introdução, 9

1 COLETANDO DADOS, 17 Introdução, 17 1.1 Tipos de dados, 18 1.2 Fontes de informação, 21 1.3 Métodos de coleta de dados primários, 23 1.4 Estimativa do tamanho da amostra, 24 1.5 Escolhendo uma amostra conveniente e representativa, 25 1.6 Métodos de amostragem, 26 1. 7 Projeto de questionário, 30 1.8 Fontes de erro, 34 1.9 Projeto geral de pesquisa, 35 Pontos-chaves a serem lembrados, 37 Exercícios adicionais, 38 Exercício de planilha, 41

2 APRESENTANDO DADOS, 43 Introdução, 43 2.1 Tabulação, 44 2.2 Tabulação cruzada de duas ou mais variáveis de dados, 50 2.3 Apresentação gráfica de dados, 52 Pontos-chaves a serem lembrados, 66

Page 5: J oanne Smaile Angela McGrane - acervodigital.ssp.go.gov.br · Administração com Excel . 11111/ilf . Ili! 1111 Ili . 00011890 . ... lizado para demonstrar ou mostrar às pessoas

___ 4

Correlacão e Re "" ressao

Objetivos de aprendizagem

• Identificar, por diagrama, se existe uma relação possível entre duas variá­ veis.

• Quantificar a força de associação entre variáveis utilizando o coeficiente de correlação.

• Mostrar como a relação pode ser expressa como uma equação. • Identificar equações lineares escritas e em gráfico. • Examinar a regressão, um modelo linear amplamente utilizado e conside­ rar seus usos e limitações.

INTRODUÇÃO

Em muitas situações de negócios, é razoável sugerir que existam relações entre as variáveis. Por exemplo, seria lógico supor que as vendas de um item produzido em massa estejam relacionadas com seu preço e despesas de propa­ ganda.

Para propósítos de tomada de decisão, é útil identificar se existe uma rela­ ção linear entre duas variáveis e, se apropriado, quantificar sua força. Uma re­ lação pode ser identificada por meio de um gráfico chamado diagrama de

Page 6: J oanne Smaile Angela McGrane - acervodigital.ssp.go.gov.br · Administração com Excel . 11111/ilf . Ili! 1111 Ili . 00011890 . ... lizado para demonstrar ou mostrar às pessoas

CORMLAÇÃO E llP.GRESSÃO 115

dispersão, e sua força pode ser quantificada utilizando-se uma medida esta­ tística chamada de coeficiente de correlação.

Uma vez que tal associação tenha sido encontrada, freqüentemente pode ser muito útil produzir um modelo de previsão que possa ser utilizado para prever uma variável se a outra for conhecida (por exemplo, pode ser possível prever as vendas se as despesas com propaganda forem conhecidas).

Neste capítulo, serão apresentados dois métodos para quantificar a força da relação (a correlação) entre duas variáveis. Isso será acompanhado por uma seção que discute como um modelo linear de previsão pode ser construído e utilizado uma vez que uma relação tenha sido descoberta.

Antes de proceder com a teoria relativa ao desenvolvimento de um modelo de previsão, é válido considerar o que o uso da palavra modelo realmente signi­ fica nesse contexto.

Um modelo pode ser utilizado de várias maneiras diferentes: a idéia de modelos de escala utilizados por engenheiros ou arquitetos, um kit utilizado para fazer um aeroplano ou carro, ou mesmo alguém que exibe roupas em uma passarela pode nos vir à mente. Em cada uma dessas situações, o modelo é uti­ lizado para demonstrar ou mostrar às pessoas como será a aparência ou o com­ portamento de algo. No contexto dessa unidade, um modelo pode significar uma equação ou uma planilha especialmente preparada, mas ainda assim signi­ fica algum tipo de representação do mundo real que ajuda o usuário a experi­ mentar - vendo o efeito das mudanças, fazendo previsões ou tomando decisões.

4.1 DIAGRAMA DE DISPERSÃO

Um diagrama de dispersão é simplesmente uma representação de pontos de dados em um gráfico X- Y.

O eixo y é utilizado para representar a variável dependente que interessa a quem toma as decisões, enquanto o eixo x o é para representar uma variável que pode ser controlada ou medida por quem toma as decisões (geralmente chamada de variável independente). Cada par de valores é subseqüentemente representado no gráfico por um ponto ou uma cruz.

~ - 300 ~ i 8 200 ~ ~ 100 • - - ...

O • 1 1 1 1 O 1 O 20 JO

Propaganda ($ OOs)

• • • •• -10

Figura 4.1 Diagrama de dispersão das vendas e dos gastos com propaganda.

Page 7: J oanne Smaile Angela McGrane - acervodigital.ssp.go.gov.br · Administração com Excel . 11111/ilf . Ili! 1111 Ili . 00011890 . ... lizado para demonstrar ou mostrar às pessoas

116 ESTATISTICA APLlCAD,i\ À ADMIN1STRAÇAO COM E.XCEL

No diagrama de dispersão exibido na Figura 4.1, a variávely é o valor das endas, enquanto a variável x representa os gastos com propaganda de certo

item produzido em massa. Isso porque as vendas seriam a variável que quem toma as decisões poderia estar interessado em prever (isco é, y), em quanto o astos com propaganda podem ser modificados para se adequarem a quem toma as decisões (isto é, x). As vendas semanais e as despesas com propaganda ão registradas e cada par é representado no gráfico por um ponto ( •). o pa­ drão geral dos pontos nesse gráfico sugere que pode existir uma relação entre as vendas e os custos de propaganda. Em particular, o diagrama de dispersão sugere que, quanto mais dinheiro for gasto em propaganda, maior será o valor das vendas. O padrão dos pontos forma aproximadamente uma linha reta, su­ gerindo que é possível que exista uma associação linear entre as duas variáveis.

Dependendo das variáveis consideradas, a relação sugerida pelo diagrama de dispersão pode ser fortemente linear, não linear ou mesmo inexistente. Por­ tanto, um diagrama de dispersão é uma primeira indicação útil da possível exis­ tência de uma associação entre duas variáveis.

elações causais

Antes de realizar uma análise mais profunda, é importante levantar hipó­ teses sobre a possibilidade da relação de causa e efeito entre as variáveis envol­ vidas e identificar claramente qual é a variável dependente.

Um diagrama de dispersão de pares de dados, que mostra reprovações em administração de alunos de graduação, pode sugerir forte relação positiva, já que ambos aumentaram ao longo dos últimos anos. Todavia, claramente não há nada que sugira uma relação direta entre os dois; é mera coincidência que am­ bos tenham aumentado.

Logo, é muito importante ser capaz de justificar com antecedência que a variável y seja o efeito resultante das mudanças em x, a variável causa.

o caso apresentado, parece sensato dizer que as mudanças nas vendas são causadas pelas mudanças nas despesas com propaganda; então, é seguro proceder à próxima etapa - quantificar a força da relação mediante análise de correlação.

4.2 COEFICIENTES DE CORRELAÇÃO

Análise de correlação é uma técnica matemática utilizada para medir a força de associação entre duas variáveis. Essa medição leva em consideração o "grau de dispersão" entre os valores dos dados. Obviamente, quanto menos dís-

Page 8: J oanne Smaile Angela McGrane - acervodigital.ssp.go.gov.br · Administração com Excel . 11111/ilf . Ili! 1111 Ili . 00011890 . ... lizado para demonstrar ou mostrar às pessoas

CORRELAÇÃO P. REGRESSÃO 117

persos estiverem os dados, mais forte será a relação (correlação) entre as duas variáveis.

o coeficiente de correlação é denotado pelo símbolo r e somente pode as­ sumir um valor entre - 1 e + 1 inclusive.

Antes de observar os detalhes de como r é calculado, seu significado com relação a vários diagramas de dispersão será discutido.

Na Figura 4.2, ré igual a + 1, o que indica que existe uma correlação po­ sitiva perfeita entre as duas variáveis. Isso significa que todos os dados caem so­ bre uma linha reta ascendente, mostra que à medida que o valor de x aumenta, aumenta também o valor de y (que é o motivo pelo qual pode-se dizer que a correlação é positiva), e para cada valor conhecido de x, o valor de y pode ser previsto exatamente.

r=+7

]00 ~ y 200

100 ·-· 0 l 1 1 1 1 i

O W ~ W 00 100 lW

• - . ··- • • ••••• -· X

Figura 4.2 Diagrama de dispersão em que r = 1.

r=0,8

:~:b: • •• y • • • ' ·=· • • ••• • • •

200 ~ •• • ,, : . o • o 20 40 60 80 100 120

\

Figura 4.3 Diagrama de dispersão anterior que mostra r de aproximadamente 0,8.

Na Figura 4.3, pode-se ver que, à medida que x aumenta, y ainda aumen­ ta, e que os dados são proximamente agrupados. Nesse caso, pode-se dizer que ~á evidência de forte correlação positiva entre as duas variáveis, e isso produzi­ na um valor de r de aproximadamente 0,8.

Agora considere os diagramas de dispersão seguintes, mostrados na Figura 4.4. No diagrama da esquerda, pode-se ver que o valor de x não está influencian-

Page 9: J oanne Smaile Angela McGrane - acervodigital.ssp.go.gov.br · Administração com Excel . 11111/ilf . Ili! 1111 Ili . 00011890 . ... lizado para demonstrar ou mostrar às pessoas

118 ESTATÍSTICA APUCA.DJ\ À ADMINISTRAÇÃO COM Il.XCE.L

do o valor de y de forma alguma (y é constante); nesse caso, o valor de r = o mostra que não existe correlação (associação) entre as duas variáveis. No dia­ grama da direita, existe alguma dispersão, mas não existe nenhuma associação particular entre o valor de x e o valor de y. Portanto, pode-se dizer que há mui­ to pouca correlação entre as duas variáveis. Aqui, o valor der estaria em algum ponto entre - 0,3 e + 0,3.

r= 0,3 r= 0,3 &00

y -wo 200

. .. . .. . , . , .,. . . - . • • • • • • • ~~ '·"°-----·­ •. 00 O 1 1

O 50 100 O'-------'-------' O so 100

Figura 4.4 Diagramas de dispersão mostrando correlação zero (esquerda) e pou­ ca correlação (direita).

Valores negativos der podem ser interpretados da mesma forma que valo­ res positivos - a única diferença é que o diagrama mostraria que, à medida que J valor de x aumenta, o valor de y diminui. A Figura 4.5 ilustra isso.

Resumindo:

• valores próximos de + 1 sugerem fone associação positiva; • valores próximos de - 1 sugerem fone associação negativa; • valores próximos a O sugerem possivelmente nenhuma correlação.

l(·r· •• • 80 .. :.• . ' . •• • • •r• • • 1 •• 60 • . , ,

y 40

20

o o 20 40 r,o ao 100

X

Figura 4.5 Diagrama de dispersão mostrando forte correlação negativa.

O próximo ponto a ser considerado é o cálculo de r.

Page 10: J oanne Smaile Angela McGrane - acervodigital.ssp.go.gov.br · Administração com Excel . 11111/ilf . Ili! 1111 Ili . 00011890 . ... lizado para demonstrar ou mostrar às pessoas

CORRElAÇÃO E llF.GRESSÃO 119

4.3 CALCULANDO O COEFICIENTE DE CORRELAÇÃO

o coeficiente de correlação produto-momento de Pearson mede a força de uma possível correlação linear entre as variáveis. A fórmula para seu cálculo é:

Essa fórmula parece complicada e tende a causar dificuldades a muitos alunos de estatística (por sorte, muitas calculadoras científicas e planilhas ele­ trônicas possuem funções internas automáticas para esse cálculo). Entretanto, em uma tentativa de superar isso, o Exemplo 4.1 ilustrará o método de cálculo passo a passo.

Exemplo 4.1

A tabela seguinte mostra as despesas com propaganda e as vendas associa­ das de determinado produto. Examinando o diagrama de dispersão e calculan­ do o coeficiente de correlação produto-momento de Pearson, comente sobre a associação entre as duas variáveis.

Passo 1: Estabeleça as variáveis independente (x) e dependente (y) e coloque-as em um gráfico

É muito provável que as despesas afetem as vendas. Portanto, as despesas são definidas como a variável independente e plotadas sobre o eixo x com as vendas como a variável dependente plotada sobre o eixo y. Isso produz o dia­ grama de dispersão mostrado na Figura 4.6.

Vendas ($ OOOs) 1 Despesas ($ OOs) 1

25 8 35 12

29 1 1 ,- . 24 s 38 14 --· 12 3 18 6 - 27 8

17 4 --- 30 9

Page 11: J oanne Smaile Angela McGrane - acervodigital.ssp.go.gov.br · Administração com Excel . 11111/ilf . Ili! 1111 Ili . 00011890 . ... lizado para demonstrar ou mostrar às pessoas

40 r • • ~- lO~ 0

• • Ili c!S • • "CI o ') • ~ -º • • > ._. 10 •

O 1 1 1 O 5 10 15

Despesas ($00s)

120 F.STATISTICI\ APUCl\f)A À I\DMIN1STRAÇÃO COM EXCEL

Figura 4.6 Diagrama de dispersão, mostrando despesas versus vendas.

Passo 2: Examine o gráfico

O gráfico indica que, à medida que os gastos aumentam, as vendas au­ mentam, e também parece que os dados encontram-se bem proximamente agrupados. Isso sugeriria que existe forte correlação positiva entre as duas va­ riáveis. Para sustentar essas observações, o valor de r pode ser calculado.

Passo 3: Calcule o coeficiente de correlação

são: Observando a fórmula mais de perto, os elementos individuais necessários

ú - soma de todos os valores de x; I:y - soma de todos os valores de y;

I:x2 - os valores de x ao quadrado e depois somados; Ey2 - os valores de y ao quadrado e depois somados; úy - soma de todos os valores de x multiplicados pelos valores de y; n - número de pares (despesas, vendas).

Para calculá-los, é necessária uma tabela:

Page 12: J oanne Smaile Angela McGrane - acervodigital.ssp.go.gov.br · Administração com Excel . 11111/ilf . Ili! 1111 Ili . 00011890 . ... lizado para demonstrar ou mostrar às pessoas

CORRELAÇÃO E REGRESSÃO 121

Vendas (y) Despesas (x) x2 y2 xy 25 8 8 * 8 = 64 25 * 25 = 625 8 * 25 = 200 -- -- "- - --- 35 12 12 * 12 = 144 122~*==420 - 29 11 11*11=121 841 319 -- -- - 24 5 25 576 120 38 14 196 1.4~532- 12 3 9 144 36 1-- -- - 18 6 36 3241 108 27 8 64 216 729 -- 17 4 16 289 68 - 30 9 81 900 270 - -

Ly = 255 Ex= 80 Li= 756 Ey2 = 7.097 Ixy = 2.289

e n = 10 .,

Os valores de resumo são substituídos na fórmula do coeficiente de corre­ lação e desenvolvidos:

nixy-Ixiy r=-.======================= J [nix2 -(Ix)2] [niy2 -(Iy/] (10 * 2.289)-(80 * 255) r=-;:::============================= ~ [oo * (756)-802] [cio* 7.097)-2552]

(22.890 -20.400) r=-.========================

~ (7.560 -6.400)(70.970 -65.025)

2.490 2.490 r- ----- - .J6.896.200 - 2626,0617

Então, r = 0,948 (com 3 e.d.)

O valor de r é próximo de + 1, então, isso sugere que existe forte relação positiva entre as duas variáveis.

Como isso é amplamente utilizado em estatística, a maioria dos pacotes d planilhas e muitas calculadoras científicas possui funções internas que podem ser utilizadas para encontrar o valor de r, uma vez que dois conjuntos de dado

Page 13: J oanne Smaile Angela McGrane - acervodigital.ssp.go.gov.br · Administração com Excel . 11111/ilf . Ili! 1111 Ili . 00011890 . ... lizado para demonstrar ou mostrar às pessoas

tenham sido entrados. Essa é a maneira pela qual o coeficiente de correlação é normalmente calculado na prática.

4.4 COEFICIENTE DE CORRELAÇÃO ORDENADO

Com o coeficiente de correlação produto-momento de Pearson, os dois conjuntos de dados precisam ser numéricos. Também é possível medir a asso­ ciação entre variáveis numéricas e não numéricas se os dados não numéricos ti­ erem sido dados na forma de ordens (por exemplo, nomes de produtos orde­ nados em ordem de preferência).

O coeficiente ordenado mais comum é deduzido do coeficiente de Pearson e é conhecido como coeficiente de correlação ordenado de Spear­ man. Sua fórmula é:

6 * Ed2

r=l----­ n(n2 -1)

onde: n = número de pares de observações d = diferença entre a ordem de x e y.

O valor de r é interpretado de maneira similar ao coeficiente de correlação de Pearson, entretanto, não é realmente possível dizer que uma variável esteja afetando a outra. O valor de r é utilizado para indicar o nível de concordância entre as duas variáveis.

Exemplo 4.2

Uma grande agência de viagens produz uma lista de seus 10 melhores des­ tinos de viagens do ano anterior, em janeiro. No mesmo mês a cada ano, uma revista nacional para mulheres também produz uma lista similar baseada em sua pesquisa anual com as leitoras. Calcule um coeficiente de correlação apro­ priado e faça comentários adequados sobre seu resultado. Os dados coletados são exibidos na tabela a seguir:

Page 14: J oanne Smaile Angela McGrane - acervodigital.ssp.go.gov.br · Administração com Excel . 11111/ilf . Ili! 1111 Ili . 00011890 . ... lizado para demonstrar ou mostrar às pessoas

CORRELAÇÃO E RP.GRESSÃO 123

Destino Colocação na agência Colocação de viagens na revista ~

Flórida 2 1 i---

Ilhas Canárias 5 6 Ilhas Gregas 3 2 Alemanha 4 4 ----- Espanha 6 s - Caribe 10 7 - Austrália 7 9 França 9 10 Canadá 8 8 Rússia 1 3

Para calcular o r, é necessário criar uma tabela que calcule o quadrado das diferenças (d2

) entre as colocações. Observe que, quando os valores são eleva­ dos ao quadrado, não importa em que ordem as diferenças são calculadas.

Destino Colocação na Colocação na / d (cf) agência de viagens revista Flórida 2 1 1 1 ilhas Canárias 5 6 - 1 1 Ilhas Gregas 3 2 1 1 Alemanha 4 4 o o - Espanha 6 5 1 l Caribe 10 7 3 9 Austrália 7 9 -2 4 - França 9 10 - l 1 - ·- --- . Canadá 8 8 o o - -- Rússia l 3 -2 4

r.cf- = 22

r = 1 _ 6 * I~ = 1 __ (6_*_2_2_)_ n(n 2 -1) 10(100 -1)

132 r = 1- - 990

r = 1 - 0,1333 = 0,867 (com 3 e.d.)

Page 15: J oanne Smaile Angela McGrane - acervodigital.ssp.go.gov.br · Administração com Excel . 11111/ilf . Ili! 1111 Ili . 00011890 . ... lizado para demonstrar ou mostrar às pessoas

124 ESTATÍSTICA APLICADA À

Como r = 0,867, isso indica que existe certo nível de concordância entr as duas publicações.

o Exemplo 4.2, ambos os conjuntos de dados já estavam ordenados. É muito provável que um conjunto de dados possa exigir uma conversão em or­ dens. Em tais casos, também é bem provável que a ordenação produza vínculos. Pode-se fazer um ajuste para que os valores vinculados compartilhem igual­ mente as ordens que eles ocupavam. Isso é mostrado pelos dados seguintes:

Dados: 39 28 28 20 17 17 17 15 13 Ordem dada: 1 2% 2112, 4 6 6 6 8 9

(comparti- (comparti- lham 2, 3) 5, 6, 7)

Uma vez ordenados, o cálculo procederia como visto, como indicado no Exemplo 4.3.

emplo 4.3

Uma franquia de florista criou recentemente um site na Internet para a venda de seus cinco mais bem cotados arranjos. Na tabela a seguir estão regis­ trados os números de pedidos recebidos via Internet para cada um desses ar­ ranjos. Calculando um coeficiente de correlação adequado, comente o nível de associação entre as vendas gerais dos arranjos e as vendas feitas somente na Internet.

Classificação Arranjo 1 Vendas na Internet ($ OOs)

1 Ramalhete de limão 29

2 Flores mistas 35

3 Sinfonia azul 18 ~ 4 Carnaval cor-de-rosa 29

5 União dos namorados 1 16

Nesse caso, somente um conjunto de dados foi apresentado na forma de ordens; portanto, antes de prosseguir, os dados relacionados às vendas na Internet precisam ser adequadamente ordenados.

Para as vendas na Internet, pode-se ver que o arranjo "flores mistas" pos­ sui o maior volume de vendas; assim, a ordem 1 é fixada. Existem, então, dois arranjos com 2. 900 vendas cada, a saber, o "carnaval cor-de-rosa" e o "ramalhe­ te de limão". Isso significa que, para efeitos de ordem, eles precisam comparti­ lhar 2 e 3, fornecendo aos dois arranjos uma ordem de 21/z. O "sinfonia azul"

Page 16: J oanne Smaile Angela McGrane - acervodigital.ssp.go.gov.br · Administração com Excel . 11111/ilf . Ili! 1111 Ili . 00011890 . ... lizado para demonstrar ou mostrar às pessoas

CORREI.AÇÃO E REGRF.SSÃO 125

recebe a ordem 4, com o último arranjo, "união dos namorados", recebendo a ordem 5.

Essas informações, juntamente com as diferenças subseqüentes (d) e os va­ lores de d2

, são mostradas a seguir:

Vendas na Ordem na 1 f

Arranjo Internet ($ OOs) Internet d d2

1: Ramalhete de limão 29 2,5 - 1 5 2,25 -- I - .___

2: Flores mistas 35 1 1 1 3: Sinfonia azul 18 4 - 1 1 4: Carnaval cor-de-rosa 29 2,5 1,5 2,25 5: União dos namorados 16 5 o o

I,d2 = 6,5

6 * Id2 (6 * 6,5) r=l- =1---- n(n 2 -1) 5(25 -1) 39 r = 1-- 120

r = 1 - 0,325 = 0,675

Portanto, podemos ver que existe um nível razoável de similaridade entre os mais vendidos na Internet e os gerais mais vendidos do florista.

Atividade de revisão 1

Dez impressoras, adequadas para uso com computadores pessoais e sendo vendi­ das no varejo a$ 300 e$ 550, foram avaliadas por um número de voluntários. Foi pe­ dido a eles que dessem a cada impressora notas em porcentagens para "velocidade" e "qualidade de impressão".

As avaliações dessas impressoras, incluindo uma classificação geral, estão resu­ midas a seguir:

Modelo l 2 3 4 5 6 j 8 9 10 Velocidade 20 45 25 10 30 25 35 30 20 25 Qualidade 65 35 55 85 15 25 45 25 55 35 Classificação geral 5 3 a 7 4 10 1 2 9 6 Preço ($) 410 396 350 530 399 353 430 404 350 Jr (a) Calculo o coeficiente de correlação produto-momento entre "velocidade" e "qua­

lidade de impressão" e interpreta sua resposta. (b) Calcule o coeficiente de correlação ordenado entre a classificação geral e o preço

dP v.1rejo e interprete sua resposta.

•l

Page 17: J oanne Smaile Angela McGrane - acervodigital.ssp.go.gov.br · Administração com Excel . 11111/ilf . Ili! 1111 Ili . 00011890 . ... lizado para demonstrar ou mostrar às pessoas

126 .rtsncx APIJCAOA ,\ ADMIN[STRAÇÃO COM EXCEL

Desenvolvimento:

R , . 'J-5 'J-6 r.:~post,is na_,;; p,lgm,1s .J --/ .

4.5 MODELOS LINEARES

A construção de um modelo de regressão linear baseia-se em um conheci­ mento básico de equações lineares. Assim, para compreender este trabalho por completo, é necessário entender e ser capaz de construir equações lineares. Se­ gue-se breve resumo do conhecimento necessário aqui, mas os leitores podem achar necessário buscar outras observações ou livros-textos para consolidar uas habilidades antes de prosseguir.

O formato geral de uma equação linear simples é:

y =a+ bx

(Em alguns textos, essa equação se escreve y = mx + e, onde m é equiva- lente a b e e é equivalente a a.)

• y é a variável dependente. • x é a variável independente. • a é a constante que representa o ponto onde a linha reta corta o eixo y

(conhecida como a intercepção). • b é uma constante que representa a inclinação (ou gradiente) da linha reta.

Isso é ilustrado na Figura 4.7.

valor de a

Variável x

Figura 4.7 Linha reta geral: y = a + bx.

Page 18: J oanne Smaile Angela McGrane - acervodigital.ssp.go.gov.br · Administração com Excel . 11111/ilf . Ili! 1111 Ili . 00011890 . ... lizado para demonstrar ou mostrar às pessoas

COAAElAÇÁO e REGRESSÃO 127

Para considerar como um modelo linear (ao contrário da regressão linear) é construído, veja o exemplo a seguir.

Exemplo 4.4

Uma empresa de eletricidade cobra uma taxa fixa de $ 17,50 por trimestre mais 8 centavos por unidade de eletricidade utilizada. Encontre e trace o gráfi­ co de uma equação linear para modelar essa situação para o uso de até 1.500 unidades por trimestre.

A equação terá a seguinte forma:

y =a+ bx

• y deve ser o valor cobrado pela eletricidade, já que essa é a variável de interesse.

• x deve ser o número de unidades utilizadas, já que isso determina os valores cobrados pela eletricidade.

(Também deve ser dito que os valores cobrados dependem das unidades utilizadas; então, o valor cobrado pela eletricidade é dependente e o número de unidades utilizadas é independente.)

Para encontrar a e b, é útil considerar como se compõe o valor cobrado, que ocorre segundo os vários níveis de utilização de energia elétrica.

Por exemplo, se 10 unidades de eletricidade são utilizadas, o valor cobra­ do é de$ 17,50 + $ 0,08 * 10.

taxa fixa

E s~~:lêfricidade são utilizadas, o valor cobrado é$ 17,50 + $ 0,08 * 20 ... e assim por diante.

Portanto, em geral,

valor cobrado pela eletricidade = $ 17,50 + $ 0,08 * unidades utilizadas

ou, a notação usual onde y = valor cobrado pela eletricidade ($) e x = número de unidades utilizadas:

y = 17,5 + 0,0Bx

que é um modelo linear que representa os valores cobrados pelo fornecimento de eletricidade em termos de unidades utilizadas.

'.C !

Page 19: J oanne Smaile Angela McGrane - acervodigital.ssp.go.gov.br · Administração com Excel . 11111/ilf . Ili! 1111 Ili . 00011890 . ... lizado para demonstrar ou mostrar às pessoas

128 ESTATÍSTICA APT.!CADA À ,\OMlNISTRAÇÃO COM sxca,

Existem inúmeras maneiras pelas quais um modelo conhecido pode ser apresentado em um gráfico. Talvez a mais fácil delas seja simplesmente esco­ lher alguns valores para x (dois são suficientes, mas três permitem verificar er­ rosl), calcular os valores correspondentes de y e então plotar os pares resultan­ tes de pontos e ligá-los. Aqui, os valores de x escolhidos são O, 750 e 1.500.

o 750 .....,,_ _ 1.500 17,5 + 0,08 * O =

17,5 17,5 + 0,08

77,5 750 = 117,5 + 0,08 * 1.500

= 137,5

O gráfico resultante é exibido na Figura 4.8.

120

80

U'l ·;;; ""- -;; <A 100 e., .._. E ; ·~ -o - to: ~ li •.• o o u .g.

60

40

20 O'----'----'----L--..J__....._ _ _.__......1.. _ __J

O 200 400 600 800 1000 1200 1400 1600

Unidades de eletricidade

Figura 4.8 Gráfico com valores cobrados pelo fornecimento de eletricidade.

Para checar sua compreensão dos modelos lineares, dê uma olhada na Ati­ vidade de revisão 2 antes de considerar a regressão linear.

Atividade de revisão 2

Dois varejistas locais estão oferecendo telefones móveis a diferentes tarifas. A Pho­ neyvode cobra $ 15 por mês mais 50 centavos por minuto de ligações, enquanto a Pur­ plecom cobra $ 17,5 pelo aluguel, mas somente 35 centavos por minuto de ligação. (a) Formule equações para as taxas de ligação em cada caso.

(b) Produza um único gráfico com os custos de cada opção se entre O e 40 minutos de ligação forem feitos por mês.

(c) Determine o nível de ligações no qual a tarifa da Purplecorn torna-se a opção mais barata.

(d) Qual é o custo geral por més nesse nível de ligações? -----------

Page 20: J oanne Smaile Angela McGrane - acervodigital.ssp.go.gov.br · Administração com Excel . 11111/ilf . Ili! 1111 Ili . 00011890 . ... lizado para demonstrar ou mostrar às pessoas

CORREI.AÇÃO e REGRESSÃO 129

Desenvolvimento:

Respostas na µágina 277.

As equações lineares no Exemplo 4.4 e na Atividade de revisão 2 são exemplos de um modelo determinístico, isto é, se o uso da eletricidade fosse conhecido, as taxas poderiam ser previstas exatamente sem espaço para varia­ ção. Na vida real, normalmente é necessário construir um modelo probabilís­ tico para lidar com a incerteza. A regressão linear simples, técnica que é des­ crita a seguir, é um exemplo desse último tipo de modelo.

4.6 REGRESSÃO LINEAR SIMPLES

Considere o Exemplo 4.1 novamente (os dados de vendas e de propagan­ da). Foi estabelecido que existe forte ligação entre a propaganda e as vendas, com um coeficiente de correlação de O, 948. Entretanto, em virtude da variabili­ dade dos dados, é impossível encontrar um modelo linear exato, como fizemos no Exemplo 4.4. Contudo, dados a Figura 4.6 e o coeficiente de correlação, há evidência de uma relação linear entre as vendas e os gastos com propaganda. Portanto, a equação ainda terá o mesmo formato

y =a+ bx

mas o que é necessário é uma forma matemática de determinar a e b. A regressão linear simples (também conhecida como regressão linear dos

quadrados minimos) é uma técnica que foi desenvolvida para fazer isso. Em es­ sência, a meta é encontrar valores para a e b (lembre-se de que estes são so­ mente valores constantes) que dêem a linha que se ajusta melhor aos pontos. Fazer isso exige mais fórmulas matemáticas:

b = nixy-Ixiy n f.x2 C2:x)2

e

LY bZ:x ou a= y-bx O--- -- n n

Page 21: J oanne Smaile Angela McGrane - acervodigital.ssp.go.gov.br · Administração com Excel . 11111/ilf . Ili! 1111 Ili . 00011890 . ... lizado para demonstrar ou mostrar às pessoas

130

(Observe que essas duas fórmulas para a são equivalentes e qualquer uma delas pode ser utílizada.)

Assim como o coeficiente de correlação de Pearson, a maioria das plani­ lhas e calculadoras científicas possui funções internas que podem ser utilizadas para encontrar esses dois valores automaticamente (e recomenda-se seu uso).

O Exemplo 4.5 ilustra como encontrar coeficientes de regressão linear uti­ lizando as fórmulas completas.

Exemplo 4.5

Utilizando os dados anteriores sobre vendas e despesas com propaganda:

endas ($ OOOs} -----

Despesas com propaganda ($ OOs)

25 1 35 , 29 ~ 1 ~ l 17; 30

a 12111 1 s l 141 31 61 a 1 41 9

encontre a equação de regressão linear, adicione-a ao gráfico de dispersão ori­ ginal e faça previsões para as vendas, se as despesas com propaganda forem:

(a) $ 700 (b) s 1.800

O valor de b deve ser calculado primeiro (já que é necessário descobrir o valor de a). Para fazer isso, vários números são necessários:

LX - soma de todos os valores de x;

ry - soma de todos os valores de y; Ix2 - os valores de x elevados ao quadrado e depois somados; :Exy - soma de todos os valores de x multiplicados pelos valores de y; n - número de pares (despesa, vendas).

Eles também são necessários para o cálculo do coeficiente de correlação (r) que foi concluído no Exemplo 4.1. Portanto, os valores relevantes podem ser extraídos desse exemplo, isto é, ú = 80, ry = 255, rx2 = 756, LX.Y = 2.289 e n = 10.

(Se r não tivesse sido calculado anteriormente, uma tabela similar à do Exemplo 4.1 teria que ser construída para se calcularem os valores-resumo.)

Page 22: J oanne Smaile Angela McGrane - acervodigital.ssp.go.gov.br · Administração com Excel . 11111/ilf . Ili! 1111 Ili . 00011890 . ... lizado para demonstrar ou mostrar às pessoas

CORRELAÇÃO E REGRESSÃO 131

Portanto,

b = n LX}' - LXLY = (10 * 2.289)-(80 * 255) 11 LX2 -(LX)2 (10 * 756)-(80)2

b = 22.890 -20.400 = 2.490 7.560-6.400 1.160

b = 2,1465517

(observe que b foi deixado com um grande número de casas decimais nessa eta­ pa para evitar erros em cálculos subseqüentes. Na prática, isso seria obtido fa­ zendo-se uso da memória de uma calculadora).

Então,

a - LY - bí:x - 255 -2,1465517 * 80 n n 10 10

a= 25,5 - 17,172413 = 8,327587

As respostas finais (arredondadas para três casas decimais) são:

a = 8,328 b = 2,147

(Observe que foram escolhidas três casas decimais, já que os dados forne­ cidos estavam em milhares e centenas.)

Isso fornece a equação de regressão linear

y = 8,328 + 2,147x ou, se preferível,

Vendas = 8,328 + 2,147 * Despesas com propaganda

Ao adicionar isso ao gráfico de dispersão, o procedimento é exatamente o mesmo que construir o gráfico de qualquer outra linha reta: escolher três valo­ res de x e calcular y, depois adicionar os pares de pontos ao gráfico. Aqui, x = O, 10 e 15 foram utilizados para cobrir todos os valores de x fornecidos pelo dados originais. Veja a Figura 4.9.

o 8,328 29,798

10 15 y = H,328 + 2, l 47x

•(

Page 23: J oanne Smaile Angela McGrane - acervodigital.ssp.go.gov.br · Administração com Excel . 11111/ilf . Ili! 1111 Ili . 00011890 . ... lizado para demonstrar ou mostrar às pessoas

Q Q .W Q ~ 20 "' ~ "O to e: ~ o

o 5 10 1 ;i

Despesa ($00s)

Figura 4.9 Diagrama de dispersão mostrando despesa versus vendas.

Para fazer previsões, os valores de x são simplesmente substituídos na equação de regressão:

(a) Despesas com propaganda = $ 700. Como os valores utilizados na equação eram dados em centenas, isso significa x = 7; portanto,

y = 8,328 + 2,147 * 7 = 23,357 Como y está em milhares, 23.357 vendas são previstas.

(b) Despesa = $ 1.800, então x = 18. y = 8,328 + 2,147 * 18 = 46,974

isto é, 46.974 vendas são previstas.

4.7 AVALIANDO A PRECISÃO DAS PREVISÕES

Considere as duas previsões feitas no final do exemplo anterior com rela­ ção aos dados originais fornecidos.

Em (a), o valor de x (7) caiu dentro da faixa dos dados originais forneci­ dos para x- que iam de 3 a 14. Esse tipo de previsão é conhecido como inter­ polação, e a previsão produzida provavelmente é precisa, já que r é alto e con­ sidera-se que o modelo seja bem adequado aos dados.

Entretanto, em (b) o valor de x utilizado (18) cai fora da faixa original dos dados, e não é possível ter certeza que o modelo continua a ser adequado aos dados. Isso se chama extrapolação, e é necessário ser muito mais cuidadoso com previsões feitas dessa maneira. Por exemplo, pode ser que as vendas te­ nham atingido um nível de platô, em que mais dinheiro gasto em propaganda teria pouco ou nenhum efeito. Se esse fosse o caso, a previsão seria imprecisa.

Page 24: J oanne Smaile Angela McGrane - acervodigital.ssp.go.gov.br · Administração com Excel . 11111/ilf . Ili! 1111 Ili . 00011890 . ... lizado para demonstrar ou mostrar às pessoas

CO.RR!ll..AÇÃO E RF.GRESSÃO 133

Portanto, quando são feitas previsões, é prudente observar se se está fa­ zendo uma interpolação ou uma extrapolação e considerar as possíveis conse­ qüências.

Como vimos, o coeficiente de correlação (r) geralmente é utilizado como a primeira avaliação do modelo; outra medida, r2, o coeficiente de determi­ nação, também pode ser útil para uma interpretação mais aprofundada. Na verdade, ela é o coeficiente de correlação de Pearson ao quadrado, mas o termo geralmente é empregado para descrever a porcentagem de variação nos dados de y que podem ser atribuídos à variação nos dados de x.

No exemplo dado, r = 0,948; então, r2 = 0,899. Assim, pode-se dizer que 89,9% da variação nas vendas dos produtos é devida à variação nos níveis de despesas com propaganda.

Finalmente, deve-se observar que o tamanho da amostra também pode ter um efeito importante na qualidade das previsões. No exemplo, somente uma amostra de tamanho pequeno - 10 pares de pontos - foi utilizada, para facilitar o cálculo. Na realidade, é desejável que se utilizem pelo menos 30 pontos de dados, já que, obviamente, quanto maior a amostra, mais confiança pode-se ter na precisão do modelo.

4.8 MODELOS DE REGRESSÃO MAIS COMPLEXOS

O modelo de regressão linear simples discutido neste capítulo possui mui­ tos outros desenvolvimentos que são úteis para modelar situações mais comple­ xas. Pode ser desejável adicionar outros fatores que também possuem efeito so­ bre a variável dependente. Por exemplo, a demanda de gás não depende somente do fator mais óbvio - a temperatura -, mas também da temperatura dos ventos e do dia da semana. É possível construir modelos de regressão múltipla que incluem todos esses fatores em vez de apenas um.

Em outras situações, os dados podem não exibir o tipo de comportamento linear visto aqui (isto é, os gráficos podem ser curvos de alguma forma), e en­ tão um modelo não linear baseado em fatores de x (x2, x3 etc.), ou outras transformações, pode ser mais adequado. Apesar de esses desenvolvimentos não serem discutidos detalhadamente aqui, você pode estar consciente de que eles existem e podem ser utilizados em situações em que modelos de regressão linear simples são inadequados.

Page 25: J oanne Smaile Angela McGrane - acervodigital.ssp.go.gov.br · Administração com Excel . 11111/ilf . Ili! 1111 Ili . 00011890 . ... lizado para demonstrar ou mostrar às pessoas

134 FSTA1º1STICA APLICADA À ADMINISTRAÇi\O COM sxca,

Atlvfdade de revisão 3

O Sr. Lillystone l\ o proprietário de urna loja de presentes cm uma pequena cida­ de. Ele acredita que as vendas da loja estejam relacionadas ao número de ônibus de turistas que param na cidade. Coletou os seguintes dados sobre as vendas e o número de visitas ele ônibus em uma selecão de d' .

Número do dia Número de ônibus Vendas($)

1 24 962 - _ ..... _ ....• __ - 2 30 1.181

3 9 578

4 48 1.429 ~-- - - 5 38 1.324 _ _._ ___ -- - 6 15 752

7 5 542 .. - . -· 8 38 1.355 - 9 15 788

10 24 998 ·-~ -

11 49 1.462 - 12 10 650 - - - 13 17 1 862

1 - 14 11 719 - 15 16 1 828 1

(a) Determine que conjunto de dados representa a variável x (independente) e a y (dependente) nessa situação.

Ib) Calcule os valores de a e b e escreva a regressão de equação para esses dados. {e) Faça uma previsão das vendas para dias em que:

(i) 27 ónibus visitam a cidade.

(ii) 55 ônibus visitam a cidade.

(d) Quão boas você espera que as previsões calculadas cm (e) sejam?

Desenvolvimento:

Respostss na página 278.

Page 26: J oanne Smaile Angela McGrane - acervodigital.ssp.go.gov.br · Administração com Excel . 11111/ilf . Ili! 1111 Ili . 00011890 . ... lizado para demonstrar ou mostrar às pessoas

CORRRLAÇÃO E REGRESSÃO 135

PONTOS-CHAVES A SEREM LEMBRADOS

1. Correlação e regressão são técnicas utilizadas para verificar se existe uma relação entre dois ou mais conjuntos de dados (neste livro são considera­ dos somente dois conjuntos de dados).

2. Um gráfico conhecido como diagrama de dispersão é utilizado para identi­ ficar a possibilidade de uma relação e seu tipo. y é definido como a variável que se acredita ser influenciada (dependente) ex é definido como a variá­ vel que está causando a influência (independente).

3. A força da relação entre dois conjuntos de dados é medida pelo coeficiente de correlação de Pearson (r). Ele é determinado pela fórmula:

r = nixy-IxI:y ~ [nix2 -(Ix)2] [niy2 -(Iy)2]

4. O valor de r pode somente assumir um valor de - 1 a + 1, inclusive. A se­ guir, ternos breves diretrizes sobre a interpretação desse valor:

+ 1 Existe uma correlação positiva perfeita entre os dados. À medida que x aumenta, y aumenta. Se x for conhecido, y pode ser previsto exatamente.

+ 0,8 < + 1 Existe forte correlação positiva entre os dados. À medida que x aumenta, y aumenta.

+ 0,4 < + 0,8 Existe uma correlação positiva moderada entre os dados. À medida que x aumenta, y aumenta.

- 0,4 < + 0,4 Existe muito pouca correlação entre os dados. - 0,4 < - 0,8 Existe uma correlação negativa moderada entre os dados.

À medida que x aumenta, y diminui. - 0,8 < - 1 Existe forte correlação negativa entre os dados.

À medida que x aumenta, y diminui. - 1 Existe uma correlação negativa perfeita entre os dados.

À medida que x aumenta, y diminui. Se x for conhecido, y pode ser previsto exatamente.

5. A regressão é uma técnica que constrói uma relação sobre uma linha reta entre dois conjuntos de dados. Essa relação é da forma y = a + bx, onde a e b são encontrados por meio da seguinte fórmula:

b = nixy-I:x2:y n I:x2 -(Ix)2

e

Page 27: J oanne Smaile Angela McGrane - acervodigital.ssp.go.gov.br · Administração com Excel . 11111/ilf . Ili! 1111 Ili . 00011890 . ... lizado para demonstrar ou mostrar às pessoas

136 ESTATIST!CA APUCA01\ À ADMINISTRAÇÃO COM f.XCEL

-Y b2....x - b:.:: a = - --- ou a = y - . Tt n

6. Podem ser feitas previsões utilizando-se o modelo resultante. Se o valor de x (independente) utilizado cair dentro do conjunto original de dados, essa previsão é conhecida como interpolação. Se o valor de x cair fora dos limi­ tes dos dados originais, essa previsão é conhecida corno extrapolação, e de­ ve-se tornar cuidado com seu uso.

7. O coeficiente de determinação (r2) é outra medida que pode ser utilizada para avaliar a adequação de um modelo de regressão. É encontrado elevan­ do-se ao quadrado o coeficiente de correlação de Pearson e expressando-o como urna porcentagem. O valor resultante é então utilizado para descre­ ver a porcentagem da variação nos dados de y que pode ser atribuída à va­ riação dos dados de x.

8. O coeficiente de correlação ordenado de Spearman é utilizado para medir a concordância entre dois conjuntos de dados, em que pelo menos um deles foi apresentado em forma de uma ordenação. A fórmula para seu cálculo é:

1-6* I,d2

r=---- n(n2-1)

9 ..

onde: n = número de pares de observações; d = diferença entre a ordem de x e de y.

Se um dos conjuntos de dados não for ordenado, eles devem receber ordens, e qualquer valor idêntico deve receber urna ordenação compartilhada.

Finalmente, você deve estar consciente de que existem outros modelos de regressão linear mais complexos. Eles podem estar na forma de modelos não lineares ou de modelos de regressão múltipla. Mais detalhes sobre es­ ses modelos podem ser encontrados nos livros listados na seção de leituras complementares na Introdução.

EXERCÍCIOS ADICIONAIS

Questão 1 A academia de ginástica Pemberton's decidiu ilustrar uma abor­ dagem teórica de como os exercícios aeróbicos e a ingestão de calorias podem afetar o peso. Doze dos membros estabelecidos na academia registraram cuidadosamente o número de minutos de exercícios aeróbicos que praticaram no decorrer de uma se­ mana, juntamente com sua ingestão calórica semanal. Esses da­ dos são apresentados na tabela seguinte.

Page 28: J oanne Smaile Angela McGrane - acervodigital.ssp.go.gov.br · Administração com Excel . 11111/ilf . Ili! 1111 Ili . 00011890 . ... lizado para demonstrar ou mostrar às pessoas

CORRELAÇÃO R REGRESSÃO 13 7

Perda de peso (lb) Exercício aeróbico (min) Calorias ingeridas 0,6 112 9.560 2,8 190 7.552 - 1,4 171 11.981 -- 1,4 148 8.338 2,6 193 10.202

- 3,8 235 7.252 3,3 237 8.097 2,5 176 8.121 2,6 185 8.300 2,0 186 11.216 3,3 228 7.212 1, 1 65 7.631

(a) Construa dois diagramas de dispersão para ilustrar a relação entre perda de peso e exercícios aeróbicos e perda de peso e calorias in­ geridas. Descreva os principais elementos dos gráficos e, assim, esti­ me os possíveis coeficientes de correlação.

(b) Calcule o coeficiente de correlação entre a perda de peso e os exer­ cícios aeróbicos. Utilizando esse valor, calcule o coeficiente de de­ terminação e defina seu significado nesse contexto.

(c) Dados os valores de resumo a seguir para a relação entre a perda de peso e as calorias ingeridas, calcule r. Comparando-o com o coefi­ ciente de correlação encontrado em (b), determine qual dos fatores contribui mais para a perda de peso, fornecendo motivos adequa­ dos para sua escolha.

LX2 = 9,5461103 * 108 r.xy = 232.639,3 ú = 105.462

Questão 2 Pediu-se a um grupo de alunos e a um grupo de idosos que consi­ derassem sete tons de tinta amarela e que os ordenassem segun­ do sua preferência. Utilizando os resultados na tabela:

Page 29: J oanne Smaile Angela McGrane - acervodigital.ssp.go.gov.br · Administração com Excel . 11111/ilf . Ili! 1111 Ili . 00011890 . ... lizado para demonstrar ou mostrar às pessoas

138 ESTATÍSTICA APLICADA A AOMlNIS'l'RAÇÃO COM E.XCEL

Tom da tiinta Preferência dos alunos Preferência dos idosos Limão atraente 1 2

, Mos.tarda alegre 3 4 Ir-

Manteiga 4 3 Aurora 7 7

Tempero mexicano 6 5 Sorvete de limão 2 1 Banana s 6

(a) Calcule um coeficiente de correlação adequado. (b) Comente sobre a concordância entre os dois grupos que participam

da pesquisa.

Questão 3 Os serviços de TI da Parker's possuem dias de entrevistas regula­ res, em que os candidatos passam por uma entrevista e por um teste de aptidão à TI. Os resultados de determinada sessão são apresentados a seguir:

1 Candidato A B cl D E F e H 1

Colocação na entrevista 5 1 3 2 6 8 7 4 Pontuação na aptidão à TI (em 100) 70 85: 80 75 60 60 60 80 <

Calcule um coeficiente de correlação adequado e utilize-o para comentar o nível de concordância entre a entrevista e o processo do teste.

Questão 4 (Essa questão supõe que você tenha concluído a Questão 1.)

Calcule um model.o de regressão linear que descreva a relação entre a perda de peso e a quantidade de exercícios aeróbicos. Utilize essa equação para prever a perda de peso esperada de um membro da academia que tenha praticado 150 minutos de exer­ cícios aeróbicos na semana.

Questão 5 Uma empresa de transportes forneceu os seguintes dados com re­ lação a uma amostra de viagens feitas, dando a distância viajada e o tempo gasto. A empresa está interessada em desenvolver um modelo para prever o tempo gasto com uma viagem, se a distân­ cia a ser viajada for conhecida.

Page 30: J oanne Smaile Angela McGrane - acervodigital.ssp.go.gov.br · Administração com Excel . 11111/ilf . Ili! 1111 Ili . 00011890 . ... lizado para demonstrar ou mostrar às pessoas

COll.R!!IAÇÃO E RECRl!SSÂO 139

Distância (km) Tempo (horas)

200 3,2

120 2,0 ---- 175 3,0

150 2,0

300 4,7

320 5,5

240 3,8

180 2,8 ·-

210 3,4

260 4,5

LX = 2.155

ry = 34,9

Ex2 = 501.625

í:y = 133,67 txy= 8.175

(a) Apresente os dados utilizando um diagrama de dispersão apropriado. (b) Encontre o coeficiente de correlação e a equação da linha de regres­

são e declare-os claramente. (e) Dois caminhões estão prestes a deixar a garagem. Um fará uma via­

gem de 90 km, enquanto o outro viajará 220 km. Utilizando sua equação de regressão, estime o tempo de viagem para cada cami­ nhão. Quanto de confiança você teria em cada uma dessas respostas?

Questão 6 Uma cadeia de supermercados está prestes a lançar sua própria marca de bateria e deseja basear seu marketing em uma campa­ nha que enfatize que o preço da bateria não é o fator mais im­ portante para determinar sua confíabilidade.

Para auxiliar em sua publicidade, encomendou um pequeno estudo sobre a vida das baterias. Uma amostra de 50 baterias de várias idades compradas por vários preços foi testada (todas sob as mesmas condições) para ver por quanto tempo elas durariam.

Foram produzidos gráficos e estatísticas, como indica a Figura 4.10.

Page 31: J oanne Smaile Angela McGrane - acervodigital.ssp.go.gov.br · Administração com Excel . 11111/ilf . Ili! 1111 Ili . 00011890 . ... lizado para demonstrar ou mostrar às pessoas

140 fSTATIS11CA I\PUCADA À ADMIN!ST'RAÇ/\0 COM R\CEL

20 ,... -.. "' ii IS

É, 10 ,,, "C o: f- >

o o

• • • • • • • • . · .... ··:: ...

• • • • • • • • =·!· • • • • • • • • 1 1 1

20 40 60 80 Preço (centavos)

r= 0,271

.!O ,- -;;;- . . 11,1 15 "' . : • • ~ . : : ..

::, •• 1 É 10 l"CI • 1 • 1 1 • • • "C ', • • • s •

o o 20 40 60 80

Idade (meses) r= 0,918

Figura 4.10 (Acima) vida e preço de baterias e (abaixo) idade das baterias quando compradas e vida.

(a) Consultando os gráficos e valores fornecidos como evidência, discu­ ta que fatores parecem afetar a vida das baterias.

(b) Dadas as seguintes informações extras, que foram calculadas para você com base nos dados originais, encontre o modelo de regressão linear mais adequado que pode ser utilizado para estimar a vida das baterias (isto é, apenas um modelo).

Para idade e vida das baterias:

LX = 508 1:y = 499,3 üy = 4.256, 9 LX2 = 6.682 Para preço e vida das baterias:

í.x = 2.783 I.y = 499,3 üy = 28.217,2 L.x2 = 159.671 (e) Comente o que os coeficientes de correlação dizem-lhe em relação à

vida das baterias. (d) Utilizando seu modelo de regressão, faça previsões sobre quanto

tempo as seguintes baterias devem durar: (í) custo de 85 centavos, 2 anos de idade; (ii) custo de 50 centavos, 6 meses de idade.

(e) Escreva sobre quão confiante você está sobre a precisão dessas pre­ visões.

Page 32: J oanne Smaile Angela McGrane - acervodigital.ssp.go.gov.br · Administração com Excel . 11111/ilf . Ili! 1111 Ili . 00011890 . ... lizado para demonstrar ou mostrar às pessoas

CORRJ!lAÇÃO E Rl!CRESSÃO 141

EXERCÍCIO DE PLANILHA

Esse exercícío introduz o uso das funções do Excel utilizadas na regressão linear e na correlação. Como não existe nenhuma função disponível no Excel para calcular o coeficiente de correlação ordenado de Spearrnan automatica­ mente, ele foi excluído do exercício.

O arquivo SALES.XLS contém informações sobre funcionários de uma em­ presa de suprimentos de computadores. Os dados relativos a rnilhagem coberta, número de vendas efetuadas, período de tempo empregado na empresa e nú­ mero de visitas feitas a clientes foram registrados para cada um dos 150 vende­ dores por um mês.

• a coluna A contém o número da identidade de cada vendedor; • a coluna B contém sua rnilhagem em determinado mês; • a coluna C contém o número de vendas que eles efetuaram; • a coluna D contém seu tempo de serviço, registrado em meses; • a coluna E contém o número de visitas a clientes feitas no mês.

A empresa está interessada em prever o número de vendas efetuadas.

(a) Construa três diagramas de dispersão para ilustrar as possíveis rela­ ções entre a variável dependente e as três variáveis independentes.

(b) Utilize urna função do Excel para encontrar os coeficientes de corre­ lação de Pearson dos três pares de variáveis colocadas em gráficos anteriores.

(e) Faça breves comentários sobre as três relações, consultando seus diagramas de dispersão e seus coeficientes de correlação. Que par de variáveis exibe a relação mais forte?

(d) Utilizando esse par de variáveis e as funções relevantes do Excel, encontre os valores de a e b que poderiam ser utilizados para for­ mar uma equação de regressão linear para prever as vendas. Escre­ va o modelo de regressão linear e interprete rapidamente os valores de a e b nesse contexto.

(e) Construa urna coluna adicional de valores que contenha os valore estimados das vendas, baseando-os cm sua equação de regressão li­ near da parte (d) anterior. Adicione esse conjunto de valores esti­ mados ao gráfico de dispersão original das variáveis de seu modelo para formar uma linha pelos pontos dos dado ....

Page 33: J oanne Smaile Angela McGrane - acervodigital.ssp.go.gov.br · Administração com Excel . 11111/ilf . Ili! 1111 Ili . 00011890 . ... lizado para demonstrar ou mostrar às pessoas

142 ESTATÍSTICA AJ>LIC/\DA À ADMTNTSTRAÇAO COM EXCEL

DICAS PARA O DESENVOLVIMENTO

o Excel, as funções utilizadas na regressão e na correlação são:

= lNTERCEPT (y - amplitude dos Calcula o valor de a no modelo de regres­ dados, x - amplitude dos dados) são linear (isto é, o ponto em que a linha

de regressão corta o eixo y) = SLOPE (y - amplitude dos dados, Calcula o valor de b na equação de re- x - amplitude dos dados) gressão linear

= CORREL (y - amplitude dos dados, Usada para calcular o coeficiente de cor- x - amplitude dos dados) relação de Pearson

ou

= PEARSON (y - amplitude dos dados, x - amplitude dos dados)

= RSQ (y - amplitude dos dados, Calcula o coeficiente de determinação x - amplitude dos dados)

A Figura 4.11 ilustra como essas funções se aplicam na prática, além de fornecer a fórmula que seria necessária para responder à parte (e).

A B C D E F ' G =$B$19+($8$20*AS) -~ -- Scatter Diagram copíed down the columm - 25 ---

Est_y .. _ 20 4 X y > ~~ 1

• --- - • 5 9 13 16.00001 • -- -- -- - 6 1 21 18,45943 - - ~ 5 7 7 23 18,45943 o - - ~ 8 16 9 11,47004 o 5 10 X 15 20 25 . -- - - 9 1 21 18,45943 - - . 10 20 11 8,375194 - - 11 6 15 19,23514 -- Sc.tter Diagram + Regression - Line 12· 10 11 16,1323 ·- --- - 25 13 15 14 12,25375 20 . ~- - 14 14 11 13,02946 15 - -- 15 16 16 11,47004 > 10 -- ~ - 16 20 5 8,37519.4 5 - - 1 17 11 18 15,35659 o --- -----....--- - 10 X 15 20 25

18 o 5

!_9 lntercep1~ 23,B8941 ~=INTERCEPT(B5:Bl7,A5:A17)j 20 'Slope -0,77511 21 -----,- ~ =SL0PE(B5:B17,A5:A17) 1 22 Correlation - -0.73539. 4 [=C0RREL(6S:B17,A5:Al7) CE 1

Figura 4.11 Ilustração do exercicio de planilha.