23126 estatisticaaplicada manualtecnicoformando

download 23126 estatisticaaplicada manualtecnicoformando

If you can't read please download the document

Transcript of 23126 estatisticaaplicada manualtecnicoformando

  • 1. Manual de Estatstica AplicadaNDICE 1. INTRODUO .................................................................................41.1 Definies Gerais ........................................................................51.1.1. Populao 1.1.2. Variveis ou atributos 1.1.3. Processo de amostragem 1.2 A Estatstica Descritiva e a Estatstica Indutiva ...................62. ESTATSTICA DESCRITIVA82.1 Variveis Qualitativas .................................................................82.2 Variveis Quantitativas Discretas .............................................102.3 Variveis Quantitativas Contnuas ............................................112.4 Medidas de Localizao .............................................................132.4.1. Mdia 2.4.2. Mediana 2.4.3. Moda 2.5 Medidas de Ordem ......................................................................172.6 Medidas de Assimetria ...............................................................182.7 Medidas de Disperso ................................................................192.7.1. Disperso Absoluta 2.7.2. Disperso Relativa 2.8 Anlise de Concentrao ...........................................................212.8.1. Curva de Lorenz 2.8.2. ndice de GiniManual Tcnico de Formando2

2. Manual de Estatstica Aplicada2.9 Estatstica Descritiva Bidimensional ........................................242.9.1. Diagrama de disperso 2.9.2. Regresso simples 2.9.3. Correlao linear 2.9.4. Correlao ordinal 3. ESTATSTICA INDUTIVA 3.1 Noes bsicas de probabilidades ...........................................413.2 Probabilidade condicionada ......................................................443.3 Funes de Probabilidade ......................................................463.4 Estimao por Intervalos ........................................................533.5 Testes de hipteses ................................................................633.6 Aplicaes Estatsticas: Fiabilidade .........................................773.6.1. Conceito de fiabilidade 3.6.2. Fiabilidade de um sistema 3.7 Aplicaes Estatsticas: Controlo Estatstico de Qualidade ..823.8 Aplicaes Estatsticas: Tratamento Estatstico de Inquritos .883.8.1. Teste de independncia do qui-quadrado 3.8.2. Tratamento de inquritos BIBLIOGRAFIAManual Tcnico de Formando1043 3. Manual de Estatstica Aplicada "A estatstica a tcnica de torturar os nmeros at que eles confessem". Autor desconhecido1. INTRODUOInicialmente, a actividade estatstica surgiu como um ramo da Matemtica. Limitava-se ao estudo de medies e tcnicas de contagem de fenmenos naturais e ao clculo de probabilidades de acontecimentos que se podiam repetir indefinidamente. Actualmente, os mtodos estatsticos so utilizados em muitos sectores de actividade, tendo como algumas aplicaes estudos de fiabilidade, pesquisas de mercado, testes de controle de qualidade, tratamento de inquritos, sondagens, modelos economtricos, previses, etc. Exemplo de uma estatstica: os valores da inflao entre 1980 e 1990 constituem uma estatstica. Fazer estatstica sobre estes dados poderia consistir, por exemplo, em traar grficos, calcular a inflao mdia trimestral ou prever a inflao para 1991. A anlise de um problema estatstico desenvolve-se ao longo de vrias fases distintas: (i) Definio do Problema Saber exactamente aquilo que se pretende pesquisar; estabelecer o objectivo de anlise e definio da populao (ii) Amostragem e Recolha de Dados Fase operacional. o processo de seleco e registo sistemtico de dados, com um objectivo determinado. Os dados podem ser primrios (publicados pela prpria pessoa ou organizao) ou secundrios (quando so publicados por outra organizao).Manual Tcnico de Formando4 4. Manual de Estatstica Aplicada(iii) Tratamento e Apresentao dos Dados Resumo dos dados atravs da sua contagem e agrupamento. a classificao de dados, recorrendo a tabelas ou grficos. (iv) Anlise e Interpretao dos Dados A ltima fase do trabalho estatstico a mais importante e delicada. Est ligada essencialmente ao clculo de medidas e coeficientes, cuja finalidade principal descrever o comportamento do fenmeno em estudo (estatstica descritiva).Naestatsticaindutivaainterpretaodosdadossefundamentam na teoria da probabilidade.1.1. Definies Gerais 1.1.1. Populao Fazer estatstica pressupe o estudo de um conjunto de objectos bem delimitado com alguma caracterstica em comum sobre os quais observamos um certo nmero de atributos designados por variveis. Exemplo: Empresas existentes em Portugal1.1.2. Variveis ou atributosAs propriedades de uma populao so estudadas observando um certo nmero de variveis ou atributos. As variveis podem ser de natureza qualitativa ou quantitativa. As variveis quantitativas podem ainda dividir-se entre discretas e contnuas. As variveis discretas assumem apenas um nmero finito numervel de valores. As variveis contnuas podem assumir um nmero finito no numervel ou um nmero infinito de valores. Exemplo: um conjunto de empresas pode ser analisado em termos de sector de actividade (atributo qualitativo), nmero de trabalhadores (atributo quantitativo discreto), rcio de autonomia financeira (atributo quantitativo contnuo), etcManual Tcnico de Formando5 5. Manual de Estatstica Aplicada1.1.3. Processo de amostragem Para conhecer de forma completa a populao, podem efectuar-se: -recenseamentos (indagao completa de todos os elementos da populao); este processo , no entanto, tipicamente moroso e dispendioso, sendo esses os motivos porque os Censos so realizados apenas em cada 10 anos.-estudos por amostragem (observao de apenas um subconjunto, tido como representativo do universo). As tcnicas de recolha de amostras garantem a sua representatividade e aleatoriedade.1.2.A Estatstica Descritiva e a Estatstica IndutivaPara alm do ramo de amostragem, a estatstica compreende dois grandes ramos: a estatstica descritiva e a estatstica indutiva. A estatstica descritiva o ramo da estatstica que se encarrega do tratamento e anlise de dados amostrais. Assim, depois de recolhida a amostra de acordo com tcnicas que garantem a sua representatividade e aleatoriedade, fica disponvel um conjunto de dados sobre o universo em bruto ou no classificados. Para que seja possvel retirar qualquer tipo de concluses, tornase necessrio classificar os dados, recorrendo a tabelas de frequncias e a representaes grficas, isto , preciso tratar os dados. Depois de tratados, ser possvel proceder anlise dos dados atravs de vrias medidas que descrevem o seu comportamento: localizao, disperso, simetria dos dados, concentrao, etc. So disso exemplo indicadores numricos bem conhecidos como a mdia ou a varincia. A estatstica indutiva o ramo da estatstica que se ocupa em inferir das concluses retiradas sobre a amostra para a populao. De facto, a amostra no mais do que um passo intermdio e exequvel de obter informaes sobre o verdadeiro objecto de estudo, que o universo. A estatstica indutiva (ou inferncia estatstica) garante a ligao entre amostra e universo: se algoManual Tcnico de Formando6 6. Manual de Estatstica Aplicadase concluiu acerca da amostra, at que ponto possvel afirmar algo semelhante para o universo? nesta fase que se procuram validar as hipteses formuladas numa fase prvia exploratria. Claro que o processo de induo implica um certo grau de incerteza associado tentativa de generalizao de concluses da parte (amostra) para o todo (universo). O conceito de probabilidade vai ter aqui, ento, um papel fundamental. Isto , no vai ser possvel afirmar com toda a certeza que o comportamento da amostra ilustra perfeitamente o comportamento do universo, mas apenas que o faz com forte probabilidade. As inferncias indutivas so assim elaboradas medindo, ao mesmo tempo, o respectivo grau de incerteza. Da que, na ficha das tcnicas das sondagens eleitorais, por exemplo, apaream referncias ao nvel de confiana associado aos resultados e ao erro cometido. O esquema seguinte ilustra a roda da disciplina de estatstica, relacionando os seus diferentes ramos:POPULAO OU UNIVERSOPrevises Estimao ErrosAmostragemINFERIR DA AMOSTRA PARA O UNIVERSOAMOSTRAEstatstica DescritivaTRATAMENTO E ANLISE DA AMOSTRAInferncia EstatsticaGrficos; tabelas; medidas descritivasManual Tcnico de Formando7 7. Manual de Estatstica Aplicada2. ESTATSTICA DESCRITIVAOs resultados da observao de um atributo sobre os elementos do conjunto a analisar constituem os dados estatsticos. O ramo da estatstica que se ocupa do tratamento, apresentao e anlise de dados amostrais denomina-se de estatstica descritiva.2.1. Variveis Qualitativas Os dados qualitativos so organizados na forma de uma tabela de frequncias, que representa o nmero ni de elementos de cada uma das categorias ou classes e que chamado de frequncia absoluta. A soma de todas as frequncias igual dimenso da amostra (n). Numa tabela de frequncias, alm das frequncias absolutas, tambm se apresentam as frequncias relativas (fi), obtida dividindo a frequncia absoluta pelo nmero total de observaes. Modalidades Mod. 1Frequncias relativas f1Mod. jnjfjMod. n Totalfi =Frequncias absolutas n1nn n: dimenso da amostrafn 1ni ; ni: n de vezes que cada modalidade da varivel foi observada. nManual Tcnico de Formando8 8. Manual de Estatstica AplicadaExemplo: 68 empresas agrupadas por sector de actividade Uma forma de resumir a informao contida nos dados construir uma tabela de frequncias em que se consideram as diferentes modalidades que o sector de actividade pode tomar: Sector de actividade Indstria transformadora Construo e obras pblicas Comrcio e servios Financeiro Segurador TotalN de empresas (ni) 25 6 14 19 4 68% de empresas (fi) 36,8% 8,8% 20,6% 27,9% 5,9% 1Estes dados podem tambm ser representados graficamente atravs de:Diagrama de barras Para cada modalidade, desenha-se uma barra de altura igual frequncia absoluta ou relativa (as frequncias relativas so de preferir, pois permitem a comparao de amostras de diferentes dimenses).40% 30% 20% 10% 0% ITCOBCSFSDiagrama sectorial ou circular Esta representao constituda por um crculo, em que se apresentam tantos sectores quantos as modalidades em estudo. O ngulo de cada sector proporcional s frequncias das classes, fazendo corresponder o total da amostra (n) a 360 (por exemplo, para a indstria transformadora, o ngulo ser de 360x36,8%=132,3). Geralmente, juntamente com a identificao da modalidade, indica-se a frequncia relativa respectiva. Manual Tcnico de Formando9 9. Manual de Estatstica Aplicada6%IT 36%28%COB CS F S9%21%2.2. Variveis Quantitativas Discretas So variveis que assumem um nmero finito ou infinito numervel de valores. A apresentao destas amostras semelhante s variveis qualitativas, fazendo-se uma tabela de frequncias e uma representao grfica recorrendo ao diagrama de barras. Valores da varivel X1Frequncias absolutas n1Frequncias relativas f1XjnjfjXn Totalnn n: dimenso da amostrafn 1Exemplo: X o n de defeituosos por embalagem numa amostra de 200 N de defeituosos (X) 0 1 2 3 4 TotalN de embalagens (ni) 80 60 30 20 10 200% de embalagens (fi) 40% 30% 15% 10% 5% 150% 40% 30% 20% 10% 0%0 1 Manual Tcnico de Formando12233445 10 10. Manual de Estatstica AplicadaTambm possvel calcular as frequncias (absolutas Ni - e relativas - Fi) acumuladas: N defeituosos (X) 0 1 2 3 4 TotalN embalagens (ni) 80 60 30 20 10 200% embalagens (fi) 40% 30% 15% 10% 5% 1Ni 80 80+60 170 190 200Fi 40% 40%+30% 85% 95% 100%2.3. Variveis Quantitativas Contnuas Como foi dito anteriormente, uma varivel (ou atributo) contnua quando assume um nmero infinito no numervel de valores, isto , podem assumir qualquer valor dentro de um intervalo. Neste caso, a construo da tabela compreende duas etapas: (i) Definio de classes de valores disjuntas, correspondentes a intervalos de nmeros reais fechados esquerda e abertos direita, cuja constituio obedece a certas regras (ii) Contagem das observaes pertencentes a cada classeRegra de construo de classes (pressupe a formao de classes de igual amplitude) - Nmero de classes a constituir Depende de n = dimenso da amostra Se n25, o nmero de classes a constituir deve ser 5 Se n 0,5. Manual Tcnico de Formando15 15. Manual de Estatstica AplicadaExemplo 2: Mediana = 1 (com Fi = 0.7, primeiro valor que ultrapassa 0,5), o que quer dizer que pelo menos em metade das embalagens apareceu 1 artigo defeituoso ou menos.Variveis contnuas Em geral, determina-se o valor para o qual Fi = 0,5 atravs de uma regra de trs simples, atendendo a que as frequncias acumuladas variam uniformemente dentro de cada classe. Exemplo 3: Classe mediana (classe a que corresponde frequncia acumulada 0,5): 1 : Fi =0,383 1,5 : Fi = 0,765 Clculo da mediana: 0,765 - 0,383 ------------ 1,5 - 1 0,5 0,383 -------------- Me 1 Me = 1+((0,5x0,17)/0,382)= 1,15 Isto , 50% das empresas apresentam rcio de autonomia financeira inferior a 1,15. De uma forma geral: Me = L inf +0.5 FL inf xamp. classe mediana FL sup FL inf2.4.3. Moda (Mo) Variveis discretas A moda valor de X para o qual fi mximo, isto , o valor mais frequente da distribuio. Manual Tcnico de Formando16 16. Manual de Estatstica AplicadaExemplo 2: Mo=0 (com fi=0,4) Variveis contnuas A classe modal a classe de valores de X para o qual fi/hi mximo, isto , a classe a que corresponde maior frequncia por unidade de amplitude. Exemplo 3: Classe modal: [1-1,5[2.5. Medidas de ordem Tal como se definiu para a mediana, possvel definir outros valores de posio ou valores separadores da distribuio em partes iguais. Chama-se quantil de ordem p ao valor de x a que corresponde Fi = p. -Se p=0,01; 0,02;.....0,99, chama-se ao quantil percentil-Se p=0,1; 0,2;...0,9, chama-se ao quantil decil-Se p=0,25, 0,5, 0,75, chama-se ao quantil QUARTIL (Q1, Q2 e Q3). A mediana uma caso particular dos quartis (coincide com Q2) MximoVarivel discreta O quantil de ordem p o primeiro valor de x para o qual Fi>p. Varivel contnua Calcula-se por uma regra de trs simples, como a25% maioresmediana. De uma forma geral: Q1 = L inf +0.25 FL inf xamp. classe Q1 FL sup FL inf0.75 FL inf Q3 = L inf + xamp. classe Q3 FL sup FL inf Manual Tcnico de FormandoQ3 Mediana50% mais centraisQ1Mnimo1725% menores 17. Manual de Estatstica AplicadaA representao grfica destas medidas designa-se de diagrama de extremos e quartis e serve para realar algumas caractersticas da amostra. Os valores da amostra compreendidos entre os 1 e 3 quartis so representados por um rectngulo (caixa) com a mediana indicada por uma barra. Seguidamente, consideram-se duas linhas que unem os meios dos lados do rectngulo com os extremos da amostra. Utilizando os valores do exemplo 3 (Q1=0,795; Q3=1.48), resulta o diagrama da pgina anterior. Esta distribuio est fortemente concentrada em torno de valores baixos da varivel (rcio de autonomia financeira), j que 75% dos valores se encontram num espectro muito reduzido. Ao contrrio, 25% das empresas correspondem a um espectro muito amplo, entre 1,48 (Q3) e 6. Isto , h muitas empresas com baixo rcio de autonomia financeira (at valores um pouco acima de 1) e poucas empresas com rcios elevados. A distribuio diz-se enviesada ou simtrica esquerda. Ou seja, a partir deste diagrama, pode reconhecer-se a simetria ou enviesamento dos dados e a sua maior ou menor concentrao:Dados simtricosAssimetria direitaAssimetria esquerda2.6. Medidas de assimetria A assimetria tanto maior quanto mais afastados estiverem os valores da mdia, mediana e moda. Concretamente, se: X = Me = Mo, a distribuio diz-se simtricaX > Me > Mo, a distribuio diz-se assimtrica positiva (ou enviesada esquerda) X < Me < Mo, a distribuio diz-se assimtrica negativa (ou enviesada direita)Manual Tcnico de Formando18 18. Manual de Estatstica AplicadaCoeficiente de assimetria de Bowley (g):(Q3 Q 2) (Q 2 Q1) Q3 Q1Se g = 0 ..............a distribuio simtrica positiva ou equilibrada Os quartis esto mesma distncia da mediana. Se g > 0 ..............a distribuio assimtrica positiva ou puxada para a esquerda (se fr = 1, assimetria mxima) A mediana desliza para o lado do Q1, logo Q3-Q2 > Q2-Q1 Se g < 0 ..............a distribuio assimtrica negativa ou puxada para a direita (se fr = -1, assimetria mxima) A mediana desliza para o lado do Q3, logo Q2-Q1 > Q3-Q2 Q1 Q2Q3Q1Assimtrica positiva Q2 Q3Assimtrica negativa2.7. Medidas de disperso Duas distribuies podem distinguir-se na medida em que os valores da varivel se dispersam relativamente ao ponto de localizao (mdia, mediana, moda). Apresentam-se de seguida algumas das mais utilizadas, classificadas consoante a medida de localizao usada para referenciar a disperso das observaes: 2.7.1 Medidas de disperso absoluta (i)Em relao mediana Amplitude inter-quartis = Q = Q3 Q1 Significa que 50% das observaes se situam num intervalo de amplitude Q. Quanto maior (menor) a amplitude do intervalo, maior (menor) a disperso em torno da mediana.Manual Tcnico de Formando19 19. Manual de Estatstica Aplicada(ii)Em relao mdia Varincia amostral: mede os desvios quadrticos de cada valor observado em relao mdia, havendo pouca disperso se os desvios forem globalmente pequenos, e havendo muita disperso se os desvios forem globalmente grandes. Dados no-classificados 2 1 n 2 s = xi x n i =1()Dados classificados Variveis discretas1 s = n 2n i =1()2nni xi x =(fi xi xi =1)2Dados classificados Variveis contnuas1 s = n 2n i =1(ni ci x)2=n i =1(fi ci x)2onde ci o ponto mdio de cada classe i. Desvio-padro: Medida de disperso com significado real, mas que s possvel calcular indirectamente, atravs da raiz quadrada da varincia. Est expressa nas mesmas unidades da varivel.2.7.2 Medidas de disperso relativa Muitas vezes, avaliar a disperso atravs de um indicador de disperso absoluta no conveniente, assim como comparara a disperso de duas distribuies, uma vez que estas medidas vm expressas na mesma unidade da varivel como o caso, por exemplo, da varincia. Assim, de esperar que os valores da varincia sejam mais elevados quando os valores da varivel so maiores, o que no significa que a distribuio seja muito dispersa. ParaManual Tcnico de Formando20 20. Manual de Estatstica Aplicadacomparar diferentes distribuies de frequncia so precisas medidas de disperso relativa:Disperso relativa =Disperso absoluta Medida de localiza o em relao qual est definidaCoeficiente de variao CV =s x100% xOutras medidas Q3 Q1 Q2Estas medidas no esto expressas em nenhuma unidade, e permitem comparar disperses entre duas amostras, pois no so sensveis escala (eventualmente diferente) em que as variveis estejam expressas.2.8. Anlise da concentrao A noo de concentrao apareceu associada ao estudo de desigualdades econmicas, como a repartio do rendimento ou a distribuio de salrios. O fenmeno de concentrao est relacionado com a variabilidade ou disperso dos valores observados, apesar de no poder ser analisado atravs das medidas de disperso atrs descritas, que apenas medem a disperso dos valores em relao a um ponto. O objectivo determinar como o atributo (rendimento, salrios, nmero de empresas) se distribui (se de forma mais ou menos uniforme) pelos diferentes indivduos da amostra (que devem ser susceptveis de serem adicionados, isto , a anlise de concentrao no se aplica a idade, altura, peso, etc). Se o atributo estiver igualmente repartido pelos indivduos, temos uma situao extrema de igual distribuio; e vice-versa de o atributo estiver concentradoManual Tcnico de Formando21 21. Manual de Estatstica Aplicadanum s indivduo, temos uma situao extrema de mxima concentrao. Em geral, interessa medir o grau de concentrao em situaes intermdias. Para analisar a concentrao, existem dois instrumentos: a Curva de Lorenz e o ndice de Gini.2.8.1 Curva de Lorenz O objectivo comparar a evoluo das frequncias acumuladas (Fi = pi) com a evoluo da soma dos valores da varivel (qi)Quadro de dados Classes de valores da varivel [x1; x2[ [x2; x3[ [x3; x4[n1 njyjpjqj[xn-1; xn[ Totalnn nynpn=1qn=1niQuantidade Freq.relativa Proporo atributo acumuladas atrib.acumul, yi p1 q1Os pontos (pi;qi) pertencem ao quadrado (0,1) por (0,1). A curva que os une a curva de Lorenz. Se houver igual distribuio, a frequncia das observaes deve ter uma evoluo igual proporo do atributo correspondente, isto , pi=qi. Nesse caso, a curva de Lorenz coincide com a diagonal do quadrado, que designada de recta de igual repartio. Quanto mais a curva se afastar da recta, maior a concentrao. A zona entre a diagonal e acurva de Lorenz designa-se, por isso, de zona de concentrao.2.8.2 ndice de Gini O ndice de Gini calculado pela seguinte expressoManual Tcnico de Formando22 22. Manual de Estatstica Aplicada n 1G=i =1( pi qi ) n 1pii =1Quando G = 0, a concentrao nula, havendo igual repartio. Caso o valor de G seja 1, a concentrao ser mxima. O valor de G varia entre 0 e 1, e quanto maior o seu valor, maior a concentrao. Exemplo Considere-se a seguinte amostra de dimenso 200, referente aos lucros obtidos por empresas de um dado sector industrial, expressas numa determinada unidade monetria. Lucros [0; 50[ [50; 100[ [100; 200[ [200; 300[ [300; 500] Totalni 20 60 80 30 10 200Lucro total 600 4400 14000 7500 3500 30000pi (=Fi) 0.1 0.4 0.8 0.95 1qi 0.02 0.16(6) 0.63(3) 0.883(3) 1Curva de Lorenz 1 0,8 0,6 0,4 0,2 0 0Manual Tcnico de Formando0,20,40,60,8123 23. Manual de Estatstica Aplicada n 1G=i =1( pi qi ) n 1= pi0,546(6) = 0,243 2,25i =1Tanto pela anlise da Curva de Lorenz, como pelo valor do ndice de Gini, conclui-se que esta amostra apresenta concentrao moderada, encontrandose os valores razoavelmente repartidos.2.9. Estatstica Descritiva Bidimensional Numa situao em que se observam pares de valores (xi; yj), pode ter interesse estudar as relaes porventura existentes entre os dois fenmenos, nomeadamente relaes estatsticas. No se trata de estudar relaes funcionais (isto , a medida em que o valor de uma varivel determinado exactamente pela outra), mas sim de estudar a forma como a variao de uma varivel poder afectar a variao da outra, em mdia. (por exemplo, o peso e a altura normalmente esto relacionados, mas a relao no determinstica). Duas variveis ligadas por uma relao estatstica dizem-se correlacionadas. Se as variaes ocorrem, em mdia ou tendencialmente, no mesmo sentido, a correlao diz-se positiva. Se ocorrem em sentidos opostos, a correlao dizse negativa. Trata-se ento de estudar se: -Se existe alguma correlao entre os fenmenos ou variveis observadas-A existir, se traduzvel por alguma lei matemtica, nem que tendencialmente-A existir, se possvel medi-la2.9.1 Diagrama de dispersoManual Tcnico de Formando24 24. Manual de Estatstica AplicadaPara ilustrar o estudo de dados bivariados (valores emparelhados), considerese o exemplo seguinte referente ao peso e altura de 10 indivduos:Indivduo A B C D E F G H I JPeso (kg) 72 65 80 57 60 77 83 79 67 68Altura (cm) 175 170 185 154 165 175 182 178 175 173A representao grfica dos dados bivariados designa-se de diagrama de disperso. O diagrama de disperso uma representao grfica em que cada par de dados (xi, yj) representado por um ponto de coordenadas num sistema de eixos ordenados. Diagrama de Disperso 190Altura (cm)180170160150 5060708090Peso (kg)2.9.2 Regresso Simples Por vezes, a representao grfica do conjunto de dados bivariados sugere o ajustamento de uma recta a este conjunto de pontos, indicando a existncia de uma tendencial correlao linear entre as duas variveis, como o caso doManual Tcnico de Formando25 25. Manual de Estatstica Aplicadaexemplo atrs descrito. A essa recta chama-se recta de regresso de y sobre x, que permite descrever como se reflectem em y (varivel dependente ou explicada) as modificaes processadas em x (varivel independente ou explicativa). Essa recta torna possvel, por exemplo, inferir (em mdia) a altura de um indivduo, conhecendo o respectivo peso. Um dos mtodos mais conhecidos de ajustar uma recta a um conjunto de dados o Mtodo dos Mnimos Quadrados, que consiste em determinar a recta que minimiza a soma dos quadrados dos desvios entre os verdadeiros valores de y e os obtidos a partir da recta que se pretende ajustar. Obtm-se assim a recta de regresso ou recta dos mnimos quadrados. Assim, se a recta de regresso obedecer seguinte frmula geral:y = a + bx o mtodo permite minimizar a soma dos desvios quadrticos yi - (a + bxi). Assim sendo, obtm-se: b=xi y i n x y 2xi n x2ea = y bxMatematicamente, b designa o declive da recta. Em termos estatsticos, b corresponde ao coeficiente de regresso de y sobre x, que indica a variao mdia de y que acompanha uma variao unitria de x. O valor de a designa a ordenada na origem, isto , o valor que y assume quando x=0. No exemplo, vem: Recta de Regresso 190Altura (cm)180y = 0,9016x + 109,36170160Manual Tcnico de Formando 15026 26. Manual de Estatstica AplicadaA equao desta recta traduz-se em Altura = 109,36 + 0,9016 x Peso Isto , se um indivduo pesar 70 kg, a altura esperada ser de 109,36 + 0,9016 x 70 = 172,472. Por cada kg de peso adicional, espera-se que a altura do indivduo aumente 0,9016 cm.2.9.3 Correlao linear Quando, quer atravs do diagrama de disperso, quer atravs da recta de regresso, se verifica a existncia de uma associao linear entre as variveis, pode-se medir a maior ou menor fora com que as variveis se associam atravs do coeficiente de correlao linear r: r=s xy s xx s yy, s xy =n i =1( xi x)( y i y )Este indicador da correlao tem a vantagem de no depender das unidades ou da ordem de grandeza em que as variveis esto expressas. O coeficiente de correlao linear est sempre compreendido entre 1 e 1. Se r > 0, ento pode dizer-se que existe uma correlao positiva entre as variveis, isto , as variveis variam no mesmo sentido: um aumento (diminuio de x) provoca um aumento (diminuio) de y, mas menos que proporcional. Se r < 0, ento pode dizer-se que existe uma correlao negativa entre as variveis, isto , as variveis variam em sentidos opostos: um aumento (diminuio de x) provoca uma diminuio (aumento) de y, mas menos que proporcional. Se r = 0, ento pode dizer-se que as variveis no esto correlacionadas linearmente. Antes de se efectuar um estudo de correlao, deve-se procurar justificao terica para a existncia ou inexistncia de correlao. Caso contrrio, poder acontecer que variveis sem relao de causalidade entre si, variem num certoManual Tcnico de Formando27 27. Manual de Estatstica Aplicadasentido por razes exteriores. A esta correlao ilusria, chama-se correlao espria. Nos extremos, se r = 1 ou se r = -1, ento pode dizer-se que existe uma correlao positiva ou negativa perfeita, respectivamente, entre as variveis, isto , uma variao numa varivel provoca na outra uma variao exactamente proporcional no mesmo sentido ou em sentido contrrio. Isto , a correlao mxima. No exemplo, r = 0,90681871, isto , existe uma correlao positiva forte entre as duas variveis, quase perfeita.2.9.4 Correlao ordinal Por vezes, as variveis vm expressas numa escala ordinal, isto , interessa mais conhecer a ordenao dos valores do que os valores observados propriamente ditos. Neste caso, em vez do coeficiente de correlao linear, calcula-se o coeficiente de correlao ordinal:nrs = 1 6i =1di2n(n 1) 2x, d i = Ri RiyOrdens (ranks) das observaes de X e de Y, respectivamenteExemplo Considere que 10 estudantes foram sujeitos a uma prova de avaliao no incio e no final do curso. No quadro abaixo, encontram-se as ordenaes desses 10 estudantes segundo as classificaes obtidas em cada uma das provas:Manual Tcnico de Formando28 28. Manual de Estatstica AplicadaProva inicial Rix 1 3 2 5 7 8 9 10 6 4Aluno A B C D E F G H I JProva final Riy 1 2 3 4 6 8 7 9 10 5di Rix - Riy 0 1 -1 1 1 0 2 1 -4 -1Como no dispomos das classificaes dos alunos, mas sim das ordenaes das classificaes (do 1 ao 10 classificado), para avaliar a correlao existente entre as 2 provas necessrio calcular o coeficiente de correlao ordinal: nrs = 1 6i =1di2n(n 1) 2= 16 x(0 + 1 + 1 + 1 + 1 + 0 + 4 + 1 + 16 + 1) = 0,8424 10 x(100 1)A correlao positiva e elevada (rs varia entre 1 e 1), isto , os alunos que tiveram boa nota na prova inicial tiveram, em mdia, igualmente boa nota na prova final.Manual Tcnico de Formando29 29. Manual de Estatstica AplicadaESTATSTICA DESCRITIVA Exerccios resolvidosExerccio 1 Considere a distribuio de 1000 empresas de um sector de actividade segundo os resultados lquidos (em milhares de u.m.): Resultado Lquido [0; 1[ [1; 3[ [3; 5[ [5; 15[ [15; 25[ [25; 50[ TotalFrequncia. Relativa (%) 10 25 35 15 10 5 100a) Represente a distribuio graficamente. b) Determine a mdia e a moda da distribuio. Qual o significado dos valores encontrados? c) Calcule as frequncias acumuladas e represente-as graficamente. Determine a mediana da distribuio. d) Determine os quartis da distribuio. Faa a sua representao grfica. e) Analise a (as)simetria da distribuio em causa. f)Analise a concentrao atravs do ndice de Gini e da Curva de Lorenz.Resoluoa)fi/hi 0,2 0,18 0,16 0,14 0,12 0,1 0,08 0,06 0,04 0,02 0 010Manual Tcnico de Formando203040506030 30. Manual de Estatstica Aplicada[0; 1[ [1; 3[ [3; 5[ [5; 15[ [15; 25[ [25; 50]XTotalb) x =1 nfi 10% 25% 35% 15% 10% 5% 1n i =1ni c i=n i =1f i cihi 1 2 2 10 10 25fi/hi 0.1 0.125 0.175 0.015 0.01 0.002Fi 10% 35% 70% 85% 95% 100%ci 0.5 2 4 10 20 37.5= (0,5 x10%) + (2 x 25%) + ... + (37.5 x5%) = 7,325Em mdia, o resultado lquido de uma empresa de 7325 unidades monetrias. A classe modal aquela a que corresponde maior frequncia por unidade de amplitude. Neste caso, o maior valor de fi / hi 0,175. correspondente classe [3; 5[, isto , os valores de resultado lquido mais provveis para uma empresasituam-se entre 3000 u.m. e 5000 u.m. c) A representao grfica das frequncias acumuladas (ver tabela) designa-se de polgono integral: Fi 1 0,8 0,6 0,4 0,2 0 020406080100120Classe mediana (classe a que corresponde uma frequncia acumulada 0,5): [3; 5[ 3 : Fi=0,35 5 : Fi = 0,7Manual Tcnico de Formando31 31. Manual de Estatstica AplicadaClculo da mediana: 0,7 - 0,35 ------------ 5 - 3 0,5 0,35 -------------- Me 3 Me = 3 + ((2x0,15)/0,35) = 3,857 50% das empresas apresentam resultados lquidos inferiores a 3857 u.m. d) Classe a que pertence Q1 (classe a que corresponde uma frequncia acumulada 0,25): [1; 3[ 1 : Fi=0,1 3 : Fi = 0,35 Clculo do Q1: 0,35 - 0,1 ------------ 3 - 1 0,25 0,1 -------------- Q1 1 Q1 = 1 + ((2x0,15)/0,25) = 2,2 25% das empresas apresentam resultados lquidos inferiores a 2200 u.m.Classe a que pertence Q3 (classe a que corresponde uma frequncia acumulada 0,75): [5; 15[ 5 : Fi=0,7 15 : Fi = 0,85 Clculo do Q3: 0,85 - 0,7 ------------ 15 - 5 0,75 0,7 -------------- Q3 5 Q3 = 1 + ((10x0,05)/0,15) = 8,333(3) 75% das empresas apresentam resultados lquidos inferiores a 8333 u.m.e) g' =(Q3 Q 2) (Q 2 Q1) (8,333 3,857) (3,857 2,2) = = 0,4596 > 0 Q3 Q1 8,333 2,2A distribuio assimtrica positiva ou enviesada esquerda.Manual Tcnico de Formando32 32. Manual de Estatstica Aplicada f)X [0; 1[ [1; 3[ [3; 5[ [5; 15[ [15; 25[ [25; 50[ Totalfi 10% 25% 35% 15% 10% 5% 1ni 1000x10%=100 250 350 150 100 50 n=1000ci 0.5 2 4 10 20 37.5Atributo 100x0.5=50 250x2=500 1400 1500 2000 1875 7325pi (=Fi) 0.1 0.35 0.7 0.85 0.95 1qi 0.007 0.075 0.266 0.471 0.744 150 + 500 + 1400 7325Res.Liq.TotaisG=(0,1 0,007) + ... + (0,95 0,744) = 0,47 0,1 + 0,35 + 0,7 + 0,85 + 0,95A distribuio dos resultados lquidos apresenta concentrao mdia (G=0,5Curva de Lorenz 1corresponde ao centro da escala possvel, entre 0 e 1). Por exemplo, 70% das empresas apresentavam resultados at 5000 u.m., mas isso representava apenas 26,6% do total deresultadosdasempresas0,80,60,4daamostra, o que sugere um tecido empresarial com muitas PMEs, mas em que cada uma tem baixo resultado0,20 00,20,40,60,81lquido.Manual Tcnico de Formando33 33. Manual de Estatstica AplicadaExerccio 2 O quadro abaixo apresenta as vendas e as despesas em publicidade (ambas em milhares de u.m.) de uma empresa no perodo de 7 anos: Ano 1 2 3 4 5 6 7Vendas 10 13 18 19 25 30 35Desp. Publicidade 3 3 5 6 8 9 13a) Compare as vendas e as despesas em publicidade quanto disperso. b) Analise a correlao existente entre volume e custo de produo. c) Ajuste, pelo Mtodo dos Mnimos Quadrados, uma funo linear queexprima as vendas em funo das despesas em publicidade.Resoluoa) Para comparar a disperso das duas distribuies, necessrio calcular oscoeficientes de variao (medidas de disperso relativa): CV =s xDados no-classificados1 nx = sx21 = nCV x =n i =1n i =1xi = 21,429(xi x )2= 69,9408sx 69,9408 = = 0,39 x 21,429sy8) = 1-0,932 = 0,068 x! x =0Se X fr o N de avarias que ocorrem no intervalo de tempo [0,t[, ento a probabilidade de no ocorrerem avarias nesse intervalo, isto , a fiabilidade do componente/sistema como funo do tempo, dada por:Manual Tcnico de Formando49 49. Manual de Estatstica Aplicada(t )0 e t = e t 0!(iii) Lei ExponencialSeja T a varivel Tempo ou espao que decorre entre ocorrncias consecutivas de um acontecimento. Ento T segue lei exponencial Exp (), sendo 1 o tempo que, em mdia, decorre entre ocorrncias sucessivas do acontecimento. Note-se que possvel estabelecer uma relao entre a lei exponencial e a lei de Poisson. Assim, se X fr o N de avarias que ocorrem no intervalo de tempo [0,t[, e T fr o Tempo que decorre entre avarias consecutivas, ento: P (T>t)= P(tempo que decorre entre avarias exceder t) = P(at ao instante t, no ocorre qualquer avaria) = P (ocorrerem zero avarias no intervalo [0,t[)= P(X=0) = e tA distribuio exponencial a mais usada em estudos de fiabilidade, j que a probabilidade de um componente sobreviver at ao instante t dada pore t A probabilidade de avariar at ao instante t dada por1 e t Exemplo: O tempo de funcionamento sem avarias de uma determinada mquina deproduo contnua segue uma lei exponencial negativa com valor esperado igual a 4,5 horas. Imagine que a mquina (re)colocada em funcionamento no instante t=0 horas. Qual a probabilidade de no ocorrerem avarias antes do instante t=6 horas? Resoluo: SejaManual Tcnico de Formando50 50. Manual de Estatstica AplicadaT: tempo de funcionamento sem avarias (ou entre avarias consecutivas) de uma mquina, e X: numero de avarias que ocorrem no intervalo [0,6[, isto , num perodo de 6h =1/4,5 corresponde ao nmero de avarias por unidade de tempo (por hora)Logo P(T 6) = P(X=0)= e1 *6 4,5= e 1,333 = 0,264(iv) Lei NormalA lei Normal tem como parmetros caracterizadores a mdia e o desviopadro . Isto , os valores observados tm uma determinada tendncia central e uma determinada disperso em torno da tendncia central. A expresso 1 1 e 2 2( Xi ) 22representa a funo densidade de probabilidade da distribuio Normal. Se se fizer o valor mdio igual a zero e todos os desvios forem medidos em relao mdia, a equao ser:Z=X que corresponde a uma distribuio normal estandardizada (0;1) com os valores tabelados, a qual caracterizada por uma curva de Gauss:Manual Tcnico de Formando51 51. Manual de Estatstica AplicadaEsta distribuio apresenta 99,73% dos valores entre os extremos 3 e 3. Existem muitos tipos de distribuio, mas a curva normal a forma de distribuio mais frequente nos processos industriais para caractersticas mensurveis, e pode considerar-se como estabelecida pela experincia prtica.Exemplo: Considere que o comprimento mdio de determinado fio condutor 120, comdesvio padro 0,5. Qual a percentagem de fio com comprimento superior a 121? Resoluo: X: comprimento de determinado fio condutorCalculando a varivel reduzida correspondente, vem: 121 120 =2 0,5 Consultando a tabela, verifica-se que o valor da funo Z P(X 2) = 0,9772. Z=Logo P(X>2) = 1-0,9772 = 2,28%.Manual Tcnico de Formando52 52. Manual de Estatstica Aplicada(v) Lei Qui-QuadradoConsidere-se um conjunto de n variveis aleatrias Zi, obedecendo s seguintes condies: -cada varivel Zi segue distribuio N(0,1);-as variveis Zi so mutuamente independentesEnto, a varivel aleatria X, construda a partir da soma das n variveis Zi elevadas ao quadrado, segue distribuio Qui-Quadrado com n graus de liberdade, denotada porX=n i =12 2 Z i2 = Z12 + Z 2 + ... + Z n2 X nO termo Graus de Liberdade (d.f: degrees of freedom) habitualmente usado para designar o nmero n de parcelas (variveis Zi) adicionadas. possvel demonstrar que o valor esperado e a varincia da distribuio de uma varivel Qui-Quadrado so respectivamente =n 2 = 2n A distribuio Qui-Quadrado uma distribuio assimtrica esquerda, aproximando-se da distribuio Normal medida que n cresce.Manual Tcnico de Formando53 53. Manual de Estatstica Aplicada3.4. Estimao por intervalos Conhecendo-se uma amostra em concreto, possvel estimar os valores dos seus parmetros caracterizadores atravs de mtodos probabilsticos. Por exemplo, suponhamos que numa fbrica produtora de acar se pretende averiguar se o peso dos pacotes produzidos est, em mdia, dentro das normas de qualidade exigveis. Na impossibilidade de medio do peso de todos os pacotes, pela morosidade e dispndio de recursos que tal implicaria, a estatstica permite que, a partir da observao de uma nica amostra, seja possvel inferir entre que valores varia o peso mdio com um grau de confiana ou probabilidade elevado. Assim, ao recolher um determinado nmero de pacotes da produo total aleatoriamente, possvel calcular o peso mdio de acordo com as tcnicas de estatstica descritiva apreendidas atrs. Claro que nada nos garante que esse valor coincide com o valor do parmetro da populao em estudo. De facto, at provvel que no coincida e, mais, se recolhermos outro conjunto idntico de pacotes, o valor seja diferente. Isto , para cada amostra de dimenso n recolhida, a estimativa do parmetro assumiria valores distintos. Ento, como retirar concluses? Como garantir algum nvel de rigor? O mtodo a estudar neste captulo a estimao por intervalos permite, a partir da recolha de uma nica amostra, aferir entre que valores seria de esperar que variasse o parmetro de interesse se nos empenhssemos a recolher um nmero infinito de amostras. Isto , por exemplo, caso o valor amostral fosse de 1,02 kg, este mtodo poderia, por exemplo, permitir afirmar que seria altamente provvel que o peso dos pacotes produzidos estivesse a variar entre 0,92 kg e 1,12 kg. E esse resultado tem um determinado nvel de confiana associado: por exemplo, se dissermos que o nvel de confiana ou certeza implicado de 95%, tal significa que, se nos fosse possvel observar um nmero infinito de amostras, o intervalo de valores apresentado corresponderia aos resultados obtidos em 95% delas (os valores mais usualmente utilizados so 90%, 95% ou 99% de confiana). Caberia depois Manual Tcnico de Formando54 54. Manual de Estatstica Aplicadaempresa julgar se esses seriam ou no valores aceitveis e proceder aos eventuais reajustes necessrios. A partir do conceito de intervalo de confiana para um parmetro, fcil concluir que a sua especificao implica conhecer: -o estimador do parmetro em causa-a sua distribuio de probabilidade-uma estimativa particular daquele parmetroComo parmetros de interesse e para efeitos de exemplificao, vo considerar-se duas tipologias de intervalo: o intervalo de confiana para a mdia de uma populao normal e o intervalo de confiana para a proporo de uma populao binomial. Para efeitos de simplificao, vo considerar-se apenas exemplos relativos a amostras de grande dimenso (na prtica, n 100) (i) Intervalo de confiana para a mdia de uma populao normalSeja X (mdia amostral) o estimador da mdia da populao. Porque a distribuio Normal, a distribuio deste estimador ser: X N ( ; n)Uma vez que apenas se encontra tabelada a distribuio N(0,1), torna-se necessrio calcular a varivel reduzida correspondente: Z=X N (0;1)nEsta varivel permitir deduzir a frmula geral do intervalo de confiana para a mdia de uma populao normal: X c n;X +c nIsto , em torno do valor do estimador, definido um intervalo de variao onde possvel afirmar que o parmetro a estimar est contido com um grau de confiana . Esse intervalo de variao depende:Manual Tcnico de Formando55 55. Manual de Estatstica Aplicada-da dimenso da amostra (n): quanto maior a dimenso da amostra, menor a amplitude do intervalo. Este resultado explica-se facilmente: no limite, se fosse possvel observar todo o universo de dados (n= ), o valor amostral calculado corresponderia ao valor da populao.-do desvio - padro da populao ( ): quanto maior o desvio - padro, maior a amplitude do intervalo. Como se sabe, o desvio - padro uma medida que caracteriza a disperso da distribuio. Quanto maior o seu valor, maior a variabilidade apresentada pelos dados, sendo natural que a margem de variao de prever em torno do valor amostral recolhido seja tambm, naturalmente, maior.-do valor crtico (c): quanto maior o valor c, maior a amplitude do intervalo. O valor crtico reflecte o nvel de confiana adoptado. Naturalmente, para que aumente a confiana de que o valor do parmetro a estimar est contido no intervalo, a sua amplitude deve aumentar tambm (no limite, se o intervalo se alongasse de - a + a confiana seria total ou 100%). possvel encontrar o valor c na tabela da normal (pois esta a lei do estimador), da seguinte forma: P ( c Z c ) = j que assim possvel definir a frmula geral do intervalo, resolvendo a inequao em ordem ao parmetro, : P (c X c) = P( X c n X c n)=nExemplo: Suponha-se que se tem uma populao normal com mdia desconhecida edesvio - padro 3, N (, 9) e uma amostra de 121 observaes. Deduza um intervalo de confiana para a com 95% de confiana. Resoluo: Para os dados deste exemplo, vem:n=121 =3 c: P (c Z c) = 95% D (c) = 95% c = 1,96Manual Tcnico de Formando56 56. Manual de Estatstica Aplicadae logo X c n;X +c n= X[1,96 x3 1,96 x3 ;X = X 0,535; X + 0,535 11 11[]]O intervalo X 0,535; X + 0,535 contm o verdadeiro valor do parmetro com probabilidade ou confiana de 95%. Conhecida uma estimativa particular daquele parmetro, torna-se possvel calcular entre que valores seria de esperar que, com 95% de confiana, variasse .Se o desvio - padro da populao fr desconhecido, utiliza-se este intervalo considerando-se como estimativa de o desvio - padro corrigido da amostra, ou seja, s=( xi x ) 2 n 1, tal que:X cs' n;X +cs' n(ii) Intervalo de confiana para a proporo p de uma populao binomial Seja p (proporo amostral ou frequncia observada na amostra) o estimadorda proporo p de uma populao binomial. Sendo a amostra de grande dimenso, a distribuio deste estimador ser: p N ( p;p(1 p ) ) nUma vez que apenas se encontra tabelada a distribuio N(0,1), torna-se necessrio calcular a varivel reduzida correspondente: Z= p p p (1 p ) n N (0;1)Esta varivel permitir deduzir a frmula geral do intervalo de confiana para a proporo p de uma populao binomial: pc p (1 p ) p (1 p ) ;p+c n n (como estimativa de p (1 p ) foi utilizado p (1 p ))Manual Tcnico de Formando57 57. Manual de Estatstica AplicadaExemplo: Numa cidade pretende-se saber qual a proporo da populao favorvel acerta modificao de trnsito. Faz-se um inqurito a 100 pessoas, e 70 declaram-se favorveis. Determine um intervalo de confiana a 95% para a proporo de habitantes dessa cidade favorveis modificao de trnsito. Resoluo: n=100 p=70 = 0,7 100c: P (c Z c) = 95% D (c) = 95% c = 1,96 e logo pc p (1 p ) 0,7 x0,3 p (1 p ) 0,7 x0,3 ;p+c = 0,7 1,96 ;0,7 1,96 = n 100 n 100= [0,6102;0,7898]O intervalo [0,6102;0,7898] contm o verdadeiro valor do parmetro p com probabilidade ou confiana de 95%. Ou seja, a proporo de habitantes favorveis modificao de trnsito est situada entre 61,02% e 78,98%, com probabilidade de 95%.Como bvio, pretende-se que o resultado possua o mximo de confiana possvel. No entanto, se uma maior confiana pretendida na estimao, esta conduz a possibilidades de erro maiores, dado que um elevado nvel de confiana conduz a um intervalo maior e, como tal, a preciso da estimao diminui. Exemplo: Consideremos 3 afirmaes de alunos que aguardam a sada das pautas deum exame de Estatstica: Afirm. 1: Tenho a sensao que as pautas sero afixadas durante a manh Afirm. 2: Tenho quase a certeza que as pautas sero afixadas entre as 10h e as 11hManual Tcnico de Formando58 58. Manual de Estatstica AplicadaAfirm. 3: Tenho a certeza absoluta que as pautas ou so afixadas s 10h30 ou j no so afixadas hoje Estas 3 afirmaes permitem constatar facilmente que se se pretende maior confiana na estatstica, se tem que permitir que a possibilidade de erro aumente. Por outro lado, se se permitir que o erro diminua, os extremos do intervalo aumentam, embora o resultado perca alguma preciso. No entanto, h que ter em ateno que, se um intervalo de confiana tem uma amplitude demasiado grande, a estimativa no tem utilidade. Cabe ao investigador gerir este trade-off. Isto leva a uma questo importante: o dimensionamento de amostras. At aqui, sempre se assumiu que as dimenses so conhecidas partida, sem referir como se determinam. No entanto, a resoluo deste problema tem um enorme interesse prtico, j que (i) recolher e tratar uma amostra demasiado grande para os resultados que se pretendem obter constitui um evidente desperdcio de recursos e (ii) recolher uma amostra cuja dimenso insuficiente para retirar concluses constitui um erro. A dimenso das amostras aumentar se se pretender garantir maior preciso ao intervalo e/ou maior grau de confiana. No captulo dedicado a aplicaes estatsticas, ser possvel ver como possvel utilizar o conceito de intervalo de confiana ao controlo estatstico de processos de qualidade.Manual Tcnico de Formando59 59. Manual de Estatstica AplicadaINTERVALOS DE CONFIANA Exerccios1. Uma mquina fabrica cabos cuja resistncia ruptura (em kg/cm2) uma varivel com distribuio Normal de mdia 100 e desvio - padro 30. Pretendese testar uma nova mquina que, segundo indicaes do fabricante, produz cabos com resistncia mdia superior. Para isso, observam-se 100 cabos fabricados pela nova mquina, que apresentam uma resistncia mdia de 110 kg/cm2. Admita que o novo processo no altera o desvio padro da resistncia ruptura dos cabos. Determine um intervalo de confiana a 95% para a resistncia mdia ruptura dos cabos produzidos pela nova mquina.2. Uma mquina de cortar madeira corta pranchas cujo comprimento uma varivel aleatria normalmente distribuda com desvio padro 0,09 cm. Foram efectuadas algumas medidas de prancha efectuadas aleatoriamente: 221,3219,1218,7220215,1Construa um intervalo de confiana a 95% para o comprimento mdio das pranchas.3. Admita-se que a altura dos alunos de uma escola segue distribuio Normal com varincia conhecida e igual a 0,051. Admita-se ainda que foi recolhida uma amostra aleatria com dimenso n=25 alunos e calculada a respectiva mdia amostral, tendo-se obtido o valor de 1,70m. Defina um intervalo que, com probabilidade 95%, contenha o valor esperado da altura .4. Um construtor civil utiliza um tipo de cimento, fornecido em sacos de 50 kg. No entanto, os 50 kg podem no ser respeitados, pois existe uma tolerncia para o peso do saco. Contudo, existe uma norma de 4 kg2 em relao varincia, que respeitada. O construtor suspeita que os sacos costumam vir Manual Tcnico de Formando60 60. Manual de Estatstica Aplicadacom menos cimento. Para averiguar se a sua suspeita se verifica, recolheu a seguinte amostra: 49,4 48,6 5150,2 49,5 48,7 4949,1a) Construa o intervalo de confiana a 95% para a mdia do peso do cimento. b) Qual a amplitude mxima do intervalo para a mdia do peso de cimento que possvel obter com esta amostra e com nveis de confiana no superiores a 99%?4. Numa fbrica, procura conhecer-se a incidncia de defeituosos na produo de uma mquina. Para tanto, colhe-se uma amostra de dimenso suficientemente grande (1600 artigos), onde 10% dos artigos so defeituosos. Determine o intervalo de confiana para a referida proporo com 90% de confiana.5. Uma amostra de 20 cigarros analisada para determinar o contedo de nicotina, observando-se um valor mdio de 1,2 mg. Sabendo que o desvio padro do contedo de nicotina de um cigarro 0,2 mg, diga, com 99% de confiana, entre que valores se situa o teor mdio de nicotina de um cigarro.6. Num lote de 150 peas fabricadas numa determinada mquina encontraramse 12 defeituosas. Defina o intervalo de confiana a 95% para a proporo de peas defeituosas que aquela mquina produz.7. O gabinete de projectos de uma empresa de material de construo civil pretende estimar a tenso de ruptura do material usado num determinado tipo de tubos.Manual Tcnico de Formando61 61. Manual de Estatstica AplicadaCom base num vasto conjunto de ensaios realizados no passado, estima-se que o desvio - padro da tenso de ruptura do material em causa de 70 psi. Deseja-se definir um intervalo de confiana a 99% para o valor esperado da tenso de ruptura, pretendendo-se que a sua amplitude no exceda 60 psi. Qual o nmero de ensaios necessrio para definir tal intervalo?8. O director fabril de uma empresa industrial que emprega 4000 operrios emitiu um novo conjunto de normas internas de segurana. Passada uma semana, seleccionou aleatoriamente 300 operrios e verificou que apenas 75 deles conheciam suficientemente bem as normas em causa. Construa um intervalo de confiana a 95% para a proporo de operrios que conheciam adequadamente o conjunto das normas uma semana aps a sua emisso.9. A empresa SCB controla regularmente a resistncia ruptura dos cabos por si produzidos. Recentemente, foram analisadas as tenses de ruptura de 10 cabos SCB-33R, seleccionados aleatoriamente a partir de um lote de grandes dimenses, tendo sido obtida uma mdia de 4537 kg/cm2. Existe uma norma de 112 kg/cm2 em relao varincia, que respeitada. O director comercial pretende saber qual o intervalo de confiana, a 95%, para o valor esperado da tenso de ruptura dos cabos do lote em causa. Defina esse intervalo.10. Uma amostra de 50 capacetes de proteco, usados por trabalhadores de uma empresa de construo civil, foram seleccionados aleatoriamente e sujeitos a um teste de impacto, e em 18 foram observados alguns danos. Construa um intervalo de confiana, a 95%, para a verdadeira proporo p de capacetes que sofre danos com este teste. Interprete o resultado obtido.Manual Tcnico de Formando62 62. Manual de Estatstica Aplicada3.5. Testes de hipteses Todos os dias temos de tomar decises respeitantes a determinadas populaes, com base em amostras das mesmas (decises estatsticas). Nesta tomada de decises, til formular hipteses sobre as populaes, hipteses essas que podem ou no ser verdadeiras. A essas hipteses chamamos hipteses estatsticas, as quais geralmente se baseiam em afirmaes sobre as distribuies de probabilidade das populaes ou sobre alguns dos seus parmetros. Uma hiptese pode ento ser definida como uma conjectura acerca de uma ou mais populaes. Desta forma, os testes de hipteses podem considerar-se uma segunda vertente da inferncia estatstica, tendo por objectivo verificar, a partir de dados observados numa amostra, a validade de certas hipteses relativas populao. O resultado do teste corresponde inevitavelmente a uma das duas respostas possveis para cada questo: afirmativa ou negativa. Em ambos os casos corre-se o risco de errar. Uma das caractersticas do teste de hipteses , justamente, a de permitir controlar ou minimizar tal risco. Nos testes de hipteses, e ao contrrio dos intervalos de confiana, em vez de procurar uma estimativa ou um intervalo para um parmetro, admite-se ou avana-se um valor hipottico para o mesmo, utilizando depois a informao da amostra para confirmar ou rejeitar esse mesmo valor. A hiptese a testar denomina-se, pois, de H0 ou de hiptese nula. O objectivo verificar se os factos observados a contradizem, levando a optar pela hiptese alternativa H1. Isto , a estratgia bsica seguida no mtodo de teste de hipteses consiste em tentar suportar a validade H1 de uma vez provada a inverosimilhana de H0. Exemplo: Registos efectuados durante vrios anos permitiram estabelecer que o nvel dechuvas numa determinada regio, em milmetros por ano, segue uma lei normal N(600;100). Certos cientistas afirmavam poder fazer aumentar o nvel mdio das chuvas em 50 mm. O seu processo foi posto prova e anotaram-se os valores referentes a 9 anos: 510614780512501534603788650Que se pode concluir? Adopte um nvel de significncia de 5%.Manual Tcnico de Formando63 63. Manual de Estatstica AplicadaResoluo: Duas hipteses se colocavam: ou o processo proposto pelos cientistas noproduzia qualquer efeito, ou este aumentava de facto o nvel mdio das chuvas em 50 mm. Estas hipteses podem formalizar-se do modo seguinte: H0: =600 mm H1: =650 mm Este um problema clssico de teste de hipteses, em que est em causa aceitar ou rejeitar a hiptese nula, em funo dos resultados de uma amostra. Ao utilizar uma amostra de uma populao, estamos a lidar com leis de probabilidades, logo no possvel de saber se a hiptese nula verdadeira ou falsa, mas apenas medir as probabilidades envolvidas na tomada de deciso. Podem-se definir 2 formas de especificar Ho e H1: (i)hiptese simples contra hiptese simples Ho: = 0 H1: = 1(ii)hiptese simples contra hiptese composta Ho: = 0 H1: > 0 ou < 0 ou 0 Estes testes designam-se respectivamente de teste unilateral direita, teste unilateral esquerda e teste bilateralSendo os testes de hipteses, portanto, um processo de inferncia estatstica onde se procuram tomar decises sobre a populao com base numa amostra, natural que envolvam alguma margem de erro e que ocorram em situao de incerteza. Estes erros no podem ser completamente evitados mas, no entanto, pode-se manter pequena a probabilidade de os cometer. Compete ao investigador decidir qual a dose de risco de se enganar em que est disposto a incorrer. Vamos supor uma probabilidade de erro de, por exemplo, 5%. Nesse caso, e avanada a hiptese nula Ho, o investigador s estaria disposto a rejeit-la se o resultado obtido na amostra fizesse parte de um conjunto de resultados improvveis que teriam apenas, por exemplo, 5 chances em 100 de Manual Tcnico de Formando64 64. Manual de Estatstica Aplicadase produzir. Este tipo de formulao conhecida como postura conservadora. Ou seja, estamos mais propensos a achar que o novo processo no tem qualquer efeito sobre o nvel das chuvas (isto , que tudo se mantm igual) do que investir no novo processo (mudar), arriscando apenas quando houver evidncias da amostra muito fortes a favor do novo. Para que esta deciso possa ser tomada de uma forma controlada, conveniente pois que, partida, se fixe o valor a partir do qual se considera improvvel a validade da hiptese nula. Tal fixao corresponde fixao da regra de deciso do teste. A formalizao desta regra passa pela especificao de uma regio de regio de rejeio. A essa regio, isto , ao conjunto de valores improvveis que conduzem rejeio da hiptese nula d-se o nome de Regio Crtica. Ao limite superior de risco, que na maior parte dos casos de 10%, 5% ou 1%, dse o nome de Nvel de Significncia do teste, sendo este que permite definir a condio de rejeio de Ho. O Nvel de Significncia designa-se de e corresponde, ento, probabilidade de o resultado amostral levar rejeio de Ho, supondo Ho verdadeira, isto , probabilidade de se estar a cometer aquilo a que se convenciona chamar de erro de 1 espcie. Como veremos no exemplo, existem tambm erros de 2 espcie, cuja probabilidade se designa pela letra . Em resumo: Quadro de deciso em condio de incertezaHiptese nula Ho DecisoHiptese Ho ser verdadeira:Hiptese Ho ser falsaAceitar HoDeciso correcta (1-)Rejeitar HoErro de tipo I Alfa ()Erro de tipo II Beta () Deciso correcta (1-)Como decidir? Visto que se trata de testar o valor de , a varivel de deciso ser X . Considerando Ho verdadeira vem que X N (600;Manual Tcnico de Formando100 9).65 65. Manual de Estatstica AplicadaEm princpio, grandes valores de X so improvveis, pelo que se opta pela seguinte regra de deciso: Se X fr demasiado grande, isto , superior a um valor crtico c que tem apenas 5 chances em 100 de ser ultrapassado, opta-se por H1 com probabilidade 5% de se estar a cometer um erro. Se tal no acontecer, conserva-se Ho, por falta de provas suficientes para no o fazer. Logo, sendo P(Rejeitar Ho / Ho) = = 5%, vem queP ( X > c / = 600) = 0,05 P (X >c 600 ) = 0,05 100n c = 600 + 1,645 x9100 = 654,83(3) 3A regra de deciso , ento, a seguinte: -rejeitar H0 em favor de H1, se o valor amostral fr superior a 654,83(3)-conservar H0 em detrimento de H1 se fr inferior a 654,83(3)Isto , a Regio Crtica deste teste, isto , o conjunto de acontecimentos que levam rejeio de H0 corresponde a todos os valores de X >654,83(3).RA: Regio de AceitaoRR: Regio Crtica ou de RejeioRA=(1-) = 600RR= 654,83(3)XOs dados recolhidos indicavam X =610,2 mm, pelo que a deciso conservar H0 , isto , considerar que o processo cientfico no produz efeitos.Manual Tcnico de Formando66 66. Manual de Estatstica AplicadaNo entanto, os erros incorridos no se ficam apenas pelos de 1 espcie. Existem tambm erros de 2 espcie. Isto , partida parte-se do princpio que H0 verdadeira e s se rejeitar essa hiptese se ocorrerem acontecimentos pouco provveis. No entanto, possvel alternativamente partir do princpio que H1 que verdadeira, ou seja, considerar que o processo cientfico realmente eficaz no aumento do nvel mdio das chuvas, mas que, infelizmente, o nmero de valores observado no permite observar resultados ou esses resultados foram insuficientes. Supondo ento que H1 verdadeira (=650 mm), ento vem que: X N (650;RA100 9)1- RR = 650XA probabilidade de rejeitar H1 erradamente, isto , de se cometer um erro de 2 espcie, vem ento igual a: P(Rejeitar H1 / H1)= P ( X 654,83(3) / = 650) = P (X n654,83(3) 650 ) = P ( N (0,1) 0,14) = 55,57% 100 9 atravs das probabilidades e que se procura o melhor teste de hipteses, sendo o teste ideal o que minimiza simultaneamente ambos os valores. No entanto, e como e se referem a realidades opostas e variam em sentido contrrio, tal no possvel. O que na maior parte dos casos se faz fixar o (para amostras de dimenso n) e tentar minimizar .Manual Tcnico de Formando67 67. Manual de Estatstica AplicadaRegio de rejeio e de aceitao da hiptese nulaUnilateral esquerda H1: < 600Bilateral H1: 600RARR RR /2 1RAUnilateral direita H1: > 600 RARR /21RR1Chama-se potncia de um teste probabilidade de rejeitar H0 quando esta falsa. Esta uma deciso certa, no implica erro, e complementar do erro de 2 espcie. Logo, quanto menor o erro de 2 espcie, maior ser o valor da potncia do teste e, logo, maior a sua qualidade (diz-se que o teste mais potente) . Quando H1 uma hiptese composta (>, < ou ), a potncia do teste varivel, dependendo do valor do parmetro que no fixo. Nesse caso falase em funo potncia do teste = 1 - (1)Resumindo: passos para construo de um teste de hipteses: Passo No 1: Formular as hipteses nula e alternativa Passo No 2: Decidir qual estatstica (estimador) ser usada para julgar a Ho e a varivel de deciso Passo No 3: Definir a forma da Regio Crtica, em funo da hiptese H1 Passo N 4: Fixar o nvel de significncia Passo N 5: Construir a Regio Crtica em funo do nvel de significncia Passo N 6: Clculo (eventual) da potncia do teste Passo N 7: Calcular a estatstica da amostra Passo No 8: Tomar a deciso: rejeio ou no de HoManual Tcnico de Formando68 68. Manual de Estatstica Aplicada(i) Teste de hipteses para a mdia de uma populao normal ExemploSuponha que o director de qualidade pretende averiguar se o peso dos pacotes de arroz produzidos corresponde ao valor assinalado na embalagem. Seja X a varivel que representa o peso de um pacote de arroz. Suponha que X N ( ;0,012 ) e que se conhece a seguinte amostra:1,02 0,98 0,97 1,01 0,97 1,02 0,99 0,98 1,00 Ser que, para um nvel de significncia de 5% se pode dizer que o peso mdio corresponde ao peso de 1 kg assinalado na embalagem?ConceitosNotaoDefinioPopulaoTodos os pacotes produzidosAmostraOs pacotes recolhidos na amostraVarivelXPeso de um pacote de arrozParmetroQuantidade mdia de arroz por pacote produzidoEstimadorXQuantidade mdia de arroz por pacote da amostraEstimativaHiptese nula Hiptese alternativa Erro de tipo I Alfa () Erro de tipo II Beta ()Valor da mdia daquela amostraHo: = 1 H1: < 1 Considerar que o peso mdio corresponde ao da embalagem quando inferior Considerar que o arroz contido em cada pacote era inferior ao indicado quando estava de facto de acordo com o valor da embalagemResoluo Passo 1 Formular as hipteses: Ho: = 1 H1: < 1 Passo 2 A estatstica a ser utilizada ser a mdia amostralManual Tcnico de Formando69 69. Manual de Estatstica AplicadaPasso 3 A regio crtica formada por todos os valores menores ou iguais a c Passo 4 Assumir um nvel de significncia de 5% Passo 5 Para =5%, determinar a regio de rejeio e aceitao. Logo, sendoP(Rejeitar Ho / Ho) = = 5%, vem queP ( X < c / = 1) = 0,05 P (X 100). Vamos supor que se pretende testar o valor terico da percentagem (parmetro p). Fixando-se o nvel de significncia, determina-se a regio crtica. Sendo o estimador a proporo amostral, a varivel de deciso Z= p p p (1 p ) n N (0;1)ExemploNuma cidade, pretende-se saber se metade da populao favorvel construo de um centro comercial. Faz-se um inqurito a 200 pessoas, e 45% declaram-se favorveis. Estes valores contradizem a hiptese? ConceitosNotaoDefinioPopulaoOs habitantes da cidadeAmostraOs habitantes inquiridosManual Tcnico de Formando71 71. Manual de Estatstica AplicadaConceitosNotaoParmetropPercentagem ou proporo de habitantes da cidade favorveis construo de um centro comercialEstimador pPercentagem ou proporo de habitantes da amostra favorveis construo de um centro comercialEstimativaDefinioValor da proporo daquela amostraHiptese nula Hiptese alternativa Erro de tipo I Alfa () Erro de tipo II Beta ()Ho: p = 0,5 H1: p < 0,5 Considerar que a maioria dos habitantes no favorvel construo do centro comercial quando de facto so Considerar que a maioria dos habitantes favorvel construo do centro comercial quando so contraResoluo Passo 1 Formular as hipteses: Ho: p = 0,5 H1: p < 0,5 Passo 2 A estatstica a ser utilizada ser a proporo amostral, onde o cuidado deve ser trabalhar com grandes amostras. Passo 3 A regio crtica formada por todos os valores menores ou iguais a c Passo 4 Assumir um nvel de significncia de 5% Passo 5 Para =5%, determinar a regio de rejeio e aceitao. Logo, sendoP(Rejeitar Ho / Ho) = = 5%, vem que P ( p < c / p = 0,5) = 0,05 P ( c = 0,5 1,645 x p pp (1 p ) n0,5(1 0,5) = 0,442 200Manual Tcnico de Formando