Estatistica_Aplicada

http://www.estatistica.eng.br Rua Voluntários da Pátria, 474/701 - Humaitá endereço eletrônico: [email protected] 22270-010 - Rio de Janeiro - RJ

telefone: (21) 2539-7966 / fax: (21)2286-9877 / celular:(21) 9-627-0648

Estatística Aplicada à Análise de Resultados

de Ensaios de Proficiência na Avaliação de Laboratórios

CADERNO DE ATIVIDADES

AANNVVIISSAA IINNSSTTIITTUUTTOO AADDOOLLPPHHOO LLUUTTZZ 11 a 15 de agosto de 2003

ESTATÍSTICA A P LICA D A e EX C ELÊN C I A E M G E S T Ã O

P A U LO A FON S O LOPES

Estatística aplicada à análise de resultados de ensaios de proficiência na avaliação de laboratórios p. 1

Paulo Afonso Lopes Instituto Adolfo Lutz/IAL, 11 a 15 de agosto de 2003

A. Ementa 1. A Estatística nas normas ABNT ISO/IEC. 2. Introdução aos métodos estatísticos para a tomada de decisão. 3. Procedimentos para um estudo estatístico. 4. Início de um estudo: retirada de uma amostra. 5. Estatística Descritiva (E.D.): medidas de representatividade (tendência central) e de dispersão. 6. Ainda E.D.: o z-escore. 7. Inferência Estatística (I.E.): questão de confiança e risco de errar. 8. Intervalo para a Estatística Descritiva: apresentando os valores observados em uma tabela e em um

gráfico. 9. Introdução às Probabilidades, a segunda ferramenta para a Inferência. 10. A primeira parte da I.E.: testes de hipóteses. 11. A segunda parte da I.E.: estimando parâmetros da população. 12. Voltando à Inferência: começando a estimar a média da população a partir de uma amostra 13. I.E., continuando a testar hipóteses: um valor extremo, em relação ao seu conjunto, pode ser

considerado válido? (assunto também conhecido como "rejeição de dispersos"). 14. I.E., teste de hipóteses: repetitividade e reprodutibilidade. 15. I.E., teste de hipóteses: diagrama de Youden. 16. I.E.: continuando a testar hipóteses e usando tudo o que foi visto: os gráficos de controle. 17. Começando na Matemática e acabando na Inferência Estatística: descobrindo a "melhor" de todas as

retas (chamam de "regressão linear "). 18. Um outro olhar: Estatística Robusta

B. Carga horária total 8 horas/aula.

C. Objetivo Proporcionar ao pessoal do Instituto Adolpho Lutz o conhecimento dos conceitos estatísticos básicos necessários ao entendimento e à interpretação dos requisitos específicos da norma ABNT ISO/IEC 17025: 2001, tornando-se -se capaz de compreender e analisar os resultados para uma correta tomada de decisão.

D. Metodologia Exposição dialogada dará suporte aos debates, estudos de caso, vivências e exercícios. E. Bibliografia recomendada • ABNT ISO/IEC Guia 43-1: 1999, Ensaios de proficiência por comparações interlaboratoriais -

Parte 1: Desenvolvimento e operação de programas de ensaio de proficiência. • ABNT ISO/IEC Guia 43-2: 1999, Ensaios de proficiência por comparações interlaboratoriais -

Parte 2: Seleção e uso de programas de ensaio de proficiência por organismos de credenciamento de laboratórios.

• ABNT ISO/IEC 17025: 2001, Requisitos gerais para competência de laboratórios de ensaio e calibração.

• LOPES, Paulo Afonso. Probabilidades e Estatística – conceitos, modelos, aplicações em Excel. Rio de Janeiro: Reichmann&Affonso Editores, 3ª reimpressão, 2003.

Currículo resumido do Instrutor Paulo Afonso Lopes é Doutor em Pesquisa Operacional pelo Florida Institute of Technology, Mestre em Engenharia de Produção pela COPPE/UFRJ, Estatístico pela Escola Nacional de Ciências Estatísticas (CONRE-RJ 5975) e Engenheiro pelo Instituto Militar de Engenharia. Sua experiência profissional inclui docência em cursos de graduação e pós-graduação no Brasil e no exterior, palestras em universidades americanas e consultoria a diversas empresas. Autor do livro “Probabilidades e Estatística”, também editado em espanhol pela Prentice-Hall, e de artigos em revistas científicas e anais de congressos nacionais e internacionais. Professor Visitante da University of Wisconsin-La Crosse e Professor Adjunto do Florida Institute of Technology, Estados Unidos. Consultor da UNESCO e Avaliador do INMETRO .



1. A Estatística nas normas ABNT ISO/IEC

A Norma ABNT ISO/IEC Guia 43-1: 1999, Ensaios de proficiência por comparações interlaboratoriais, na sua Parte 1: Desenvolvimento e operação de programas de ensaio de proficiência, apresenta as seguintes afirmações a respeito da Estatística:

• “os anexos a esta Parte da ABNT ISO/IEC Guia 43 fornecem diretrizes estatísticas para o tratamento de dados obtidos em programas de ensaios de proficiência.” - Prefácio (p. 1).

• “Amostragem – por exemplo, quando indivíduos ou organizações são solicitados a coletar amostras para análises subseqüentes.” - NOTA f) do item 3.6.

• “valor disperso - parte de um grupo de valores que é inconsistente com as outras partes daquele grupo (também definido na ISO 5725-1).” - item 3.16.

• “resultados extremos - valores dispersos e outros valores que sejam grosseiramente inconsistentes com outras partes do grupo de dados." item 3.17.

• "Estes resultados podem ter uma profunda influência em sumários estatísticos, tais como a média e o desvio padrão.” - Nota do item 3.17.

• “técnicas estatísticas robustas - técnicas para minimizar a influência que resultados extremos podem ter sobre estimativas de média e desvio padrão." - item 3.18.

• "Estas técnicas admitem menor peso para os resultados extremos, ao invés de eliminar estes resultados do grupo de dados.” - Nota do item 3.18.

• “Programas de ensaios interlaboratoriais envolvem subamostras selecionadas aleatoriamente de uma fonte de material .... É essencial que o lote de itens de ensaio fornecido aos participantes em cada rodada seja suficientemente homogêneo, para que quaisquer resultados posteriormente identificados como extremos não sejam atribuídos a qualquer variabilidade significativa do item de ensaio.” - item 4.3.

Mais ainda, a norma ABNT ISO/IEC 17025: 2001 afirma, no item 5.9, que "O laboratório deve ter procedimentos de controle da qualidade para monitorar a validade dos ensaios e calibrações realizados. Os dados resultantes devem ser registrados de forma que as tendências sejam detectáveis e, quando praticável, devem ser aplicadas técnicas estatísticas para a análise crítica dos resultados." Desse modo, justifica-se que os Avaliadores saibam corretamente interpretar os resultados apresentados pelos organismos a serem avaliados. No segundo dia deste curso, será analisado o relatório (Draft) da APLAC (Asia Pacific Laboratory Accreditation Cooperation), número T026 (Low Alloy Steel Proficiency Testing Programme), cuja leitura prévia é recomendável.

2. Introdução aos métodos estatísticos para a tomada de decisão

1. Para que estudar Estatística? Livro, p. 2

2. Campos da Estatística: Livro, p. 11

3. Prática inicial do EXCEL: Livro, p. 156

• iniciar o aplicativo

• células: • identificação • célula ativa

• inclusão: • números • texto

• identificação do “Colar Função” e estudo do seu potencial: Livro, p. 13

• identificação da Ferramenta “Análise de Dados”: Livro, p. 14

• Atenção: após digitar os dados, escolher uma célula diferente para os resultados

3. Procedimentos para um estudo estatístico

1. Formular um plano para coleta dos dados: conhecida a natureza da avaliação, identificar os prováveis

elementos a coletar, restringindo a pesquisa aos dados de interesse.



2. Identificar as variáveis mais importantes.

3. Coletar os dados.

4. Identificar o melhor modelo estatístico e utilizá-lo.

5. Relatar as conclusões de modo que todos entendam.

4. Início de um estudo: retirada de uma amostra

1. Conceito de amostra: usualmente, significa um determinado item, ao passo que, para a Estatística, significa

um conjunto de itens.

2. Tamanho da amostra: deve ser o maior que se puder conseguir.

3. O laboratório deve informar qual o plano de amostragem para a retirada das amostras.

4. Dois tipos de amostragem: aleatória simples e sistemática.

5. Cuidado: a amostra deve ser representativa da população

5. Estatística Descritiva: medidas de representatividade (tendência central) e de dispersão

1. Dados brutos e rol: Livro, p. 22

a) EXCEL:

• ordenação de valores: EXCEL, Livro, p. 23, ícone A↓ Z ou "Dados"/Classificar...

2. Medidas de representatividade (tendência central)

• MÉDIA ARITMÉTICA amostral, X a) EXCEL: Livro, p. 25, "Colar função"/ MÉDIA

• MEDIANA amostral a) EXCEL: Livro, p. 31, "Colar função"/ MED

3. Medidas de dispersão absoluta

• AMPLITUDE TOTAL: Livro, p. 33

• VARIÂNCIA amostral, s2 EXCEL: Livro, p. 37, "Colar função/VAR"

Uma versão modificada para calcular a variância da amostra é

( )s

X X n

n

i ii

n

i

n

2

2

1

2

1

1=

−

−== ∑∑

• DESVIO-PADRÃO amostral, s EXCEL: Livro, p. 37, "Colar função/DESVPAD"

4. Medidas de dispersão relativa

• COEFICIENTE DE VARIAÇÃO1: Livro, p. 42

5. Comentários a respeito de cálculos manuais, com a calculadora e com o Excel.

6. As medidas mais importantes da Estatística Descritiva são: a média aritmética e o desvio-padrão.

1 para alguns autores de língua inglesa, também conhecido como RSD (relative standard deviation), desvio-padrão relativo. O CV é razoável somente quando o desvio-padrão é estritamente proporcional à média aritmética; se o desvio-padrão é constante em uma faixa extensa dos níveis da propriedade sendo observada, o CV é, neste caso, ilusório; outra desvantagem é que seu valor não é muito útil quando a média é próxima do valor zero.



6. Ainda E.D.: o z-escore

A maioria dos resultados fornece valores numéricos que não têm significado único e há poucas, se existir alguma, medidas absolutas. Entretanto, a média aritmética tornou-se um clássico ponto de referência para comparações, e as diferenças entre os elementos da população são apresentadas com base em uma escala a partir da média, escala que permite comparações. Como há infinitos valores para a média aritmética, é essencial existir uma forma de converter valores brutos medidos em várias escalas, a partir da média desses valores, para uma escala comum. Analisando-se apenas a média, pode-se tomar uma decisão baseada apenas nessa medida absoluta, não se considerando a posição relativa de um determinado em valor em relação a todos os resultados. Entretanto, normalmente, uma população pode ter média elevada e pequena dispersão e outra pode ter média pequena e elevada dispersão. Como compará-las? A despeito dessas dificuldades, é quase certo que escalas padronizadas fornecem melhores resultados do que comparações baseadas em dados brutos. Dados absolutos podem ser transformados em valores relativos, uma escala de resultados-padrão com média zero e desvio-padrão 1, resultando no chamado z-score, calculado pela seguinte expressão:

valor relativo = Z-score = padrão desvio

aritmética média -valor

Exemplo A Norma NIT-DICLA-026, revisão 01, aprovada em AGO/01 afirma:

7.6.Documentos e Registros do Laboratório 7.6.1 O laboratório deve manter registros atualizados contendo os ensaios de proficiência em que participou, com as seguintes informações, quando aplicáveis: ......................................... e) critério de aceitação dos resultados ou avaliação de desempenho (ex.: percentual mínimo exigido de acertos, Youden, z-score, etc.); f) resultados obtidos (satisfatório/questionável/insatisfatório);

7. Inferência estatística: questão de confiança e risco de errar

1. Inferência Estatística: Livro, p. 105

a) Estimação: nada se sabe a respeito da população

b) Testes de Hipóteses: afirma-se algo a respeito da população

2. TODA AFIRMAÇÃO DEVE VIR ACOMPANHADA DE UM GRAU DE CERTEZA (ou confiança).

3. Toda decisão tem um risco, que é a probabilidade associada a uma decisão errada.

4. Nível de significância: nome de grife para o conhecido "erro".

O nível de significância é representado pela letra grega α (usualmente expresso em

porcentagem, (αx100)%; complementar ao nível de significância, tem-se o nível de confiança,

representado por (1 - α)x100%; indicam, respectivamente, probabilidades de erro e de

certeza nas inferências estatísticas.



8. Intervalo para a Estatística Descritiva: apresentando os valores observados em uma tabela e em um gráfico

OBSERVAÇÃO IMPORTANTE: Quando se tem os dados originais, todos os cálculos devem ser feitos com eles. A construção de tabelas, nos dias de hoje, tem o objetivo de facilitar a apresentação dos resultados, não sendo recomendada para cálculos. Usar os valores da tabela era natural nos milênios passados, quando não existiam os modernos recursos computacionais.

9. Introdução às probabilidades, a segunda ferramenta para a Inferência

1. O que é probabilidade:

• conceito experimental: regularidade estatística

• conceito clássico: intuitivo

• conceito axiomático

a) após observar o experimento inúmeras vezes, verifica-se o comportamento do fenômeno: para que repetir o experimento sempre que se quiser verificar o resultado?

b) modelos matemáticos a partir dos resultados da parte experimental.

• OBSERVAÇÃO: para melhor compreensão pelas pessoas, as probabilidades devem ser

expressas em porcentagens.

10. A primeira parte da I.E.: testes de hipóteses

1. O que são: Livro, p. 121 2. Região de rejeição e região de não-rejeição. 3. Tipos de testes: unilateral e bilateral. 4. Estrutura clássica de um teste:

• formular a hipótese nula • formular a hipótese alternativa • decidir o tipo de distribuição estatística • escolher o risco que deseja assumir (denominado nível de significância) • determinar as regiões de rejeição e de não rejeição • verificar onde o valor amostral se encontra e decidir

5. Termos equivalentes:

a) Estatisticamente significante = Rejeitar a hipótese nula = O valor amostral não é compatível com o valor da hipótese nula = A variação amostral não é uma explicação razoável da discrepância entre os valores da hipótese nula e os valores amostrais b) Não estatisticamente significante = Não rejeitar a hipótese nula = O valor amostral é compatível com o valor da hipótese nula = A variação amostral é uma explicação razoável da discrepância entre os valores da hipótese nula e os valores amostrais

6. Conceito moderno: o valor-p.

11. A segunda parte da I.E.: estimando parâmetros da população

A maior utilidade da Estatística é ajudar a formular conclusões sobre uma população baseadas em informações limitadas. Normalmente, os parâmetros de um processo ou de um produto, tais como a



temperatura média de um forno ou comprimento médio de um componente são desconhecidos, podendo ser necessário estimar o valor desses parâmetros. Na estimativa pontual, um valor numérico simples é obtido como uma estimativa do parâmetro da população. Na estimativa por intervalo, um intervalo é determinado tal que exista alguma probabilidade de que o verdadeiro valor do parâmetro esteja contido nele. Estimativas por intervalos são também chamadas de intervalos de confiança. I - Estimativas Pontuais Uma estimativa pontual consiste de um valor numérico único, usado para fazer uma inferência sobre um parâmetro desconhecido do processo, produto ou serviço. Por exemplo, para estimar a média de uma população, pode-se selecionar uma amostra de 100 elementos e calcular a média amostral; se este valor for 27, a estimativa pontual da média da população é, portanto, 27. II - Estimativas por Intervalo A idéia do intervalo de confiança é um refinamento da estimativa pontual. Nesta, afirmava-se que:

valor do parâmetro = valor da amostra Todavia, dificilmente o valor da amostra será igual ao da população, mais ainda porque este último é desconhecido. Desse modo, considera-se uma variação em torno do valor amostral e, assim, pode-se escrever que o parâmetro se situa entre dois limites, ou seja

valor do parâmetro = valor da amostra ± "variação" Essa variação é diretamente proporcional à dispersão da população (quanto mais dispersa a população, maior será a variação entre as amostras) e à confiança dos resultados (se se desejar um intervalo de confiança que contenha o verdadeiro valor do parâmetro, este intervalo deve ser o maior possível), mas inversamente proporcional ao tamanho da amostra (quanto maior a amostra, mais se aproxima da população e a estimativa fica mais precisa, com menor variação). Quanto maior o intervalo de confiança, mais confiante se está de que o intervalo realmente conterá o verdadeiro valor do parâmetro. Por outro lado, quanto maior o intervalo, menos informação obtém-se para esse mesmo parâmetro. Na situação desejável, obtém-se um intervalo relativamente pequeno com uma confiança elevada. Para um tamanho fixo de amostra e para a mesma variância, quanto maior o nível de confiança, maior o intervalo de confiança. É importante enfatizar que toda afirmação deve vir acompanhada de um grau de certeza (ou confiança), o quanto se está certo ao comunicar aquela informação. A interpretação desse enfoque é a seguinte: se um grande número de intervalos de confiança forem construídos a partir de amostras independentes da mesma população, então espera-se que uma porcentagem desses intervalos contenha o valor verdadeiro do parâmetro da população. Por exemplo, ao desejar-se um intervalo de confiança de 90% para estimar a média de uma população, uma amostra pode fornecer um intervalo entre (48,5, 51,5). Embora se desconheça o verdadeiro valor da média da população, se 100 desses intervalos forem construídos a partir de 100 amostras, deve-se esperar que 90 desses intervalos contenham o verdadeiro valor da média da população. Entendendo realmente o conceito de intervalo de confiança

Algumas estimativas intervalares podem incluir e outras não o verdadeiro valor do parâmetro da população. Quando se retira uma amostra e se calcula um intervalo de confiança, não se sabe, realmente, se o parâmetro da população se encontra naquele intervalo calculado. O importante é reconhecer que se está utilizando um método com (1-α)% de probabilidade de sucesso: em uma seqüência muito grande de repetições, (1-α)% dos intervalos assim construídos abrangerão o verdadeiro valor do parâmetro da população, embora não se saiba exatamente quanto ele valha.



12. Voltando à Inferência: começando a estimar a média da população a partir de uma amostra

Limites de confiança do parâmetro µ = n

tsX +

Ao se retirar uma amostra de tamanho n, calcula-se X e s. Como determinar o valor de "t"?

13. I.E., continuando a testar hipóteses: um valor extremo, em relação ao seu conjunto, é válido (assunto também conhecido como "rejeição de dispersos")

Antes de se interpretar uma série de resultados obtidos a partir de uma ou mais amostras, é necessário verificar a existência de valores que, eventualmente, possam ser considerados como dispersos, ou seja, valores que muito provavelmente não pertençam ao mesmo conjunto de resultados. Uma ampla variedade de testes de estatística tem sido sugerida para determinar se uma observação deve ser rejeitada; em todas essa, um intervalo é estabelecido com uma determinada significância estatística. Infelizmente, não há um critério uniforme que pode ser usado para decidir se um resultado suspeito pode ser devido a erro acidental ao invés de ser resultado de uma variação aleatória. A única base confiável para rejeição ocorre quando se sabe que alguns erros específicos teriam sido cometidos na obtenção de um resultado duvidoso. O importante é usar o mesmo critério ao longo de todo o trabalho. Freqüentemente, um analista que conhece o desvio-padrão dos resultados espera que um método rejeitará um conjunto de pontos que estejam distantes 2s ou 2,5s da média, porque há, aproximadamente, uma chance em 20 (caso de 2s) ou 1 em 100 (caso de 2,5s) de que isto ocorrerá . Existem várias maneiras de verificar se um ou mais valores podem ser considerados dispersos, e os mais comuns são os seguintes testes:

- Chauvenet; - Cochran; - Dixon, e - razão Q.

I - Teste de CHAUVENET

PROCEDIMENTO:

1. Calcular a média aritmética e o desvio-padrão amostral dos valores. 2. Identificar os valores extremos: maior valor e menor valor. 3. Determinar, para cada um dos valores extremos, a diferença d entre ele e a média aritmética.

4. Calcular a relação sd

.

5. Determinar o valor tabelado para o tamanho da amostra em estudo. 6. Se a relação for menor que o valor tabelado, aceitar o ponto extremo; caso contrário, eliminá-lo da amostra.

7. Eliminado o valor disperso, refazer a análise com os valores restantes, até que todos os valores sejam

considerados não dispersos.

Tabela 1. Critério de Chauvenet - valores críticos n |d|/s n |d|/s n |d|/s n |d|/s 5 1,65 10 1,96 20 2,24 40 2,50



6 1,73 12 2,03 22 2,28 50 2,58 7 1,80 14 2,10 24 2,31 100 2,80 8 1,86 16 2,16 26 2,35 200 3,02 9 1,92 18 2,20 30 2,39 500 3,29

Exemplo Sejam os seguintes valores:

X1 = 858, 77 X2 = 819,29 X3 = 777,37 X4 = 724,51 X5 = 752,39 X6 = 736,69

X7 = 1050,51 X8 = 996,85 X9 = 1097,35 X10 = 824,16 X11 = 1086,09 X12 = 1077,09

X13 = 936,85 X14 = 831,41 X15 = 845,40 X16 = 812,86 X17 = 842,69 X18 = 986,83

X19 = 859,49 X20 = 1568,60

1) a média aritmética é igual a 924,26 e o desvio-padrão amostral é 193,25

2) o maior valor é 1568,60 e o menor valor é 924,26

3) para o maior valor, d20 = 1568,60 - 924,26 = 644,34; para o menor valor, d24 = 724,51 - 924,26 = -199,75

4) para o maior valor, |d20|/s = |1568,60 - 924,26|/193,25 = 3,33; para o menor valor, |d4|/s = |724,51 -

924,26|/193,25 = 1,03.

5) para a amostra de tamanho 20, o valor tabelado de |d|/s é igual a 2,24.

6) como 1,03 < 2,24, X4 permanece e como 3,33 > 2,24, elimina-se X20 .

7) eliminado X20, os cálculos devem ser refeitos com os 19 valores restantes.

II - Teste de COCHRAN Neste teste, comparam-se variâncias, ou seja, verifica-se se a variância dos resultados obtidos por um grupo é excessiva em relação à dos demais grupos, sendo um teste unilateral, isto é, só verifica o maior valor. Para um conjunto de n inspetores, cada um com desvio-padrão amostral si ( i = 1,2,...,n) todos calculados para o mesmo número n de observações, o valor a calcular para o teste de Cochran é dado por:

Ccalculado = max2s

i2s

i=1

n∑

onde: s2 = estimativa da variância s2

max = maior valor encontrado no conjunto como estimativa da variância, no conjunto n = número de inspetores

Se Ccalc< Ctab 5% , o valor não é rejeitado Se Ctab 1% > Ccalc > Ctab 5% , o valor é considerado suspeito ou estranho Se Ccalc > Ctab 1% , o valor é considerado disperso

Os valores críticos deste teste estatístico encontram-se no Anexo 1. III - Teste de DIXON Neste teste, comparam-se valores individuais obtidos por um operador ou valores médios obtidos por vários operadores, ou ainda diferenças entre dois resultados obtidas por vários operadores. É um teste bilateral, isto é, são testados os valores mínimo e máximo.



Para um conjunto de resultados Z(h), h = 1,2,....H, agrupados em ordem crescente, o Teste de Dixon utiliza o seguinte critério: se o total de resultados estiver entre 3 e 7,

Dcalc = Z ZZ H Z( ) ( )( ) ( )2 1

1−−

e Z H Z H

Z H Z( ) ( )

( ) ( )− −

−1

1

se o total de resultados estiver entre 8 e 12,

Dcalc = Z Z

Z H Z( ) ( )

( ) ( )2 1

1 1−

− − e

Z H Z HZ H Z( ) ( )

( ) ( )− −

−1

2

se o total de resultados estiver entre 13 e 40,

Dcalc = Z Z

Z H Z( ) ( )

( ) ( )3 1

2 1−

− − e

Z H Z HZ H Z( ) ( )

( ) ( )− −

−2

3

Os valores críticos deste teste estatístico encontram-se na Tabela 2. Se Dcalc< Dtab 5% , o valor não é rejeitado Se Dtab 1% > Dcalc > Dtab 5% , o valor é considerado suspeito ou estranho Se Dcalc > Dtab 1% , o valor é considerado disperso

IV - razão Q

Começa-se a calcular a razão Q ordenando-se os dados de modo decrescente. A diferença entre o número suspeito e seu vizinho mais próximo é dividida pela amplitude total; esta razão é comparada com o valor tabelado de Q. Se for igual or maior que o valor tabelado, a observação suspeita pode ser rejeitada. Os valores tabelados de Q para 90%,95% e 99% de nível de confiança são fornecidos na Tabela 2. Se Q excede o valor tabelado para um dado número de observações e um nível de significância, a medição questionável é com, por exemplo, 95% de confiança.

Tabela 2. Valores críticos de Q Nível de confiança

No. de observações Q90 Q95 Q99

3 0,941 0,970 0,994 4 0,765 0,829 0,926 5 0,642 0,710 0,821 6 0,560 0,625 0,740 7 0,507 0,568 0,680 8 0,468 0,526 0,634 9 0,437 0,493 0,598

10 0,412 0,466 0,568 15 0,338 0,384 0,475 20 0,300 0,342 0,425 25 0,277 0,317 0,393 30 0,260 0,298 0,372

Exemplo: A precisão de um método está sendo estabelecida, e os seguintes dados são obtidos: 22,23; 22,18; 22,25; 22.09 e 22,17%. A medição de 22.09% pode ser considerada válida com 95% de nível de confiança?

14. Repetitividade e reprodutibilidade

Duas medidas de precisão (incerteza) chamadas REPETITIVIDADE e REPRODUTIBILIDADE têm sido usadas para descrever a variabilidade de métodos de teste. I - REPETITIVIDADE (também conhecida como REPÊ) A Repetitividade se refere a testes executados sob condições que são tão constantes quanto possíveis, chamadas condições de repetitividade. Os resultados de testes mutuamente independentes são obtidos com o mesmo método de ensaio, de material idêntico, por um mesmo



laboratório, por um mesmo operador e usando o mesmo equipamento em intervalos de tempo pequenos. O desvio padrão do resultado de teste obtido sob condições de repetitividade denomina-se desvio padrão de repetitividade. É um parâmetro de dispersão da distribuição dos resultados de testes. Como o desvio padrão de repetitividade, calcula-se o chamado valor de repetitividade r; a partir dos dois resultados de testes obtidos sob condições de repetitividade, calcula-se o módulo da diferença entre eles. A probabilidade de que esta diferença seja menor do que o valor de repetitividade r é igual a 95%. II - REPRODUTIBILIDADE (também conhecida como REPRÔ) A Reprodutibilidade se refere a testes executados sob condições variadas, chamadas de condições de reprodutibilidade. Os resultados são obtidos com o mesmo método de ensaio e material idêntico, mas em laboratórios diferentes, com diferentes operadores e usando equipamentos diferentes, sendo os testes executados com grandes intervalos de tempo entre um e outro. O desvio padrão do resultado de teste obtido sob condições de reprodutibilidade denomina-se desvio-padrão de reprodutibilidade. É um parâmetro de dispersão da distribuição dos resultados de testes. Com o desvio padrão de reprodutibilidade, calcula-se o chamado valor de reprodutibilidade R: a partir dos dois resultados de testes obtidos sob condições de reprodutibilidade, calcula-se o módulo da diferença entre eles. A probabilidade de que esta diferença seja menor do que o valor de reprodutibilidade R é igual a 95%.

Exemplo Observe, agora, uma definição de reprodutibilidade, segundo a Norma XYZ4 de uma empresa avaliada:

6.7. Reprodutibilidade NORMA 1 - A diferença entre dois resultados individuais e independentes, obtidos por dois operadores, operando em laboratórios diferentes a partir de uma mesma amostra submetida ao ensaio, não deve ultrapassar ..... em valor absoluto.

III - APLICAÇÃO DOS ÍNDICES A repetitividade e a reprodutibilidade são dois valores extremos, sendo a repetitividade a mínima variabilidade entre resultados e a reprodutibilidade a máxima variabilidade entre resultados. A repetitividade é representada pelo símbolo r e a reprodutibilidade pelo símbolo R. Convém enfatizar que tanto uma quanto outra têm unidades. Suponha-se que os índices calculados tenham sido R= 0,03 e r= 0,02. Um laboratório, efetuando duas repetições, obteve em um teste os valores 0,17 e 0,18. A diferença 0,01 é aceitável e as duas análises são válidas, porque essa diferença é menor que r; caso se obtivesse 0,17 e 0,20, a diferença 0,03 é inaceitável, e um dos valores deve ser rejeitado; não havendo informações mais específicas, a rejeição deve ser do valor mais afastado da média. Considere-se agora que o laboratório 1 obteve 0,18 e o laboratório 5 obteve 0,20. A diferença 0,02 é inferior a R = 0,03 e os dois valores são aceitáveis. No caso de ser necessário rejeitar um resultado, este deve ser o mais disperso, como no caso da repetitividade. Convém relembrar que R e r são índices intimamente ligados à precisão de resultados de medições. É importante, portanto, que esses índices sejam expressos de modo correto para que não se perca de vista o significado físico que deve ser associado a esses números. O objetivo metrologicamente desejável (porém difícil) é reduzir os valores de R e r, necessitando maior controle em todo o processo. Deve haver esforço para reduzir os erros em cada um dos laboratórios, em cada repetição e também em cada amostra. Como o processo é lento, deve-se considerar os índices R e r como índices dinâmicos, sujeitos a reavaliações e revisões. Nas fases iniciais do processo, pode haver muita instabilidade, mas ao longo do tempo espera-se que diminua.



É preciso cuidado com um índice com valor muito pequeno, o qual pode cair em descrédito por ser muito difícil a sua reprodução. É lógico, portanto, iniciar a utilização desses índices com valores maiores (toleram-se variações em faixa ampla de valores) que possam ir sendo reduzidos.

15. Diagrama de Youden

I - Elipse de Confiança A interpretação do programa interlaboratorial pode ser feita através do estudo estatístico entre duas variáveis, utilizando uma técnica gráfica, baseada na elaboração de um diagrama de dispersão dos resultados, associados a uma região de confiança (elipse). Esta técnica permite que uma interpretação dos resultados seja feita por meio de uma visualização simples e rápida, embora não forneça os parâmetros de repetitividade e reprodutibilidade. Para cada uma das propriedades analisadas em um programa interlaboratorial é feito o diagrama, onde cada laboratório é representado por um ponto, cuja abcissa é a média das medições obtidas pelo laboratório para a amostra A e a ordenada é a média das medições do mesmo laboratório para a amostra B. Para duas variáveis, tem-se não mais um intervalo de confiança, mas sim uma região de confiança com a forma de elipse, denominada elipse de confiança. A elipse é traçada de tal modo que a probabilidade de um ponto se situar dentro da elipse é igual a 100x(1-α)%. A dispersão dos pontos ao longo do eixo maior está associada aos erros sistemáticos, enquanto que ao longo do eixo menor está associada aos erros aleatórios. Como se supõe que os valores se comportam segundo a distribuição de deM-L-G (nos relatórios pode aparecer o texto "as distribuições são gaussianas"), ao se combinar as duas medidas, o gráfico resultante é uma elipse, cujo centro tem como abcissa a média de todas as medidas da amostra A e como ordenada a média de todas as medidas da amostra B. A elipse é traçada com base na confiança que se deseja apresentar a conclusão. II - Interpretação dos resultados: a) para os pontos dentro da elipse de confiança

• se a dispersão é uniforme em uma elipse com eixo maior a 45o em relação eixo das abcissas, então o desempenho dos laboratórios pode ser considerado satisfatório;

• se a dispersão é uniforme em uma elipse com eixo maior tendendo à posição vertical ou à horizontal, não é possível afirmar que os laboratórios apresentam desempenho satisfatório, porque existem problemas com uma das amostras, A ou B. Estes problemas podem estar relacionados à falta de homogeneidade etc.;

b) para pontos fora da elipse de confiança

• afastados do eixo maior da elipse indicam erro aleatório significativo e ocorrem devido à variabilidade dentro do laboratório, podendo ter origem em operador não devidamente treinado, ou erros ocasionais (erro de leitura, erros de cálculo, erro em conversão de valores, erro em transcrição de dados etc.);

• próximos ao eixo maior da elipse indicam erros sistemáticos significativos e ocorrem devido a condições adversas do laboratório, podendo ter origem em modificações não permitidas na metodologia ou equipamentos não aferidos ou não calibrados.

A dispersão dos pontos ao longo do eixo maior está associada aos erros sistemáticos, enquanto que ao longo do eixo menor está associada aos erros aleatórios.

Exemplo

4.2. Elipse de Confiança Os resultados obtidos pelos laboratórios participantes, relativos ao par de amostras A e B permitiram a construção de diagramas de dispersão elaborados em um sistema de eixos cartesianos, onde a escala do eixo X cobre a faixa de resultados referentes à amostra A e



do eixo Y, a faixa de resultados da amostra B. Para cada uma das propriedades (ensaios) foi construído um diagrama em que cada laboratório é representado por um ponto. A abcissa do ponto é o resultado de ensaio da amostra A e a ordenada, o resultado de ensaio da amostra B. As retas que passam pelos valores médios de todos os laboratórios dividem o diagrama em quadrantes. Numa situação ideal os pontos devem se encontrar igualmente distribuídos pelos quadrantes; isto acontece somente quando ocorrem erros aleatórios em níveis não significativos, Quando os pontos se encontram mais concentrados nos quadrantes superior direito e inferior esquerdo, significando que os laboratórios tendem a obter valores maiores do que a média para as duas amostras ou valores menores do que a média para ambas amostras do par, isto evidencia ocorrência de erros sistemáticos. A Elipse de Confiança delimita uma região em que qualquer ponto tem a mesma probabilidade P de se situar dentro da elipse. A construção da elipse foi feita utilizando um programa de computador que determina a elipse e a eliminação sucessiva dos pontos dispersos adotando um grau de confiança de 95%. Os tipos de erros que podem ocorrer são função da posição do ponto em relação à elipse e estão representados na Figura 1. Erros sistemáticos ocorrem devido a condições adversas do laboratório, podendo ter origem em modificações não permitidas na metodologia e/ou equipamentos não calibrados. Erros aleatórios ocorrem devido à variabilidade dentro do laboratório podendo ter origem em operador não devidamente treinado e/ou erros ocasionais como: erro de leitura, erro de cálculo, erro em transcrição de dados, etc.



Figura 1. Exemplo de um gráfico de Youden

Exemplo 5.1. Resíduo Peneira de Abertura 75/m (%) De acordo com a NBR XYZ2 o resultado expresso em porcentagem de massa é calculado até os décimos.

Tabela 5 LABORATóRIO AMOSTRA A AMOSTRA B F

1 1,1 1,2 O 2 1,2 1,4 O 3 1,2 1,4 O 4 1,7 1,6 O 5 1,5 1,8 O 6 1,2 1,3 O 7 1,0 1,0 O 8 1,4 1,6 O 9 1,3 1,4 O

10 0,6 0,7 O 11 1,2 1,1 O 16 1,4 1,6 O 13 2,0 2,0 O 14 1,8 2,1 O 15 1,5 1,6 O 12 2,3 2,7 * 20 0,6 1,2 *

Média Geral 1,34 1,45 Desvio Padrão 0,3418 0,3701

Numero de Observações da Elipse: 15 Numero de Observações Total: 17 o - Laboratórios incluídos no calculo da elipse de 95% de confiança e se encontram dentro dela. * - Laboratórios excluídos da elipse de 95% de confiança. Laboratórios 12 - Erro sistemático significativo. Verificar metodologia, calibração de equipamento, condições ambientais. Laboratórios 20 - Erro aleatório. Verificar operador, erro de leitura, de cálculo, de transcrição. O erro ocorreu na amostra A.



16. Usando tudo o que foi visto: gráficos de controle da qualidade

A Norma NBR ISO 9000: 2000, Sistemas de gestão da qualidade - Fundamentos e vocabulário define controle da qualidade como parte da gestão focada no atendimento dos requisitos da qualidade (item 3.2.10). - Linha média, limites de controle (superior e inferior) e de advertência (superior e inferior)

17. Começando na Matemática e acabando na Inferência: descobrindo a melhor de todas as retas (chamam de "regressão linear")

1. REGRESSÃO: compreende a análise de dados amostrais para saber se e como duas ou mais variáveis estão relacionadas uma com a outra na população. Não implica, necessariamente, em relação de causa e efeito.

2. REGRESSÃO LINEAR (Livro, p. 130)

• O modelo matemático: y = α + βx+ ε

• ε denomina-se resíduo ou erro aleatório e tem os seguintes pressupostos: ? variável aleatória com distribuição de deMoivre-Laplace-Gauss, média zero e

desvio-padrão constante ? corresponde a observações independentes e não correlacionadas

• elementos básicos: ? variáveis: dependente (Y), ou explicada, e independente (X), ou explicativa,

esta podendo ser qualitativa ou quantitativa ? equação ? parâmetros: são as grandezas das relações (coeficientes) ? termo aleatório ou de erro

• método dos mínimos quadrados

• EXCEL: Livro, p. 134, "Colar Função"/INCLINAÇÃO e INTERCEPÇÃO 3. Um pouco mais sobre regressão linear:

Figura 2. Variação de α, devida à amostragem

Figura 3. Variação de β, devida à amostragem

Y

X

Y

X



Figura 4. Resultado final: o corredor de confiança

18. Estatística robusta

A robustez de um estimador é uma medida da sua capacidade de permanecer inalterado sob influência de pequenas variações nos dados. Por exemplo, a mediana é mais robusta que a média aritmética em relação a valores dispersos, tendo em vista que independe deles. O teste de robustez consiste em identificar os dados que podem ter efeito significativo no resultado. Usualmente, a mediana é adotada como a medida de tendência central e o intervalo quartílico como medida de dispersão. Para compreensão do intervalo quartílico, é preciso entender o que são percentis (também chamados porcentis). Um percentil é uma medida da posição relativa de uma unidade observacional em relação a todas as outras. O p-ésimo porcentil tem no mínimo p% dos valores abaixo daquele ponto e no mínimo (100 - p)% dos valores acima. Por exemplo, se uma altura de 1,80m é o 90o. percentil de uma turma de estudantes, então 90% da turma tem alturas menores que 1,80m e 10% têm altura superior a 1,80m; se o peso de uma pessoa de 75kg é o 40o. percentil de um conjunto de empregados. então 40% dos empregados pesam menos que 75kg e 60% pesam mais. Há inúmeras maneiras de se calcular percentis. Considere a notação X[np]+ , que significa anotar a próxima observação acima de np (onde n é o total de valores e p o percentil em decimais) se np não é inteiro, e a média desta e da observação seguinte se np é inteiro Os colchetes em torno do índice representam a posição daquele valor após os dados terem sido ordenados de modo crescente. Por exemplo, se o conjunto de dados tem 75 observações, então o 25o. percentil é o X[(75) x (0,25)]+ = X[19], isto é, a 19a. menor observação após a ordenação. O 40o. percentil é X[(75) x (0,40)] + = (X(30) + X(31))/2, isto é, a média das 30a. e 31a. observações após a ordenação. Os percentis de números 25, 50 e 75 são chamados, respectivamente, Primeiro Quartil (simbolizado por Q1), Segundo Quartil (Q2, igual à Mediana) e Terceiro Quartil (Q3). Os percentis de números 10, 20, 30, ..., 90 são chamados Decis; tem-se, respectivamente, Primeiro Decil (simbolizado por D1), Segundo Decil (D2), ... e Nono Decil (D9). O 5o. decil é a Mediana. IMPORTANTE: Não se deve confundir percentis com percentagens. Um percentil é relacionado somente com a posição relativa de uma observação quando comparada com os outros valores. Desse modo se um estudante que acerta 75% de um teste, mas cuja nota é o 40o. percentil, significa que somente 40% da turma tiveram nota pior que aquele estudante e 60% saíram-se melhor. Exemplo: Considere as seguintes medidas de uma amostra:

52,0 55,9 56,7 59,4 60,2 54,4 55,9 56,8 59,4 60,3 54,5 56,2 57,2 59,5 60,5 55,7 56,4 57,6 59,8 60,6 55,8 56,4 58,9 60,0 60,8

Há n=25 observações na amostra. Desse modo: o 50o. percentil é a [25x0,5] = "[12,5-ésima observação]+". Toma-se a 13a. observação (após a ordenação) e assim a medida mediana é igual a 57,2. o 25o. percentil é a [25x0,25] = "[6,25-ésima observação]+". Toma-se a 7a. observação (após a ordenação) e assim o 25o. percentil é igual a 55,9, que é também o valor de Q3 o 20o. percentil é a [25x0,2] = "[5a. observação]+". Toma-se a média entre a 5a.e a 6a. observações (após a ordenação) e assim o 20o. percentil é igual a 55,85, que é também o valor de D2

EXEMPLO Em determinado relatório, as seguintes expressões apareceram: a) média de três medidas em cada laboratório b) z para métodos robustos = (valor do laboratório - mediana)/amplitude interquartílica normalizada



c) z para métodos clássicos = (valor do laboratório - média)/desvio-padrão d) z-escore entre laboratórios = (valor S do laboratório - média dos S)/amplitude interquartílica

normalizada dos S, onde S = (valor da 1ª medida + valor da 2ª medida)/ 2 e) z-escore dentro do laboratório = (valor D do laboratório - média dos D)/amplitude interquartílica

normalizada dos D, onde D = (valor da 1ª medida - valor da 2ª medida)/ 2 f) gráfico de Youden para escores z robustos: gráfico retangular de pares de escores z robustos, no

qual cada laboratório é representado por um X; a abcissa é o valor z da 1ª medida e a ordenada é o valor z da 2ª medida); apresenta-se, usualmente, uma elipse com 5% de probabilidade, onde as amplitudes interquartílicas normalizadas para todas as medidas são calculadas com todos os valores e usadas como desvio-padrão, e os coeficientes de correlação são calculados após eliminarem-se os dispersos na avaliação z. Denomina-se disperso na avaliação z quando ao menos um módulo de um escore z é maior que 3.

g) gráfico de Youden para valores encontrados: gráfico retangular de pares de valores, no qual cada laboratório é representado por um X; a abcissa é o valor da 1ª medida e a ordenada é o valor da 2ª medida); apresenta-se, usualmente, uma elipse com 5% de probabilidade, onde as amplitudes interquartílicas normalizadas para todas as medidas são calculadas com todos os valores e usadas como desvio-padrão, e os coeficientes de correlação são calculados após eliminarem-se os dispersos na avaliação Y. Denomina-se disperso na avaliação Y quando laboratório está fora da elipse de 5% de probabilidade.

Como o NIQR é calculado?

A partir de todos os (Q3 - Q1) de todos os laboratórios, determina-se a média e o dp deles. Então o NIQR = ([Q3-Q1] - média )/dp

EXEMPLO NUMÉRICO

do relatório APLAC Considere os seguintes extratos de resultados para uma determinada característica de um conjunto de 63 laboratórios. Cada laboratório fez duas medidas, X e Y.:

escore z Média aritmética robusta clássica robusta

Avaliação LAB

X Y X Y X Y Entre Dentro Z Y 1 0,1510 0,4027 -0,660 -0,471 -0,522 -0,283 -0,867 0,000 ... ... ... ... ... ... ... ... ... ... ... 63 0,1610 0,3633 0,660 -3,562 0,273 -2,749 -2,891 4,033 * *

(*) disperso segundo este critério Os resultados apresentados foram os seguintes:

• Para X: número de resultados = 63 mediana = 0,1560 amplitude interquartílica normalizada (AIN) = 0,0076 Média = 0,1576 Desvio-padrão = 0,0126 Coeficiente de correlação = 0,4035 t x AIN/ n = 0,0019

• Para Y: número de resultados = 63 mediana = 0,4087 amplitude interquartílica normalizada (AIN) = 0,0127 Média = 0,4072 Desvio-padrão = 0,0160 Coeficiente de correlação t x AIN/ n = 0,0033

Perguntas: a) para o conjunto de medidas X e Y, indique como foram determinados

• o número de resultados • a mediana • a amplitude interquartílica normalizada (AIN) • a média • o desvio-padrão



• o coeficiente de correlação • t x AIN/ n

b) para o Laboratório 1, indique como foram calculados os valores em negrito

escore z Média aritmética robusta clássica robusta

Avaliação LAB

X Y X Y X Y Entre Dentro Z Y 1 0,1510 0,4027 -0,660 -0,471 -0,522 -0,283 -0,867 0,000

c) para o Laboratório 63, indique como foi decidida a eliminação dele pelos dois critérios de

avaliação escore z Média

aritmética robusta clássica robusta Avaliação

LAB X Y X Y X Y Entre Dentro Z Y

63 0,1610 0,3633 0,660 -3,562 0,273 -2,749 -2,891 4,033 * * Após eliminarem-se dispersos na avaliação z, encontrou-se:

• Para X: número de resultados = 57 mediana = 0,1560 amplitude interquartílica normalizada (AIN) = 0,0067 Média = 0,1563 Desvio-padrão = 0,0069 Coeficiente de correlação = 0,3093 t x DP/ n = 0,0018

• Para Y: número de resultados = 57 mediana = 0,4103 amplitude interquartílica normalizada (AIN) = 0,0114 Média = 0,4087 Desvio-padrão = 0,0116 Coeficiente de correlação t x DP/ n = 0,0030

BIBLIOGRAFIA LOPES, Paulo Afonso, Probabilidades e Estatística¸ Reichmann&Affonso Editores, 1999.



Anexo 1 - VALORES CRÍTICOS PARA O TESTE DE COCHRAN

n = 2 n = 3 n = 4 n = 4 p 1% 5% 1% 5% 1% 5% 1% 5% 2 - - 0,995 0,975 0,979 0,939 0,959 0,906 3 0,993 0,967 0,942 0,871 0,883 0,798 0,834 0,746 4 0,968 0,906 0,864 0,768 0,781 0,684 0,721 0,629 5 0,928 0,841 0,788 0,684 0,696 0,598 0,633 0,544 6 0,883 0,781 0,722 0,616 0,626 0,532 0,564 0,480 7 0,838 0,727 0,664 0,561 0,568 0,480 0,508 0,431 8 0,794 0,680 0,615 0,516 0,521 0,438 0,463 0,391 9 0,754 0,638 0,573 0,478 0,481 0,403 0,425 0,358 10 0,718 0,602 0,536 0,445 0,447 0,373 0,393 0,331 11 0,684 0,570 0,504 0,417 0,418 0,348 0,366 0,308 12 0,653 0,541 0,475 0,392 0,392 0,326 0,343 0,288 13 0,624 0,515 0,450 0,371 0,369 0,307 0,322 0,271 14 0,599 0,492 0,427 0,352 0,349 0,291 0,304 0,255 15 0,575 0,471 0,407 0,335 0,332 0,276 0,268 0,242 16 0,553 0,452 0,388 0,319 0,316 0,262 0,274 0,230 17 0,532 0,434 0,372 0,305 0,301 0,250 0,261 0,219 18 0,514 0,418 0,356 0,293 0,288 0,240 0,249 0,209 19 0,496 0,403 0,343 0,281 0,276 0,230 0,238 0,200 20 0,480 0,389 0,330 0,270 0,265 0,220 0,229 0,192 21 0,465 0,377 0,318 0,261 0,255 0,212 0,220 0,185 22 0,450 0,365 0,307 0,252 0,246 0,204 0,212 O,178 23 0,437 0,354 0,297 0,243 0,238 0,197 0,204 0,172 24 0,425 0,343 0,287 0,235 0,230 0,191 0,197 0,166 25 0,413 0,334 0,278 0,228 0,222 0,185 0,190 0,160 26 0,402 0,325 0,270 0,221 0,215 0,179 0,184 0,155 27 0,391 0,316 0,262 0,215 0,209 0,173 0,179 0,150 28 0,382 0,308 0,255 0,209 0,202 0,168 0,173 0,146 29 0,372 0,300 0,248 0,203 0,196 0,164 0,168 0,142 30 0,363 0,293 0,241 0,198 0,191 0,259 0,164 0,138

p = número de grupos

n = número de observações em cada grupo



Anexo 2 - VALORES CRÍTICOS PARA O TESTE DE DIXON H 5% 1% 3 0,970 0,994 4 0,820 0,926 5 0,710 0,821 6 0,628 0,740 7 0,569 0,680 8 0,608 0,717 9 0,564 0,672 10 0,530 0,635 11 0,502 0,605 12 0,479 0,579 13 0,611 0,697 14 0,586 0,670 15 0,565 0,647 16 0,546 0,627 17 0,529 0,610 18 0,514 0,594 19 0,501 0,580 20 0,489 0,567 21 0,478 0,555 22 0,468 0,544 23 0,459 0,535 24 0,451 0,526 25 0,443 0,517 26 0,436 0,510 27 0,429 0,502 28 0,423 0,495 29 0,417 0,489 30 0,412 0,483

Estatistica_Aplicada

Documents

Transcript of Estatistica_Aplicada