Curso de Biomedicina - uel.br · elementos da população enumeradas de 1 a N, têm a mesma...

32
Curso de Biomedicina Disciplina 5EMA080: Biostatística E APLICAÇÕES NO SOFTWARE R 1 0 BIMESTRE Profa. Dra. Ana Verginia Libos Messetti LONDRINA 2016

Transcript of Curso de Biomedicina - uel.br · elementos da população enumeradas de 1 a N, têm a mesma...

Curso de Biomedicina

Disciplina 5EMA080: Biostatística E

APLICAÇÕES NO SOFTWARE R

10 BIMESTRE

Profa. Dra. Ana Verginia Libos Messetti

LONDRINA

2016

1

CAPÍTULO 1 – Análise Exploratória de Dados

Aula 1 - Introdução

1.1 Estatísticas - Informação numérica (Ex: taxa de inflação, Número de habitantes de certa

cidade, Taxa de nascimento no Brasil, Índice da inflação mensal, Número de óbitos numa certa

região...)

Estatística - Envolve técnicas para coletar, organizar, descrever, analisar e interpretar

dados, ou provenientes de experimentos, ou estudos observacionais (Barbetta, 2008).

“Estatística é um conjunto de métodos que possibilita a tomada de decisões acertadas, face às

incertezas”(Wallis).

1.2 Classificação da estatística

Estatística Descritiva ou estatística dedutiva - Tem por objetivo descrever, analisar e interpretar

os dados de um conjunto, seja uma população ou amostra, inferindo os resultados somente para

o conjunto observado.

Probabilidade - É a base da teoria da matemática utilizada para estudar fenômenos de caráter

aleatório. A teoria das probabilidades é um importante instrumento para a análise de situações

que envolvem um elemento de incerteza. A estatística indutiva não poderia ter-se desenvolvido

sem as noções fundamentais da teoria das probabilidades.

Estatística Indutiva ou inferência estatística - Tem por objetivo descrever, analisar e interpretar

os dados de uma amostra para inferir propriedades à respectiva população. A estatística

indutiva pode ser separada em duas áreas principais: estimação por ponto e por intervalo de

confiança; testes de hipótese paramétrico e não paramétrico.

“A essência de uma análise estatística é tirar conclusões sobre uma população, com base em

uma amostra de observações”

Estatística Indutiva ou inferência estatística

Figura 1 - Esquema de Aplicação da Estatística Descritiva e Inferencial

1.3 Metodologia Estatística e Etapas da pesquisa

No planejamento da pesquisa, cada etapa deve ser bem determinada, pois o

trabalho científico é bom ou não pelo planejamento e não pelos resultados. E não há análise

estatística que conserte um mau planejamento.

ESTATÍSTICA

DESCRITIVA

INFERÊNCIA

ESTATÍSTICA

2

Etapas de uma pesquisa e da metodologia estatística:

1. Definição do problema e objetivos da pesquisa;

2. Planejamento da pesquisa;

3. Execução da pesquisa;

4. Dados;

5. Análise de dados - Aplicações métodos estatísticos apropriados;

6. Análise dos resultados;

7. Conclusões com a significância estatística e significância prática.

Pesquisa é uma indagação ou exame crítico e exaustivo na procura de fatos e princípios, uma

diligente busca para averiguar algo. “É descobrir respostas para questões, mediante a aplicação

de métodos científicos”.

Existem dois tipos de pesquisa empíricas:

Pesquisas observacionais: As características da população são observadas ou

medidas sem manipulação;

Pesquisas experimentais: Grupo de indivíduos são manipulados para avaliar o efeito de

diferentes tratamentos.

1.4 Conceitos Básicos

População é um conjunto de todos os objetos, indivíduos ou informações que interessam para

pesquisa.

Amostra é parte da população, onde os elementos devem ter as mesmas características da

população. Isto é, espera-se que a amostra seja uma representação em miniatura da população e

que produza estimativas razoáveis de suas características.

Geralmente o número de elementos existente na população é representado por N e da amostra

por n.

Parâmetro - Medidas que descrevem certa característica dos elementos da população.

Estatística - Medidas que descrevem certa característica dos elementos da amostra.

Estimativa - Valor resultante do cálculo de uma estatística.

ESTATÍSTICA (amostra) PARÂMETRO (população)

Média amostral n

xx

i

n

i 1

Média populacional

N

xi

N

i 1

Variância amostral

1

2

12

n

xx

s

n

i

i

Variância populacional

N

xN

i

i

2

12

1.5 Natureza dos Dados Estatísticos

Os dados estatísticos constituem a matéria–prima das pesquisas estatísticas – eles

surgem sempre que se fazem mensurações ou se registram observações. Os dados referem-se a

variáveis. Alguns conjuntos de dados (como peso) consistem em números, enquanto outros são

não numéricos (como religião). Podemos distinguir os dois tipos de variáveis:

POPULAÇÃO

1,2.....................N

AMOSTRA

1,2,.........n

3

Variável Qualitativa - Quando a variável é não numérica:

ORDINAL a variável tem uma ordenação natural indicando intensidades crescentes de

realizações. Exemplos: grau de escolaridade ( 10, 2

0, 3

0 ); classe social (baixa, média, alta);

tamanho ( pequeno, médio, grande )

NOMINAL a variável não pode ser ordenada, isto é, não é possível estabelecer uma ordem

natural entre seus valores. Exemplos: religião, naturalidade, sexo.

Observação: Podemos atribuir números a categorias, mas tais números não têm qualquer

significado para efeito de cálculo, e a média calculada com base neles em geral não têm sentido.

Variável Quantitativa - Quando pode ser expressa numericamente.

DISCRETAS a variável discreta pode assumir um número finito ou infinito enumerável de

valores. Geralmente são as contagens, como por exemplo, a quantidade de estudante s em uma

disciplina, quantidade de empregados da empresa, número de filhos de um casal.

CONTÍNUAS a variável contínua pode assumir qualquer valor em certo intervalo, isto é, pode

assumir um conjunto infinito e não enumerável de valores. Exemplos: tempo de estudo,

distância entre duas cidades e peso de uma pessoa.

1.6 Amostragem

Censo: é o estudo de “todos” os elementos da população.

Amostragem: é a parte da estatística que ensina obter amostras representativas de uma

população. A finalidade da amostragem é fazer generalização sobre todo o grupo sem precisar

examinar cada um de seus elementos.

Técnicas de amostragem probabilística

Amostragem Simples ao Acaso - ASA: Este tipo de amostragem deve ser usado sempre que, se

tratar de uma população homogênea. A característica dessa amostragem é que todos os

elementos da população enumeradas de 1 a N, têm a mesma probabilidade de serem sorteados.

Deve enumerar os elementos da população e através de sorteio ou usando a “tabela de números

aleatórios” retirar os elementos da população sem reposição até completar a amostra.

Exemplo1.1 Selecionar aleatoriamente uma amostra de tamanho 10 de uma população que

consiste de 60 farmácias da cidade de Arapongas - PR. Utilize a primeira linha tabela de

números aleatórios. As farmácias associadas a estes números constituem nossa amostra aleatória

que são: [38, 20, 10, 07, 59, 45, 01, 40, 32, 13]

Amostragem sistemática - Este tipo de amostragem é utilizada quando os itens de uma

população se apresentam numa ordem determinada (ordenação). O processo de formação da

amostra consiste em:

Calcular o intervalo de seleção (I). O valor de I obtém-se dividindo o tamanho da

população (N) pelo tamanho da amostra (n), tal que:

I = n

N (inteiro mais próximo)

Sorteia-se um número x entre {1, 2, 3.....I} e forme a amostra correspondente aos

números tal que: A ={x; x + I; x+ 2I; ...; x + (n - 1)I }

Exemplo 1.2 Seja uma população 200 fichas de pacientes de uma clínica de imunização em

Cambé - PR. Retire uma amostra aleatória de 40 fichas para compor sua amostra.

Intervalo de seleção: I =

Será escolhido um item em cada sequência de 5 fichas.

4

Sortear entre 1 e 5.

Se utilizarmos a primeira linha da tabela, x = 3 logo a amostra:

Número da ficha: A = [3, 8, 13, 18, 23,......198]

Amostragem estratificada uniforme - Quando a população apresenta-se muito heterogênea, a

amostragem simples ao acaso torna-se pouco representativa da população. Neste caso deve-se

utilizar a amostragem estratificada, a qual consiste em dividir a população em subgrupos

(estratos) mais ou menos homogêneos, e de cada um deles retirar uma amostra simples ao acaso.

E a amostragem estratificada Uniforme quando selecionamos o mesmo número de elementos

em cada estrato.

Exemplo 1.3 Deve-se extrair uma amostra de tamanho 80 indivíduos de uma população de

tamanho N = 2000, que consiste de 4 estratos de tamanhos N1 = 500, N2 = 1200, N3 = 200 e

N4 = 100. Se a alocação não for proporcional qual o tamanho da amostra a ser extraída de cada

um dos quatro estratos?

R: 20 elementos de cada estrato e sortea os elementos da tabela de números aleatórios.

Amostragem estratificada proporcional – Difere da amostragem estratificada uniforme quando

selecionamos o número de elementos proporcional ao número de elementos total em cada

estrato.

Calcular a fração de amostragem dada por: f =

Calcular o número de elementos a serem sorteados em cada estrato:

n1 = N1f; n2 = N2f; ........... nL = NLf

⇒ N (número de elementos da população); ⇒ L (número de estratos)

⇒ Ni (número de elementos do estrato i); ⇒ n (tamanho da amostra a ser selecionada)

Exemplo 1.4 Do exemplo 3, retire uma amostra de 80 indivíduos utilizando a amostragem

estratificada proporcional.

Fração de amostragem dada por: f = =

Número de elementos a serem sorteados em cada estrato:

n1 = N1 f = 500 . 0,04 = 20; n2 = N2 f = 1200 . 0,04 = 48

n3 = N3 f = 200 . 0,04 = 8; n4 = N4 f = 100 . 0,04 = 4

Formar sua amostra utilizando a tabela de Números aleatórios.

Atividade 1

1) Pesquise e escreva a definição de Estatística. Dê a referência bibliográfica.

2) Diferenciar Parâmetro e Estatística.

3) Retire de um artigo da sua área e apresente no mínimo 2 variáveis observadas e classifique o

tipo de variável. Apresente o título e autores do artigo (ou o link do endereço do artigo).

4) Um hematologista deseja fazer uma nova verificação de uma amostra de tamanho 10 dos 854

espécimes de sangue analisados por um laboratório médico em determinado mês. Para isto, ele

cria uma estrutura amostral numerando a população [001, 002,..., 854]. Use a tabela de números

aleatórios para escolher que espécimes de sangue serão selecionados? (10 coluna da tabela N.A).

5) Organize uma lista com 12 nomes de pessoas em ordem alfabética. Descreva uma forma de

obter uma amostra sistemática de 6 nomes.

6) Deve-se retirar uma amostra estratificada de tamanho n = 60 de uma população de tamanho

4000, que consiste de 3 estratos de tamanhos N1 = 2000, N2 = 1200, N3 = 800. Para que a

alocação seja proporcional, qual deve ser o tamanho da amostra a ser retirada de cada estrato?

5

7) No software R, selecione 3 variáveis da pesquisa realizada em sala de aula (sexo, irmãos e

altura) e construir as tabelas de distribuição de frequência, com título e fonte.

Parte da Tabela de números aleatórios (Barbetta P., 2008)

3820 1007 5964 8990 8845 9584 0145 4074 8632 1386 3002 8021 6960 2715 9040

2450 0455 0324 1641 2196 0171 2850 3431 5536 3573 2913 8021 7889 6759 7553

3718 3556 9102 4660 4261 3039 9756 8066 9911 2562 8503 5570 8730 4410 2177

9516 0534 7050 8164 9724 4663 3002 7501 3514 7756 3297 0860 9768 2855 5343

0743 1984 0641 3583 4870 5112 3734 9858 0407 2307 5745 7060 4014 1110 8973

0050 9261 1003 2537 7756 6796 8090 7243 0850 1323 6568 2584 7651 7002 8587

7561 6265 1736 4048 5523 7114 5551 1811 9702 6869 9120 9542 5943 5576 9681

5287 7966 8056 2622 1779 8667 1148 0595 7615 7383 6680 9268 4517 1681 0619

9862 9255 9038 5449 5007 6749 4898 1458 0380 7962 6018 9300 5339 1320 0823

AULA 2 – Tabelas de distribuição de frequências

O papel da estatística descritiva é organizar, resumir e apresentar os dados de

forma correta. A análise exploratória de dados, além de descrever os dados, identifica algumas

características do processo, com base nos dados. Construindo-se tabelas e gráficos apropriados

e gerando algumas medidas descritivas, podemos extrair aspectos importantes para os dados

(mineração dos dados = data mining).

2.1 Tabelas Uma tabela pode ser classificada em tabela simples ou de dupla entrada.

Tabela simples é composta de uma coluna indicadora, onde são escritos os valores ou

modalidades da ordem de classificação e de outra coluna, em que aparecem os valores que

representam as ocorrências do fenômeno.

Tabela de dupla entrada é composta de dois atributos, qualitativos ou quantitativos, em que

existem duas ordens de classificação: uma horizontal e outra em coluna indicadora.

Elementos de uma Tabela

Os elementos essenciais são: título, cabeçalho, corpo e coluna indicadora.

Título: precede a tabela e contém a designação do fato observado, o local e a época em que o

assunto foi registrado;

Cabeçalho: é a parte superior da tabela que específica o conteúdo das colunas;

Corpo: É o conjunto de linhas e colunas que contém as informações referentes ao fato

observado.

Coluna Indicadora: Ë a parte da tabela que especifica o conteúdo das linhas.

Os elementos complementares são: Fonte, notas e chamadas.

Fonte: é situada no rodapé da tabela e específica a entidade responsável pelo fornecimento dos

dados ou pela elaboração da tabela;

Notas: situadas abaixo da tabela dão informações gerais sobre a tabela ou indica a metodologia

utilizada no levantamento ou na elaboração dos dados;

Chamadas: são informações mais específicas sobre determinadas partes da tabela, com o

objetivo de fazer algum esclarecimento sobre os dados apresentados. Devem ser feitas através

de algarismos arábicos escritos entre parênteses, e colocados à direita da coluna.

6

Considerações para construções de tabelas Na construção de tabela, recomenda-se:

O título precede a tabela e deve ser apresentado após a palavra tabela, identificada por

um algarismo arábico;

O título com auxílio do cabeçalho, deverão responder as seguintes perguntas:

O quê? Onde? Quando?

Não deixar casas (cruzamento de uma linha com uma coluna) em branco. Pode-se usar

traço ou sinal convencional;

As linhas horizontais superior e inferior, que limitam a tabela, devem ser mais

acentuadas;

As tabelas não devem ser fechadas lateralmente;

2.2 Apresentação de variáveis qualitativas

Para construir a tabela de distribuição de frequência, basta contar a quantidade de

resultados observados em cada categoria.

Distribuição de frequências: Consistem na organização dos dados de acordo com as

ocorrências dos diferentes resultados observados.

Para variável qualitativa a contagem de quantos indivíduos pertence em cada categoria

forma uma distribuição de freqüências. As freqüências podem ser de forma absoluta,

relativa(%) ou ambas. Seja a tabela 2, dados de uma pesquisa realizada numa clínica de

dependentes do alcool.

Dados brutos de 40 indivíduos em tratamento contra o alcoolismo. As variáveis observadas

foram “grau de alcoolismo” em escores (A: leve; B: moderado; C: severo; D: muito severo) e o

“sexo”. Clínica dos Amigos” – Londrina PR – 2013

Ind grau sexo Ind grau sexo Ind grau sexo Ind grau sexo

1 C F 11 C F 21 B M 31 A F

2 A F 12 A F 22 A M 32 A F

3 B F 13 B M 23 A F 33 B M

4 B F 14 D M 24 B F 34 C M

5 C M 15 A F 25 A M 35 B F

6 B M 16 B F 26 A M 36 D F

7 D F 17 B M 27 B F 37 B M

8 B F 18 C M 28 D F 38 B M

9 B M 19 D F 29 D M 39 B F

10 A M 20 B F 30 C M 40 C F

Exemplo 2.1 Tabela para Variáveis qualitativas nominais.

Tabela 1 - Distribuição de frequências dos alcoólotras por sexo.

“Clínica dos Amigos” - Londrina – PR. 2013 Jair

Fonte: Clínica dos Amigos

Grau de

alcoolismo

Frequência

Frequência

Relativa

Porcentagem

(%)

Feminino 22 0.55 55

Masculino 18 0.45 45

Total n = 40 1.00 100

7

Exemplo 2.2 Tabela para Variáveis qualitativas ordinais.

Tabela 2 - Distribuição de frequências do grau de alcoolismo – Clínica dos amigos

Londrina PR - 2013 Jair

Fonte: Clínica dos Amigos

Apresentação de Tabelas de contingência

Muitas vezes os elementos da amostra ou da população são classificados de acordo com

duas variáveis qualitativas. Os dados devem então ser apresentados em tabelas de contingência,

isto é, em tabelas de dupla entrada, cada entrada relativa a uma das variáveis.

Exemplo 2.3 Tabelas de contingência.

Tabela 3 - Distribuição de frequências de 40 indivíduos segundo

às variáveis sexo e grau de alcoolismo - Clínica dos Amigos

Sexo Total

Grau Feminino Masculino

A 6 4 10

B 9 8 17

C 3 4 07

D 4 2 06

Total 22 18 40 Fonte: Clínica dos Amigos

2.3 Apresentações de variáveis quantitativas

Se os dados são discretos, para organizar a tabela de distribuição de frequências:

Escreva os dados em ordem crescente;

Conte quantas vezes cada valor se repete;

Organize a tabela como já foi feito para dados qualitativos, colocando

no lugar das categorias, os valores numéricos em ordem natura. Jair

Três informações importantes das variáveis quantitativas: faixa em que os valores

ocorrem com maior frequência; Detectar valores discrepantes e a forma da distribuição, para

comparar com modelos probabilísticos.

2.3.1 Variáveis quantitativas discretas

Tabela de frequências – A tabela de distribuição de freqüência pode ser feita de forma análoga à

distribuição de freqüência de variáveis qualitativas. No lugar das categorias estarão

representados os valores numéricos da variável. Agrupa os dados conforme os valores distintos

da variável com a sua respectiva frequência absoluta (simples).

Exemplo 2.4 As faltas ao trabalho de 30 empregados de uma clínica em determinado semestre

estão na Tabela 4. A partir dela, faça uma tabela de distribuição de frequências.

Grau de

alcoolismo

Frequência

absoluta

Frequência

Relativa

Porcentagem

(%)

A - leve 10 0.250 25.0

B - moderado 17 0.425 42.5

C - severo 07 0.175 17.5 D – muito severo 06 0.150 15.0

Total n = 40 1.00 100

8

Tabela 4: Número de faltas de 30 empregados

de uma clínica no 1o semestre - 2015

______________________________________

1 3 1 1 0 1 0 1 1 0

2 2 0 0 0 1 2 1 2 0

0 1 6 4 3 3 1 2 4 0

________________________________________ Fonte: VIEIRA, S. Introdução à Bioestatística.

Realizando as contagens e construindo a tabela de distribuição de frequências do exemplo 4:

Tabela 5 – Distribuição de frequências do número de faltas de 30 empregados de

uma clínica no 1o semestre - 2015

Número de faltas frequência Porcentagem (%)

0 9 30.0

1 10 33.3

2 5 16.7

3 3 10.0

4 2 6.7

6 1 3.3

30 100.0 Fonte: VIEIRA, S. Introdução à Bioestatística.

2.3.2 Variáveis quantitativas contínuas

Tabela de frequências – Quando a variável é contínua, geralmente com muitos valores distintos

é adequado construir uma distribuição de freqüência em classes. Os dados são agrupados em

classes e a cada classe i, ( i =1,2,...,h ) associa-se as frequências absolutas dos valores

observados nas respectivas classes.

A construção segue basicamente as seguintes etapas:

Construção do Rol (valores em ordem crescente) dos dados

Amplitude total dos dados At

É a diferença entre o maior e o menor valor: At = Xmáx – Xmín

Cálculo do Número de Classes. O número de classes (k) necessário para agrupar n

elementos em uma distribuição de freqüência é dado por:

nk ou

Cálculo da Amplitude das classes (h ou c). É dado por: k

Ath

Na apresentação de uma tabela de freqüência, é comum apresentar no cabeçalho:

fi ou ni - Frequência absoluta (simples) é a quantidade de elementos na i-ésima classe;

xi - Ponto médio da classe, é a média dos limites da classe;

Fac – Frequência absoluta acumulada crescente;

fri - Frequência relativa dada por fri = n

f i ;

Fri – Frequência relativa acumulada crescente (somatório da freqüência absoluta relativa da

classe com as frequências das classes anteriores).

L: limites de Classes – Denominam limites de classe os extremos dos intervalos de classe. O

menor número é o limite inferior (Li) e o maior é o limite superior (Ls).

k= 1+ 3,3 log.n

9

Exemplo 2.5 Variável contínua – Seja um experimento realizado na UNESP - Botucatu (2005),

onde a variável observada foi a altura de 40 pés de eucaliptos (metros) de certa espécie.

Tabela 6 - Rol da altura de 40 pés de eucaliptos (metros) de certa espécie

2.2 2.3 2.5 2.6 3.0 3.5 3.5 3.8 3.8 3.9 4.1 4.1 4.1 4.1 4.1 4.2 4.3 4.3 4.4 4.4 4.6

4.9 5.0 5.0 5.3 5.8 6.0 6.0 6.0 6.0 6.0 6.5 6.9 7.1 7.2 7.7 8.3 8.5 11.3 13.8.

Amplitude total: At = 13.8 – 2.2 = 11.6

Intervalo de classes: k = √ = 6.32

Amplitude de classes: c ou h =

= 2.0

Tabela 7 - Distribuição de frequências da altura de 40 pés de eucaliptos – Botucatu 2005

Classes frequência

absoluta

(fi ou ni)

Ponto

Médio xi

frequência

acumulada

crescente Fac

frequência

relativa (fri)

frequência

relativa

acumalada (Fri)

2.0 |-- 4.0

4.0 |-- 6.0

6.0 |-- 8.0

8.0 |-- 10.0

10.0 |-- 12.0

12.0 |-- 14.0

10

16

10

02

01

01

3

5

7

9

11

13

10

26

36

38

39

40

0,25

0,40

0,25

0,05

0,025

0,025

0,25

0,65

0,90

0,95

0,975

1

40 1,00 1,00 Fonte: UNESP – Botucatu 2005

Atividade 2 – Tabelas de distribuição de frequências

1) Os tipos de sangue de 40 doadores do sexo masculino, que se apresentaram no mês de Março

de 2015 no banco de sangue do HU, foram: Variável “Tipo de sangue”: {B, A, O, A, A, A, B,

O, A, AB, O, O, A, O, O, A, A, A, A, O, O, O, A, O,O, A, O, AB, O, O, A, AB, B, A, A, B, A,

O, B, B}. Coloque os dados em uma tabela de distribuição de frequências (frequência absoluta,

frequência relativa e porcentagem).

2) Uma doença pode ser classificada em três estágios (leve, moderado e severo). Foram

examinados 22 pacientes e obtidos os dados: moderado, leve, leve, severo, leve, moderado,

moderado, moderado, moderado, leve, leve, leve, severo, leve, moderado, moderado, leve,

severo, moderado, moderado, moderado, leve. Com base nestes dados:

a) determine a frequência de cada categoria; b) calcule a frequência relativa de cada categoria.

3) Agrupe os dados numa tabela de frequência, observado no número de acidentes por dia na

Rodovia (PR-274) observado num determinado mês de férias. Construa uma tabela de

frequência (frequência absoluta; frequência relativa e porcentagem) para representar a variável

discreta “Número de Acidentes por dia”.

N. Acidentes ={ 0,1,2,1,3,4,0,2,0,0,3,0,1,0,3,0,2,4,0,0,0, 5,1,2,1,3,5,1,1,3,4}

4) Os dados abaixo representam as concentrações de chumbo no sangue ( em 50

adolescentes do sexo feminino observadas no Hospital Universitário – Londrina 2009.

Tabela 8- Concentrações de chumbo no sangue ( em 50 adolescentes do sexo feminino - H.U.2009

74.8 74.0 74.7 74.4 75.9 76.8 74.3 74.9 77.0 75.1

73.8 74.4 74.8 76.8 73.6 72.9 72.5 74.6 75.0 75.1

75.3 73.4 74.7 73.4 74.2 74.9 74.5 77.1 74.6 74.8

76.4 73.2 76.5 75.6 73.5 76.2 74.7 76.0 75.8 77.3

76.3 74.1 75.0 76.0 74.7 75.2 77.5 74.7 73.3 74.3

10

a) A tabela de distribuição de frequência completa adequada aos dados;

b) Apresente a distribuição num Histograma;

c) O valor da amplitude total, número de classes e o intervalo de classe?

d) Qual a frequência relativa da 30 classe? E o limite inferior da 5

0 classe?

e) Qual a frequência acumulada crescente da 40 classe?

f) O valor do ponto médio da terceira classe?

g) Qual a frequência acumulada crescente da última classe?

h) Construa um diagrama ramo-e-folhas e boxplot. Há outliers no conjunto?

5) Preencha a tabela de distribuição de frequência, referente as idades de 40 clientes da clínica

de Fisioterapia “Ortofis” – Londrina / 2008.

Tabela 9 - Idade de 40 clientes da clínica “Ortofis” – Londrina 2008

Classes fi fri Fac xi

30 |-- 40

|-- 50 6

50 |-- 60 8

60 |-- 70 13

70 |-- 9

n=40

6) No software R, selecione três variáveis da pesquisa realizada em sala de aula (sexo, número

de irmãos e altura) e construir as tabelas de distribuição de frequência, com título e fonte.

7) A amplitude total de um conjunto de números é 500. Se a distribuição de frequências

apresentam 20 classes, qual deverá ser o limite inferior e o ponto médio da 5ª classe, se o limite

superior da 1ª classe é igual a 35?

AULA 3 – Gráficos

É a representação de dados ou informações através de desenhos, figuras ou imagens.

Existem diversas formas de apresentação gráfica, ficando a escolha condicionada à natureza do

fenômeno a representar e ao critério do analista. A finalidade principal de apresentar os dados

graficamente é proporcionar ao interessado uma visão rápida do comportamento do fenômeno,

poupando tempo e esforço na compreensão dos dados.

A opção do gráfico fica vinculado ao tipo de variáveis: Qualitativa ou quantitativa.

Variáveis qualitativas - Gráficos de Barras; Gráficos de Colunas; Gráficos de Setores ..

Gráficos de colunas - São aqueles em que as variações quantitativas de uma ou mais variáveis

são representadas por colunas sucessivas, todas com bases iguais, mas com diferentes alturas, as

quais são proporcionais às frequências das variáveis confrontadas, dispostos verticalmente.

Figura 3.1 – Alcoólatras em tratamento por sexo

F M

F

M

Sexo

frequen

cia

05

1015

2025

30

11

Gráficos de barras - São semelhantes ao de colunas, onde os retângulos são dispostos

horizontalmente.

Gráficos em linhas - Este gráfico representa alterações quantitativas sob a forma de uma

linha poligonal ou curva estatística, que torna mais visível o andamento do fenômeno (exemplo:

o estudo da variável no decorrer do tempo)

Gráficos em setores - São gráficos que descrevem o fato através de setores em uma

circunferência, cuja finalidade é representar um fato juntamente com todas as partes que o

mesmo se subdivide. O total é representado pelo círculo, que fica dividido em tantos setores

quantas são as partes. Os setores são tais que suas áreas são respectivamente proporcionais aos

dados da série. Obtemos cada setor por meio de uma regra de três simples e direta, lembrando

que o total da série corresponde a 3600.

Gráficos de colunas múltiplas - São gráficos que permitem comparar diversas variáveis

simultaneamente. Caracteriza-se por apresentar duas ou três colunas representativas de variáveis

num mesmo período de tempo, sem espaço entre si, formando conjuntos de colunas, existindo

espaço entre os conjuntos. O objetivo é fazer comparação.

Figura 3.2 – Alcoólatras em tratamento por sexo

Variáveis quantitativas – Histogramas; Polígonos de Frequências; Box-plot; Diagrama de

Ramos e folhas.

Histograma - É um recurso gráfico de colunas ligadas umas nas outras, cuja base (eixo das

abscissas) corresponde às classes e às alturas (eixo das ordenadas) proporcionais às frequências

absolutas ou relativas.

Figura 3.3 – Altura de 40 eucaliptos –Botucatu 2005

A B C D

F

M

Grau

frequência

02

46

8

Diâmetros

frequência

s

2 4 6 8 10 12 14

05

1015

20

10

16

10

21 1

12

Boxplot O Box-plot mais simples tem base no resumo dos 5 números. (Mínimo, Primeiro

quartil, Mediana, Terceiro quartil e Máximo).

Figura 3.4 – Box-plot das alturas de 40 eucaliptos

Diagrama de pontos - Uma forma simples de observar como poucos dados se distribuem, onde

cada valor representa um ponto na reta real. Torna-se inadequado quando o número de

observações for grande.

Diagrama de ramo-e-folhas - Consiste em apresentar os dados separando os primeiros dígitos,

os quais formarão o ramo e os demais dígitos formarão as folhas.

Figura 3.5 – Ramos e folhas das alturas de 40 eucaliptos

2 | 2356055889

4 | 1111123344690038

6 | 0000059127

8 | 35

10 | 3

12 | 8

Atividade 3 - Gráficos

1) Retire um gráfico de um artigo e apresente nesta atividade. Defina a variável utilizada na

construção do gráfico.

2) Faça um gráfico de linha para apresentar a distribuição de frequências relativas dos números

de casos pediátricos de Aids com problemas cardiorrespiratório pós-nascimento por sexo.

Chicago - Estados Unidos entre 2001 a 2009.

Tabela 10 – Porcentagens dos números de casos pediátricos de Aids com problemas

cardiorrespiratório - Chicago - 2009

Ano 2001 2002 2003 2004 2005 2006 2007 2008 2009

Masculino 72.8 66.2 69.2 65.9 62.4 67.8 61.3 68.5 70.4

Feminino 60.6 53.7 55.3 56.7 56.4 57.8 57.5 59.8 63.3

3) A tabela de frequência apresenta os casos de Sarcoma de Kaposi para os primeiros 112

pacientes de Aids registrados nos Centros de Controle de Doenças em Atlanta – Geórgia 2013.

Construir um gráfico de colunas para representar os indivíduos com casos de Sarcoma de

kaposi. Tabela 11 - Sarcoma de Kaposi para pacientes Aidéticos

Sarcoma

Kaposi

Número de

indivíduos

Sim 69

Não 43

Total 112

24

68

1012

14

13

4) Variáveis quantitativas contínuas - Do exercício 4 da atividade 2 (tabelas de distribuição de

frequências), construa os gráficos abaixo para representar as concentrações de chumbo no

sangue ( em 50 adolescentes do sexo feminino observadas no Hospital Universitário de

Londrina 2009.

a. Diagrama de Ramos e folhas

b. Histograma

c. Boxplot

5) No software R, selecione algumas variáveis da pesquisa realizada em sala de aula (aula 1) e a

partir do data frame, construir os seguintes gráficos.

a) variável sexo: gráfico de setores; b) variável estado: gráfico de colunas

c) variável altura: histograma e box-plot d) Variável altura: Diagrama de Ramos e folhas

6) Construir o Boxplot dos pesos, em kg, de 40 alunos (20 homens e 20mulheres), obtendo os

dados brutos:

Homens = [40,49,55,70,40,50,57,75,43,50,60,83,45,52, 65,92,47,55,67,105]

Mulheres = [32,40,47,57,33,40,48,58,35,42,50,60,36,43,52,63,38,45,53,65]

a. Construir o boxplot para comparar as duas distribuições.

b. Há outliers? Quantos outliers e em que grupo?

c. Visualizando o gráfico, qual distribuição é mais simétrica?

d. Qual distribuição apresenta menor dispersão?

e. Apresente o diagrama de Ramos e folhas para cada distribuição.

Aula 4 - MEDIDAS DESCRITIVAS - Medidas de Posição ou Tendência Central

MEDIDAS DE TENDÊNCIA CENTRAL OU MEDIDAS DE POSIÇÃO

(média, moda e mediana)

São medidas de posição que resumem ou descrevem informações numéricas de um

conjunto, pois uma maneira conveniente de descrever um conjunto de dados é encontrar um

número único que represente o que é típico, mediano ou médio.

4.1 Média

Média aritmética para dados não agrupados (dados brutos)- média aritmética é a medida de

tendência central mais utilizada, pois considera todos os valores do conjunto. É um valor em

torno da qual, os dados se distribuem, é o centro da distribuição. Pode ser calculada de duas

formas: média aritmética simples e média aritmética ponderada.

Média aritmética simples. ( X ) - Sejam nxxx ,...,, 21 , n valores que a variável X

assume em uma amostra. A média aritmética simples é definida por:

n

xx

i

n

i 1

Utiliza-se o símbolo para a média de população, e N para o número de elementos da

população. N

xi

N

i 1

Nxxx ,...,, 21

14

Exemplo 4.1 Em um hospital foram registrados os pesos, em kg, de 10 recém-nascidos em um

determinado dia, considere a amostra de pesos:{3.2; 3.2; 2.8; 2.1; 2.9; 3.1; 3.2; 3.0; 3.5; 4.0}

Para calcular o peso médio da amostra: kgn

xx

ii 1.3

10

31

10

0.4....2.32.3

10

1

Média aritmética para dados agrupados numa tabela de distribuição de frequências –

Variável discreta

A média aritmética ponderada é utilizada quando atribuímos um peso (ou

ponderação) aos valores possíveis da variável. Quando os dados aparecem na forma de uma

distribuição de freqüências, os ponderadores serão as freqüências absolutas (fi). Sejam

nxxx ,...,, 21 , n valores que a variável X assume e f1, f2, ......., fi os respectivos pesos (ou

ponderadores). A média aritmética ponderada é definida como:

fi

fx

x

n

i

ii

1

Média aritmética para dados agrupados numa tabela de distribuição de frequências –

Variável contínua

Com os dados agrupados em classes, é necessário, calcular xi - os pontos médios das

classes e adotar a mesma fórmula:

fi

fx

x

n

i

ii

1

Propriedades da média aritmética.

P1 - A soma dos desvios em relação a média é nula.

P2 - A soma dos quadrados dos desvios de um conjunto de dados, em relação a uma

constante k, é mínima quando k = ̅.

P3 - Somando-se (ou subtraindo-se) um valor constante e arbitrário a cada um dos

elementos de um conjunto de dados, a média aritmética fica adicionada (ou

subtraída) dessa constante.

P4 - Multiplicando-se (ou dividindo-se) um valor constante e arbitrário a cada um dos

elementos de um conjunto de dados, a média aritmética fica multiplicada (ou

dividida) por essa constante.

Emprego da média

Quando os resultados se distribuem simetricamente em torno de um ponto central.

Quando se deseja uma medida de posição com maior estabilidade (sempre apresentar

a média acompanhada de uma medida de dispersão)

Para se calcular outras medidas que se baseiam na média

4.2 Moda

Moda para dados não agrupados ( Mo ) - A moda é o valor que ocorre com maior freqüência

na distribuição. Uma distribuição pode ser classificada:

Amodal: quando os dados não apresentam moda;

Modal: apresenta uma moda;

Bimodal: quando os dados apresentam duas modas;

Multimodal: quando os dados apresentam mais de duas modas.

15

A moda comparada com a média e a mediana, é a menos útil das medidas para representar

os dados. A moda é útil quando um ou dois valores, ou um grupo de valores, ocorrem com

freqüência muito maior que os outros valores.

Exemplo 4.2 Encontre a moda nos seguintes conjuntos:

a) X = {3, 4, 4, 4, 7, 10, 12, 15} Mo = 4

b) Y = {12, 15, 20, 22, 30} Não existe moda. ( amostra amodal ).

c) W = {8, 10, 10, 10, 15, 15, 15, 18, 19, 20, 20}

A amostra apresenta dois valores modais: Mo = 10 e Mo = 15 ( amostra bimodal ).

d) Z = { 2, 5, 5, 5, 5, 8, 8, 8, 8, 10, 12, 20, 20, 20, 20 } A amostra apresenta mais de dois

valores modais: Mo = 5, Mo = 8, Mo = 20 ( amostra multimodal ).

Moda para dados agrupados numa tabela de distribuição de frequências - (Variável discreta)

Os valores da variável dispostos em uma tabela de frequências podem apresentar-se

individualmente ou agrupados em classes. No primeiro caso, a determinação da moda é

imediata, bastando, para isso, consultar a tabela, localizando o valor que apresenta a maior

frequência. Esse valor será a moda.

Moda para dados agrupados numa tabela de distribuição de frequências - (variável contínua)

O segundo caso, os valores da variável dispostos em uma tabela de frequências em

classes (variável contínua), devemos identificar a classe modal (classe em que observamos a

maior frequência).

Fórmula de Czuber Mo = Li + (

21

1

).h

Li : limite inferior da classe modal,

1 : Diferença entre a fi da classe modal e a fi anterior a classe modal,

2 : Diferença entre a fi da classe modal e a fi posterior a classe modal.

h: amplitude das classes

Emprego da moda

Quando se deseja obter uma medida rápida e aproximada da tendência central

Quando a outliers que afetam o valor da média

4.3 Mediana

Mediana para dados não agrupados (Md) - A mediana é o valor que ocupa a posição central

da amostra ordenada (crescente ou decrescente). Isto é, divide a amostra em duas partes iguais

de modo que 50% dos valores ficam à sua esquerda e 50% à sua direita.

A ordem da mediana, indicada pela letra O, será:

a) Se n for ímpar:

2

1nO e Md = X (o)

b) Se n for par, calculam-se duas ordens: 122

21

nOe

nO e md =

16

Exemplo 4.3: Calcular a mediana para os seguintes conjuntos de dados.

Para n par - X: {20, 25, 25, 30, 32, 45, 46, 52}

51

2

84

2

821

OeO

Md =

=

= 31

Para n ímpar - Y: {20, 25, 25, 30, 45, 46, 50} 42

17

O

Md = X4 = 30

Mediana para dados agrupados numa distribuição de frequências – (Variável discreta)

A mediana é o valor que ocupa a posição central da amostra ordenada (rol). Verificar se o

valor de n é par ou ímpar, localizar a(s) ordem (ns) e verificar o valor mediano na tabela de

distribuição de frequências.

Mediana para dados agrupados numa distribuição de frequências – (Variável contínua)

Quando os valores da variável estiverem agrupados em classes, admite-se que os valores

da variável na distribuição de frequências distribuam-se continuamente. A mediana será, neste

caso, o valor da variável, para o qual 50% da frequência total (n/2) fica situada abaixo e outra

metade acima dele. O elemento mediano para dados agrupados em classes será n/2 (não importa

se é par ou ímpar).

hf

FacELMd

i

antmdi

. , onde

Emd é o Elemento Mediano dado por n/2 (localiza-se na Fac);

Li é o limite inferior da classe que contém a mediana;

Facant é a frequência acumulada crescente anterior à da classe mediana;

fi é a frequência absoluta da classe que contém a mediana;

h é a amplitude das classes.

Emprego da mediana

Quando se deseja obter o ponto médio exato da distribuição

Quando a outliers que afetam o valor da média

Os exemplos abaixo se referem variáveis agrupadas às tabelas de distribuição de

frequências que se apresentam individualmente (variável discreta) ou agrupados em classes

(variável contínua). Determinar as medidas de tendência central ou medidas de posição.

Exemplo 4.4 Variável discreta - As faltas ao trabalho (dias) de 30 empregados de uma clínica

em determinado semestre estão na Tabela 12. Tabela 12 – Distribuição de frequências do número de faltas de 30 empregados

de uma clínica no 1o semestre - 2015

Número de faltas (xi) fi xi.fi

0 9 0

1 10 10

2 5 10

3 3 9

4 2 8

6 1 6

n =30 43 Fonte: VIEIRA, S. Introdução à Bioestatística.

Determine as medidas de posição: Média, moda e mediana.

17

Exemplo 4.5 Variável contínua – Seja um experimento realizado na UNESP - Botucatu (2005),

onde a variável observada foi a altura de 40 pés de eucaliptos (metros) de certa espécie.

Determine as medidas de posição.

Tabela13- Distribuição de frequências das alturas 40 pés de eucaliptos - Botucatu 2005

Classes frequência

fi

Ponto

Médio xi

xifi Fac

2.0 |-- 4.0

4.0 |-- 6.0

6.0 |-- 8.0

8.0 |-- 10.0

10.0 |-- 12.0

12.0 |-- 14.0

10

16

10

02

01

01

3

5

7

9

11

13

30

80

70

18

11

13

10

26

36

38

39

40

n=40 Fonte: UNESP – Botucatu 2005

Determine as medidas de posição: Média, moda e mediana

Atividade 4 – Medidas de posição (Tendência central)

1) Propriedades da média:

a) Seja um conjunto de dados W= { 17, 18, 24, 47, 50}.

Prove as 4 propriedades da média: P1; P2 e (P3 e P4 utilizando uma constante k = 2)

b) Utilizando a série de dados do conjunto T= {2, 7, 8, 15}

P1: Prove numericamente que a soma dos desvios em torno da média é zero.

Utilize k=2 o valor constante e prove P3.

Utilize k=3 o valor constante para provar a P4.

2) Dados não agrupados - Calcule as medidas de tendência central (posição), do seguinte

conjunto de dados não agrupados. O estudo se refere ao efeito da inalação de ozônio e dióxido

de enxofre por adolescentes que sofrem de asma. As medidas são do volume expiratório forçado

em segundo para 13 indivíduos. FEV: é o volume de ar expelido dos pulmões depois de um

segundo de esforço constante. Pagano & Gauvreau (2004)

FEV (litros) = { 2.3, 2.15, 3.50, 2.60, 2.75, 2.82, 4.05, 2.25, 2.68, 3.0, 4.02, 2.85, 3.38}

Determine as medidas de posição para os dados não agrupados.

Dados agrupados – Variável discreta

3) Calcule as medidas de posição dos valores da tabela de distribuição de frequências, referente

ao número de galhas de nematoídes observadas em 72 raízes de plantas - UFLA Lavras - MG

Tabela 14 - Número de galhas de nematoídes em 72 raízes de plantas – UFLA - MG

Número de galhas fi 0 30 1 25 2 10 3 5 4 2 n = 72

Dados agrupados – Variável contínua

4) A tabela de distribuição de frequência para variável contínua representa um resumo das

pressões diastólicas em repouso pra uma amostra de 70 pacientes com doenças de isquêmia do

coração ou supressão do fluxo de sangue para o coração. Determine as medidas de posição.

18

Tabela 15 – Distribuição de frequências das pressões diastólicas

de 70 pacientes com isquêmia do coração.

classes fi xi

2.0 |-- 4.0 5 3.0

4.0 |-- 6.0 40 5.0

6.0 |-- 8.0 14 7.0

8.0 |-- 10.0 8 9.0

10.0 |-- 12.0 3 11.0

n = 70

5) Demonstre que ∑ ̅ é igual a zero.

Aula 5 – Medidas de Dispersão (Variabilidade)

Medidas de Dispersão - (amplitude total, desvio médio, variância, desvio padrão e coeficiente

de variação)

Analisar um conjunto de observações com base em uma única medida de

tendência central não nos fornece informações suficientes. É necessário ter uma medida de

dispersão que diga algo sobre a dispersão dos valores em torno dessa medida de tendência

central.

As medidas de dispersão servem para avaliar o grau de variabilidade ou

dispersão dos valores de um conjunto de dados. Estas medidas permitem estabelecer

comparações entre fenômenos de mesma natureza ou de natureza distinta e, em geral, essa

variabilidade é observada em torno de uma medida de tendência central. As medidas de

dispersão podem ser absolutas ou relativas. São elas:

i) Absolutas: medidas de dispersão que são expressas na mesma unidade de medida da variável

em estudo: Amplitude total, Variância e Desvio padrão.

ii) Relativas: medidas que independem da unidade de medida da variável observada. Servem

para estudar comparativamente duas ou mais distribuições com natureza distinta ou com

unidades de medida diferentes: Coeficiente de variação.

5.1 Amplitude Total para dados não agrupados - É a diferença entre os valores extremos da

distribuição

1ª) A amplitude total é a medida mais simples de dispersão.

2ª) A desvantagem desta medida de dispersão é que considera apenas os valores mínimo e

máximo do conjunto. Se ocorrer qualquer variação no interior do conjunto de dados, a

amplitude total não nos dá qualquer indicação dessa mudança.

3ª) A amplitude total também sofre a influência de um valor "atípico" na distribuição (um valor

muito elevado ou muito baixo em relação ao conjunto).

Exemplo 5.1 Em um hospital foram registrados os pesos, em kg, de 10 recém-nascidos em

um determinado dia: pesos: {3.2; 3.2; 2.8; 2.1; 2.9; 3.1; 3.2; 3.0; 3.5; 4.0} Rol: { 2.1, 2.8, 2.9, 3.0, 3.1, 3.2, 3.2, 3.2, 3.5, 4.0}

At = Xmax – Xmin = 4.0 – 2.1 = 1.9 kg

Amplitude total para dados agrupados – Quando a distribuição de freqüências é organizada

por classes de valores, costuma-se tomar como amplitude total à diferença entre o limite

superior da última classe e o limite inferior da primeira classe. Não é possível definir a

amplitude total, para dados agrupados em classes de frequências, quando a última classe for

aberta.

19

Emprego da amplitude total

Quando os dados são raros ou demasiado esparsos para justificar o cálculo de uma medida

mais precisa.

Quando apenas o conhecimento dos valores extremos ou da distribuição total for necessário.

5.2 Variância e desvio padrão

Variância e desvio padrão para dados não agrupados - Sejam Nxxx ,...,, 21 , N valores que a

variável X assume. Se os valores tem média x , as diferenças (xi- x ), i=1, 2,...,N, são chamadas

de desvios a contar da média, o que sugere que se pode tomar a média desses desvios como

medida de variação.

A média dos valores é: N

xx

i

N

i 1

Os desvios dos valores são dados por: xxd ii

Considere os seguintes números: {1,2,3}. Calcule a média e média dos desvios. Solução: x =2

xxd ii

211 d = -1

222 d = 0

233 d = +1; mas como 01

xxi

N

i, e sempre será

zero, pois é uma das propriedades da média. Para se calcular a média dos desvios, têm-se duas

soluções:

1) Considerar a soma dos desvios em módulo, os valores negativos ficam positivos e, dividindo

o total por N, se obtém o Desvio Médio populacional: DM = N

xxi

N

i

1 .

2) Considerar os quadrados dos desvios a contar da média, isto também elimina o efeito dos

sinais. Tomando então a média dos quadrados dos desvios:

N

xx

d

n

i

i

2

1

.

A média dos desvios ao quadrado denominada variância populacional e representada por 2 .

N

xxn

i

i

2

12

, desenvolvendo o produto notável 2xxi

N

N

x

xi

N

i

i

N

i

2

12

12

-

Variância Populacional

Quando o estudo é feito sobre os dados de uma amostra, para se fazer inferência sobre uma

população de interesse, a variância amostral é definida por:

20

1

-

2

12

12

n

n

x

x

s

i

n

i

i

n

i Variância Amostral

Desvio-padrão - O desvio-padrão é a raiz quadrada positiva da variância.

N

N

x

x

i

N

ii

N

i

2

12

1-

Desvio-Padrão Populacional

1-

-

2

12

1

n

n

x

x

s

i

n

i

i

n

i

Desvio-Padrão Amostral

É expresso na mesma unidade da variável, sendo, por isso, de maior interesse que a

variância nas aplicações práticas. O desvio-padrão não reflete a magnitude dos dados, reflete

apenas a dispersão em torno da média.

Um significado prático e importante do desvio padrão decorre da afirmativa de que,

para dados com distribuição normal, quase a totalidade dos valores deverão estar contidos no

intervalo que dista de três desvios padrão à esquerda e à direita da média.

Exemplo 5.2 Em um hospital foram registrados os pesos, em kg, de 10 recém-nascidos em um

determinado dia - Variável peso: {3.2; 3.2; 2.8; 2.1; 2.9; 3.1; 3.2; 3.0; 3.5; 4.0}

Determine vari6ancia e desvio padrão.

Tabela 16 - Cálculos intermediários para obtenção da variância

Dados (xi) Desvios

(xi - ̅

Quadrados dos desvios

(xi - ̅

2.1 2.1 - 3.1 = -1.0 1.00

2.8 2.8 - 3.1 = -0.3 0.09

2.9 2.9 – 3.1= -0.2 0.04

3.0 3.0 – 3.1= -0.1 0.01

3.1 3.1 – 3.1 = 0 0.00

3.2 3.2 – 3.1 = 0.1 0.01

3.2 3.2 – 3.1 = 0.1 0.01

3.2 3.2 – 3.1 = 0.1 0.01

3.5 3.5 – 3.1 = 0.4 0.16

4.0 4.0 – 3.1 = 0.9 0.81

∑ ̅ = 0 2.14

Variância:

23.0

9

14.2

1

210

12

n

xx

s i

i

kg2

Desvio padrão: s = √ = 0.48 kg

Propriedades da variância e do desvio padrão.

P1) Somando-se (ou subtraindo-se) um valor constante e arbitrário a cada elemento de um

conjunto de dados a variância e o desvio padrão não se alteram.

21

P2) Multiplicando-se (ou dividindo-se) por um valor constante e arbitrário cada elemento de um

conjunto de dados, a variância fica multiplicada (ou dividida) pela constante elevada ao

quadrado. E o desvio padrão fica multiplicado (ou dividido) por essa constante.

Propriedades: Sejam os conjuntos X e Y (onde os valores de Y são os do conjunto X

multiplicado por k=2) e, ambos com n = 5 elementos:

X = {2, 4, 6, 8, 10} => x = 6 ; s2 = 10 e s = 3,16

Y = {4, 8, 12, 16, 20} => y = 12 ; s2 = 4x10 = 40

e s = 2 x 3,16 = 6,32

Variância e desvio padrão para dados agrupados na tabela de distribuição de frequências

Quando os valores vierem dispostos em uma tabela de frequências, o cálculo da variância

se fará através de uma das seguintes fórmulas:

1

-f

2

1

i

2

12

n

n

fx

x

s

ii

n

i

i

n

i onde algebricamente desenvolvendo o produto notável obtemos:

1

.)(1

2

2

n

fxxi

s

n

i

i

A variância do ponto de vista prático tem o inconveniente de se expressar numa unidade

quadrática em relação à variável em questão. Esse inconveniente é sanado com a definição do

desvio padrão (é a raiz quadrada e positiva da variância)

Desvio padrão: s = + √

5.3 Coeficiente de Variação - O coeficiente de variação é definido como o quociente entre o

desvio padrão e a média. È frequentemente expresso em porcentagem, para valores amostrais:

%100x

sCV

Esse coeficiente é adimensional e permite comparar a variabilidade de duas ou mais

distribuições, mesmo quando esse, se refere a diferentes fenômenos e seja expresso em unidades

de medida distintas.

Classificação: CV 15% (Baixo); 15% < CV < 30% (Médio); CV ≥ 30% (Muito alto)

Exemplo 5.3 Variável discreta - As faltas ao trabalho de 30 empregados de uma clínica em

determinado semestre estão na Tabela 17. Determine as medidas de dispersão.

Tabela 17 – Distribuição de frequências do número de faltas de 30 empregados

de uma clínica no 1o semestre - 2015.

Número de faltas (xi) fi

0 9

1 10

2 5

3 3

4 2

6 1

n =30 Fonte: VIEIRA, S. Introdução à Bioestatística.

22

Exemplo 5.4 - Variável contínua – Seja um experimento realizado na UNESP - Botucatu

(2005), onde a variável observada foi à altura de 40 pés de eucaliptos (metros) de certa espécie.

Determine as medidas de dispersão.

Tabela18 - Alturas de 40 pés de eucaliptos - UNESP

Classes frequência

absoluta

(fi)

Ponto

Médio xi

2.0 |-- 4.0

4.0 |-- 6.0

6.0 |-- 8.0

8.0 |-- 10.0

10.0 |-- 12.0

12.0 |-- 14.0

10

16

10

02

01

01

3

5

7

9

11

13

n=40 Fonte: UNESP – Botucatu 2005

Atividade 5 – Medidas de Dispersão (ou Variabilidade)

1) Prove a igualdade das duas fórmulas para encontrar a variância de uma distribuição.

1

-

1

)(

2

12

11

2

2

n

n

x

x

n

xxi

s

i

n

i

i

n

i

n

i

2) Propriedades do desvio padrão :

a) Seja um conjunto de dados W= { 17, 18, 24, 47, 50}.

Prove as 2 propriedades da variância e desvio padrão (P1 e P2) utilizando uma constante k = 2

Prove as 2 propriedades da variância e desvio padrão (P1 e P2) utilizando uma constante k = 10

3) Demonstre numericamente que a variância de uma série constante é nula.

exemplo: Seja o conjunto A: {5,5,5,5,5,5,5,5,5,5]. Calcule a variância.

4) A seguir têm-se um conjunto de dados não agrupados: As notas da segunda chamada de três

Cursos da UEL. Determine as medidas abaixo e responda qual turma teve melhor desempenho?

Tabela 19 - Notas da prova de segunda chamada de três Cursos da UEL - 2009

Turma Notas Média Desvio

padrão

Coef. de

Variação

Biomedicina 4, 5, 5, 6, 6, 7, 7, 8

Fisioterapia 1, 2, 4, 6, 6, 9, 10, 10

Biologia 0, 6, 7, 7, 7; 7,5; 7,5

5) Dados agrupados – Variável discreta. Calcule as medidas de dispersão da tabela de

distribuição de frequências, se refere ao número de galhas de nematoídes observadas em 72

raízes de plantas – 2012 - UFLA Lavras - MG

Tabela 20 - Número de galhas de nematoídes em 72 raízes de plantas – UFLA – MG

Número de galhas fi

0 30

1 25

2 10

3 5

4 2

23

6) Dados agrupados - Variável Contínua. A tabela de distribuição de frequência para variável

contínua representa um resumo das pressões diastólicas em repouso pra uma amostra de 70

pacientes com doenças de isquêmia do coração ou supressão do fluxo de sangue para o coração.

H.U - Londrina 2015. Determine as medidas de dispersão.

Tabela 21 – Distribuição de frequências das pressões diastólicas

de 70 pacientes com isquêmia do coração. H.U. 2015

classes fi xi

2.0 |-- 4.0 5 3.0

4.0 |-- 6.0 40 5.0

6.0 |-- 8.0 14 7.0

8.0 |-- 10.0 8 9.0

10.0 |-- 12.0 3 11.0

n = 70

Aula 6 - (Separatrizes: Quartis, Decis e Percentis)

Separatrizes - As separatrizes são medidas de localização não centrais, que são

empregadas particularmente para dividirem em partes iguais, grandes conjunto de dados

numéricos. As separatrizes são: a mediana (que é também uma medida de tendência central); os

quartis; os decis e os percentis.

6.1 Quartis para dados não agrupados - São medidas descritivas que dividem os dados em

quatro partes iguais.

25% 25% 25% 25%

_________Q1_________Q2_________Q3_________

O primeiro quartil, Q1, é o valor que faz com que 25% das observações sejam menores e 75%

maiores.

O segundo quartil, Q2, é o valor que faz com que 50% das observações sejam menores e 50%

maiores.

O terceiro quartil, Q3, é o valor que faz com que 75% das observações sejam menores e 25%

maiores.

Para n ímpar - A ordem do quartil “i” (i=1, 2 ou 3)é dada por 4

)1.( ni e o valor é localizado

no rol.

Para n par - O quartil será a média dos dois elementos de ordens: 4

.ni e 1

4

.

ni.

Quartis para dados agrupados

qi : 4

in localizar classe qi na Fac; qi = Li +

fi

Facin

ant4 .h

Li: Limite inferior da classe do quartil “i”

Facant: Frequência acumulada anterior a classe do quartil “i”

n: número de elementos da amostra

h: amplitude ou intervalo de classe

fi: frequência absoluta ou simples da classe do quartil “i”.

24

6.2 Decis para dados não agrupados - São medidas descritivas que dividem os dados em dez

partes iguais.

10% 10% 10% 10% 10% 10% 10% 10% 10% 10%

___D1___D2___D3___D4___D5___D6___D7___D8___D9___

O primeiro decil, D1, é o valor que faz com que 10% das observações sejam menores e 90%

maiores.

O segundo decil, D2, é o valor que faz com que 20% das observações sejam menores e 80%

maiores, e assim sucessivamente.

Para n ímpar - A ordem do decil “i” ( i= 1, 2, ....,9) é dada por 10

)1.( ni e o valor é localizado

no rol .

Para n par - O decil será a média dos dois elementos de ordens: 10

.ni e 1

10

.

ni.

Decis para dados agrupados

di : 10

in localizar classe di na Fac di = Li +

fi

Facin

ant10 .h

6.3 Percentis para dados não agrupados - São medidas descritivas que dividem os dados em

cem partes iguais.

1% 1% 1% 1% ..................... .. 1% 1% 1%

___P1___P2___P3___.……………...___P97___P98___P99___

O primeiro percentil, P1, é o valor que faz com que 1% das observações sejam menores e 99%

maiores.

O segundo percentil, P2, é o valor que faz com que 2% das observações sejam menores e 98%

maiores, e assim sucessivamente.

Para n ímpar- A ordem do percentil “i”( i= 1, 2, ....,99) é dada por 100

)1.( ni e o valor é

localizado no rol.

Para n par- O percentil será a média dos dois elementos de ordens: 100

.ni e 1

100

.

ni.

Percentis para dados não agrupados

pi : 100

in localizar classe pi na Fac pi = Li +

fi

Fin

ac 1100 .h

Amplitude Semi-interquartílico: é a distância média entre os quartis, dada pela expressão:

Intervalo ou Amplitude interquartílico (Dq)

25

Emprego da amplitude interquartílico ou intervalo interquartílico

Quando a mediana for a medida de tendência central

Quando houver valores discrepantes capazes de influenciar desproporcionalmente o

desvio padrão.

Quando a concentração em torno da mediana for primordial.

Exemplo 6.1 Seja o conjunto Y os dados não agrupados, determine os quartis.

Variável Y = [7.5, 8, 3.5, 6, 2.5, 2, 5.5, 4]

Exemplo 6.2: Dados não agrupados determine os quartis. verificar interpolação

Calcule todos quartis da distribuição: 15, 18, 5, 7, 9, 11, 3, 5, 6, 8, 12.

Calcule todos quartis da distribuição: 15, 18, 5, 7, 9, 11, 3, 5, 6, 7, 8, 10, 12, 15.

Algumas Aplicações utilizando as Medidas Descritivas

DESIGUALDADE DE CHEBYCHEV

Uma vez que a média e o desvio padrão de um conjunto de dados tenham sido calculados,

esses dois números podem ser usados para resumir o todo das características da distribuição de

valores. Juntos, podem ser usados para se construir um intervalo que contenha uma proporção

especificada de observações no conjunto de dados. Quando os dados são simétricos e

unimodais, podemos dizer que aproximadamente 67% das observações se encontram no

intervalo ( ̅ ), cerca de 95% no intervalo ( ̅ e quase todas as observações no

intervalo ( ̅ ). Essa afirmação é conhecida como regra empírica.

Jair Se os dados não são simétricos e unimodais pode-se usar a desigualdade de Chebychev

para resumir a distribuição de valores. A desigualdade de Chebychev é verdadeira para qualquer

conjunto de observações, independente de qual seja a sua forma. Ela nos permite dizer que para

qualquer numero k maior que 1, pelo menos [1 - ].

Exemplo 6.2 Desigualdade de Chebychev – Realizou uma pesquisa a fim de avaliar certa

operação manual em uma clínica de idosos. Esse tempo é medido para cada uma de 40

mulheres. A média e o desvio-padrão obtidos foram 12,8 e 1,7, respectivamente. Para

descrever os dados, obtêm-se os intervalos:

• x ± 2s = 12,8 ± 2(1,7) = [9,4 a 16,2] Para k=2

• x ±3s = 12,8 ± 3(1,7) = [7,7 a 17,9] Para k=3

Embora não se possua qualquer informação a respeito da distribuição desses dados,

é muito provável que eles tenham distribuição afilada e que a regra empírica permita uma

boa descrição dos dados. Então, aproximadamente 75% das medidas estarão contidas no

intervalo de 9,4 e 16,2 e pelo menos 88.9%, no intervalo de 7,7 a 17,9.

GRÁFICO BOX-PLOT – O Box-plot mais simples tem base no resumo dos 5 números.

(Mínimo, Primeiro quartil, Mediana, Terceiro quartil e Máximo). A amplitude interquartílica

(dq) é encontrada pela diferença do terceiro e primeiro quartil. A distribuição terá outlier se

verificar valores acima (ou abaixo) de 1,5 dq; e outlier extremo se verificar valores acima (ou

abaixo) de 3dq). Encontre a amplitude interquartil dq= Q3 – Q1. Os limites LI , LIE, LS LSE

Exemplo 6.3- Livro: Estatística aplicada a administração e economia. Seja a distribuição de

dados referente a salários do departamento de uma empresa. Construa o Box-plot.

2710, 2755, 2850, 2880, 2880, 2890, 2920, 2940, 2950, 3050, 3130, 3325

26

Outliers Extremos

3405 ------------------------------------------------------ Lim Superior Extremo Q3+ 3,0 dq

OUTLIERS Max = 3325

3202 --------------------------------------------------------- Lim. Superior Q3 + 1,5 dq

Q3 = 3000 30 Quartil

Q2 = med = 2905 20 Quartil = Mediana

10 Quartil

Q1 = 2865

2800

Mínimo=2710

2662,5 --------------------------------------------------------------------------------

OUTLIERS Lim. Inferior

Q1 - 1,5 dq

Lim.Inferior Extremo

2460 -------------------------------------------------------------------------------- Q1 - 3,0 dq

Outiliers Extremos

27

Exemplo 6.4 Variável discreta - As faltas ao trabalho de 30 empregados de uma clínica em

determinado semestre estão na Tabela 17. Determine as medidas de dispersão.

Tabela 17 – Distribuição de frequências do número de faltas de 30 empregados

de uma clínica no 1o semestre - 2015.

Número de faltas (xi) fi

0 9

1 10

2 5

3 3

4 2

6 1

n =30 Fonte: VIEIRA, S. Introdução à Bioestatística.

Exemplo 6.5 - Variável contínua – Seja um experimento realizado na UNESP - Botucatu

(2005), onde a variável observada foi à altura de 40 pés de eucaliptos (metros) de certa espécie.

Determine as medidas de dispersão.

Tabela18 - Alturas de 40 pés de eucaliptos - UNESP

Classes frequência

absoluta

(fi)

Ponto

Médio xi

2.0 |-- 4.0

4.0 |-- 6.0

6.0 |-- 8.0

8.0 |-- 10.0

10.0 |-- 12.0

12.0 |-- 14.0

10

16

10

02

01

01

3

5

7

9

11

13

n=40 Fonte: UNESP – Botucatu 2005

Atividade 6 – Separatrizes

1) Calcule os quartis, das duas distribuições, se refere ao peso, em kg, de 40 alunos (20 homens

e 20 mulheres), dos dados brutos e não agrupados.

Homens = [40, 49, 55, 70, 40, 50, 57, 75, 43, 50, 60, 83, 45, 52, 65, 92, 47, 55, 67, 105]

Mulheres = [32, 40, 47, 57, 33, 40, 48, 58, 35, 42, 50, 60, 36, 43, 52, 63, 38, 45, 53, 65]

a. Apresente o rol de cada distribuição.

b. Qual o intervalo interquartílico?

c. Apresente o resumo dos cinco números (valor mínimo, primeiro quartil, mediana, terceiro

quartil e o valor máximo) para cada distribuição.

d. Compare a dispersão entre as distribuições. Qual distribuição apresenta menor dispersão?

e. Qual a melhor medida de dispersão para comparar duas distribuições?

f. Acima de qual peso (kg) estão 30% das mulheres?

2) Dados agrupados – Variável discreta

Calcule os quartis e o décimo e nonagésimo percentil da tabela 20 de Distribuição de

frequências, se refere ao número de galhas de nematoídes observadas em 72 raízes de plantas –

2012 - UFLA Lavras - MG

28

Tabela 20 - Número de galhas de nematoídes em 72 raízes de plantas – UFLA - MG

Número de galhas fi

0 30

1 25

2 10

3 5

4 2

n = 72

3) Dados agrupados - Variável Contínua

A tabela de distribuição de frequência para variável contínua representa um resumo das pressões

diastólicas em repouso pra uma amostra de 70 pacientes com doenças de isquêmia do coração

ou supressão do fluxo de sangue para o coração – H.U. 2015. Determine o quartis e mediana,

quinto decil; décimo e nonagésimo percentil.

Tabela 21 – Distribuição de frequências das pressões diastólicas

de 70 pacientes com isquêmia do coração.

classes fi xi

2.0 |-- 4.0 5 3.0

4.0 |-- 6.0 40 5.0

6.0 |-- 8.0 14 7.0

8.0 |-- 10.0 8 9.0

10.0 |-- 12.0 3 11.0

n = 70

Aula 7 – Medidas de assimetria e curtose

7.1 Assimetria - Assimetria é o grau de afastamento de uma distribuição em relação ao eixo

simétrico. Uma distribuição pode ser:

- simétrica;

- assimétrica positiva ou à direita;

- assimétrica negativa ou à esquerda.

Comparação entre as medidas de posição-Em uma distribuição simétrica, a média, a mediana

e a moda são iguais, isto é, x = Med = Mo. Em um gráfico de distribuição essas medidas se

coincidem.

Em uma distribuição assimétrica positiva ou assimétrica à direita, a média é maior

que a mediana, e esta por sua vez, é maior que a moda, isto é, Mo < Med < x . Em um

gráfico de distribuição essas medidas ficam:

29

Em uma distribuição assimétrica negativa ou assimétrica à esquerda, a média é

menor que a mediana, e esta por sua vez, é menor que a moda, isto é, x <Med < Mo. Em um

gráfico de distribuição essas medidas ficam:

Coeficiente de assimetria de Pearson - O coeficiente de assimetria de Pearson pode ser

determinado através das seguintes equações:

a) 1o coeficiente de Pearson

s

MoxAs

)(

b) 2o coeficiente de Pearson

s

MdxAs

)(3

c) 3o coeficiente de Pearson

13

31 2

qq

MdqqAs

As = 0 a distribuição é simétrica

As > 0 a distribuição é assimétrica positiva (à direita)

As < 0 a distribuição é assimétrica negativa (à esquerda).

7.2 Curtose - Curtose é o grau de achatamento de uma distribuição em relação a uma

distribuição padrão, denominada curva normal.

Uma distribuição que não é nem chata e nem delgada é denominada de mesocúrtica. A

curva normal, por exemplo, que é a nossa base referencial, recebe o nome de mesocúrtica.

Quando a distribuição apresenta uma curva de frequência mais fechada que a normal

(ou mais aguda em sua parte superior) ela recebe o nome de leptocúrtica. Quando a distribuição

apresenta uma curva de frequência mais aberta que a normal (ou mais achatada na sua parte

superior), ela é chamada de platicúrtica.

Forma abstrata ou adimensional do momento – Coeficiente momento de assimetria

Dada pela razão entre o momento de ordem qualquer centrado na média e o desvio

padrão elevado à ordem deste momento ou dado pelo momento de 30 ordem na forma abstrata.:

ou a3 =

√ se a3 > 0 (A. positiva); a3 = 0 (Simetria) e a3 < 0 (A. negativa).

Coeficiente momento de curtose – É dado pelo quarto momento centrado na média,

expresso na forma adimensional. cm ou a4 =

.

Se a4 < 3 (Dist. platicúrtica); a4 = 3 (Dist.mesocúrtica) e a4 > 3 (Dist.leptocúrtica).

30

O momento de ordem r centrado na média de uma série é dada pelas relações:

Dados não agrupados: n

xxm

r

i

r

)( e dados agrupados:

n

fxxm

i

r

i

r

.)(

Observamos que o segundo momento da variável centrado em sua média (m2), é a variância da

série em análise.

os gráficos abaixo mostram essas distribuições:

Coeficiente de curtose: )(2 1090

13

pp

qqC

; onde: p10 e p90 são os percentis 10 e 90.

C = 0,263 curva mesocúrtica

C < 0,263 curva leptocúrtica

C > 0,263 curva platicúrtica

Exemplo 7.1 As duas distribuições, se refere ao peso, em kg, de 40 alunos (20 homens e 20

mulheres), dos dados brutos e não agrupados.

Homens = [40, 49, 55, 70, 40, 50, 57, 75, 43, 50, 60, 83, 45, 52, 65, 92, 47, 55, 67, 105]

Mulheres = [32, 40, 47, 57, 33, 40, 48, 58, 35, 42, 50, 60, 36, 43, 52, 63, 38, 45, 53, 65]

Determine o coeficiente de assimetria e curtose e classifique a distribuição.

Exemplo 7.2 Dados agrupados – Variável discreta

A tabela 20 de Distribuição de frequências, se refere ao número de galhas de nematoídes

observadas em 72 raízes de plantas – 2012 - UFLA Lavras – MG.

Determine o coeficiente de assimetria e curtose e classifique a distribuição.

Tabela 20 - Número de galhas de nematoídes em 72 raízes de plantas – UFLA - MG

Número de galhas fi

0 30

1 25

2 10

3 5

4 2

n = 72

Exemplo 7.3 Dados agrupados - Variável Contínua

A tabela de distribuição de frequência para variável contínua representa um resumo das pressões

diastólicas em repouso pra uma amostra de 70 pacientes com doenças de isquêmia do coração

Mesocúrtica Leptocúrtica Platicúrtica

31

ou supressão do fluxo de sangue para o coração – H.U. 2015. Determine o coeficiente de

assimetria e curtose e classifique a distribuição .

Tabela 21 – Distribuição de frequências das pressões diastólicas

de 70 pacientes com isquêmia do coração.

classes fi xi

2.0 |-- 4.0 5 3.0

4.0 |-- 6.0 40 5.0

6.0 |-- 8.0 14 7.0

8.0 |-- 10.0 8 9.0

10.0 |-- 12.0 3 11.0

n = 70

Exemplo 7.4 – Seja uma série de números igual a X = { 1,2,3,3}. Determine o coeficiente de

momento de assimetria e o coeficiente momento de curtose. Classifique quanto a distribuição.

Atividade 7 – Medidas de Assimetria e Curtose

1) Pesquise uma definição do coeficiente de assimetria e curtose e apresente a literatura.

2) Dados agrupados – Variável discreta

Determine o coeficiente de assimetria e curtose e classifique a distribuição dos dados da tabela

20 referente à distribuição de frequências do número de galhas de nematoides observadas em 72

raízes de plantas – 2012 - UFLA Lavras - MG

Tabela 20 - Número de galhas de nematoides em 72 raízes de plantas – UFLA - MG

Número de galhas fi

0 30

1 25

2 10

3 5

4 2

n = 72

3) Dados agrupados - Variável Contínua

A tabela de distribuição de frequência para variável contínua representa um resumo das pressões

diastólicas em repouso de uma amostra de 70 pacientes com doenças de isquemia do coração ou

supressão do fluxo de sangue para o coração – H.U. Londrina 2015.

Determine o coeficiente de assimetria e curtose e classifique a distribuição.

Tabela 21 – Distribuição de frequências das pressões diastólicas

de 70 pacientes com isquemia do coração.

classes fi xi

2.0 |-- 4.0 5 3.0

4.0 |-- 6.0 40 5.0

6.0 |-- 8.0 14 7.0

8.0 |-- 10.0 8 9.0

10.0 |-- 12.0 3 11.0

n = 70