Organização tratamento de_dados

37

Transcript of Organização tratamento de_dados

Page 2: Organização tratamento de_dados
Page 3: Organização tratamento de_dados

População – é um conjunto de pessoas, objetos ou acontecimentos com uma característica comum em que incide um estudo estatístico.

Amostra – é uma parte significativa da população em que incide a observação.

A maior parte dos estudos estatísticos é baseada em amostras e isso deve-se

fundamentalmente a pelo menos uma das seguintes razões:

a população ser infinita;

o estudo da população poder conduzir à sua destruição

o estudo da população ter custos muito elevados

Cada elemento da população é uma unidade estatística.

Dimensão da amostra: É o número de elementos da amostra e, normalmente representa-se por "n."

Page 4: Organização tratamento de_dados

Censo ou recenseamento – é um estudo estatístico de um universo de

pessoas, instituição ou objetos físicos com o propósito de adquirir

conhecimentos, observando todos os seus elementos e fazer juízos

quantitativos acerca de características importantes desse universo.

Sondagem – é um estudo científico de uma parte da

população com o objetivo de melhor conhecer atitudes,

hábitos e preferências da população relativamente a

acontecimentos, circunstâncias e assuntos de interesse

comum.

Page 5: Organização tratamento de_dados

Representam a informação que

não susceptível de ser medida,

mas de ser classificação.

Exemplos:

-Cor dos olhos dos alunos de uma turma . Podem ser castanhos, azuis ou verdes.

Notas de Matemática, do

7B, no final do 2º período.

Altura dos jogadores da

equipa de futebol do FCP.

Variável estatística propriedade ou característica que é observada nos elementos de uma população.

Page 6: Organização tratamento de_dados

Frequência absoluta (𝒇𝒂) de um acontecimento é o número de vezes que esse acontecimento se repete.

Frequência relativa ( 𝒇𝒓 ) de um acontecimento é o quociente entre a frequência absoluta e o número total de elementos.

Existem mais dois conceitos relacionados com os estudos estatísticos:

frequência absoluta e frequência relativa.

A soma das frequências relativas é sempre 1. Podemos multiplicar

a frequência relativa de um acontecimento por 100 e obtemos a

frequência relativa em percentagem.

Page 7: Organização tratamento de_dados

Uma tabela de frequências é uma tabela onde se indica uma ou

duas frequências.

Page 8: Organização tratamento de_dados

REPRESENTAÇÃO DOS DADOS

Existem vários tipos de gráficos: o gráfico de barras, o

pictograma, o gráfico de linhas, o gráfico circular,

histogramas…

Na leitura e interpretação de um gráfico deve ter-se em atenção o título e as legendas dos eixos horizontal e

vertical.

Os gráficos são uma das formas mais simples e eficientes de representação dos dados.

Para a elaboração de um gráfico deve-se levar em conta os

elementos “simplicidade, clareza e veracidade”.

São elementos complementares de um gráfico: Título,

escalas e unidades de medida, legenda e a fonte.

Page 9: Organização tratamento de_dados

Gráfico de Barras

Os gráficos de barras são uma das formas mais populares de

representar informação, em parte pela facilidade quer de

execução, quer de leitura.

São para apresentar um conjunto de dados e também para comparar vários conjuntos de dados. Devem ser utilizados

para representar variáveis discretas ou qualitativas, em termos

absolutos ou relativos.

Para cada valor da variável estatística traçam-se barras, cujo

comprimento é proporcional à frequência (absoluta ou relativa)

correspondente.

só uma das dimensões das barras varia

(geralmente a altura);

a dimensão que varia corresponde à

frequência da variável estatística;

as barras devem estar separadas por

espaços iguais;

o gráfico deve ter um título adequado.

Page 10: Organização tratamento de_dados

PICTOGRAMA

Profª Helena Borralho

Utiliza-se um símbolo sugestivo em relação ao tema em estudo. O

símbolo ou símbolos utilizados devem ser do mesmo tamanho e

separados por espaços iguais. O gráfico é mais sugestivo mas menos

rigoroso que um gráfico de barras.

Page 11: Organização tratamento de_dados

DIAGRAMA DE CAULE-E-FOLHAS

Os resultados de 16 testes, numa escala de 0 a 100, foram os seguintes:

35 78 50 63 86 73 57 82

59 75 66 79 83 71 94 59

Vamos aprender a representar os dados num diagrama de caule-e-

folhas.

1.º Traça-se uma linha na vertical.

2.º Em cada um dos dados considera-se duas partes:

o caule e a folha.

3 5

Caule Folha Algarismo

das dezenas

Algarismo

das unidades

Page 12: Organização tratamento de_dados

3

5

6

9

8

7

3.º Do lado esquerdo da linha vertical

colocam-se os caules sem os repetir.

35 78 50 63 86 73 57 82

59 75 66 79 83 71 94 59

4.º Do lado direito da linha vertical colocam-

se as folhas correspondentes aos respectivos

caules.

5

0

3

4

6

8

9 7

6

2

3

9

3

1 5 9

5. Para cada caule ordenam-se as folhas,

por ordem crescente.

3

5

6

9

8

7

5

0

3

4

2

1

9 7

6

3

3

9

6

9 5 8

Vantagens: Não se perde informação;

É de fácil construção;

Por simples observação, permite verificar

facilmente o modo como os dados estão

distribuídos;

Possibilita a ordenação dos dados da amostra;

Page 13: Organização tratamento de_dados

Os gráficos circulares são uma boa forma de mostrar como um todo

está repartido e são essencialmente indicados para representar

dados de natureza qualitativa.

Na construção de gráficos circulares ou sectogramas deve ter-se em

conta que:

O gráfico deve ter um título;

A amplitude de cada sector é proporcional à frequência que

representa;

A legenda poderá ser dispensada, se se inscreverem os valores da

variável e as suas frequências junto dos respectivos sectores;

Podem usar-se cores diferentes para cada sector;

Não é aconselhável construir um gráfico circular: Para variáveis que tenham mais de cinco ou seis modalidades;

Para situações em que os sectores resultam aproximadamente

com a mesma amplitude;

Para sectores com amplitudes muito pequenas.

Page 14: Organização tratamento de_dados

Frequência

absoluta (f) Graus

20

40

40

140

60

360

18 1

360

x

360

18 x 20x

36

37

38

39

40

total

41

42

1

2

2

7

3

18

2

1

40

20

18 2

360

x

360x2

18 x 40x

720

18 x

18 7

360

x

360x7

18 x 140x

2520

18 x

18 3

360

x

360x3

18 x 60x

1080

18 x

Número do sapato dos alunos

38%

17%

11%

6% 6%11%

11%

36

37

38

3940

41

42

Page 15: Organização tratamento de_dados

Os histogramas são gráficos de barras especiais. Eles constroem-se

sempre que os dados estão agrupados em classes. Por isso, são

formados por um conjunto de barras adjacentes, tendo por base cada

um deles um intervalo de classe e a área diretamente proporcional à

respetiva frequência.

Na construção de histogramas deve ter-se em conta que:

O gráfico deve ter um título;

Os dados devem ser agrupados em classes;

No eixo horizontal representam-se os intervalos das classes;

No eixo vertical representam-se as frequências absolutas ou relativas

das classes;

As barras são desenhadas verticalmente e sem espaço entre elas.

É formado por uma sucessão de

retângulos adjacentes, tendo cada um

por base um intervalo de classe e por

área a frequência relativa (ou a

frequência absoluta).

Page 16: Organização tratamento de_dados
Page 17: Organização tratamento de_dados

A moda de um conjunto de dados estatísticos é o valor ou

categoria que ocorre com maior frequência. Representa-se por Mo.

Para um conjunto de dados pode existir mais do que uma moda ou

até pode nem existir.

Se o conjunto de dados tiver uma única moda, esse conjunto diz-se

unimodal.

Se o conjunto de dados tiver duas modas, diz-se bimodal; no caso

de ter mais que duas modas, diz-se multimodal.

Se o conjunto de dados não tiver moda, diz-se amodal.

Habitualmente, quando estamos perante um conjunto de dados estatísticos,

interessa-nos saber se estes têm tendência a concentrar-se em torno de algum

valor médio ou central. As medidas estatísticas que nos dão essa indicação são

a média, a moda e a mediana e designam-se por medidas de tendência

central.

Page 18: Organização tratamento de_dados

A média de um conjunto de dados numéricos é o quociente entre a

soma de todos os elementos da amostra e o número de elementos da

amostra. A média representa-se por ×

A mediana de um conjunto de dados ordenados é aquele que:

ocupa a posição central, no caso do número de elementos ser

ímpar, ou

a média dos dois valores centrais, no caso do número de

elementos ser par.

A mediana, normalmente, representa-se por × .

Note-se que a mediana divide uma distribuição. Assim,

pelo menos 50% dos dados são menores ou iguais à mediana e

pelo menos 50% dos dados são maiores ou iguais à mediana.

Page 19: Organização tratamento de_dados

Número ímpar de dados

Exemplo Mediram-se as alturas de 7 soldadinhos de chumbo e obtiveram-se os

resultados que, depois de ordenados são:

168 mm é o valor mediano deste conjunto de dados.

Como o número total de dados é impar há apenas um valor central.

Ao valor central, que neste exemplo é 168 chama-se mediana.

Page 20: Organização tratamento de_dados

Número par de dados

E se o número de soldadinhos de chumbo fosse 6 ?!

1692

170168~

x A mediana é 169 mm.

Repara na altura dos soldadinhos, já ordenada por ordem crescente:

Qual será agora a mediana?!

Quando o número de valores é par há dois valores centrais. Logo, a

mediana é igual à média aritmética dos dois valores centrais.

Page 21: Organização tratamento de_dados

Representa-se por:×

Passos que devemos seguir para determinar a mediana.

Verificar se o número de dados é par ou ímpar,

Para determinar a mediana devemos começar por ordenar os

valores, isto é, escrevê-los por ordem crescente ou decrescente.

Se o número de dados é ímpar, a mediana é o valor que

ocupa a posição central.

Se o número de dados é par, a mediana é igual à média

aritmética dos dois valores centrais.

Page 22: Organização tratamento de_dados

A média, moda e mediana não são por vezes suficientes para retirar

conclusões sobre uma dada amostra. Para além destas medidas

existem outras medidas importantes que nos permitem descrever

melhor a distribuição de um conjunto de dados.

São elas as medidas de localização.

Numa distribuição existem três quartis, o primeiro quartil (𝑄1 ), o

segundo quartil (𝑄2 ), que coincide com a mediana, e o terceiro

quartil (𝑄3).

Dada uma sequência ordenada (por ordem crescente ou

decrescente) dos dados em estudo, o segundo quartil (mediana) é

o valor que ocupa a posição intermédia.

Se o número de dados for par, o segundo quartil (mediana) é a

média aritmética dos dois valores centrais. Uma vez determinada a

mediana (𝑄2 ) a distribuição fica dividida a meio. Para calcularmos

o primeiro quartil (𝑄1) determinamos a mediana da primeira metade

da distribuição. Para calcularmos o terceiro quartil ( 𝑄3 )

determinamos a mediana da segunda metade da distribuição.

Page 23: Organização tratamento de_dados

1.º- Ordenar os dados, por ordem crescente e determinar a

mediana.

2.º- O 1.º quartil, Q1 , é a mediana dos dados que se encontram

à esquerda do valor da mediana.

3.º- O 3.º quartil, Q3 , é a mediana dos dados que ficam para a

direita do valor da mediana.

A mediana é o 2.º quartil, Q2.

Como determinar os quartis?

Page 24: Organização tratamento de_dados

Exemplo:

Determinar os quartis num número par de dados

15 16 16 17 18 19 20 21 22 25

Repara que os dados já se encontram ordenados mas,

na maioria dos casos não estão, portanto, deves começar por ordená-los.

2

18 1918,5

2x Q

18,5

1.º Quartil 3.º Quartil

1Q 3Q

A mediana e os quartis são medidas de localização que dividem o conjunto de

dados em 4 partes, cada uma delas contendo 25% dos dados.

As posições centrais ocupadas por 50% dos dados ficam entre o 1.º e o 3.º quartil.

Page 25: Organização tratamento de_dados

Exemplo: Determinar os quartis num número ímpar de dados

15 16 16 17 18 19 20 21 22 25 26

2x ou Q

Como neste caso a mediana pertence ao conjunto de dados, podemos determinar

o 1.º e 3.º quartis por dois processos diferentes.

1.º Processo: não considerar o valor da mediana.

15 16 16 17 18 20 21 22 25 26

1 16Q 3 22Q 2.º Processo: considerar o valor da mediana nas duas metades do conjunto de dados.

15 16 16 17 18 19 19 20 21 22 25 26

1 16,5Q 3 21,5Q

Page 26: Organização tratamento de_dados

Todas as distribuições têm dois extremos, o extremo máximo, que é a

maior das observações feitas, e o extremo mínimo, que é a menor das

observações feitas. A amplitude (A) é a diferença entre o máximo e o

mínimo de uma distribuição. A amplitude interquartis (AIQ) é a

diferença entre o valor do terceiro e do primeiro quartis.

O diagrama de extremos e quartis é uma forma esquemática de

representar os extremos, mediana e quartis de uma distribuição. Para

construir um diagrama de extremos e quartis é necessário conhecer

os seguintes valores: extremos (máximo e mínimo);

mediana;

1.º quartil (𝑄1 );

3.º quartil (𝑄3).

Page 27: Organização tratamento de_dados

O conjunto dos valores da amostra compreendidos entre o 1.º e o

3.ºquartis são representados por um retângulo (a largura do rectângulo

não dá qualquer informação). No retângulo marca-se o valor da

mediana com uma barra. De seguida, marcam-se duas linhas que

unem os meios dos lados do rectângulo com os extremos da amostra.

Page 28: Organização tratamento de_dados
Page 29: Organização tratamento de_dados
Page 30: Organização tratamento de_dados
Page 31: Organização tratamento de_dados
Page 32: Organização tratamento de_dados
Page 33: Organização tratamento de_dados
Page 34: Organização tratamento de_dados
Page 35: Organização tratamento de_dados

Já temos, assim, as 5 classes formadas. Podemos, então, fazer uma tabela

de frequências tendo em conta cada uma das classes

Page 36: Organização tratamento de_dados
Page 37: Organização tratamento de_dados