Estatistica-Aula06 Estatistica Descritiva

7
Prof. Anderson Paiva 03/10/2014 Aula 06 - Estatística Descritiva UNIVERSIDADE FEDERAL DE PERNAMBUCO CENTRO ACADÊMICO DO AGRESTE CURSO DE ENGENHARIA CIVIL ESTATÍSTICA Prof. Anderson Paiva Slide 2 Análise Bidimensional Em algumas análises de dados pode surgir a necessidade de se fazer um estudo sobre o comportamento conjunto de duas ou mais variáveis e para isso a distribuição conjunta de frequências é de grande utilidade. Vamos analisar em princípio o caso de 2 variáveis Prof. Anderson Paiva Slide 3 Análise Bidimensional É possível observar a ocorrência de três situações distintas que requerem técnicas estatísticas também distintas. As três situações distintas que podem ocorrer são: 2 variáveis são Qualitativas; 2 variáveis são Quantitativas; 1 variável Qualitativa e 1 variável Quantitativa. Prof. Anderson Paiva Slide 4 Associação de duas variáveis qualitativas Para ilustrar, analisaremos como se comportam as variáveis: região de procedência (X) e grau de instrução (Y ) cuja distribuição de frequências pode ser representada por uma tabela de dupla entrada abaixo:

description

Aula de estatistica descritiva

Transcript of Estatistica-Aula06 Estatistica Descritiva

Prof. Anderson Paiva

03/10/2014

Aula 06 - Estatística Descritiva

UNIVERSIDADE FEDERAL DE PERNAMBUCOCENTRO ACADÊMICO DO AGRESTE

CURSO DE ENGENHARIA CIVIL

ESTATÍSTICA

Prof. Anderson PaivaSlide 2

Análise Bidimensional

� Em algumas análises de dados pode surgir a necessidade de se fazer um estudo sobre o comportamento conjunto de duas ou mais

variáveis e para isso a distribuição conjunta de

frequências é de grande utilidade.

� Vamos analisar em princípio o caso de 2 variáveis

Prof. Anderson PaivaSlide 3

Análise Bidimensional

� É possível observar a ocorrência de três situações distintas que requerem técnicas estatísticas também distintas. As três situações distintas que podem ocorrer são:

� 2 variáveis são Qualitativas;

� 2 variáveis são Quantitativas;

� 1 variável Qualitativa e 1 variável Quantitativa.

Prof. Anderson PaivaSlide 4

Associação de duas variáveis qualitativas

� Para ilustrar, analisaremos como se comportam as variáveis: região de procedência (X) e grau de instrução (Y ) cuja distribuição de frequências pode ser representada por uma tabela de dupla entrada abaixo:

Prof. Anderson PaivaSlide 5

Associação de duas variáveis qualitativas

Observações:

1. Cada célula do corpo da tabela apresenta o número de ocorrência simultânea dos valores (x; y) de X e Y , constituindo a distribuição conjunta;

2. A coluna dos totais (frequências marginais de X) constitui a distribuição marginal de X;

Prof. Anderson PaivaSlide 6

Associação de duas variáveis qualitativas

Observações:

3. A linha dos totais (frequências marginais de Y ) constitui a distribuição marginal de Y ;

4. Idêntico ao caso de uma variável, as frequências absolutas podem ser expressas em termos de frequências relativas e/ou porcentagens, sendo que, estas medidas podem ser obtidas em relação ao total

geral, em relação ao total de cada linha ou em relação ao total de

cada coluna, de acordo com o objetivo de cada análise;

Prof. Anderson PaivaSlide 7

Associação de duas variáveis qualitativas

Questões:

a) O percentual de pessoas que possuem o 2 grau e que são do interior.

Resp: 19,4%;

b) Dentre os que possuem o 2 grau, qual é o percentual de pessoas provenientes do interior?

Resp: 38,9%;

Prof. Anderson PaivaSlide 8

Associação de duas variáveis qualitativas

Questões:

c) Sabendo-se que uma pessoa veio do interior, qual é a probabilidade, em termos percentuais, de ter o 2 grau?

Resp: 58,3%.

Prof. Anderson PaivaSlide 9

Associação de duas variáveis qualitativas

� Para responder estas e outras questões, torna-se útil a construção de tabelas de dupla entrada contendo as frequências relativas em termos de porcentagem, tendo como referência o total geral, os totais de cada linha ou coluna, de acordo com a questão a ser respondida.

� Vejamos como ficam estas tabelas:

X \ Y 1º Grau 2º Grau Superior Total marginal de X

Capital 11% 14% 6% 31%

Interior 8% 19% 6% 33%

Outra 14% 17% 6% 36%

Total marginal de Y 33% 50% 17% 100%

Prof. Anderson PaivaSlide 10

Associação de duas variáveis qualitativas

Prof. Anderson PaivaSlide 11

Associação de duas variáveis qualitativas

X \ Y 1º Grau 2º Grau Superior Total marginal de X

Capital 36% 45% 18% 100%

Interior 25% 58% 17% 100%

Outra 38% 46% 15% 100%

Total marginal de Y 33% 50% 17% 100%

X \ Y 1º Grau 2º Grau Superior Total marginal de X

Capital 33% 28% 33% 31%

Interior 25% 39% 33% 33%

Outra 42% 33% 33% 36%

Total marginal de Y 100% 100% 100% 100%

Prof. Anderson PaivaSlide 12

Associação de duas variáveis qualitativas

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

1º Grau 2º Grau Superior Total

Outra

Interior

Capital

Prof. Anderson PaivaSlide 13

Dependência de Variáveis

� Ocorre com bastante frequência em análises de distribuição conjunta o questionamento sobre a existência de dependência ou não entre as variáveis, além da necessidade de se saber o grau de

dependência entre elas, caso exista.

� De modo geral, o grau de dependência entre duas variáveis é quantificado pelos coeficientes de associação ou correlação. Usualmente, esses coeficientes variam de zero até um, sendo que, às vezes, variam de -1 a 1.

� Desta maneira, valores próximos de zero dão indícios de independência entre as variáveis e, valores próximos de 1 (ou -1) indicam um alto grau de dependência positiva (ou negativa).

Prof. Anderson PaivaSlide 14

Dependência de Variáveis

� Existe ou não associação entre sexo e carreira, escolhido por 200 alunos?

X \ Y Masculino Feminino Total

Economia 85 35 120

Administração 55 25 80

Total 140 60 200

X \ Y Masculino Feminino Total

Economia 61% 58% 60%

Administração 39% 42% 40%

Total 100% 100% 100%

• Não há dependência, pois independente do sexo mantém-se a mesma proporção.

Prof. Anderson PaivaSlide 15

Dependência de Variáveis

� Existe ou não associação entre sexo e carreira, escolhido por 200 alunos?

• Há disparidade entre as proporções. Desta forma, sexo e carreira são variáveis associadas (dependentes).

X \ Y Masculino Feminino Total

Física 100 20 120

Ciências Sociais 40 40 80

Total 140 60 200

X \ Y Masculino Feminino Total

Física 71% 33% 60%

Ciências Sociais 29% 67% 40%

Total 100% 100% 100%

Prof. Anderson PaivaSlide 16

Associação de duas variáveis qualitativas

Medida de Associação entre duas Variáveis Qualitativas� Coeficiente de contingência (C)

� oij é a frequência absoluta observada na i-ésima casela;

� eij é a frequência absoluta esperada na i-ésima casela, caso houvesse independência entre as variáveis, ou seja, quando a proporção em cada categoria de uma variável (fixada o total em linha ou coluna) é igual ou próxima a proporção marginal.

� n é o número máximo de observações

� No entanto, o valor máximo de C depende de r e s, que são o número de categorias das variáveis X e Y , respectivamente.

� Para evitar esse inconveniente, costuma-se definir um outro coeficiente, que varia entre 0 e 1, dado por

Qui-quadrado de Pearson

Prof. Anderson PaivaSlide 17

Associação de duas variáveis qualitativas

Exercício:

� Verifique se há associação entre as variáveis região de procedência e grau de instrução, utilizando uma medida de associação.

X \ Y 1º Grau 2º Grau Superior Total marginal de X

Capital 36% 45% 18% 100%

Interior 25% 58% 17% 100%

Outra 38% 46% 15% 100%

Total marginal de Y 33% 50% 17% 100%

Prof. Anderson PaivaSlide 18

Associação de duas variáveis qualitativas

Exercício:

� Verifique se há associação entre as variáveis região de procedência e grau de instrução, utilizando uma medida de associação.

X \ Y 1º Grau 2º Grau Superior Total marginal de X

Capital 36% 45% 18% 100%

Interior 25% 58% 17% 100%

Outra 38% 46% 15% 100%

Total marginal de Y 33% 50% 17% 100%

X \ Y 1º Grau 2º Grau Superior Total marginal de X

Capital 33% 50% 17% 100%

Interior 33% 50% 17% 100%

Outra 33% 50% 17% 100%

Total marginal de Y 33% 50% 17% 100%

Valores observados

Valores esperados

Prof. Anderson PaivaSlide 19

Associação de duas variáveis qualitativas

Exercício:

� Verifique se há associação entre as variáveis região de procedência e grau de instrução, utilizando uma medida de associação.

X \ Y 1º Grau 2º Grau Superior Total marginal de X

Capital 4 5 2 11

Interior 3 7 2 12

Outra 5 6 2 13

Total marginal de Y 12 18 6 36

Valores observados

Valores esperados

X \ Y 1º Grau 2º Grau Superior Total marginal de X

Capital 3,63 5,50 1,87 11

Interior 3,96 6,00 2,04 12

Outra 4,29 6,50 2,21 13

Total marginal de Y 12 18 6 36

Prof. Anderson PaivaSlide 20

Associação de duas variáveis qualitativas

Exercício:

� Verifique se há associação entre as variáveis região de procedência e grau de instrução, utilizando uma medida de associação.

C = 0,1350

T = 0,0681

0,6683

N = 36

As variáveis são basicamente independentes, pois o valor de coeficiente é próximo de 0.

Prof. Anderson PaivaSlide 21

Associação de duas variáveis quantitativas

Medida de Associação entre duas Variáveis Quantitativas

� Neste caso, pode-se aplicar um procedimento análogo ao realizado para a análise de variáveis qualitativas.

� E, por se tratar de variáveis quantitativas, antes de construir uma tabela de dupla entrada, os dados marginais podem ser agrupados em intervalos de classe, assim como no caso de uma única variável.

� Em análises de associação entre variáveis quantitativas, são possíveis procedimentos analíticos mais refinados.

Prof. Anderson PaivaSlide 22

Associação de duas variáveis quantitativas

Medida de Associação entre duas Variáveis Quantitativas

� Diagrama de Dispersão

� O diagrama (ou gráfico) de dispersão nada mais é que a representação de pares dos valores observados (x; y) num sistema cartesiano.

Prof. Anderson PaivaSlide 23

Associação de duas variáveis quantitativas

Medida de Associação entre duas Variáveis Quantitativas� Diagrama de Dispersão

Prof. Anderson PaivaSlide 24

Associação de duas variáveis quantitativas

Medida de Associação entre duas Variáveis Quantitativas� Coeficiente de Correlação

� Dados n pares de valores (x1; y1); (x2; y2); ...; (xn; yn), chama-se coeficiente de correlação entre as variáveis X e Y o valor obtido por

ou seja, a média dos produtos dos valores reduzidos (padronizados) das variáveis.

� Enquanto o coeficiente T para variáveis qualitativas só assume valores ente 0 e 1, o coeficiente de correlação pode assumir qualquer valor entre -1 e 1.

� Fórmula alternativa

Prof. Anderson PaivaSlide 25

Associação de duas variáveis quantitativas

Medida de Associação entre duas Variáveis Quantitativas� Coeficiente de Correlação

� O numerador da expressão acima, que mede o total de concentração dos pontos pelos quatro quadrantes, dá origem à covariância que é uma medida bastante usada.

� Covariância

� Assim, podemos dizer que:

Prof. Anderson PaivaSlide 26

Associação de duas variáveis quantitativas

Medida de Associação entre duas Variáveis Quantitativas� Exercício: Numa amostra de cinco operários de uma dada empresa foram observadas duas variáveis. X: anos de experiência num dado cargo e Y : tempo, em minutos, gasto na execução de uma tarefa relacionada com esse cargo. As observações são apresentadas na tabela abaixo.

Você diria que a variável X pode ser usada para explicar a variação de Y ?

Prof. Anderson PaivaSlide 27

Exercícios1. Um pesquisador coleta os dados dispostos na tabela e suspeita que há uma

relação significante entre o tempo de propaganda na TV (em minutos por mês) e as vendas mensais de um produto (em centenas de dólares). Os dados amostrais confirmam a suspeita do pesquisador? Justifique sua resposta com base em uma medida de associação linear.

2. Um levantamento obtido, junto aos funcionários de um pequeno escritório, busca relacionar as variáveis: anos de estudo (X) e número de diferentes empregos nos últimos cinco anos (Y ).

a) Construa o diagrama de dispersão.

b) Calcule o coeficiente de correlação e interprete o resultado encontrado.