Mestrado Profissional em Gestão Ambiental
description
Transcript of Mestrado Profissional em Gestão Ambiental
Simulações Gráficas e Numéricas
Interativas Aplicadas ao Meio Ambiente
Marco Domingues
Mestrado Profissional em Gestão Ambiental
Conceitos teóricosPlanejamento de uma pesquisa
• Etapas usuais de uma pesquisa empírica
Metodologia da área de
estudo
Metodologia estatística
Definição do problema e objetivos
Planejamento da pesquisa
Execução da pesquisa
Dados (coletados/simulados)
Análise de dados
Resultados/Conclusões
Conceitos teóricosPlanejamento de uma pesquisa
• Questão de projeto da pesquisa– Observacional (levantamento)
• Censo demográfico, eleitorais, mercado, inspeção de qualidade de produtos, etc.
– Experimental• Eficácia de produtos, processos
químicos, métodos de produção, etc.
Conceitos teóricosPlanejamento de uma pesquisa
• Pesquisa de levantamento– Delimitação da população
• Censo ou amostragem
– Escolha das variáveis estudadas• Índice de desmatamento, inflação, taxa
de câmbio, selic, satisfação do cliente, etc.
– Instrumentos para mensuração de variáveis• Sensores (grandezas físicas) e
questionários
• Pesquisa de levantamento– Sensores
– Questionários• http://goo.gl/LvAe3s• Criando nosso próprio formulário de
pesquisa on-line
Conceitos teóricosPlanejamento de uma pesquisa
Conceitos teóricosPlanejamento de uma pesquisa
• Pesquisa de levantamento– Sensores
– Questionários• http://goo.gl/LvAe3s e• Criando nosso próprio formulário de
pesquisa on-line - http://goo.gl/eSALsl
Conceitos teóricosPlanejamento de uma pesquisa
• Tipos de amostragem
Inferência
Conceitos teóricosPlanejamento de uma pesquisa
• Tipos de amostragem
Amostragem não probabilística
• Amostra por conveniência• O pesquisador seleciona membros da
população mais acessíveis.
• Amostra por julgamento• O pesquisador usa o seu julgamento para
selecionar os membros da população que são fontes de informação precisa.
• Amostra por quota• O pesquisador entrevista um número
predefinido de pessoas em cada uma das várias categorias.
Amostragem probabilística
• Amostra aleatória simples– Cada membro da população tem uma
chance conhecida e igual de ser escolhido.
• Amostra estratificada– A população é dividida em grupos
(estratos) mutuamente excludentes (como grupos de idade) e amostras aleatórias são sorteadas para cada grupo.
Amostragem probabilística
• Amostra de agrupamento (área)– A população é dividida em grupos
mutuamente excludentes (como quarteirões) e o pesquisador sorteia uma amostra de grupos para ser entrevistada.
Amostragem probabilística
• Amostra sistemática– Calcula-se o intervalo de seleção –
I=N/n (despreza-se as decimais);– Sorteia-se o primeiro elemento do
conjunto {1,2,...,I};– Completa-se a amostra, extraindo-se
um elemento a cada I elementos
Amostragem probabilística
• Exemplos de amostras com o auxílio do R (exemplo com o Excel)– Instale o pacote Xlconnect
• Siga os passos do menu Package do R
– library(XLConnect)– setwd=(“c:/temp”)– Link para o arquivo de dados – dados.xlsx
(http://goo.gl/vu5Khm)– dados <-
readWorksheet(loadWorkbook(“dados.xlsx"),sheet=1)– dados
Amostragem probabilística
• Amostragem aleatória– sample (1:32,5)– dados$Nomes[sample (1:32,5)]
• Amostragem sistemática– Considere N=32 e n=5, então I=6– seq (1,32,by= 6) ou– dados$Nomes[seq (1,32,by=6)]
Amostragem probabilística
• Amostragem Estratificada (Idade)– (Até 20 anos)– X = dados$Nomes [(dados$Idade < 20)]– sample (X,4) – (Entre 20 e 30 anos)– X = dados$Nomes [(dados$Idade >=
20) & (dados$Idade < 30)]• Jogando moedas com reposição
– sample (c(“H”,”T”),10,replace=T)
Amostragem probabilística
• Exercício– Dado que foram criados 3 estratos de
pessoas separadas por idade (menores que 20 anos, entre 20 e 30 anos e maiores de 30 anos), faça:• A) selecione de forma aleatória simples
2 pessoas de cada estrato.
– Selecione os moradores de Iputinga.• Jogando moedas com reposição
– sample (c(“H”,”T”),10,replace=T)
Amostragem probabilística
• Tamanho da amostra– Depende da variabilidade da população
em termos da variável de estudo• Ex: quanto de sangue humano é
necessário para determinação da tipagem?
• Variabilidade da proporção
Planejamento de experimentos (cont.)
• Estudar os efeitos que alterações nas Variáveis independentes (fatores) causam nas variáveis dependentes (variáveis resposta)– Ex: Como o estresse afeta a freqüência
cardíaca em humanos". • A variável independente será o estresse
e a variável dependente será a freqüência cardíaca
Planejamento de experimentos (cont.)
• Estudar os efeitos que alterações nas Variáveis independentes (fatores) causam nas variáveis dependentes (variáveis resposta)– Ex:“Efeito da educação sobre a riqueza"
para medir o efeito do nível de escolaridade sobre a renda anual, a variável independente é o nível de escolaridade e a variável dependente é a renda anual.
Planejamento de experimentos (cont.)
• Estratégias no planejamento de experimentos (simplificada)– Delimitar o problema;– Identificar os fatores que podem afetar
o problema em estudo;– Identificar, para cada fator, o intervalo
de variação e os níveis que serão estudados
– Escolher os fatores e resposta adequada
– Planejar a análise dos dados
Planejamento de experimentos (cont.)
• Estratégias no planejamento de experimentos (simplificada)
Planejamento de experimentos (cont.)
• Estratégias no planejamento de experimentos (simplificada)– Uso de blocos
• Lotes, conjunto de indívíduos, etc.
– Definição de Fatores• Controláveis e não controláveis• Ex. Produção de TV´s
– Umidade, tempo de operação, inclinação;– Níveis de tensão, faltas, etc.
– Tratamentos• Seleção de fatores
Planejamento de experimentos (cont.)
• Estratégias no planejamento de experimentos (simplificada)– Replicações
• Avaliar o erro experimental (causado por fatores não controláveis ou que não foram incluídos no estudo)
– Aleatorização
Planejamento de experimentos (cont.)
• Estratégias no planejamento de experimentos
– É importantíssimo que o aluno encontre o escopo do problema a ser tratado no mestrado.
Análise exploratória dos dados
• Objetivos– Trabalhar com dados quantitativos
contínuos:– Especificar intervalos de classe; – Construir histogramas;– Construir ramo-e-folhas.– Construir outros tipos de gráficos
Exemplo 1: Tipo sangüíneo, peso (em Kg) e altura (em cm).
A 62 164AB 83 163AB 62 176AB 64 177AB 75 166
. . .
. . .
. . .O 70 182O 72 170AB 94 189AB 75 175AB 80 154B 78 172B 71 171B 76 166B 82 143B 78 169
Forma dos dados na planilhacom 100 linhas e três colunas.
A base de dados que será trabalhada hoje contém a informaçao de 100 indivíduossobre tipo sangüíneo, peso (kg)e altura (cm).
arquivo: dados1.txt
Fonte: dados fictícios.
Análise exploratória dos dados
Os dados deste exemplo podem ser obtidos como:
dados=read.table(“http://goo.gl/qofEPw”)
• Observe que aqui, não usamos o argumento header=T, pois os nomes das variáveis não estão no arquivo de dados.
• Mas, se preferirmos, podemos definir os nomes das variáveis em dados.
names(dados)<-c(“tsangue”,”peso”,”altura”)
Análise exploratória dos dados• VARIÁVEIS QUALITATIVAS
– GRÁFICO DE SETORES
pie(table(dados[,1]),main=”Distribuição de freqüências do tipo sangüíneo", col=c("blue",”blue4",”green",”green4"))
A
AB
BO
Distribuição de freqüências do tipo sangüíneo
VARIÁVEIS QUALITATIVAS: GRÁFICO DE BARRAS
barplot(table(dados$tsangue),col="red",main="Distribuição de freqüências de tipo sangüíneo")
VARIÁVEIS QUALITATIVAS: GRÁFICO DE BARRAS
barplot(table(dados$tsangue),col="red",main="Distribuição de freqüências de tipo sangüíneo”,ylim=c(0,40))
VARIÁVEIS QUANTITATIVAS (1)
• Veremos agora como construir a distribuição de freqüências de uma variável quantitativa.
• Para isso usaremos os dados do exemplo referentes ao peso e à altura dos indivíduos.
VARIÁVEIS QUANTITATIVAS (4)
• Vimos que no caso de dados contínuos, há a necessidade de se definir primeiro intervalos de classe para depois, construir a tabela de freqüências e, então, usá-la para construir o histograma.
• O R possui uma função que pode gerar esta distribuição de forma automática.
VARIÁVEIS QUANTITATIVAS (5)
• Esta função também tem a flexibilidade de nos permitir fixar os intervalos ou sugerir o número de intervalos.
• Esta mesma função também gera o histograma dos dados e seu nome no R é hist.
Uso da função hist (2)
Para começar peça a função hist apenas com o argumento obrigatório que é um vetor contendo os valores para os quaisqueremos construir o histograma, isto é, peça hist(dados$peso).
Exemplo: argumentos breaks e freq
hist(dados$peso,breaks=c(50,60,70,80,90,100),right=F,freq=F)
Exemplo (continuação)
Para melhorar o gráfico podemos definir o título e os rótulos para os eixos ox e oy.
hist(dados$peso,breaks=c(50,60,70,80,90,100),freq=F,right=F,main=“Histograma dos pesos”,xlab=“kg”,ylab=“dens.freq.rel”,density=6,col=“blue”)
Ramo e folhas de peso
• Para estudarmos outras possibilidades de intervalos para o histograma de pesos, será útil construir um ramo-e-folhas dos pesos: stem(dados$peso).
The decimal point is 1 digit(s) to the right of the | 5 | 79 6 | 12223344 6 | 56678888899 7 | 00000011111222222233333444 7 | 5555555666777788888889999 8 | 000111111111122223334 8 | 56667 9 | 4 9 | 6
Construindo 9 intervalos de classe
A amplitude amostral é aproximadamente 96-57=39
Observe que ficaremos com uma amplitude total igual à 9x4,5=40,5, que equivale quase 2 a mais. Podemos então repartir o excesso igualmente para cima e para baixo, começando com 56 e terminando em 97:
hist(dados$peso,breaks=c(56,60.5,65,69.5,74,78.5,83,87.5,92,96.5),col=“palegreen”,main=“Histograma dos pesos”,xlab=“kg”,ylab=“dens.freq.rel.”,freq=F)
Para 9 intervalos podemos calcular 39/9 que é 4.333..., e arredondando para 4,5 temos as amplitudes das classes.
Numa distribuiçãode freqüências, não deve
haver classes intermediárias
vazias!
Portanto, essa distribuição deve ser refeita.
Possibilidades: sugerir 8 intervalos ou juntar as duas classes finais, passando a ter classes de amplitudes desiguais.
Construa o histograma usando 8 intervalos de classe.
Sugestão:breaks=c(56,60.5,65,69.5,74,78.5,83,87.5,96.5)
Argumentos da função hist
Argumentos:x (obrigatório): vetor de valores para os quais deseja-seconstruir o histograma.
breaks (opcional): um entre * vetor fornecendo os limites dos intervalos de classe, * número fornecendo o número de intervalos (é apenas uma sugestão).
right (opcional): lógica; se `right=T‘(default), as classes são fechadas à direita e abertas à esquerda. Se ‘ right=F´, as classes são fechadas à esquerda e abertas à direita.
Argumentos da função hist
• freq (opcional): lógica; se `freq=T', o histograma é uma representação da distribuição na escala das freqüências absolutas, se `freq=F', é uma representação na escala da densidade de freqüência relativa, que é definida como a razão entre freqüência relativa e a amplitude da classe.
• Observação: O Default da versão atual do R é usar freq=T, quando as classes têm amplitudes iguais e freq=F, quando as classes têm amplitudes desiguais.
O que mudou?
freq=F freq=T
Exemplo (continuação)
Para melhorar o gráfico podemos definir o título e os rótulos para os eixos ox e oy.
hist(dados$peso,breaks=c(50,60,70,80,90,100),freq=F,right=F,main=“Histograma dos pesos”,xlab=“kg”,ylab=“dens.freq.rel”,density=6,col=“blue”)
Argumento density
Inserindo o argumento density=4, obtemos
Mudando a escala dos eixos
Comandos xlim e ylim. Para visualizar o eixo 0x de 40 até
110kg, inclua o argumento xlim=c(40,110).
Para visualizar o eixo 0y de 0 até 0.06, quando freq=F, inclua o argumento ylim=c(0,0.06).
ATIVIDADE
1) Construa agora o histograma das alturas com 7 intervalos de classe.
2) calcule a média das alturas nesta amostra e localize-a no histograma obtido no item 2.
Comando par(mfrow=c(l,n))
• É possível construir vários histogramas numa única janela de gráfico.
• Por exemplo, se quisermos apresentar o histograma das alturas e o histograma dos pesos numa mesma janela, antes de pedir os histogramas, devemos informar que a janela conterá dois gráficos.
• Podemos configurar a janela com dois gráficos numa única linha ou dois gráficos numa única coluna.
Comando par(mfrow=c(l,n))
• par(mfrow=c(1,2)) # uma linha duas colunas ou• par(mfrow=c(2,1)) # duas linhas uma coluna.
• Depois é só pedir os respectivos histogramas.
par(mfrow=c(1,2)) hist(dados$peso, main="Histograma dos pesos",xlab="Kg",freq=F,ylab="densidade de freq. rel.",ylim=c(0,0.07),xlim=c(50,110))
hist(dados$altura, main="Histograma das alturas",xlab="cm",freq=F,ylab="densidade de freq. rel.",ylim=c(0,0.06),xlim=c(130,200))
Para fechar uma janela de gráfico, usa-se o comando: dev.off()
Para abrir uma NOVA janela de gráfico, usa-se o comando: win.graph()
Janelas de gráfico simultâneas:
Densidades
• Densidade da distribuição normal– x = seq(-4,4,0.1)– plot (x,dnorm(x), type=“l”)
• Ou ainda– curve (dnorm(x), from=-4, to = 4)
• Gráfico com a distribuição binomial – (pin diagram)– X=0:50– plot (x,dbinom(x,size=50,prob=.33),type="h“))
Estatísticas descritivas
• x=rnomr(50)• mean(x) # média• sd(x) # desvio padrão• var(x) # variância• median(x) # mediana• quantile(x)
Estatísticas descritivas
• library (ISwr) # carrega pacote• data (juul) # carrega dados hospitalares• attach(jull) # disponibiliza os dados• mean(igf1) # gera um erro• mean(igf1, na.rm=T)• length(ifg1) # conta todos os valores• opção
– sum(!is.na(igf1)) # TRUE = 1 e FALSE = 0
Estatísticas descritivas
• summary (igf1)• n=length (x)• plot(sort(x),(1:n)/n,type="s",ylim=c(0,1))• Onde:
– “s” = step function– (1:n)/n divide o intervalo 1:n em n valores
Novos assuntos teóricos
• Outras distribuições• Aproximação da normal pela
binomial• Intervalo de confiança• Testes de hipótese
– Unicaldal– Bicaldal
• Testes de hipótese de duas amostras– Testes de hipótese de amostras
emparelhadas
Testes para uma amostra• t-teste – uma amostra
– (n<30 e σ desconhecido)– suposições
• dados vem de uma distribuição normal• X~N(µ,σ2)
– Deseja-se testar a hipótese nula• h0: µ = µ0
– Pode-se estimar os parâmetros µ e σ pela média empirica e pelo desvio padrão amostral s.
x
Testes para uma amostra
• t-teste – uma amostra
• onde SEM = standard error of the mean
• Se o experimento for repetido (x) vezes e forem tiradas (x) médias, então essas médias seguirão a distribuição que gerou a amostra
nSEM
n
samostralSEM
Testes para uma amostra
• Para dados normalmente distribuídos há 95% de chance de µ ± 2σ
• Espera-se que se µ0 for a verdadeira média, então deveria estar a 2 SEM dela.
x
Range Proporção
µ ± 1σ 68,3%
µ ± 2σ 95,5%
µ ± 2σ 99,7%
Testes para uma amostra• formalmente
– ou
• para ver se t está no limite da região de aceitação, cujo nível de significância é 5%
• Se t está fora da região de aceitação, então devemos rejeitar a hipótese nula para aquele nível de significância.
• A região de aceitação está próximo de -2 e 2
SEM
xt 0
nsx
t 0
Testes para uma amostra• A região de aceitação está próximo de
-2 e 2
Testes para uma amostra• Pode-se também calcular o p-value
que é a probabilidade de se obter um valor tão grande ou maior que o valor t observado.
• Não se deve rejeitar h0 se o p-value está próximo do nível de significância α
• Rejeita-se h0 se o p-value é muito pequeno em relação ao nível de significância α
Testes para uma amostra• daily.intake =
c(5260,5470,5640,6180,6390,6515,6805,7515,7515,8230,8770)
• # energia ingerida em kJ por 11 mulheres• mean(daily.intake)• sd(daily.intake)• quantile(daily.intake)• Os dados amostrais (com média = 6753,639 kJ)
constituem evidência suficiente para rejeitar a afirmação de que as mulheres ingerem 7725kJ em média?
Testes para uma amostra• Supondo que os dados vieram de
uma distribuição normal, o objetivo é testar se essa distribuição pode ter média
µ = 7725
• t.test (daily.intake, mu=7725)
Testes para uma amostra• t.test (daily.intake, mu=7725)
One Sample t-test
data: daily.intake t = -2.8208, df = 10, p-value = 0.01814alternative hypothesis: true mean is not equal to
7725 95 percent confidence interval: 5986.348 7520.925 # sample estimates:mean of x 6753.636
Testes t para dados emparelhados• Usado para duas medidas no
mesmo experimento• Trata as diferenças entre as
medidas, reduzindo o problema para teste t – uma amostra
• Deseja-se investigar o grau de ingestão de calorias por mulheres antes e depois da menstruação
Testes t para dados emparelhados• data(intake)• attach(intake)• intake• post – pre # diferença antes e depois
h0: (post - pre) = 0h1: (post - pre) ≠ 0
• Todos os valores na amostra foram negativos, dando indícios que as mulheres têm baixa ingestão de calorias depois da menstruação.
Conselhos úteis
• Ler os manuais no site do projeto CRAN • Usar a página wiki do projeto CRAN
– http://wiki.r-project.org/ • Usar http://www.rseek.org/ ao invés do google• Aprender com os errros• ?lm dá uma ajuda sobre a função lm. Ler arquivos
de help pode ajudar bastante• Assine a lista do R
– (https://stat.ethz.ch/mailman/listinfo/r-help)• Crie seu script personalizado de bibliotecas
Simulações Gráficas e Numéricas
Interativas Aplicadas ao Meio Ambiente
Marco Domingues
Mestrado Profissional em Gestão Ambiental