Post on 04-Aug-2015
UNIVERSIDADE ESTADUAL PAULISTA "JÚLIO DE MESQUITA FILHO"
Campus de Presidente Prudente
Principais Distribuições
de Probabilidade e Noções Básicas de SAS
Relatório das atividades desenvolvidas no período de 26/04/2008 a 27/02/2009 da Bolsa de Apoio Acadêmico e Extensão I (PAE)
. Bolsista: Fabiano José dos Santos Orientadora: Vilma Mayumi Tachibana
Presidente Prudente 2009
2
Índice
1 - Introdução....................................................................................................... 4 2 - O que faz um Estatístico................................................................................ 5 3 - Variáveis Aleatórias Discretas......................................................................
6
3.1- Introdução......................................................................................................
6
3.2 - Funções discretas de probabilidade.............................................................. 6 3.3 - Esperança Matemática (Média)..................................................................... 6
3.4 -Variância......................................................................................................... 7
3.5 - Desvio Padrão............................................................................................... 7
4 - Principais Modelos Discretos........................................................................
9
4.1 - Modelo Uniforme Discreto........................................................................... 9 4.2 - Distribuição de Bernoulli.............................................................................. 9 4.3 - Modelo Binomial.......................................................................................... 10
5 - Outros Modelos Discretos..............................................................................
12
5.1 - Modelos Geométricos................................................................................... 12 5.2 - Modelo de Poisson........................................................................................ 13 5.3 - Modelo Hipergeométrica.............................................................................. 13
6 - Variáveis Aleatórias Contínuas....................................................................
15
6.1- Introdução...................................................................................................... 15 6.2 - Esperança e Variância.................................................................................. 16 6.3 - Distribuição Continua Uniforme................................................................... 16 6.4 - Distribuição Exponencial.............................................................................. 17 6.5 - Distribuição Normal...................................................................................... 18 6.6 - Função Densidade de Probabilidade da Distribuição Normal...................... 18 7 - Outros Modelos Contínuos...........................................................................
22
7.1 - Distribuição gama......................................................................................... 22 7.2- Distribuição Qui-Quadrado………………………………………………… 23 7.3 - Distribuição t-Student…………………………………………………….. 25
8 - Variáveis Aleatórias Multidimensionais......................................................
27
8.1- Distribuições Marginais................................................................................. 27
3
9 - Medidas de Posição e Dispersão...................................................................
28
9.1 - Média............................................................................................................ 28 9.2 - Mediana……………………………………………………………………. 28 9.3 - Moda………………………………………………………………………. 28 9.4 - Variância....................................................................................................... 28 9.5 - Desvio Padrão ………………………………………………...................... 29 9.6 - Covariância………………………………………………………………... 29 9.7 - Coeficiente de Correlação…………………………………………………. 29 9.8 - Coeficiente de Variação …………………………………………............... 29 9.9 - Amplitude ………………………………………………………………… 29
10 - SAS Programação…………………………………………………………
31
10.1 - Introdução……………………………………………………………....... 31 10.2 - Conceitos Basicos…………………………………………………........... 31 10.3 - Estrutura do arquivo SAS........................................................................... 32 10.4 - Nomenclatura para arquivos de variáveis................................................... 32 10.5 - Estrutura PROC STEP................................................................................ 33 10.6 - Procedimento PRINT.................................................................................. 34 10.7 - Síntese dos Comandos................................................................................ 34 10.8 - Comando LIBNAME.................................................................................. 35
11 - Alguns comandos básicos de programação do SAS..................................
36
11.1 - Comando IF-THEN/ELSE.......................................................................... 37 11.2 - Comandos DO/END................................................................................... 39 11.3 - Comando INPUT........................................................................................ 40 11.4 - Input Colunado........................................................................................... 40 11.5 - Input Formatado.......................................................................................... 40 11.6 - Controles Especiais do Comando INPUT................................................... 41 11.7 - Detalhes do Comando INPUT................................................................... 45 12 - Referências....................................................................................................
43
4
1 - Introdução
O cidadão comum pensa que a estatística se resume apenas a apresentar tabelas de nú-
meros em colunas esportivas e ou econômicas de jornais e revistas, ilustradas com gráficos,
pilhas de moedas, etc. ou quando muito associam a estatística á previsão de resultados eleito-
rais. Mas estatístico de hoje não se limita a compilar tabela de dados e os ilustrar graficamen-
te. Pois á partir de 1925, com os trabalhos de Fisher, a estatística iniciou-se como método ci-
entífico, então, o trabalho do estatístico passou a de ajudar a planejar experimentos, interpre-
tar e analisar os dados experimentares e apresentar os resultados de maneira a facilitar a to-
mada de decisões razoáveis. Deste modo, podemos então definir a estatística como sendo a
ciência que se preocupa da coleta, organização, apresentação, análise e interpretação dos da-
dos. Didaticamente podemos dividir a estatística em duas partes a estatística descritiva e a
inferência estatística. A estatística descritiva se refere à maneira de apresentar um conjunto de
dados em tabelas e gráficos, e ao modo de resumir informações contidas nesses dados de me-
didas. Já a inferência estatística baseia-se na teoria de probabilidade para estabelecer conclu-
sões sobre todo um grupo (chamado população), quando se observou apenas uma parte (a-
mostra) desta população.
É necessário ter em mente que a estatística é uma ferramenta para o pesquisador, nas
respostas dos “por quês” de seus problemas. E que para ela ser bem usada é necessário conhe-
cer seus fundamentos e princípios, e acima de tudo que o pesquisador desenvolva um espírito
critico e jamais deixe de pensar. Pois “em ciência é fácil mentir usando a estatística, o difícil é
falar a verdade sem usar a estatística”.
Este relatório apresenta alguns resultados de estudo de estatística descritiva, probabili-
dade e comandos básicos de SAS, tendo como base os livros de Bussab (2005), Magalhães e
Lima (2002) e a apostila do curso Computação Aplicada à Estatística elaborada por Tachibana
(2007). Adotou-se como referência esses livros por serem bastante didáticos e por apresenta-
rem questões atuais e interessantes. Esses autores não serão referenciados ao longo do relató-
rio, mas todas as teorias e exercícios apresentados são retirados de seus livros. Esse relatório
tem presente apenas uma síntese, desses estudos, com apresentação de resoluções de alguns
exercícios propostos na literatura citada.
5
2 - O que faz um Estatístico
A atividade básica de Estatístico é coletar, analisa e interpretar numericamente as
informações. É assim que ele trabalha em uma pesquisa de opinião pública ou de análise de
mercado, planejando, dirigindo e efetuando levantamento estatístico de controle de qualida-
de e analisando dados obtidos em recenseamentos. O campo de atuação vai muito além dis-
so: nas empresas (pública ou privada) podem trabalhar como dirigentes (diretores, gerentes,
...), em áreas de planejamento financeiro e de produção, aplicando métodos estatísticos no
controle de qualidade de produtos. Na indústria farmacêutica a Estatística é aplicada para
analisar e testar novos produtos. Na Medicina, a Estatística vem sendo utilizada nos estudos
de epidemias, na análise de novos métodos clínicos e cirúrgicos, no registro e coleta de da-
dos sobre a saúde pública. Na agroindústria, a busca de técnicas que possibilitem aumento
na produção e diminuição nos custos, melhoria genética, entre outros, tem exigido a partici-
pação efetiva de Estatísticos, para orientar, planejar e desenvolver e implementar novas tec-
nologias. Na indústria de manufatura propriamente dita, o Estatístico desempenha papel
fundamental: otimizando processos, buscando continuamente a melhoria da qualidade de
serviços e produtos. Nas Ciências Atuariais, desenvolvendo e gerenciando planos de saúde,
fundos de pensão ou previdência privada. Resumindo: O Estatístico é um profissional que
produz informação especializada para um mundo cada vez mais especializado. É graças a
isto e à sua atuação diversa que o Estatístico está conquistando o mercado de trabalho num
crescimento constante e contínuo.
6
3 - Variáveis Aleatórias Discretas
3.1 - Introdução
Neste capítulo, incorpora-se o conceito de probabilidade no estudo de variáveis associa-
das a características em uma população. Na formalização feita com a introdução de probabili-
dades, serão tratadas apenas variáveis quantitativas. Haverá distinção entre o caso discreto e
contínuo, pois a atribuição de probabilidades será diferente em cada situação. As variáveis
qualitativas podem ser, em algumas ocasiões e com devido cuidado, tratadas como discretas
na atribuição de probabilidades.
3.2 - Funções discretas de probabilidade
A função que atribui a cada valor da variável aleatória sua probabilidade é denominada
de função discreta de probabilidade ou simplesmente função de probabilidade. A notação a
ser utilizada é:
( ) ( ) , 1,2,...i i ip X x p x p i= = = =
Uma função de probabilidade satisfaz 0 1ip≤ ≤ e 1.ii
p =∑
Note que, na maioria dos casos, X terá apenas um número finito de valores possíveis e,
assim, a verificação de que a soma de probabilidade é igual a 1 será feita por uma soma finita.
As variáveis aleatórias são completamente caracterizadas pela sua função de probabilidade e
uma parte importante da Estatística é justamente obter, pra uma dada variável de interesse, a
função de probabilidade que melhor represente seu comportamento na população.
3.3 - Esperança Matemática (Média)
Assim como a média de uma distribuição de freqüências é definida como soma de
produtos dos diversos valores observados pelas respectivas freqüências relativas, é natural
definir a média de uma variável aleatória (v.a.), ou de sua distribuição de probabilidade, como
a soma de produtos dos diversos valores de xi da v.a. pelas respectivas probabilidades P(xi).
A média de uma v.a. X é também chamada valor esperado ou esperança matemática,
ou simplesmente esperança de X. É representada por E(X) e se define como:
∑=
===++=+==n
1iiinn2211 )xX(Px)xX(Px)xX(Px)xX(Px)X(E ⋯
É uma média ponderada dos xi, em que os pesos são as probabilidades associadas.
7
Função de repartição ou de distribuição acumulada.
Uma maneira alternativa pela qual pode-se caracterizar a distribuição de probabilidade
de uma v.a é por meio da sua “função de repartição ou distribuição acumulada” , designada
por F(X). Essa função é definida por
( ) ( )F X p X x= ≤
Para as variáveis aleatórias discreta tem-se que:
( ) ( )i
ix x
F X p x≤
=∑
3.4 - Variância
Assim como a média é uma medida de posição de uma v.a., é natural que se procure
uma medida de dispersão dessa variável em relação à média. Existem várias formas de se ob-
ter essa medida, sendo a que melhor representa essa dispersão a variância, representada por σ2
e definida por:
∑=
=−==σn
1ii
2i
2 )xX(P))X(Ex()X(Var
Desenvolvendo o termo quadrático do somatório, obtem-se uma expressão mais fácil
de calcular a variância dada por:
222 )]X(E[)X(E)X(Var −==σ ,
na qual ∑=
==n
1ii
2i
2 )xX(Px)X(E .
3.5 - Desvio Padrão
O desvio padrão (σ) é a raiz quadrada positiva da variância. Tem sobre essa última a
vantagem de exprimir a dispersão na mesma unidade de medida da v.a.:
2σ=σ
Exercícios: Seja X uma v.a. discreta assumindo valores no conjunto 1,2,3 e com distribui-
ção de probabilidade dada por
Tabela 1: Distribuição da variável aleatória X
X 1 2 3
P(X = x) 1/3 1/6 1/2
8
a) Obtenha a distribuição da função acumulada:
b) Calcule a média e a variância de X;
c) Calcule ( 2)P X ≥ e ( 2).P X >
Solução:
A função de distribuição acumulada de X é definida por
;
F (x) = P(X x) = P(X = y)xy y x≤
≤ ∑
Para todo ℜ∈x . Portanto,
0 se x < 1
1/3 se 1 x < 2F (x) =
1/2 se 2 x < 3
1 se x 3.
x
≤ ≤ ≥
A média de X é dada por:
1 1 1 13
E(X) = P(X = x) = 1. 2. 3.3 6 2 6x
x + + =∑
Como,
2 2 1 1 1 33E(X ) =x P(X = x) = 1. 4. 9.
3 6 2 6+ + =
Segue que a variância de X é dada por:
2
2 2 33 13 29V (X) = E(X ) - [E(X)] =
6 6 36 − =
Outro modo de calcular V(X) seria calcular a soma
2 2V (X) = E[(X - E(X)) ] = (x - (13/6)) P(X = x)x∑
Finalmente,
2
P(X 2) = P(X = 2) + P(X = 3) =3
≥ e 1
P(X > 2) = P(X = 3) = .2
9
4 - Principais Modelos Discretos
Algumas variáveis aleatórias aparecem com bastante freqüência nas situações práticas e
justificam um estudo mais aprofundado. Em geral nesses casos, a distribuição de probabilida-
de pode ser escrita de uma maneira mais compacta, isto é, existe uma lei pra atribuir as proba-
bilidades.
4.1 - Modelo Uniforme Discreto
Seja X uma variável aleatória cujos possíveis valores são representados por 1 2, ,...,x x .
Diz-se que X segue o modelo Uniforme Discreto se atribui a mesma probabilidade 1/k para
cada um desses k valores, isto é sua função de probabilidade é dada por:
( ) 1/ ,jp X x k= = 1,2,...., .j k∀ =
Observe que a expressão são probabilidades, uma vez que seus valores estão no intervalo
[0,1] e a soma de todas as probabilidades é igual a 1. O modelo Uniforme tem esse nome pois
todos os seus valores ocorrem com a mesma probabilidades e, assim, pode-se dizer que a pro-
babilidade se distribui uniformemente entre os diversos valores.
Exemplo: Número de Caras em único arremesso de uma moeda honesta.
Neste experimento o espaço amostral é H, T , sendo H cara e T coroa. A variável aleatória
que escreve o número de caras em um único arremesso é NH(H) = 1 e NH(T ) = 0. Como a
moeda é honesta a distribuição de probabilidades é P(xj ) = 1/2 com xj não nulo em 0, 1.
4.2 - Distribuição Discreta Bernoulli
Seja um experimento no qual só pode ocorrer “sucesso “ ou fracasso “ e associa-se
uma v.a X aos possíveis resultados, de forma que: x = 1 se o resultado for um sucesso e x = 2
se o resultado for um fracasso
Diz-se que a variável aleatória assim definida tem distribuição de Bernoulli. Sendo p a
probabilidade de ocorrer um sucesso, a probabilidade de ocorrer um fracasso será q = 1 – p e
a função probabilidade da distribuição Bernoulli será:
, 1 ( )
( ) 1 0 ( )
0
p se k Sucesso
p X k p se k Fracasso
se outro caso
== = − =
Pode-se observar que: pXE =)( e .)( pqXVar =
10
Obs: Essa distribuição tem importância como geradora de outras distribuições.
Exercício: Uma urna tem 30 bolas brancas e 20 verdes. Retira-se uma bola dessa urna. Seja
X: nº de bolas verdes. Calcular E(X), Var(X) e determinar P(X).
Solução:
1
30 30 50 5 ( ) (2 5) .(3 5)20 21 50 5
x xq
X P X xp
− = == ∴ = =
= =
֏
֏
2( ) 5( ) . (2 5).(3 5) 6 25
E X p
Var X p q
= =
= = =
4.3 - Modelo Binomial
Considere a repetição de n ensaios de Bernoulli independentes e todos com a mesma
probabilidade de sucesso p. A variável aleatória que conta o número total de sucesso é deno-
minada Binomial com parâmetros n e p e sua função de probabilidade é dada por
( ) (1 ) , 0,1,2,...., ,k n knp X k p n k n
k−
= = − =
Com n
k
representando o coeficiente binomial calculado por !
!( )!
n n
k k n k
= −
Usa-se a notação X ~ b(n, p) para indicar que a variável aleatória X segue o modelo Bi-
nomial com parâmetros n e p. As probabilidades são caracterizadas pela informação dos pa-
râmetros.
Em situação práticas, a variável Binomial aparece a partir de outras variáveis, pela cri-
ação de duas categorias excludentes.
Na distribuição Binomial tem-se:
E(X) = Np e Var(X) = npq.
Exercícios: 1) Uma moeda perfeita e lançada quatro vezes. Seja Y o número de caras obtidas.
Calcule a distribuição de Y.
Solução: Observe que Y assume valores no conjunto 0, 1, 2, 3, 4. Portanto, a distribuição de Y é
dada por:
11
4 44
4
1 1P(Y = y) = C 1
2 2 2
y yy
y
C− − =
, para y = 0, 1, 2, 3, 4.
2) Repita o problema anterior, considerando agora que a moeda é viciada, sendo a probabili-
dade de cara dada por p, com 0 < p < 1.
Solução:
Observe que Y assume valores no conjunto 0, 1, 2, 3, 4. Portanto distribuição de Y é
dada por:
4 4-yP(Y = y) = C p (1 - p)yy , para y = 0, 1, 2, 3, 4.
12
5 - Outros Modelos Discretos
Apresenta-se neste capítulo, os modelos Geométricos, Poisson e Hipergeométrico, que
têm várias aplicações práticas. No capítulo anterior, os modelos definidos assumiram apenas
um número finito de valores distintos. Como será visto a seguir, os modelos Geométricos e
Poisson podem ter um número infinito de valores dentre os inteiros positivos.
5.1 - Modelos Geométricos
Tem-se agora repetição da Bernoulli até que o sucesso ocorra. Assim a v.a. X assume os
valores possíveis 1, 2, 3....., k, .... de número de repetição até ocorrer um sucesso .
Supõe-se que um dado é jogado até que se obtenha sucesso. Sendo + para sucesso e –
para Fracasso, tem-se:
, , , , , , ...........,− − − − − − +
Desta forma pode-se fazer com que p seja a probabilidade de sucesso e q = 1 – p a pro-
babilidade de fracasso, então:
1( ) 1,2, .....kp X k q p para k−= = =
Para que a distribuição satisfaça as condições necessárias de uma distribuição Geométri-
ca é preciso que:
1) 00
1
( ) 1k
p X k=
= =∑ e 2) ( ) 0p X k= ≥ .
Analogamente tem-se que 1( )E X
q= e
2( )
qVar X
p=
Exercícios: 1)Suponha que uma moeda perfeita é lançada até que cara apareça pela primeira
vez. Seja X o número de lançamento até que isso aconteça. Obtenha a distribuição de X.
Solução:
Observe que X assume valores no conjunto 1, 2, 3,..... Portanto, a distribuição de X é
dada por 1
1 1 1P(X = x) =
2 2 2
X
X
− =
, para x = 1, 2, 3,.....
2) Repita o problema anterior, considerando agora que a moeda é viciada, sendo a probabili-
dade de cara dada por p, com 0 < p < 1.
13
Solução:
Nesse caso a distribuição de X é dada por x-1P(X = x) = (1 - p) p, para x = 1, 2, 3,.....
5.2 - Modelo de Poisson
Uma variável aleatória X tem distribuição de Poisson com parâmetros0λ > se sua fun-
ção de probabilidade é dada por:
( ) , 0,1,2,3........,!
kep X k k
k
λλ−
= = =
Com o parâmetro λ sendo usualmente referido como taxa de ocorrência. A notação será
0~ ( ).X P λ λ é a freqüência média ou esperada de ocorrências num determinado intervalo de
tempo.
Analogamente tem-se que E(X) = λ t e Var(X) = λ t.
Exercício: Em um processo de fabricação de perfil de alumínio aparece em média uma falha
a cada 400 metros. Qual a probabilidade de ocorrer 3 falhas em 1000 metros de perfil?
Solução:
Sabe-se que ( )!
kep X k
k
λλ−
= = . Logo, como k = 3 e 1
400λ = , portanto:
3 3
1
4001
.1000400
1 1000.1000
1400 400( 3) . 0,2137
3! 6P X e
e
−
= = = =
5.3 - Modelo Hipergeométrica
Essa distribuição é adequada quando se consideram extrações casuais feitas sem reposi-
ção de uma população dividida segundo dois atributos. Para ilustrar, considere uma população
de N objetos, r dos quais têm atributos A e N – r têm o atributo B. Um grupo de n elementos é
escolhido ao acaso, sem reposição. É de interesse calcular a probabilidade de que esse grupo
contenha k elementos com o atributo A. Pode-se ver facilmente, utilizando o princípio multi-
plicativo, que essa probabilidade é dada por:
,k
r N r
k n kp
N
n
− − =
14
na qual os pares ( , )kk p constituem a distribuição hipergeométrica de probabilidades. Se a v.a.
X for definida como os números de elementos na amostra que tem atributos A, e então,
0 min( , ).k r n≤ ≤
Analogamente, tem-se que ( )E X np= e ( ) (1 )1
N nVar X np p
N
−= −−
.
Exercícios: Uma caixa contem 12 lâmpadas das quais 5 estão queimadas. São escolhidas 6
lâmpadas ao acaso para iluminação de uma sala. Qual a probabilidade de que:
a) Exatamente duas estejam queimadas?
b) Pelo menos uma esteja boa?
Solução : a) Observe que:
Logo, tem-se que:
5 7.
2 4( 2) 0,3788
12
6
P X
= = =
.
b) Pelo que se pode observar, tem-se que ( 6) 0P X = = , pelo fato de não existir 6 lâmpadas
queimadas. Portanto: ( 6) ( 5) ( 6) 1P X P X P X< = ≤ − = = .
15
6 - Variáveis Aleatória Contínuas
6.1 - Introdução
Neste capítulo serão estudados modelos probabilísticos para variáveis aleatórias contí-
nuas, ou seja, variáveis para as quais possíveis valores pertencem a um intervalo de números
reais.
Uma função X, definida sobre espaço amostral Ω e assumindo valores num intervalo
de números reais, é dita uma variável aleatória contínua.
A característica principal de uma v.a. contínua é que, sendo resultado de uma mensu-
ração, o seu valor pode ser pensado como pertencente a um intervalo ao redor do valor efeti-
vamente observado. Por exemplo, ao dizer que a altura de uma pessoa é 1,75 cm, está-se me-
dindo sua altura usando cm com unidade de medida e portando o seu valor observado é, na
realidade, um valor entre 174,5 cm e 175,5 cm.
Definição: Seja X uma variável aleatória. Suponha que os possíveis valores de X seja um in-
tervalo que possui infinitos valores, então se diz que X é uma variável aleatória contínua.
Se X é uma v. a. contínua, a função densidade de probabilidade f(X), indicada abrevia-
damente por fdp, é uma função que satisfaz às seguintes condições:
(a) f(X) ≥ 0, ∀ X;
(b) A área sob a função densidade de probabilidade é 1, isto é:
(c) P(a ≤ X ≤ b) = área sob a função densidade de probabilidade f(x) e acima do eixo x entre
os pontos a e b, isto é:
(d) P(X = x0) = 0, porque:
Conseqüência: P(a < X < b) = P(a ≤ X < b) = P(a < X ≤ b) = P(a ≤ X ≤ b)
Se X é uma v. a. contínua, a função de distribuição acumulada (fda) de X é definida
como: ∫ ∞−=≤= x dssfxXPxF )()()( .
1dx)x(f =∫+∞
∞−
∫=≤≤b
adx)x(f)bXa(P
0dx)x(f)xX(P 0
0
x
x0 === ∫
16
Exemplo: Considere a seguinte densidade de probabilidade: f(x) = 2x, para 0 ≤ x ≤ 1 e f(x) =
0, fora desse intervalo. Obtenha a F(x) de X.
>
≤≤==
<
= ∫
1,1
10,0
2
0,0
)(0
22
x
xxx
ss
x
xFx
6.2 - Esperança e Variância
Se X é uma v. a. contínua, o valor esperado de X (ou esperança matemática de X) de-
notada por E(X) é definido como:
∫∞
∞−= dxxfxXE )()(
Exemplo: Para uma variável que têm densidade f(x) = 2x, 0 < x < 1, então:
3
2
0
1
3
222)( 3
1
0
1
0
2 ==== ∫ ∫ xdxxdxxxXE
Definição: A variância de uma variável aleatória contínua é definida por:
Var(X) = E(X2) – [E(X)]2, onde ∫∞
∞−= dxxfxXE )()( 22 .
Exemplo: Para uma variável que têm densidade f(x) = 2x, 0 < x <1, então:
3
2)( =XE e
4
2
4
222)( 1
04
1
0
1
0
322 ==== ∫ ∫ xdxxdxxxXE . Logo, Var(X) = 2/4 – (2/3)2 =1/18 =
0,056. Também se pode obter o Desvio Padrão: 23,0056,0 ≅ .
6.3 - Distribuição Continua Uniforme
Seja uma v. a. contínua que pode tomar qualquer valor no intervalo [a, b]. Se a proba-
bilidade da variável cair em um subintervalo for a mesma para qualquer outra subintervalo de
mesmo comprimento, tem-se uma distribuição uniforme.
Sua função densidade de probabilidade será:
1( )f X para a x b
b a= ≤ ≤
− e ( ) 0f x caso contrário= .
Tem-se que ( )2
a bE X
+= e 2( )
( )12
b aVar X
−= .
Exercícios: Dada a v.a. X, uniforme em (5, 10), calcule as seguintes propriedades:
17
a) P(X < 7) b) P(8 < X < 9) c) P(X > 8,5) d) ( 7,5 2)P X − >
Solução:
Tem-se que: 1
, 5 10( ;5;10) 10
0 ,
se xf x
caso contrario
≤ ≤ =
a) 7 5
( 7) 0,410 5
p X−< = =−
b) 9 5 8 5
(8 9) (9) (8) 0,8 0,6 0,210 5 10 5
p x F F− −< < = − = − = − =− −
c) 8,5 7,5
( 8,5) (8,5) 0,710 5
p X F−> = = =−
d) ( 7,5 2)P X − > = logo, tem-se
7,5 2
2 7,5
9,5
x
x
x
− >> +>
ou
7,5 2
2 7,5
5,5
x
x
x
− + >− > −
< . Portanto,
9,5 5 5,5 5(5,5 9,5) (9,5) (5,5) 0,8
10 5 10 5p x F F
− −= < < = − = − =− −
6.4 - Distribuição Exponencial.
Uma v.a. contínua X que tome valores não negativos, terá distribuição exponencial
com parâmetros 0λ > , se sua função densidade e probabilidade for dada por
( ) 0
( ) 0
xf x e para x
f x Caso contrário
λλ −= >=
Assim, λ
dxxxfXE1
)()( ∫∞
∞−== e
22
1)())(()(
λdxxfXExXVar =−= ∫
∞
∞− .
Exercício: Para uma variável Exponencial 1, determine a probabilidade de se sortear um va-
lor que se distancie no máximo 0,5 de média. Obtenha a expressão da função de probabilidade
dessa variável.Qual é o valor do terceiro quartil?
Solução:
Tem-se que : .1
1 e )1(~ =λExpX Logo,
1,51 11 1,5 0,5 1 1 5
0,5 10,5 1
0,680x x x xe dx e dx e e e e e e−− − − − − − −+ = − − − + − + =∫ ∫ .
18
6.5 - Distribuição Normal
A distribuição Normal é uma das mais importantes distribuições contínuas de probabi-
lidade. Foi introduzida em 1730 por D´Moivre e depois foi muito utilizada em Astronomia
pelo alemão físico/matemático Gauss, trazendo muita confusão para várias pessoas que por
esse motivo, acham que foi Gauss que a descobriu.
Muitos dos fenômenos aleatórios de interesse comportam-se próximos a essa distribu-
ição com valores muito freqüentes em torno da média e diminuindo a freqüência à medida
que se afasta da média.
Nem todos os fenômenos se ajustam à distribuição Normal. Por exemplo, considere a
variável tempo de duração, em horas, de uma lâmpada de certa marca, conforme Figura 1.
Figura 1 – Tempo de duração, em horas, de uma determinada lâmpada
A experiência sugere que esta distribuição deve ser assimétrica com uma grande pro-
porção de valores entre 0 e 500 horas e uma pequena proporção de valores acima de 1500
horas
Obs: A distribuição utilizada nesse caso é a Distribuição Exponencial.
6.6 - Função Densidade de Probabilidade da Distribuição Normal
∞<<∞−=
−−xe
πσxf σ
µx
,2
1)(
2
2
1
2
Figura 2 - Gráfico da densidade Normal
19
Propriedades:
A curva normal é simétrica em torno da média µ;
A moda e a mediana são iguais a µ;
Os pontos de inflexão são µ – σ e µ + σ;
A área sob a curva e acima do eixo horizontal é igual a 1.
Parâmetros: µµµµ : média ou valor esperado
σσσσ2: variância
Notação : X ~ N(µ, σ2)
A distribuição normal depende dos parâmetros µµµµ e σσσσ2
Figura 3 – Curvas Normais com médias diferentes e variâncias iguais.
Figura 4 – Curvas normais com a mesma média e variâncias diferentes.
µ1 µ2
___N(µµµµ , σσσσ12)
___N(µµµµ , σσσσ22)
___N(µµµµ , σσσσ32)
σσσσ 12 < σσσσ 2
2< σσσσ 32
Curvas normais com mesmo desvio padrão, mas com médias dife-rentes.
20
Cálculo de Probabilidades
P(a < X < b)
Área sob a curva e acima do eixo horizontal (x) entre a e b.
a µ b
Figura 5 – Área correspondente a P (a < X < b)
Se X ~ N(µ ; σ2), define-se: σ
µ−= XZ . Então, E(Z) = 0 e Var(Z) = 1.
Figura 6 – Gráficos das funções densidades de X ~ N ( 2,σµ ) e Z ~ N (0, 1).
A variável Z ~ N (0,1) denomina-se normal padrão ou reduzida.
Portanto,
σσσσµµµµ−−−−<<<<<<<<
σσσσµµµµ−−−−====
σσσσµµµµ−−−−<<<<
σσσσµµµµ−−−−<<<<
σσσσµµµµ−−−−====<<<<<<<<
bZ
aP
bXaPbXaP )(
Dada a v.a. Z ~ N (0, 1) pode-se mos obter a v.a. X ~ N (µ, σ2) através da transformação in-
versa σZµX += .
a µµµµ b x
f(x)
0 z
f(z)
a – µµµµ σσσσ
b – µµµµ σσσσ
21
Exercícios: A distribuição do tempo de duração de um certo tipo de pneu, em km, é uma va-
riável normal com duração média de 30.000 km e desvio padrão 10.000 km,
a) Qual a probabilidade de um pneu escolhido ao acaso durar mais de 75.000km?
b) Qual a probabilidade de um pneu durar entre 63.500 e 70.000 km?
c) Qual a probabilidade de um pneu durar entre 50.000 e 70.000 km?
d) Qual a probabilidade de o pneu dura exatamente 65.555 km?
e) O Fabricante deseja do pneu uma garantia de quilometragem de tal forma que, se a du-
ração do pneu for inferior a garantia, o pneu deve ser trocado. De quanto deve ser a
garantia para que somente 1% dos pneus sejam trocados?
Solução.
Pela definição sabe-se que a variável aleatória X pode ser transformada em padrão. Logo,
a) .0668,04332,05,0)5,1(5,0)5,1(10000
6000075000()75000( =−=<−=>=−>=> ZPZPZPXP
b)
.2045,01368,003413
)35,00()10(10000
60000635000
10000
6000700000
)6350060000()70000060000()7000063500(
=−
=<<−<<=
−<<−
−<<
=<<−<<=<<
ZPZPZPZP
XPXPXP
c) .6826,0)3413,0(2)10(2)10()01(
)11(10000
6000070000
10000
6000050000)7000050000(
==<<=<<+<<−
=<<−=
−<<−=<<
ZPZPZP
ZPZPXP
d) 0)65555( ==XP , pelo fato de ser quase impossível de ocorrer. A função de densidade é
contínua e pela definição de integral tem–se que em um ponto a integral é 0.
e)
km. 36700 Portanto, .2330060000
33,210000
60000 Daí, .
10000
60000
01,0)(
00
00
00
=−=−
⇒−=−
−<
=
−<==>
xx
xxZP
σ
µxZPxXP
22
7 - OUTROS MODELOS
Juntamente com o modelo normal, esses modelos são úteis para as v.a. de interesse
prático, que na maioria dos casos assumem valores positivos e tendem a ter distribuições as-
simétricas à direita.
7.1 - Distribuição Gama
Aplica-se a distribuição gama à análise de tempo de vida de equipamentos, de tempo
de retorno de mercadorias com falhas e a testes de confiabilidade.
A função densidade de probabilidade para a distribuição gama é dada por:
xrr
exr
xf λλ −−
Γ= 1
)()( para x ≥ 0
0)( =xf para x < 0 ,
na qual os parâmetros da distribuição gama, que podem assumir qualquer valor positivo, são:
λ, taxa média do processo; r, número específico de eventos que ocorrem até que a variável X
(tamanho do segmento de tempo ou espaço) seja atingida e Γ(r) é a função gama, definida
por:
∫∞
−−=Γ0
1)( dxexr xr Para r > 0
Esta função é tabelada, sendo alguns valores apresentados a seguir juntamente com
algumas propriedades dessa função:
a) 1)1( =Γ
b) )()1( rrr Γ=+Γ
c) )1()1()( −Γ−=Γ rrr
d) !)1( kk =+Γ
e) π=Γ )2/1(
f) πk
kk
2
)12(*...*5*3*1)2/1(
−=+Γ
A Figura 7 apresenta a função f(x) para vários valores de r.
23
f(x)
r=1 r=2 r=3
x
Figura 7 – Função Densidade de Probabilidade para a Distribuição Gama.
No caso especial de r = 1, tem-se a distribuição exponencial, pois Γ(1) = 1, ficando-se
com: xexf λλ −=)(
A distribuição gama se reduz à distribuição qui-quadrado, que será vista a seguir,
quando λ = 1/2 e r = d/2, em que d é um parâmetro inteiro positivo.
A distribuição de probabilidade é expressa por:
∫=≤x
dyyfxXP0
)()(
O valor esperado e a variância são calculados por:
2λλ
r)X(Var
r)X(E ==
Exercício: Calcule a probabilidade de passado um minuto no máximo, dois carros tenha che-
gado a uma cabine de pedágio, considerando que λ = 5 carros por minuto.
Solução:
Neste caso, r = 2, ficando-se com:
2
2 1( ) 1 (1 )1!
y xP X x y e dy eλ λλ λ− − −≤ = = − +∫
Como λ= 5, tem-se que: .96,06)006738,0(1)51(1)1( 1.5 =−=+−=< −eXP
7.2 - Distribuição Qui-Quadrado
Um caso especial importante do modelo gama é obtido fazendo-se / 2vα = e 2β = ,
com 0v > inteiro.
24
Uma v. a. contínua Y, com valores positivos, tem uma distribuição qui-quadrado com
v graus de liberdade(denotada 2( ( ))denotada vχ , se sua densidade for dada por
/2 1 /2/2
1, 0,
( / 2)2( ; )
0, 0.
v yv
y e yvf y v
y
− − >Γ= <
Tem-se que νYVarνYE 2)( ,)( == e 0( )P Y y p> =
A distribuição qui-quadrado tem muitas aplicações em Estatística e, como no caso da
normal, existem tabelas para obter probabilidades. A tabela fornece os valores de 0y tais que
0( )P Y y p> = , para alguns valores de p e de v.
OBS: Essa distribuição é utilizada em testes de associação, homogeneidade e independência
entre duas variáveis, os famosos “Testes Qui-Quadrados”.
Exercício: Verifique se há evidência de associação entre as variáveis tipo de propaganda
(comercial) e o gênero das crianças, em um teste realizado com 125 crianças.
Tabela 2: Números de crianças segundo tipo de comercial escolhido e gênero.
Tipo de comercial Gênero A B C Total Menino 30 29 16 75 Menina 12 33 5 50 Total 42 62 21 125
Solução:
Calcula-se o valor esperado da célula menino que prefere a propaganda A (cruzamento da
primeira linha com primeira coluna), se não houvesse influência do sexo na preferência:
75*4225,2
125esperado= = . Assim calculando os valores esperados para todas as outras célu-
las tem-se:
Tabela 3 – Valores observados, esperados e suas diferenças no teste qui-quadrado
Tipo de comercial
Gênero A B C Total Menino
30 25,2 29 37,2 16 12,6 75
+4.8 -8,2 +3,4 Menina
12 16,8 33 24,8 5 8,4 50
-4,8 +8,2 -3,4 Total 42 62 21 125
25
Calculando o Qui-Quadrado tem-se
2 2 2 2 2 22 ( 4,8) ( 8,2) ( 3,4) ( 4,8) ( 8,2) ( 3,4)
25,2 37,2 12,6 16,8 24,8 8,4amostraχ + − + − + −= + + + + +
2 0,914 1,808 0,907 1,371 2,711 1,376amostraχ = + + + + +
2 9,09818amostraχ = ⇒ ( 1).( 1) (2 1).(3 1) 1.2 2onde r c− − = − − = = (grau de liberdade da distri-
buição qui-quadrado)
Gráfico da distribuição Qui-Quadrado
Região de Aceitação Região de Rejeição p = 0,95 1 – p = 0,05
Pela destruição e pelo valor tabelado tem-se que: 2( 1)( 1); 5,991r c pχ − − = e 2 9,09818amostraχ = .
Portanto pelos resultados obtidos tem-se que há evidência de associação entre as variáveis.
7.3 - Distribuição t-Student
A Distribuição t de Student é importante no que se refere à inferência sobre médias
populacionais.O nome Student vem do pseudônimo usado pelo estatístico inglês W. S. Gosset,
que introduziu essa distribuição no início do século passado.
A v. a. X tem distribuição t de Student (ou simplesmente t) com média µ , parâmetros
de escala σ e v graus de liberdade, denotando-se 2~ ( , )vX t µ σ , se sua função de densidade é
dada por
2 ( 1)/2(( 1) / 2)( ; ) (1 / ) , 00 00
( / 2)vv
f t v t v tv vπ
− +Γ += + − < <Γ
Diz-se que tal variável tem uma distribuição t de Student com v graus de liberdade e
é indicada por t(v). Sua média é ( ) 0E t = e a variância é igual a ( )2
vVar t
v=
−.
26
Exercício: Considere um teste de colisão de carros. A análise de 12 carros danificados resulta
num custo de conserto que parece ter distribuição em forma de sino, com média igual a R$
26,227 e desvio-padrão R$ 15,873. Determine:
a) a melhor estimativa pontual de µ(custo do conserto)
b) O intervalo de confiança para um nível de confiança de 95%
Solução:
a) É dada pela média da amostra .227,26=x b) Amostra pequena (n ≤ 30); desvio padrão desconhecido; distribuição é similar à distribui-
ção normal.
Na tabela: para a coluna 0,05 bilateral e grau de liberdade 2n-1=11 t =2,201α→ . Logo,
2
15873E= t . =2,201. 10.085,29
12
s
nα = . Portanto, ExµEx +<<−
.⇒
29,10085227,2629,10085227,26 +<<− µ ⇒ 29,3631271,16141 << µ
Construindo-se tais intervalos para 100 amostras de 12 carros cada uma, 95% desses interva-
los conterão a verdadeira média da população, ou seja, a custo médio do reparo.
27
8 - Variáveis Aleatórias Multidimensionais
Uma v.a. Bidimensional é caracterizada por um par ordenado de valores assumidos
dentro de dado conjunto segundo as leis probabilísticas. Assim, se X for um ponto de um dado
branco e Y um ponto de um dado preto, considera-se a v.a. Bidimensional discreta (X, Y), tal
v.a. é caracterizada pela seguinte função de probabilidade:
1( , )
36p x y =
1,2,3,4,5,6
1,2,3,4,5,6
x
y
==
No caso de v.a. bidimensional contínua a distribuição de probabilidade será caracte-
rizada por função densidade de probabilidade bidimensional (ou conjunto) f(x,y).
Condições:
1) ( , ) 0f x y ≥
2) ∫ ∫∞
∞−
∞
∞−=1),( dxdyyxf
Para uma dada região xyR tem-se [( , ) ] ( , )xy
xy
R
p x y R f x y dxdy∈ = ∫ ∫
8.1 - Distribuição Marginais
Supondo que se tem a distribuição de variável aleatória (X, Y), pode-se obter a distri-
buição apenas de X, independentemente do valor de Y, que será denominada Distribuição
Marginal de X. Pode-se assim proceder também em relação a Y, obtendo então a distribuição
marginal de Y.
Para uma dada Função de probabilidade ( , )i jp x y tem-se que:
( ) ( , )i i jj
P X x p x y= =∑ Marginal de X
( ) ( , )i i ji
P Y y p x y= =∑ Marginal de Y
Para caso contínuo, sendo g(x) a função densidade marginal de X, h(y) a função de
densidade marginal de Y, são respectivamente, ∫∞∞−= dyyxfxg ),()( e ∫
∞∞−= dxyxfyh ),()(
28
9 - Medidas de Posição e Dispersão
9.1 - Média (Esperança ou Expectância) é definida por:
)()( ii
i xpxXEµ ∑== para o caso discreto,
ou
00
00
( ) ( )u E X xf x dx−
= = ∫ para caso contínuo.
A média tem as seguintes propriedades tais que (k é uma constante)
1) ( )E k k=
2) ( ) ( )E kX kE X=
3) ( ) ( ) ( )E X Y E X E Y± = ±
4) ( ) ( )E X k E X k± = ±
5)Se X e Y são independentes, então ( ) ( ) ( )E XY E X E Y= .
9.2 - Mediana
É o ponto que divide a distribuição em duas equiprováveis. É denotada por md, sendo
que ( ) ( ) 0,5P x md P x md< = > = .
A mediana representa uma função alternativa de caracterização do centro da distribui-
ção.
9.3 - Moda:
É o ponto de maior probabilidade, no caso discreto, ou maior densidade de probabili-
dade, no caso contínuo.
9.4 - Variância:
A variância será denotada por Var(X), ou simplesmente 2σ . É definida por:
2( ) [( ) ]Var X E x u= − ,
na qual ( )E X u= , 2 2( ) ( )i ii
E X x p x=∑ , para o caso discreto e 00
2 2
00
( ) ( )E X x f x dx−
= ∫ , para o
caso contínuo.
A variância tem as seguintes propriedades:
1) Var(k) = 0
29
2) 2( ) ( )Var kX k Var X=
3) ( ) ( ) ( )Var X Y Var X Var Y± = +
4) ( ) ( )Var X k Var X± =
9.5 - Desvio Padrão
É a raiz da variância, denotada por ( )Dp X , tem a vantagem de ser expressa na mes-
ma unidade da variável ( ) ( )Dp X Var X=
9.6 - Covariância
Esta medida tem como objetivo mensurar a relação entre as variáveis aleatórias em
questão. Define-se ( , ) ( , ) ( ) ( )Cov x y E x y E x E y= −
9.7 - Coeficiente de Correlação
É definido por:
)().(
),(),(),(
YVarXVar
YXCovYXCorrYXρ == tal que .1),(1 ≤≤− yXρ
9.8 - Coeficiente de Variação
É definida como o quociente entre o desvio padrão e a média. Serve quando se deseja
ter uma idéia da dispersão relativa
( ). .( )
( )
Dp XC V X
E X=
9.9 - Amplitude
É dada pela diferença entre o maior e o menor valor possível da variável. E é denotada
por A.
Exercício: Seja a função densidade de probabilidade dada:
≤≤=
contrário caso,0
20 para,2)( xx
xf . Deter-
mine à média, mediana, moda, variância e desvio-padrão.
Solução:
Média 23
0
4( ) ( )
6 3
xE X xf x dx dx= = = =∫
30
Mediana 2 2
0 0
( ) ( ) 0,5
0,5 0,5 22 4 4
mdmd
p x md p x md
x x mddx md
< = > =
= = ⇒ = ⇒ =∫
Moda (2) 1 max mof Valor i de probabilidade= ⇒
Variância ,)]([)()( 22 XEXEXVar −= com .28
16
0
2
82.)(
22
0
22 ==== ∫x
dxx
xXE Portanto,
9
2
9
16.2
3
42)(
2
==
−=XVar
Desvio-padrão 2 2( ) ( )
9 3dp X Var X= = =
Coeficiente de variação
2( ) 23( ) 0,35
4( ) 43
Dp XCV X
E X= = = ≅
31
10. - SAS Programação
10.1 - Introdução
O SAS é um dos pacotes estatísticos mais utilizados pelas grandes corporações, em
mais de 100 diferentes países, com cerca de 40.000 licenças distribuídas e quase 4 milhões de
usuários. O nome nasceu como um acrônimo: Statistical Analysis System (SAS), mas a quan-
tidade de serviços e produtos oferecidos pela SAS (a companhia que produz o SAS) foi se
tornando tão diversa que hoje em dia o nome é simplesmente SAS.
As origens do software datam da década de 70, quando os computadores ainda eram
operados por cartões perfurados (o comando CARDS, dentro do passo DATA, vem justamente
daí) e o poder de processamento era muito baixo. O software é composto por diversos módu-
los, que provem soluções para problemas específicos e os principais são:
• SAS/Base: é o sistema básico do SAS, necessário para rodar qualquer outro produto
SAS. Ele contém o passo DATA, para manipulação de dados e alguns procedimentos
estatísticos simples.
• SAS/STAT: é o módulo que provê uma grande quantidade de métodos estatísticos, co-
mo regressão, ANOVA, análise multivariada, análise de sobrevivência entre outros.
• SAS/GRAPH: é o módulo que permite fazer gráficos em alta resolução.
• SAS/ETS: é o módulo que permite fazer análise de séries temporais.
• SAS/EG (ou Enterprise Guide): é uma interface gráfica para o SAS, permitindo fazer
algumas análises estatísticas apontando e clicando.
Ao comprar uma licença do programa, é necessário pagar uma taxa adicional por cada
módulo. Neste capítulo será apresentado alguns comandos básicos de programação que po-
dem ser executados no SAS, resultado do estudo introdutório deste software.
10.2 - Conceitos Básicos
DATA SET: Arquivo de dados com estrutura SAS;
OBSERVAÇÃO: Registro de um arquivo de dados SAS;
JOB SAS: Arquivo com um programa SAS (É um conjunto de DATA Step's e PROC Step's);
32
DATA STEP: Divisão lógica de um programa SAS, no qual se cria e altera um, ou vários ar-
quivos SAS (Data Set's ou conjunto de dados de entrada);
PROC STEP: Divisão lógica de um programa SAS, no qual se analisa e manipula os dados
contidos num arquivo SAS (Data Set's);
OBS: A funcionalidade do Sistema SAS foi construída em torno de quatro idéias básicas no
tratamento de dados:
Acessar dados; Administrar dados; Analisar dados; Apresentar dados;
10.3 - Estrutura dos arquivos SAS
O arquivo SAS é um conjunto de dados arrumados num formato de tabela.
NOME SEXO IDADE ALTURA
As colunas nas tabelas são chamadas de variáveis:
- Variáveis correspondem aos campos de dados;
- Cada variável recebe um nome;
- Para o SAS, só existem dois tipos de variáveis: Caractere ou Numérica
As linhas na tabela são chamadas de observações (ou registros). Não existe limite para
o número de observações.
Um Arquivo SAS é dividido em duas partes:
Descritora : Contém a descrição do arquivo: Tamanho do arquivo, número de registros, no-
me, tipo, tamanho e formato de variáveis, etc;
Dados : Contém os dados do arquivo.
10.4 - Nomenclatura para arquivos e variáveis
Todos os nomes de arquivos e variáveis deverão seguir as seguintes regras:
CARLOS M 12 1.70 GILBERTO M 25 1.65 RICARDO M 30 1.80
. . . . . . . . . . . .
ALICE F 28 1.68 MARCIA F 22 1.75
33
- Possuir de 1 à 32 caracteres;
- Começar com letra (A-Z);
- Pode continuar com números, letras ou travessões.
Exemplo 1: Foi usado o Comando INFILE: Comando que identifica e abre um arquivo ex-
terno de dados, somente para leitura.
Exemplo 2: Do seguinte conjunto, construir um arquivo de dados:
Nome Idade Peso Altura Maria 23 57 1,65 Pedro 21 73 1,75 Cristina 19 55 1,63
data exemplo; nome do arquivo
input nome $ idade peso altura; declaração das variáveis
cards; (ou datalines) indica que a linha dos dados vêm em seguida
Maria 23 57 1.65
Pedro 21 73 1.75
Cristina 19 55 1.63
; indica que terminou o conjunto de dados
Run; está pronto para ser executado.(executa os comandos anteriores).
10.5 - Estrutura PROC Step
Introdução
- É a seção de um programa SAS na qual se analisa os dados de um arquivo SAS, utilizando-
se procedimentos específicos para cada tipo de análise.
- A maioria dos procedimentos SAS gera relatórios técnicos;
- Todos os procedimentos iniciam com a palavra PROC seguida do nome específico do pro-
cedimento ou rotina desejada;
- Os comandos em uma PROC não seguem uma hierarquia, ou seja, podem ser colocados em
qualquer ordem dentro da PROC;
DATA EXEMPLO1
INFILE “C:\TEMP\CADASTRO.TXT”;
INPUT PRIMEIRO_NOME $ 1-8 SEXO $ 10 IDADE 13-14 ALTURA 16-19 ;
RUN;
34
PROC <rotina> [opções] ; [comando] ; [comando] ; RUN ; rotina Palavra-chave que identifica o procedimento a ser executado.
opções Parâmetros opcionais de configuração para execução do procedimento.
comando Comandos de detalhamento na execução do procedimento.
RUN Comando para execução do procedimento SAS. Necessário no último procedimen-
to do programa SAS.
10.6 - Procedimento PRINT
- Procedimento do SAS que imprime, na saída padrão, os dados contidos nos arquivos SAS;
- A saída padrão é, normalmente, a janela OUTPUT.
PROC PRINT [opções] ; VAR <lista de variáveis> ; BY <lista de variáveis> ; SUM <lista de variáveis> ; opções DATA= Nome do arquivo SAS;
DOUBLE Espacejamento duplo;
NOOBS Suprime a coluna com o número de cada observação do arquivo;
LABEL Imprime os "label's" das variáveis;
VAR Determina uma lista de variáveis que serão impressas;
BY Determina a quebra ou agrupamento do relatório, por uma ou mais variáveis;
SUM Determina uma ou mais variáveis numéricas que serão totalizadas;
10.7 - Sintaxe dos Comandos
Todo comando SAS começa com uma palavra-chave (identificação) e termina com o
ponto e vírgula (;).
- Os comandos podem começar e terminar em qualquer parte da linha;
- Um comando pode se estender por diversas linhas;
- Vários comandos podem ficar na mesma linha.
Exemplo:
35
10.8 - Comando LIBNAME
- Tipo: Comando de declaração;
- Uso: Livre;
- Comando opcional de configuração do processamento, que define uma ou mais áreas de
trabalho e armazenamento (diretórios), para os arquivos SAS (Data Set's);
- Define o primeiro nível de um nome de arquivo, a biblioteca SAS;
[biblioteca].<nome do arquivo> - O comando LIBNAME, normalmente, é colocado antes do comando DATA, e só será ne-
cessário ser executado uma única vez durante uma sessão SAS WINDOWS.
LIBNAME <biblioteca> "<diretório>" ;
Biblioteca Palavra de no mínimo 1 e no máximo 8 caracteres, que identifica o primeiro nível
em um nome de arquivo.
Diretório Nome de um diretório que já exista no seu ambiente.
OBS: O SAS define uma biblioteca padrão, temporária, de nome work.
Exemplo:
LIBNAME IN "C:\ALUNO" ;
DATA IN.EXEMPLO ;
INFILE "A:\CADASTRO" ;
INPUT NOME $ 1-30 SEXO $ 31 END $ 32-60 ;
PROC PRINT DATA=IN.EXEMPLO NOOBS ;
VAR NOME ENDERECO ;
RUN ;
DATA EXEMPLO1 ;
INFILE “C:\TEMP\DADOS.DAT” ;
INPUT NOME $ 1-8 SEXO $
IDADE $ 13-14 ALTURA 16-19 ;
RUN;
PROC PRINT DATA=EXEMPLO1 ;
RUN;
PROC FREQ DATA=EXEMPLO1 ; TABLES IDADE*ALTURA ; RUN ;
36
11 – Alguns Comando Básico de Programação do SAS
- Comando de Atribuição (=)
- Tipo: Comando de execução;
- Uso: Data Step;
- Comando Caractere utilizado para criar novas variáveis e editar as já existentes em um Data
Step.
<variável> = <expressão> ;
variável Nome com no máximo 32 caracteres.
expressão Expressões do tipo:
o - Operações aritméticas simples: + - * / **
x2 = x ; Move valor;
soma = x+y ; Adição;
dif = x-y ; Subtração;
dobro = x*2 ; Multiplicação;
met = x/2 ; Divisão;
cubo = x**3 ; Potenciação;
y = -x ; Mudança de sinal;
o - Constantes :
N=0 ; Constante numérica; SEXO="F" ; Constante caractere;
o - Concatenação de caracteres : ||
A=”PAULO” || “ANTUNES”; ==> A=”PAULOANTUNES”
A=”PAULO” || “ ” || “ANTUNES”; ==> A=”PAULO ANTUNES”
o - Expressões complexas com prioridade de avaliação:
( ) Função ** * / + - =================> A = X+Y+Z ;
A = X+Y*Z ;
A = X/(Y/Z) ;
- Funções:
S = SQRT(X) ;
A = INT(X) ;
Z = ABS(SQRT(X)-2) ;
37
Exemplo Simulado no SAS: LIBNAME ARQ "C:\SAS\TESTE" ;
DATA ARQ.LUCROS ;
INFILE “C:\DADOS\NUMEROS.TXT”;
INPUT ANO 1-2 RECEITA 4-7 DESPESAS 9-12;
VAL_DOL = 0.98 ;
ANO = ANO + 1900 ;
LUCRO = RECEITA - DESPESAS ;
DOLLAR = ( RECEITA - DESPESAS ) / VAL_DOL ;
RUN;
Arquivo: NUMEROS.TXT
01 02 03 04 05 06 07 08 09 10 11 12
9 4 5 6 5 0 1 0 5 0
9 5 6 2 8 0 1 1 4 0
9 6 8 4 5 0 2 4 5 0
PROC PRINT DATA=ARQ.LUCROS NOOBS DOUBLE ;
TITLE "Analise Contábil" ;
VAR ANO RECEITA DESPESAS LUCRO DOLLAR ;
SUM RECEITA DESPESAS LUCRO DOLLAR ;
RUN ;
Analise Contábil
ANO RECEITA DESPESAS LUCRO DOLLAR
1994 5650 1050 4600 4693.8775
1995 6280 1140 5140 5244.8979
1996 8450 2450 6000 6122.4489 ===== ==== ===== ========= 20380 4640 15740 16061.2240
11.1 - Comando IF-THEN/ELSE
- Tipo: Comando de Execução;
- Uso: Data Step;
- Comando que condiciona a execução de um outro comando SAS, de acordo com alguma
expressão, que determinará essa condição;
- Se a expressão, que determina a condição, for verdadeira, será executado o comando que
vier após o THEN . Se a condição for falsa, será executado o comando que vier após o ELSE.
Somente um comando após o THEN e do ELSE
38
IF <expressão> [THEN] <comando> ;
[ELSE] <comando> ;
Expressão: Combinação de variáveis com operadores de comparação e/ou operadores lógicos
que determinam uma condição.
Comando: Comando do SAS que será executado de acordo com o resultado da condição.
Operadores de Comparação
GT > maior que LT < menor que EQ = igual a LE <= menor ou igual a GE >= maior ou igual a NE ~= não é igual (diferente) NL não é menor NG não é maior IN está no conjunto
Operadores Lógicos AND & e, ambos OR | ou, , um ou outro NOT ~ negação
Exemplo simulado no SAS. LIBNAME TESTE "A:\" ;
DATA TESTE.CLASSE ;
INFILE “C:\ESCOLA\CLASSE.TXT”;
INPUT NOM E $ 1-7 SEXO $ 8 IDADE 10-11 @13 ALTURA 4.2 ;
IF (SEXO="1" AND ALTURA<1.55) OR (SEXO="1" AND IDAD E<12)
THEN CLASSE="100" ;
ELSE IF (SEXO="2" AND ALTURA<1.55) OR (SEXO="2" AND IDADE<12)
THEN CLASSE="200" ;
ELSE CLASSE="300" ;
RUN;
Arquivo: CLASSE.TXT
01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16
P A U L A 1 1 1 1 . 6 0 F L A V I A 1 1 5 1 . 6 5 M A R C O S 2 1 1 1 . 6 0 L U I S 2 1 4 1 . 6 0
PROC PRINT NOOBS ; VAR NOME CLASSE ; RUN ;
39
The SAS System
NOME CLASSE
PAULA 100 FLAVIA 300 MARCOS 200 LUIS 300
11.2 - Comandos DO/END
- Tipo: Comando de execução;
- Uso: Data Step
- Comando que define a execução de um bloco de comandos do SAS;
- Todos os comandos existentes entre o comando DO e o comando END, deverão ser execu-
tados imediatamente;
- Comandos DO e END podem ser usados para executar um grupo de comandos quando se
encontra uma condição, normalmente, para ampliar o comando IF-THEN/ELSE .
IF <expressão> THEN DO;
<comandos> ;
Exemplo simulado no SAS
DATA TRABALHO ;
INFILE "A:\EMPRESA.DAT" ;
INPUT NOME $ 1-8 DEP_NO $ 10-12 COM 14-17 SALARIO 19-23 ;
IF DEP_NO="201" THEN DO ;
DEP="VENDAS" ;
SAL=COM+SALARIO ;
END ;
ELSE DO ;
DEP="ADMINISTRATIVO" ;
SAL=SALARIO ;
END ;
PROC PRINT NOOBS ;
RUN ;
The SAS System NOME DEP_NO COM SALARIO DEP SAL CARLOS 201 1500 1500 VENDAS 3000 ELIANE 101 . 1800 ADMINI 1800 ALVARO 101 . 3800 ADMINI 3800 FATIMA 201 500 1500 VENDAS 2000
40
11.3 - Comando INPUT
- Tipo: Comando de execução;
- Uso: Data Step;
- O comando INPUT serve para descrever ao SAS como estão armazenados e organizados os
dados em arquivos textos que foram especificados pelo comando INFILE.
- Todo arquivo aberto pelo comando INFILE, sempre necessitará de um comando INPUT
para ler o seu conteúdo;
- O comando INPUT irá ler registro a registro (leitura sequencial) até encontrar "fim de arqui-
vo (EOF)", e irá atribuir nomes (Variáveis) para cada campo de um registro;
- Dois tipos básicos de comando INPUT, são os mais utilizados:
- INPUT COLUNADO
- INPUT FORMATADO
11.4 - Input Colunado
- Lê as variáveis especificando a sua posição na linha de dados (posição inicial e posição fi-
nal). As variáveis devem estar alinhadas e colunadas no arquivo de leitura de dados.
INPUT <variável> [$] <início>-<fim> [.decimal] ;
variável Nome da variável, que será associada a uma coluna de dados.
$ Caractere opcional que indica que a variável só irá conter dados alfanuméricos.
Sem o $, significa que a variável será numérica.
início Valor que indica a posição inicial da variável na linha de dados.
Fim Valor que indica a posição final da variável na linha de dados.
.decimal Valor opcional, indica o número de posições decimais de uma variável numérica.
11.5 - Input Formatado
- Lê as variáveis especificando o tamanho e, opcionalmente, o formato do campo na linha de
dados.
- É o tipo de INPUT mais poderoso e complexo do SAS.
INPUT <variável> [$] <w.d> ou [fomatow.d] ;
variável Nome da variável, que será associada a uma coluna de dados.
$ Caractere opcional que indica que a variável só irá conter dados alfanuméricos.
Sem o $, significa que a variável será numérica.
w. Valor que indica o tamanho de um campo na linha de dados.
w.d Valor que indica o tamanho de um campo numérico com casas decimais.
41
formatow.d Campo opcional. Nome de um formato especial de leitura de dados:
BINARYw.d Lê campo numérico no formato binário e o converte para decimal;
COMMAw.d Lê campo numérico com vírgulas e as retira;
Ew.d Lê campo numérico com notação científica;
HEXw. Lê campo numérico em hexadecimal;
DDMMYYw. Lê campo no formato padrão de datas dd/mm/yyyy.
11.6 - Controles Especiais do Comando INPUT
Indicador de COLUNA ( @ )
@n Move a leitura para a coluna n ;
Indicador de LINHA ( / ) / Avança a leitura em um registro;
Exemplo simulado no SAS DATA POSICAO ;
INFILE "C:\SAS\POS.DAT" ;
INPUT A $ 1-5 @10 B $ 4. @17 C $ 4. / D $ 1-4 / E $ 4. @8 F $ 2. ;
RUN;
PROC PRINT ; RUN ;
01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20
1 1 1 1 1 B B B B C C C C
D D D D
E E E E F F
2 2 2 2 2 b b b b c c c c
d d d d f f
e e e e
The SAS System
OBS A B C D E F
1 11111 BBBB CCCC DDDD EEEE FF
2 22222 bbbb cccc dddd eeee ff
11.7 - Detalhes do Comando INPUT
- Em campos numéricos não são permitidos "brancos" entre os números;
- Sinal (+ - ), ponto decimal (.) e notação científica para expoente (E) são permitidos em cam-
pos numéricos;
- Campos tipo caractere podem ter, no máximo, 32K de caracteres;
42
- São permitidos caracteres "brancos", em qualquer posição, em campos do tipo caractere;
- Campos em branco (sem informação) são considerados como "missing value" (valor perdi-
do).
- Os campos de um registro de dados podem ser lidos em qualquer ordem.
INPUT PESO 17-20 NOME $ 1-8 IDADE 11-12 SEXO $ 9 ;
- Campos ou partes de um campo podem ser relidos.
INPUT NOME $ 1-8 PREFIXO $ 1-3 ENDERECO $ 10-40 APT $ 38-40 ;
- Dados caracteres serão armazenados, alinhados pela esquerda, e os dados numéricos, alinha-
dos pela direita;
- Todos os tipos de INPUT, podem ser combinados num único comando INPUT;
Ex: Detalhes de leitura
INPUT JAN 3. FEV 3. MAR 3. ABR 3. MAI 3. JUN 3. ;
INPUT (JAN FEV MAR ABR MAI JUN) (3.) ;
INPUT (MES1 MES2 MES3 MES4 MES5 MES6) (3.) ;
INPUT (MES1-MES6) (3.) ;
43
12 - Referências
BUSSAB, W. O., MORETTIN, P. A. Estatística Básica. São Paulo: Saraiva. 5º edição, 2005.
MAGALHÃES, M. N., LIMA, A. C. P. Noções de Probabilidade e Estatística, São Paulo:
Edusp, 5ª. edição, 2004
TACHIBANA, V. M. Notas de aulas de Computação Aplicada à Estatística. Presidente
Prudente, 2007.
Manuais do SAS.