43
UNIVERSIDADE ESTADUAL PAULISTA "JÚLIO DE MESQUITA FILHO" Campus de Presidente Prudente Principais Distribuições de Probabilidade e Noções Básicas de SAS Relatório das atividades desenvolvidas no período de 26/04/2008 a 27/02/2009 da Bolsa de Apoio Acadêmico e Extensão I (PAE) . Bolsista: Fabiano José dos Santos Orientadora: Vilma Mayumi Tachibana Presidente Prudente 2009

Principais Distribuições de Probabilidade e Noções Básicas de SAS

  • Upload
    1019525

  • View
    139

  • Download
    4

Embed Size (px)

Citation preview

Page 1: Principais Distribuições de Probabilidade e Noções Básicas de SAS

UNIVERSIDADE ESTADUAL PAULISTA "JÚLIO DE MESQUITA FILHO"

Campus de Presidente Prudente

Principais Distribuições

de Probabilidade e Noções Básicas de SAS

Relatório das atividades desenvolvidas no período de 26/04/2008 a 27/02/2009 da Bolsa de Apoio Acadêmico e Extensão I (PAE)

. Bolsista: Fabiano José dos Santos Orientadora: Vilma Mayumi Tachibana

Presidente Prudente 2009

Page 2: Principais Distribuições de Probabilidade e Noções Básicas de SAS

2

Índice

1 - Introdução....................................................................................................... 4 2 - O que faz um Estatístico................................................................................ 5 3 - Variáveis Aleatórias Discretas......................................................................

6

3.1- Introdução......................................................................................................

6

3.2 - Funções discretas de probabilidade.............................................................. 6 3.3 - Esperança Matemática (Média)..................................................................... 6

3.4 -Variância......................................................................................................... 7

3.5 - Desvio Padrão............................................................................................... 7

4 - Principais Modelos Discretos........................................................................

9

4.1 - Modelo Uniforme Discreto........................................................................... 9 4.2 - Distribuição de Bernoulli.............................................................................. 9 4.3 - Modelo Binomial.......................................................................................... 10

5 - Outros Modelos Discretos..............................................................................

12

5.1 - Modelos Geométricos................................................................................... 12 5.2 - Modelo de Poisson........................................................................................ 13 5.3 - Modelo Hipergeométrica.............................................................................. 13

6 - Variáveis Aleatórias Contínuas....................................................................

15

6.1- Introdução...................................................................................................... 15 6.2 - Esperança e Variância.................................................................................. 16 6.3 - Distribuição Continua Uniforme................................................................... 16 6.4 - Distribuição Exponencial.............................................................................. 17 6.5 - Distribuição Normal...................................................................................... 18 6.6 - Função Densidade de Probabilidade da Distribuição Normal...................... 18 7 - Outros Modelos Contínuos...........................................................................

22

7.1 - Distribuição gama......................................................................................... 22 7.2- Distribuição Qui-Quadrado………………………………………………… 23 7.3 - Distribuição t-Student…………………………………………………….. 25

8 - Variáveis Aleatórias Multidimensionais......................................................

27

8.1- Distribuições Marginais................................................................................. 27

Page 3: Principais Distribuições de Probabilidade e Noções Básicas de SAS

3

9 - Medidas de Posição e Dispersão...................................................................

28

9.1 - Média............................................................................................................ 28 9.2 - Mediana……………………………………………………………………. 28 9.3 - Moda………………………………………………………………………. 28 9.4 - Variância....................................................................................................... 28 9.5 - Desvio Padrão ………………………………………………...................... 29 9.6 - Covariância………………………………………………………………... 29 9.7 - Coeficiente de Correlação…………………………………………………. 29 9.8 - Coeficiente de Variação …………………………………………............... 29 9.9 - Amplitude ………………………………………………………………… 29

10 - SAS Programação…………………………………………………………

31

10.1 - Introdução……………………………………………………………....... 31 10.2 - Conceitos Basicos…………………………………………………........... 31 10.3 - Estrutura do arquivo SAS........................................................................... 32 10.4 - Nomenclatura para arquivos de variáveis................................................... 32 10.5 - Estrutura PROC STEP................................................................................ 33 10.6 - Procedimento PRINT.................................................................................. 34 10.7 - Síntese dos Comandos................................................................................ 34 10.8 - Comando LIBNAME.................................................................................. 35

11 - Alguns comandos básicos de programação do SAS..................................

36

11.1 - Comando IF-THEN/ELSE.......................................................................... 37 11.2 - Comandos DO/END................................................................................... 39 11.3 - Comando INPUT........................................................................................ 40 11.4 - Input Colunado........................................................................................... 40 11.5 - Input Formatado.......................................................................................... 40 11.6 - Controles Especiais do Comando INPUT................................................... 41 11.7 - Detalhes do Comando INPUT................................................................... 45 12 - Referências....................................................................................................

43

Page 4: Principais Distribuições de Probabilidade e Noções Básicas de SAS

4

1 - Introdução

O cidadão comum pensa que a estatística se resume apenas a apresentar tabelas de nú-

meros em colunas esportivas e ou econômicas de jornais e revistas, ilustradas com gráficos,

pilhas de moedas, etc. ou quando muito associam a estatística á previsão de resultados eleito-

rais. Mas estatístico de hoje não se limita a compilar tabela de dados e os ilustrar graficamen-

te. Pois á partir de 1925, com os trabalhos de Fisher, a estatística iniciou-se como método ci-

entífico, então, o trabalho do estatístico passou a de ajudar a planejar experimentos, interpre-

tar e analisar os dados experimentares e apresentar os resultados de maneira a facilitar a to-

mada de decisões razoáveis. Deste modo, podemos então definir a estatística como sendo a

ciência que se preocupa da coleta, organização, apresentação, análise e interpretação dos da-

dos. Didaticamente podemos dividir a estatística em duas partes a estatística descritiva e a

inferência estatística. A estatística descritiva se refere à maneira de apresentar um conjunto de

dados em tabelas e gráficos, e ao modo de resumir informações contidas nesses dados de me-

didas. Já a inferência estatística baseia-se na teoria de probabilidade para estabelecer conclu-

sões sobre todo um grupo (chamado população), quando se observou apenas uma parte (a-

mostra) desta população.

É necessário ter em mente que a estatística é uma ferramenta para o pesquisador, nas

respostas dos “por quês” de seus problemas. E que para ela ser bem usada é necessário conhe-

cer seus fundamentos e princípios, e acima de tudo que o pesquisador desenvolva um espírito

critico e jamais deixe de pensar. Pois “em ciência é fácil mentir usando a estatística, o difícil é

falar a verdade sem usar a estatística”.

Este relatório apresenta alguns resultados de estudo de estatística descritiva, probabili-

dade e comandos básicos de SAS, tendo como base os livros de Bussab (2005), Magalhães e

Lima (2002) e a apostila do curso Computação Aplicada à Estatística elaborada por Tachibana

(2007). Adotou-se como referência esses livros por serem bastante didáticos e por apresenta-

rem questões atuais e interessantes. Esses autores não serão referenciados ao longo do relató-

rio, mas todas as teorias e exercícios apresentados são retirados de seus livros. Esse relatório

tem presente apenas uma síntese, desses estudos, com apresentação de resoluções de alguns

exercícios propostos na literatura citada.

Page 5: Principais Distribuições de Probabilidade e Noções Básicas de SAS

5

2 - O que faz um Estatístico

A atividade básica de Estatístico é coletar, analisa e interpretar numericamente as

informações. É assim que ele trabalha em uma pesquisa de opinião pública ou de análise de

mercado, planejando, dirigindo e efetuando levantamento estatístico de controle de qualida-

de e analisando dados obtidos em recenseamentos. O campo de atuação vai muito além dis-

so: nas empresas (pública ou privada) podem trabalhar como dirigentes (diretores, gerentes,

...), em áreas de planejamento financeiro e de produção, aplicando métodos estatísticos no

controle de qualidade de produtos. Na indústria farmacêutica a Estatística é aplicada para

analisar e testar novos produtos. Na Medicina, a Estatística vem sendo utilizada nos estudos

de epidemias, na análise de novos métodos clínicos e cirúrgicos, no registro e coleta de da-

dos sobre a saúde pública. Na agroindústria, a busca de técnicas que possibilitem aumento

na produção e diminuição nos custos, melhoria genética, entre outros, tem exigido a partici-

pação efetiva de Estatísticos, para orientar, planejar e desenvolver e implementar novas tec-

nologias. Na indústria de manufatura propriamente dita, o Estatístico desempenha papel

fundamental: otimizando processos, buscando continuamente a melhoria da qualidade de

serviços e produtos. Nas Ciências Atuariais, desenvolvendo e gerenciando planos de saúde,

fundos de pensão ou previdência privada. Resumindo: O Estatístico é um profissional que

produz informação especializada para um mundo cada vez mais especializado. É graças a

isto e à sua atuação diversa que o Estatístico está conquistando o mercado de trabalho num

crescimento constante e contínuo.

Page 6: Principais Distribuições de Probabilidade e Noções Básicas de SAS

6

3 - Variáveis Aleatórias Discretas

3.1 - Introdução

Neste capítulo, incorpora-se o conceito de probabilidade no estudo de variáveis associa-

das a características em uma população. Na formalização feita com a introdução de probabili-

dades, serão tratadas apenas variáveis quantitativas. Haverá distinção entre o caso discreto e

contínuo, pois a atribuição de probabilidades será diferente em cada situação. As variáveis

qualitativas podem ser, em algumas ocasiões e com devido cuidado, tratadas como discretas

na atribuição de probabilidades.

3.2 - Funções discretas de probabilidade

A função que atribui a cada valor da variável aleatória sua probabilidade é denominada

de função discreta de probabilidade ou simplesmente função de probabilidade. A notação a

ser utilizada é:

( ) ( ) , 1,2,...i i ip X x p x p i= = = =

Uma função de probabilidade satisfaz 0 1ip≤ ≤ e 1.ii

p =∑

Note que, na maioria dos casos, X terá apenas um número finito de valores possíveis e,

assim, a verificação de que a soma de probabilidade é igual a 1 será feita por uma soma finita.

As variáveis aleatórias são completamente caracterizadas pela sua função de probabilidade e

uma parte importante da Estatística é justamente obter, pra uma dada variável de interesse, a

função de probabilidade que melhor represente seu comportamento na população.

3.3 - Esperança Matemática (Média)

Assim como a média de uma distribuição de freqüências é definida como soma de

produtos dos diversos valores observados pelas respectivas freqüências relativas, é natural

definir a média de uma variável aleatória (v.a.), ou de sua distribuição de probabilidade, como

a soma de produtos dos diversos valores de xi da v.a. pelas respectivas probabilidades P(xi).

A média de uma v.a. X é também chamada valor esperado ou esperança matemática,

ou simplesmente esperança de X. É representada por E(X) e se define como:

∑=

===++=+==n

1iiinn2211 )xX(Px)xX(Px)xX(Px)xX(Px)X(E ⋯

É uma média ponderada dos xi, em que os pesos são as probabilidades associadas.

Page 7: Principais Distribuições de Probabilidade e Noções Básicas de SAS

7

Função de repartição ou de distribuição acumulada.

Uma maneira alternativa pela qual pode-se caracterizar a distribuição de probabilidade

de uma v.a é por meio da sua “função de repartição ou distribuição acumulada” , designada

por F(X). Essa função é definida por

( ) ( )F X p X x= ≤

Para as variáveis aleatórias discreta tem-se que:

( ) ( )i

ix x

F X p x≤

=∑

3.4 - Variância

Assim como a média é uma medida de posição de uma v.a., é natural que se procure

uma medida de dispersão dessa variável em relação à média. Existem várias formas de se ob-

ter essa medida, sendo a que melhor representa essa dispersão a variância, representada por σ2

e definida por:

∑=

=−==σn

1ii

2i

2 )xX(P))X(Ex()X(Var

Desenvolvendo o termo quadrático do somatório, obtem-se uma expressão mais fácil

de calcular a variância dada por:

222 )]X(E[)X(E)X(Var −==σ ,

na qual ∑=

==n

1ii

2i

2 )xX(Px)X(E .

3.5 - Desvio Padrão

O desvio padrão (σ) é a raiz quadrada positiva da variância. Tem sobre essa última a

vantagem de exprimir a dispersão na mesma unidade de medida da v.a.:

2σ=σ

Exercícios: Seja X uma v.a. discreta assumindo valores no conjunto 1,2,3 e com distribui-

ção de probabilidade dada por

Tabela 1: Distribuição da variável aleatória X

X 1 2 3

P(X = x) 1/3 1/6 1/2

Page 8: Principais Distribuições de Probabilidade e Noções Básicas de SAS

8

a) Obtenha a distribuição da função acumulada:

b) Calcule a média e a variância de X;

c) Calcule ( 2)P X ≥ e ( 2).P X >

Solução:

A função de distribuição acumulada de X é definida por

;

F (x) = P(X x) = P(X = y)xy y x≤

≤ ∑

Para todo ℜ∈x . Portanto,

0 se x < 1

1/3 se 1 x < 2F (x) =

1/2 se 2 x < 3

1 se x 3.

x

≤ ≤ ≥

A média de X é dada por:

1 1 1 13

E(X) = P(X = x) = 1. 2. 3.3 6 2 6x

x + + =∑

Como,

2 2 1 1 1 33E(X ) =x P(X = x) = 1. 4. 9.

3 6 2 6+ + =

Segue que a variância de X é dada por:

2

2 2 33 13 29V (X) = E(X ) - [E(X)] =

6 6 36 − =

Outro modo de calcular V(X) seria calcular a soma

2 2V (X) = E[(X - E(X)) ] = (x - (13/6)) P(X = x)x∑

Finalmente,

2

P(X 2) = P(X = 2) + P(X = 3) =3

≥ e 1

P(X > 2) = P(X = 3) = .2

Page 9: Principais Distribuições de Probabilidade e Noções Básicas de SAS

9

4 - Principais Modelos Discretos

Algumas variáveis aleatórias aparecem com bastante freqüência nas situações práticas e

justificam um estudo mais aprofundado. Em geral nesses casos, a distribuição de probabilida-

de pode ser escrita de uma maneira mais compacta, isto é, existe uma lei pra atribuir as proba-

bilidades.

4.1 - Modelo Uniforme Discreto

Seja X uma variável aleatória cujos possíveis valores são representados por 1 2, ,...,x x .

Diz-se que X segue o modelo Uniforme Discreto se atribui a mesma probabilidade 1/k para

cada um desses k valores, isto é sua função de probabilidade é dada por:

( ) 1/ ,jp X x k= = 1,2,...., .j k∀ =

Observe que a expressão são probabilidades, uma vez que seus valores estão no intervalo

[0,1] e a soma de todas as probabilidades é igual a 1. O modelo Uniforme tem esse nome pois

todos os seus valores ocorrem com a mesma probabilidades e, assim, pode-se dizer que a pro-

babilidade se distribui uniformemente entre os diversos valores.

Exemplo: Número de Caras em único arremesso de uma moeda honesta.

Neste experimento o espaço amostral é H, T , sendo H cara e T coroa. A variável aleatória

que escreve o número de caras em um único arremesso é NH(H) = 1 e NH(T ) = 0. Como a

moeda é honesta a distribuição de probabilidades é P(xj ) = 1/2 com xj não nulo em 0, 1.

4.2 - Distribuição Discreta Bernoulli

Seja um experimento no qual só pode ocorrer “sucesso “ ou fracasso “ e associa-se

uma v.a X aos possíveis resultados, de forma que: x = 1 se o resultado for um sucesso e x = 2

se o resultado for um fracasso

Diz-se que a variável aleatória assim definida tem distribuição de Bernoulli. Sendo p a

probabilidade de ocorrer um sucesso, a probabilidade de ocorrer um fracasso será q = 1 – p e

a função probabilidade da distribuição Bernoulli será:

, 1 ( )

( ) 1 0 ( )

0

p se k Sucesso

p X k p se k Fracasso

se outro caso

== = − =

Pode-se observar que: pXE =)( e .)( pqXVar =

Page 10: Principais Distribuições de Probabilidade e Noções Básicas de SAS

10

Obs: Essa distribuição tem importância como geradora de outras distribuições.

Exercício: Uma urna tem 30 bolas brancas e 20 verdes. Retira-se uma bola dessa urna. Seja

X: nº de bolas verdes. Calcular E(X), Var(X) e determinar P(X).

Solução:

1

30 30 50 5 ( ) (2 5) .(3 5)20 21 50 5

x xq

X P X xp

− = == ∴ = =

= =

֏

֏

2( ) 5( ) . (2 5).(3 5) 6 25

E X p

Var X p q

= =

= = =

4.3 - Modelo Binomial

Considere a repetição de n ensaios de Bernoulli independentes e todos com a mesma

probabilidade de sucesso p. A variável aleatória que conta o número total de sucesso é deno-

minada Binomial com parâmetros n e p e sua função de probabilidade é dada por

( ) (1 ) , 0,1,2,...., ,k n knp X k p n k n

k−

= = − =

Com n

k

representando o coeficiente binomial calculado por !

!( )!

n n

k k n k

= −

Usa-se a notação X ~ b(n, p) para indicar que a variável aleatória X segue o modelo Bi-

nomial com parâmetros n e p. As probabilidades são caracterizadas pela informação dos pa-

râmetros.

Em situação práticas, a variável Binomial aparece a partir de outras variáveis, pela cri-

ação de duas categorias excludentes.

Na distribuição Binomial tem-se:

E(X) = Np e Var(X) = npq.

Exercícios: 1) Uma moeda perfeita e lançada quatro vezes. Seja Y o número de caras obtidas.

Calcule a distribuição de Y.

Solução: Observe que Y assume valores no conjunto 0, 1, 2, 3, 4. Portanto, a distribuição de Y é

dada por:

Page 11: Principais Distribuições de Probabilidade e Noções Básicas de SAS

11

4 44

4

1 1P(Y = y) = C 1

2 2 2

y yy

y

C− − =

, para y = 0, 1, 2, 3, 4.

2) Repita o problema anterior, considerando agora que a moeda é viciada, sendo a probabili-

dade de cara dada por p, com 0 < p < 1.

Solução:

Observe que Y assume valores no conjunto 0, 1, 2, 3, 4. Portanto distribuição de Y é

dada por:

4 4-yP(Y = y) = C p (1 - p)yy , para y = 0, 1, 2, 3, 4.

Page 12: Principais Distribuições de Probabilidade e Noções Básicas de SAS

12

5 - Outros Modelos Discretos

Apresenta-se neste capítulo, os modelos Geométricos, Poisson e Hipergeométrico, que

têm várias aplicações práticas. No capítulo anterior, os modelos definidos assumiram apenas

um número finito de valores distintos. Como será visto a seguir, os modelos Geométricos e

Poisson podem ter um número infinito de valores dentre os inteiros positivos.

5.1 - Modelos Geométricos

Tem-se agora repetição da Bernoulli até que o sucesso ocorra. Assim a v.a. X assume os

valores possíveis 1, 2, 3....., k, .... de número de repetição até ocorrer um sucesso .

Supõe-se que um dado é jogado até que se obtenha sucesso. Sendo + para sucesso e –

para Fracasso, tem-se:

, , , , , , ...........,− − − − − − +

Desta forma pode-se fazer com que p seja a probabilidade de sucesso e q = 1 – p a pro-

babilidade de fracasso, então:

1( ) 1,2, .....kp X k q p para k−= = =

Para que a distribuição satisfaça as condições necessárias de uma distribuição Geométri-

ca é preciso que:

1) 00

1

( ) 1k

p X k=

= =∑ e 2) ( ) 0p X k= ≥ .

Analogamente tem-se que 1( )E X

q= e

2( )

qVar X

p=

Exercícios: 1)Suponha que uma moeda perfeita é lançada até que cara apareça pela primeira

vez. Seja X o número de lançamento até que isso aconteça. Obtenha a distribuição de X.

Solução:

Observe que X assume valores no conjunto 1, 2, 3,..... Portanto, a distribuição de X é

dada por 1

1 1 1P(X = x) =

2 2 2

X

X

− =

, para x = 1, 2, 3,.....

2) Repita o problema anterior, considerando agora que a moeda é viciada, sendo a probabili-

dade de cara dada por p, com 0 < p < 1.

Page 13: Principais Distribuições de Probabilidade e Noções Básicas de SAS

13

Solução:

Nesse caso a distribuição de X é dada por x-1P(X = x) = (1 - p) p, para x = 1, 2, 3,.....

5.2 - Modelo de Poisson

Uma variável aleatória X tem distribuição de Poisson com parâmetros0λ > se sua fun-

ção de probabilidade é dada por:

( ) , 0,1,2,3........,!

kep X k k

k

λλ−

= = =

Com o parâmetro λ sendo usualmente referido como taxa de ocorrência. A notação será

0~ ( ).X P λ λ é a freqüência média ou esperada de ocorrências num determinado intervalo de

tempo.

Analogamente tem-se que E(X) = λ t e Var(X) = λ t.

Exercício: Em um processo de fabricação de perfil de alumínio aparece em média uma falha

a cada 400 metros. Qual a probabilidade de ocorrer 3 falhas em 1000 metros de perfil?

Solução:

Sabe-se que ( )!

kep X k

k

λλ−

= = . Logo, como k = 3 e 1

400λ = , portanto:

3 3

1

4001

.1000400

1 1000.1000

1400 400( 3) . 0,2137

3! 6P X e

e

= = = =

5.3 - Modelo Hipergeométrica

Essa distribuição é adequada quando se consideram extrações casuais feitas sem reposi-

ção de uma população dividida segundo dois atributos. Para ilustrar, considere uma população

de N objetos, r dos quais têm atributos A e N – r têm o atributo B. Um grupo de n elementos é

escolhido ao acaso, sem reposição. É de interesse calcular a probabilidade de que esse grupo

contenha k elementos com o atributo A. Pode-se ver facilmente, utilizando o princípio multi-

plicativo, que essa probabilidade é dada por:

,k

r N r

k n kp

N

n

− − =

Page 14: Principais Distribuições de Probabilidade e Noções Básicas de SAS

14

na qual os pares ( , )kk p constituem a distribuição hipergeométrica de probabilidades. Se a v.a.

X for definida como os números de elementos na amostra que tem atributos A, e então,

0 min( , ).k r n≤ ≤

Analogamente, tem-se que ( )E X np= e ( ) (1 )1

N nVar X np p

N

−= −−

.

Exercícios: Uma caixa contem 12 lâmpadas das quais 5 estão queimadas. São escolhidas 6

lâmpadas ao acaso para iluminação de uma sala. Qual a probabilidade de que:

a) Exatamente duas estejam queimadas?

b) Pelo menos uma esteja boa?

Solução : a) Observe que:

Logo, tem-se que:

5 7.

2 4( 2) 0,3788

12

6

P X

= = =

.

b) Pelo que se pode observar, tem-se que ( 6) 0P X = = , pelo fato de não existir 6 lâmpadas

queimadas. Portanto: ( 6) ( 5) ( 6) 1P X P X P X< = ≤ − = = .

Page 15: Principais Distribuições de Probabilidade e Noções Básicas de SAS

15

6 - Variáveis Aleatória Contínuas

6.1 - Introdução

Neste capítulo serão estudados modelos probabilísticos para variáveis aleatórias contí-

nuas, ou seja, variáveis para as quais possíveis valores pertencem a um intervalo de números

reais.

Uma função X, definida sobre espaço amostral Ω e assumindo valores num intervalo

de números reais, é dita uma variável aleatória contínua.

A característica principal de uma v.a. contínua é que, sendo resultado de uma mensu-

ração, o seu valor pode ser pensado como pertencente a um intervalo ao redor do valor efeti-

vamente observado. Por exemplo, ao dizer que a altura de uma pessoa é 1,75 cm, está-se me-

dindo sua altura usando cm com unidade de medida e portando o seu valor observado é, na

realidade, um valor entre 174,5 cm e 175,5 cm.

Definição: Seja X uma variável aleatória. Suponha que os possíveis valores de X seja um in-

tervalo que possui infinitos valores, então se diz que X é uma variável aleatória contínua.

Se X é uma v. a. contínua, a função densidade de probabilidade f(X), indicada abrevia-

damente por fdp, é uma função que satisfaz às seguintes condições:

(a) f(X) ≥ 0, ∀ X;

(b) A área sob a função densidade de probabilidade é 1, isto é:

(c) P(a ≤ X ≤ b) = área sob a função densidade de probabilidade f(x) e acima do eixo x entre

os pontos a e b, isto é:

(d) P(X = x0) = 0, porque:

Conseqüência: P(a < X < b) = P(a ≤ X < b) = P(a < X ≤ b) = P(a ≤ X ≤ b)

Se X é uma v. a. contínua, a função de distribuição acumulada (fda) de X é definida

como: ∫ ∞−=≤= x dssfxXPxF )()()( .

1dx)x(f =∫+∞

∞−

∫=≤≤b

adx)x(f)bXa(P

0dx)x(f)xX(P 0

0

x

x0 === ∫

Page 16: Principais Distribuições de Probabilidade e Noções Básicas de SAS

16

Exemplo: Considere a seguinte densidade de probabilidade: f(x) = 2x, para 0 ≤ x ≤ 1 e f(x) =

0, fora desse intervalo. Obtenha a F(x) de X.

>

≤≤==

<

= ∫

1,1

10,0

2

0,0

)(0

22

x

xxx

ss

x

xFx

6.2 - Esperança e Variância

Se X é uma v. a. contínua, o valor esperado de X (ou esperança matemática de X) de-

notada por E(X) é definido como:

∫∞

∞−= dxxfxXE )()(

Exemplo: Para uma variável que têm densidade f(x) = 2x, 0 < x < 1, então:

3

2

0

1

3

222)( 3

1

0

1

0

2 ==== ∫ ∫ xdxxdxxxXE

Definição: A variância de uma variável aleatória contínua é definida por:

Var(X) = E(X2) – [E(X)]2, onde ∫∞

∞−= dxxfxXE )()( 22 .

Exemplo: Para uma variável que têm densidade f(x) = 2x, 0 < x <1, então:

3

2)( =XE e

4

2

4

222)( 1

04

1

0

1

0

322 ==== ∫ ∫ xdxxdxxxXE . Logo, Var(X) = 2/4 – (2/3)2 =1/18 =

0,056. Também se pode obter o Desvio Padrão: 23,0056,0 ≅ .

6.3 - Distribuição Continua Uniforme

Seja uma v. a. contínua que pode tomar qualquer valor no intervalo [a, b]. Se a proba-

bilidade da variável cair em um subintervalo for a mesma para qualquer outra subintervalo de

mesmo comprimento, tem-se uma distribuição uniforme.

Sua função densidade de probabilidade será:

1( )f X para a x b

b a= ≤ ≤

− e ( ) 0f x caso contrário= .

Tem-se que ( )2

a bE X

+= e 2( )

( )12

b aVar X

−= .

Exercícios: Dada a v.a. X, uniforme em (5, 10), calcule as seguintes propriedades:

Page 17: Principais Distribuições de Probabilidade e Noções Básicas de SAS

17

a) P(X < 7) b) P(8 < X < 9) c) P(X > 8,5) d) ( 7,5 2)P X − >

Solução:

Tem-se que: 1

, 5 10( ;5;10) 10

0 ,

se xf x

caso contrario

≤ ≤ =

a) 7 5

( 7) 0,410 5

p X−< = =−

b) 9 5 8 5

(8 9) (9) (8) 0,8 0,6 0,210 5 10 5

p x F F− −< < = − = − = − =− −

c) 8,5 7,5

( 8,5) (8,5) 0,710 5

p X F−> = = =−

d) ( 7,5 2)P X − > = logo, tem-se

7,5 2

2 7,5

9,5

x

x

x

− >> +>

ou

7,5 2

2 7,5

5,5

x

x

x

− + >− > −

< . Portanto,

9,5 5 5,5 5(5,5 9,5) (9,5) (5,5) 0,8

10 5 10 5p x F F

− −= < < = − = − =− −

6.4 - Distribuição Exponencial.

Uma v.a. contínua X que tome valores não negativos, terá distribuição exponencial

com parâmetros 0λ > , se sua função densidade e probabilidade for dada por

( ) 0

( ) 0

xf x e para x

f x Caso contrário

λλ −= >=

Assim, λ

dxxxfXE1

)()( ∫∞

∞−== e

22

1)())(()(

λdxxfXExXVar =−= ∫

∞− .

Exercício: Para uma variável Exponencial 1, determine a probabilidade de se sortear um va-

lor que se distancie no máximo 0,5 de média. Obtenha a expressão da função de probabilidade

dessa variável.Qual é o valor do terceiro quartil?

Solução:

Tem-se que : .1

1 e )1(~ =λExpX Logo,

1,51 11 1,5 0,5 1 1 5

0,5 10,5 1

0,680x x x xe dx e dx e e e e e e−− − − − − − −+ = − − − + − + =∫ ∫ .

Page 18: Principais Distribuições de Probabilidade e Noções Básicas de SAS

18

6.5 - Distribuição Normal

A distribuição Normal é uma das mais importantes distribuições contínuas de probabi-

lidade. Foi introduzida em 1730 por D´Moivre e depois foi muito utilizada em Astronomia

pelo alemão físico/matemático Gauss, trazendo muita confusão para várias pessoas que por

esse motivo, acham que foi Gauss que a descobriu.

Muitos dos fenômenos aleatórios de interesse comportam-se próximos a essa distribu-

ição com valores muito freqüentes em torno da média e diminuindo a freqüência à medida

que se afasta da média.

Nem todos os fenômenos se ajustam à distribuição Normal. Por exemplo, considere a

variável tempo de duração, em horas, de uma lâmpada de certa marca, conforme Figura 1.

Figura 1 – Tempo de duração, em horas, de uma determinada lâmpada

A experiência sugere que esta distribuição deve ser assimétrica com uma grande pro-

porção de valores entre 0 e 500 horas e uma pequena proporção de valores acima de 1500

horas

Obs: A distribuição utilizada nesse caso é a Distribuição Exponencial.

6.6 - Função Densidade de Probabilidade da Distribuição Normal

∞<<∞−=

−−xe

πσxf σ

µx

,2

1)(

2

2

1

2

Figura 2 - Gráfico da densidade Normal

Page 19: Principais Distribuições de Probabilidade e Noções Básicas de SAS

19

Propriedades:

A curva normal é simétrica em torno da média µ;

A moda e a mediana são iguais a µ;

Os pontos de inflexão são µ – σ e µ + σ;

A área sob a curva e acima do eixo horizontal é igual a 1.

Parâmetros: µµµµ : média ou valor esperado

σσσσ2: variância

Notação : X ~ N(µ, σ2)

A distribuição normal depende dos parâmetros µµµµ e σσσσ2

Figura 3 – Curvas Normais com médias diferentes e variâncias iguais.

Figura 4 – Curvas normais com a mesma média e variâncias diferentes.

µ1 µ2

___N(µµµµ , σσσσ12)

___N(µµµµ , σσσσ22)

___N(µµµµ , σσσσ32)

σσσσ 12 < σσσσ 2

2< σσσσ 32

Curvas normais com mesmo desvio padrão, mas com médias dife-rentes.

Page 20: Principais Distribuições de Probabilidade e Noções Básicas de SAS

20

Cálculo de Probabilidades

P(a < X < b)

Área sob a curva e acima do eixo horizontal (x) entre a e b.

a µ b

Figura 5 – Área correspondente a P (a < X < b)

Se X ~ N(µ ; σ2), define-se: σ

µ−= XZ . Então, E(Z) = 0 e Var(Z) = 1.

Figura 6 – Gráficos das funções densidades de X ~ N ( 2,σµ ) e Z ~ N (0, 1).

A variável Z ~ N (0,1) denomina-se normal padrão ou reduzida.

Portanto,

σσσσµµµµ−−−−<<<<<<<<

σσσσµµµµ−−−−====

σσσσµµµµ−−−−<<<<

σσσσµµµµ−−−−<<<<

σσσσµµµµ−−−−====<<<<<<<<

bZ

aP

bXaPbXaP )(

Dada a v.a. Z ~ N (0, 1) pode-se mos obter a v.a. X ~ N (µ, σ2) através da transformação in-

versa σZµX += .

a µµµµ b x

f(x)

0 z

f(z)

a – µµµµ σσσσ

b – µµµµ σσσσ

Page 21: Principais Distribuições de Probabilidade e Noções Básicas de SAS

21

Exercícios: A distribuição do tempo de duração de um certo tipo de pneu, em km, é uma va-

riável normal com duração média de 30.000 km e desvio padrão 10.000 km,

a) Qual a probabilidade de um pneu escolhido ao acaso durar mais de 75.000km?

b) Qual a probabilidade de um pneu durar entre 63.500 e 70.000 km?

c) Qual a probabilidade de um pneu durar entre 50.000 e 70.000 km?

d) Qual a probabilidade de o pneu dura exatamente 65.555 km?

e) O Fabricante deseja do pneu uma garantia de quilometragem de tal forma que, se a du-

ração do pneu for inferior a garantia, o pneu deve ser trocado. De quanto deve ser a

garantia para que somente 1% dos pneus sejam trocados?

Solução.

Pela definição sabe-se que a variável aleatória X pode ser transformada em padrão. Logo,

a) .0668,04332,05,0)5,1(5,0)5,1(10000

6000075000()75000( =−=<−=>=−>=> ZPZPZPXP

b)

.2045,01368,003413

)35,00()10(10000

60000635000

10000

6000700000

)6350060000()70000060000()7000063500(

=−

=<<−<<=

−<<−

−<<

=<<−<<=<<

ZPZPZPZP

XPXPXP

c) .6826,0)3413,0(2)10(2)10()01(

)11(10000

6000070000

10000

6000050000)7000050000(

==<<=<<+<<−

=<<−=

−<<−=<<

ZPZPZP

ZPZPXP

d) 0)65555( ==XP , pelo fato de ser quase impossível de ocorrer. A função de densidade é

contínua e pela definição de integral tem–se que em um ponto a integral é 0.

e)

km. 36700 Portanto, .2330060000

33,210000

60000 Daí, .

10000

60000

01,0)(

00

00

00

=−=−

⇒−=−

−<

=

−<==>

xx

xxZP

σ

µxZPxXP

Page 22: Principais Distribuições de Probabilidade e Noções Básicas de SAS

22

7 - OUTROS MODELOS

Juntamente com o modelo normal, esses modelos são úteis para as v.a. de interesse

prático, que na maioria dos casos assumem valores positivos e tendem a ter distribuições as-

simétricas à direita.

7.1 - Distribuição Gama

Aplica-se a distribuição gama à análise de tempo de vida de equipamentos, de tempo

de retorno de mercadorias com falhas e a testes de confiabilidade.

A função densidade de probabilidade para a distribuição gama é dada por:

xrr

exr

xf λλ −−

Γ= 1

)()( para x ≥ 0

0)( =xf para x < 0 ,

na qual os parâmetros da distribuição gama, que podem assumir qualquer valor positivo, são:

λ, taxa média do processo; r, número específico de eventos que ocorrem até que a variável X

(tamanho do segmento de tempo ou espaço) seja atingida e Γ(r) é a função gama, definida

por:

∫∞

−−=Γ0

1)( dxexr xr Para r > 0

Esta função é tabelada, sendo alguns valores apresentados a seguir juntamente com

algumas propriedades dessa função:

a) 1)1( =Γ

b) )()1( rrr Γ=+Γ

c) )1()1()( −Γ−=Γ rrr

d) !)1( kk =+Γ

e) π=Γ )2/1(

f) πk

kk

2

)12(*...*5*3*1)2/1(

−=+Γ

A Figura 7 apresenta a função f(x) para vários valores de r.

Page 23: Principais Distribuições de Probabilidade e Noções Básicas de SAS

23

f(x)

r=1 r=2 r=3

x

Figura 7 – Função Densidade de Probabilidade para a Distribuição Gama.

No caso especial de r = 1, tem-se a distribuição exponencial, pois Γ(1) = 1, ficando-se

com: xexf λλ −=)(

A distribuição gama se reduz à distribuição qui-quadrado, que será vista a seguir,

quando λ = 1/2 e r = d/2, em que d é um parâmetro inteiro positivo.

A distribuição de probabilidade é expressa por:

∫=≤x

dyyfxXP0

)()(

O valor esperado e a variância são calculados por:

2λλ

r)X(Var

r)X(E ==

Exercício: Calcule a probabilidade de passado um minuto no máximo, dois carros tenha che-

gado a uma cabine de pedágio, considerando que λ = 5 carros por minuto.

Solução:

Neste caso, r = 2, ficando-se com:

2

2 1( ) 1 (1 )1!

y xP X x y e dy eλ λλ λ− − −≤ = = − +∫

Como λ= 5, tem-se que: .96,06)006738,0(1)51(1)1( 1.5 =−=+−=< −eXP

7.2 - Distribuição Qui-Quadrado

Um caso especial importante do modelo gama é obtido fazendo-se / 2vα = e 2β = ,

com 0v > inteiro.

Page 24: Principais Distribuições de Probabilidade e Noções Básicas de SAS

24

Uma v. a. contínua Y, com valores positivos, tem uma distribuição qui-quadrado com

v graus de liberdade(denotada 2( ( ))denotada vχ , se sua densidade for dada por

/2 1 /2/2

1, 0,

( / 2)2( ; )

0, 0.

v yv

y e yvf y v

y

− − >Γ= <

Tem-se que νYVarνYE 2)( ,)( == e 0( )P Y y p> =

A distribuição qui-quadrado tem muitas aplicações em Estatística e, como no caso da

normal, existem tabelas para obter probabilidades. A tabela fornece os valores de 0y tais que

0( )P Y y p> = , para alguns valores de p e de v.

OBS: Essa distribuição é utilizada em testes de associação, homogeneidade e independência

entre duas variáveis, os famosos “Testes Qui-Quadrados”.

Exercício: Verifique se há evidência de associação entre as variáveis tipo de propaganda

(comercial) e o gênero das crianças, em um teste realizado com 125 crianças.

Tabela 2: Números de crianças segundo tipo de comercial escolhido e gênero.

Tipo de comercial Gênero A B C Total Menino 30 29 16 75 Menina 12 33 5 50 Total 42 62 21 125

Solução:

Calcula-se o valor esperado da célula menino que prefere a propaganda A (cruzamento da

primeira linha com primeira coluna), se não houvesse influência do sexo na preferência:

75*4225,2

125esperado= = . Assim calculando os valores esperados para todas as outras célu-

las tem-se:

Tabela 3 – Valores observados, esperados e suas diferenças no teste qui-quadrado

Tipo de comercial

Gênero A B C Total Menino

30 25,2 29 37,2 16 12,6 75

+4.8 -8,2 +3,4 Menina

12 16,8 33 24,8 5 8,4 50

-4,8 +8,2 -3,4 Total 42 62 21 125

Page 25: Principais Distribuições de Probabilidade e Noções Básicas de SAS

25

Calculando o Qui-Quadrado tem-se

2 2 2 2 2 22 ( 4,8) ( 8,2) ( 3,4) ( 4,8) ( 8,2) ( 3,4)

25,2 37,2 12,6 16,8 24,8 8,4amostraχ + − + − + −= + + + + +

2 0,914 1,808 0,907 1,371 2,711 1,376amostraχ = + + + + +

2 9,09818amostraχ = ⇒ ( 1).( 1) (2 1).(3 1) 1.2 2onde r c− − = − − = = (grau de liberdade da distri-

buição qui-quadrado)

Gráfico da distribuição Qui-Quadrado

Região de Aceitação Região de Rejeição p = 0,95 1 – p = 0,05

Pela destruição e pelo valor tabelado tem-se que: 2( 1)( 1); 5,991r c pχ − − = e 2 9,09818amostraχ = .

Portanto pelos resultados obtidos tem-se que há evidência de associação entre as variáveis.

7.3 - Distribuição t-Student

A Distribuição t de Student é importante no que se refere à inferência sobre médias

populacionais.O nome Student vem do pseudônimo usado pelo estatístico inglês W. S. Gosset,

que introduziu essa distribuição no início do século passado.

A v. a. X tem distribuição t de Student (ou simplesmente t) com média µ , parâmetros

de escala σ e v graus de liberdade, denotando-se 2~ ( , )vX t µ σ , se sua função de densidade é

dada por

2 ( 1)/2(( 1) / 2)( ; ) (1 / ) , 00 00

( / 2)vv

f t v t v tv vπ

− +Γ += + − < <Γ

Diz-se que tal variável tem uma distribuição t de Student com v graus de liberdade e

é indicada por t(v). Sua média é ( ) 0E t = e a variância é igual a ( )2

vVar t

v=

−.

Page 26: Principais Distribuições de Probabilidade e Noções Básicas de SAS

26

Exercício: Considere um teste de colisão de carros. A análise de 12 carros danificados resulta

num custo de conserto que parece ter distribuição em forma de sino, com média igual a R$

26,227 e desvio-padrão R$ 15,873. Determine:

a) a melhor estimativa pontual de µ(custo do conserto)

b) O intervalo de confiança para um nível de confiança de 95%

Solução:

a) É dada pela média da amostra .227,26=x b) Amostra pequena (n ≤ 30); desvio padrão desconhecido; distribuição é similar à distribui-

ção normal.

Na tabela: para a coluna 0,05 bilateral e grau de liberdade 2n-1=11 t =2,201α→ . Logo,

2

15873E= t . =2,201. 10.085,29

12

s

nα = . Portanto, ExµEx +<<−

.⇒

29,10085227,2629,10085227,26 +<<− µ ⇒ 29,3631271,16141 << µ

Construindo-se tais intervalos para 100 amostras de 12 carros cada uma, 95% desses interva-

los conterão a verdadeira média da população, ou seja, a custo médio do reparo.

Page 27: Principais Distribuições de Probabilidade e Noções Básicas de SAS

27

8 - Variáveis Aleatórias Multidimensionais

Uma v.a. Bidimensional é caracterizada por um par ordenado de valores assumidos

dentro de dado conjunto segundo as leis probabilísticas. Assim, se X for um ponto de um dado

branco e Y um ponto de um dado preto, considera-se a v.a. Bidimensional discreta (X, Y), tal

v.a. é caracterizada pela seguinte função de probabilidade:

1( , )

36p x y =

1,2,3,4,5,6

1,2,3,4,5,6

x

y

==

No caso de v.a. bidimensional contínua a distribuição de probabilidade será caracte-

rizada por função densidade de probabilidade bidimensional (ou conjunto) f(x,y).

Condições:

1) ( , ) 0f x y ≥

2) ∫ ∫∞

∞−

∞−=1),( dxdyyxf

Para uma dada região xyR tem-se [( , ) ] ( , )xy

xy

R

p x y R f x y dxdy∈ = ∫ ∫

8.1 - Distribuição Marginais

Supondo que se tem a distribuição de variável aleatória (X, Y), pode-se obter a distri-

buição apenas de X, independentemente do valor de Y, que será denominada Distribuição

Marginal de X. Pode-se assim proceder também em relação a Y, obtendo então a distribuição

marginal de Y.

Para uma dada Função de probabilidade ( , )i jp x y tem-se que:

( ) ( , )i i jj

P X x p x y= =∑ Marginal de X

( ) ( , )i i ji

P Y y p x y= =∑ Marginal de Y

Para caso contínuo, sendo g(x) a função densidade marginal de X, h(y) a função de

densidade marginal de Y, são respectivamente, ∫∞∞−= dyyxfxg ),()( e ∫

∞∞−= dxyxfyh ),()(

Page 28: Principais Distribuições de Probabilidade e Noções Básicas de SAS

28

9 - Medidas de Posição e Dispersão

9.1 - Média (Esperança ou Expectância) é definida por:

)()( ii

i xpxXEµ ∑== para o caso discreto,

ou

00

00

( ) ( )u E X xf x dx−

= = ∫ para caso contínuo.

A média tem as seguintes propriedades tais que (k é uma constante)

1) ( )E k k=

2) ( ) ( )E kX kE X=

3) ( ) ( ) ( )E X Y E X E Y± = ±

4) ( ) ( )E X k E X k± = ±

5)Se X e Y são independentes, então ( ) ( ) ( )E XY E X E Y= .

9.2 - Mediana

É o ponto que divide a distribuição em duas equiprováveis. É denotada por md, sendo

que ( ) ( ) 0,5P x md P x md< = > = .

A mediana representa uma função alternativa de caracterização do centro da distribui-

ção.

9.3 - Moda:

É o ponto de maior probabilidade, no caso discreto, ou maior densidade de probabili-

dade, no caso contínuo.

9.4 - Variância:

A variância será denotada por Var(X), ou simplesmente 2σ . É definida por:

2( ) [( ) ]Var X E x u= − ,

na qual ( )E X u= , 2 2( ) ( )i ii

E X x p x=∑ , para o caso discreto e 00

2 2

00

( ) ( )E X x f x dx−

= ∫ , para o

caso contínuo.

A variância tem as seguintes propriedades:

1) Var(k) = 0

Page 29: Principais Distribuições de Probabilidade e Noções Básicas de SAS

29

2) 2( ) ( )Var kX k Var X=

3) ( ) ( ) ( )Var X Y Var X Var Y± = +

4) ( ) ( )Var X k Var X± =

9.5 - Desvio Padrão

É a raiz da variância, denotada por ( )Dp X , tem a vantagem de ser expressa na mes-

ma unidade da variável ( ) ( )Dp X Var X=

9.6 - Covariância

Esta medida tem como objetivo mensurar a relação entre as variáveis aleatórias em

questão. Define-se ( , ) ( , ) ( ) ( )Cov x y E x y E x E y= −

9.7 - Coeficiente de Correlação

É definido por:

)().(

),(),(),(

YVarXVar

YXCovYXCorrYXρ == tal que .1),(1 ≤≤− yXρ

9.8 - Coeficiente de Variação

É definida como o quociente entre o desvio padrão e a média. Serve quando se deseja

ter uma idéia da dispersão relativa

( ). .( )

( )

Dp XC V X

E X=

9.9 - Amplitude

É dada pela diferença entre o maior e o menor valor possível da variável. E é denotada

por A.

Exercício: Seja a função densidade de probabilidade dada:

≤≤=

contrário caso,0

20 para,2)( xx

xf . Deter-

mine à média, mediana, moda, variância e desvio-padrão.

Solução:

Média 23

0

4( ) ( )

6 3

xE X xf x dx dx= = = =∫

Page 30: Principais Distribuições de Probabilidade e Noções Básicas de SAS

30

Mediana 2 2

0 0

( ) ( ) 0,5

0,5 0,5 22 4 4

mdmd

p x md p x md

x x mddx md

< = > =

= = ⇒ = ⇒ =∫

Moda (2) 1 max mof Valor i de probabilidade= ⇒

Variância ,)]([)()( 22 XEXEXVar −= com .28

16

0

2

82.)(

22

0

22 ==== ∫x

dxx

xXE Portanto,

9

2

9

16.2

3

42)(

2

==

−=XVar

Desvio-padrão 2 2( ) ( )

9 3dp X Var X= = =

Coeficiente de variação

2( ) 23( ) 0,35

4( ) 43

Dp XCV X

E X= = = ≅

Page 31: Principais Distribuições de Probabilidade e Noções Básicas de SAS

31

10. - SAS Programação

10.1 - Introdução

O SAS é um dos pacotes estatísticos mais utilizados pelas grandes corporações, em

mais de 100 diferentes países, com cerca de 40.000 licenças distribuídas e quase 4 milhões de

usuários. O nome nasceu como um acrônimo: Statistical Analysis System (SAS), mas a quan-

tidade de serviços e produtos oferecidos pela SAS (a companhia que produz o SAS) foi se

tornando tão diversa que hoje em dia o nome é simplesmente SAS.

As origens do software datam da década de 70, quando os computadores ainda eram

operados por cartões perfurados (o comando CARDS, dentro do passo DATA, vem justamente

daí) e o poder de processamento era muito baixo. O software é composto por diversos módu-

los, que provem soluções para problemas específicos e os principais são:

• SAS/Base: é o sistema básico do SAS, necessário para rodar qualquer outro produto

SAS. Ele contém o passo DATA, para manipulação de dados e alguns procedimentos

estatísticos simples.

• SAS/STAT: é o módulo que provê uma grande quantidade de métodos estatísticos, co-

mo regressão, ANOVA, análise multivariada, análise de sobrevivência entre outros.

• SAS/GRAPH: é o módulo que permite fazer gráficos em alta resolução.

• SAS/ETS: é o módulo que permite fazer análise de séries temporais.

• SAS/EG (ou Enterprise Guide): é uma interface gráfica para o SAS, permitindo fazer

algumas análises estatísticas apontando e clicando.

Ao comprar uma licença do programa, é necessário pagar uma taxa adicional por cada

módulo. Neste capítulo será apresentado alguns comandos básicos de programação que po-

dem ser executados no SAS, resultado do estudo introdutório deste software.

10.2 - Conceitos Básicos

DATA SET: Arquivo de dados com estrutura SAS;

OBSERVAÇÃO: Registro de um arquivo de dados SAS;

JOB SAS: Arquivo com um programa SAS (É um conjunto de DATA Step's e PROC Step's);

Page 32: Principais Distribuições de Probabilidade e Noções Básicas de SAS

32

DATA STEP: Divisão lógica de um programa SAS, no qual se cria e altera um, ou vários ar-

quivos SAS (Data Set's ou conjunto de dados de entrada);

PROC STEP: Divisão lógica de um programa SAS, no qual se analisa e manipula os dados

contidos num arquivo SAS (Data Set's);

OBS: A funcionalidade do Sistema SAS foi construída em torno de quatro idéias básicas no

tratamento de dados:

Acessar dados; Administrar dados; Analisar dados; Apresentar dados;

10.3 - Estrutura dos arquivos SAS

O arquivo SAS é um conjunto de dados arrumados num formato de tabela.

NOME SEXO IDADE ALTURA

As colunas nas tabelas são chamadas de variáveis:

- Variáveis correspondem aos campos de dados;

- Cada variável recebe um nome;

- Para o SAS, só existem dois tipos de variáveis: Caractere ou Numérica

As linhas na tabela são chamadas de observações (ou registros). Não existe limite para

o número de observações.

Um Arquivo SAS é dividido em duas partes:

Descritora : Contém a descrição do arquivo: Tamanho do arquivo, número de registros, no-

me, tipo, tamanho e formato de variáveis, etc;

Dados : Contém os dados do arquivo.

10.4 - Nomenclatura para arquivos e variáveis

Todos os nomes de arquivos e variáveis deverão seguir as seguintes regras:

CARLOS M 12 1.70 GILBERTO M 25 1.65 RICARDO M 30 1.80

. . . . . . . . . . . .

ALICE F 28 1.68 MARCIA F 22 1.75

Page 33: Principais Distribuições de Probabilidade e Noções Básicas de SAS

33

- Possuir de 1 à 32 caracteres;

- Começar com letra (A-Z);

- Pode continuar com números, letras ou travessões.

Exemplo 1: Foi usado o Comando INFILE: Comando que identifica e abre um arquivo ex-

terno de dados, somente para leitura.

Exemplo 2: Do seguinte conjunto, construir um arquivo de dados:

Nome Idade Peso Altura Maria 23 57 1,65 Pedro 21 73 1,75 Cristina 19 55 1,63

data exemplo; nome do arquivo

input nome $ idade peso altura; declaração das variáveis

cards; (ou datalines) indica que a linha dos dados vêm em seguida

Maria 23 57 1.65

Pedro 21 73 1.75

Cristina 19 55 1.63

; indica que terminou o conjunto de dados

Run; está pronto para ser executado.(executa os comandos anteriores).

10.5 - Estrutura PROC Step

Introdução

- É a seção de um programa SAS na qual se analisa os dados de um arquivo SAS, utilizando-

se procedimentos específicos para cada tipo de análise.

- A maioria dos procedimentos SAS gera relatórios técnicos;

- Todos os procedimentos iniciam com a palavra PROC seguida do nome específico do pro-

cedimento ou rotina desejada;

- Os comandos em uma PROC não seguem uma hierarquia, ou seja, podem ser colocados em

qualquer ordem dentro da PROC;

DATA EXEMPLO1

INFILE “C:\TEMP\CADASTRO.TXT”;

INPUT PRIMEIRO_NOME $ 1-8 SEXO $ 10 IDADE 13-14 ALTURA 16-19 ;

RUN;

Page 34: Principais Distribuições de Probabilidade e Noções Básicas de SAS

34

PROC <rotina> [opções] ; [comando] ; [comando] ; RUN ; rotina Palavra-chave que identifica o procedimento a ser executado.

opções Parâmetros opcionais de configuração para execução do procedimento.

comando Comandos de detalhamento na execução do procedimento.

RUN Comando para execução do procedimento SAS. Necessário no último procedimen-

to do programa SAS.

10.6 - Procedimento PRINT

- Procedimento do SAS que imprime, na saída padrão, os dados contidos nos arquivos SAS;

- A saída padrão é, normalmente, a janela OUTPUT.

PROC PRINT [opções] ; VAR <lista de variáveis> ; BY <lista de variáveis> ; SUM <lista de variáveis> ; opções DATA= Nome do arquivo SAS;

DOUBLE Espacejamento duplo;

NOOBS Suprime a coluna com o número de cada observação do arquivo;

LABEL Imprime os "label's" das variáveis;

VAR Determina uma lista de variáveis que serão impressas;

BY Determina a quebra ou agrupamento do relatório, por uma ou mais variáveis;

SUM Determina uma ou mais variáveis numéricas que serão totalizadas;

10.7 - Sintaxe dos Comandos

Todo comando SAS começa com uma palavra-chave (identificação) e termina com o

ponto e vírgula (;).

- Os comandos podem começar e terminar em qualquer parte da linha;

- Um comando pode se estender por diversas linhas;

- Vários comandos podem ficar na mesma linha.

Exemplo:

Page 35: Principais Distribuições de Probabilidade e Noções Básicas de SAS

35

10.8 - Comando LIBNAME

- Tipo: Comando de declaração;

- Uso: Livre;

- Comando opcional de configuração do processamento, que define uma ou mais áreas de

trabalho e armazenamento (diretórios), para os arquivos SAS (Data Set's);

- Define o primeiro nível de um nome de arquivo, a biblioteca SAS;

[biblioteca].<nome do arquivo> - O comando LIBNAME, normalmente, é colocado antes do comando DATA, e só será ne-

cessário ser executado uma única vez durante uma sessão SAS WINDOWS.

LIBNAME <biblioteca> "<diretório>" ;

Biblioteca Palavra de no mínimo 1 e no máximo 8 caracteres, que identifica o primeiro nível

em um nome de arquivo.

Diretório Nome de um diretório que já exista no seu ambiente.

OBS: O SAS define uma biblioteca padrão, temporária, de nome work.

Exemplo:

LIBNAME IN "C:\ALUNO" ;

DATA IN.EXEMPLO ;

INFILE "A:\CADASTRO" ;

INPUT NOME $ 1-30 SEXO $ 31 END $ 32-60 ;

PROC PRINT DATA=IN.EXEMPLO NOOBS ;

VAR NOME ENDERECO ;

RUN ;

DATA EXEMPLO1 ;

INFILE “C:\TEMP\DADOS.DAT” ;

INPUT NOME $ 1-8 SEXO $

IDADE $ 13-14 ALTURA 16-19 ;

RUN;

PROC PRINT DATA=EXEMPLO1 ;

RUN;

PROC FREQ DATA=EXEMPLO1 ; TABLES IDADE*ALTURA ; RUN ;

Page 36: Principais Distribuições de Probabilidade e Noções Básicas de SAS

36

11 – Alguns Comando Básico de Programação do SAS

- Comando de Atribuição (=)

- Tipo: Comando de execução;

- Uso: Data Step;

- Comando Caractere utilizado para criar novas variáveis e editar as já existentes em um Data

Step.

<variável> = <expressão> ;

variável Nome com no máximo 32 caracteres.

expressão Expressões do tipo:

o - Operações aritméticas simples: + - * / **

x2 = x ; Move valor;

soma = x+y ; Adição;

dif = x-y ; Subtração;

dobro = x*2 ; Multiplicação;

met = x/2 ; Divisão;

cubo = x**3 ; Potenciação;

y = -x ; Mudança de sinal;

o - Constantes :

N=0 ; Constante numérica; SEXO="F" ; Constante caractere;

o - Concatenação de caracteres : ||

A=”PAULO” || “ANTUNES”; ==> A=”PAULOANTUNES”

A=”PAULO” || “ ” || “ANTUNES”; ==> A=”PAULO ANTUNES”

o - Expressões complexas com prioridade de avaliação:

( ) Função ** * / + - =================> A = X+Y+Z ;

A = X+Y*Z ;

A = X/(Y/Z) ;

- Funções:

S = SQRT(X) ;

A = INT(X) ;

Z = ABS(SQRT(X)-2) ;

Page 37: Principais Distribuições de Probabilidade e Noções Básicas de SAS

37

Exemplo Simulado no SAS: LIBNAME ARQ "C:\SAS\TESTE" ;

DATA ARQ.LUCROS ;

INFILE “C:\DADOS\NUMEROS.TXT”;

INPUT ANO 1-2 RECEITA 4-7 DESPESAS 9-12;

VAL_DOL = 0.98 ;

ANO = ANO + 1900 ;

LUCRO = RECEITA - DESPESAS ;

DOLLAR = ( RECEITA - DESPESAS ) / VAL_DOL ;

RUN;

Arquivo: NUMEROS.TXT

01 02 03 04 05 06 07 08 09 10 11 12

9 4 5 6 5 0 1 0 5 0

9 5 6 2 8 0 1 1 4 0

9 6 8 4 5 0 2 4 5 0

PROC PRINT DATA=ARQ.LUCROS NOOBS DOUBLE ;

TITLE "Analise Contábil" ;

VAR ANO RECEITA DESPESAS LUCRO DOLLAR ;

SUM RECEITA DESPESAS LUCRO DOLLAR ;

RUN ;

Analise Contábil

ANO RECEITA DESPESAS LUCRO DOLLAR

1994 5650 1050 4600 4693.8775

1995 6280 1140 5140 5244.8979

1996 8450 2450 6000 6122.4489 ===== ==== ===== ========= 20380 4640 15740 16061.2240

11.1 - Comando IF-THEN/ELSE

- Tipo: Comando de Execução;

- Uso: Data Step;

- Comando que condiciona a execução de um outro comando SAS, de acordo com alguma

expressão, que determinará essa condição;

- Se a expressão, que determina a condição, for verdadeira, será executado o comando que

vier após o THEN . Se a condição for falsa, será executado o comando que vier após o ELSE.

Somente um comando após o THEN e do ELSE

Page 38: Principais Distribuições de Probabilidade e Noções Básicas de SAS

38

IF <expressão> [THEN] <comando> ;

[ELSE] <comando> ;

Expressão: Combinação de variáveis com operadores de comparação e/ou operadores lógicos

que determinam uma condição.

Comando: Comando do SAS que será executado de acordo com o resultado da condição.

Operadores de Comparação

GT > maior que LT < menor que EQ = igual a LE <= menor ou igual a GE >= maior ou igual a NE ~= não é igual (diferente) NL não é menor NG não é maior IN está no conjunto

Operadores Lógicos AND & e, ambos OR | ou, , um ou outro NOT ~ negação

Exemplo simulado no SAS. LIBNAME TESTE "A:\" ;

DATA TESTE.CLASSE ;

INFILE “C:\ESCOLA\CLASSE.TXT”;

INPUT NOM E $ 1-7 SEXO $ 8 IDADE 10-11 @13 ALTURA 4.2 ;

IF (SEXO="1" AND ALTURA<1.55) OR (SEXO="1" AND IDAD E<12)

THEN CLASSE="100" ;

ELSE IF (SEXO="2" AND ALTURA<1.55) OR (SEXO="2" AND IDADE<12)

THEN CLASSE="200" ;

ELSE CLASSE="300" ;

RUN;

Arquivo: CLASSE.TXT

01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16

P A U L A 1 1 1 1 . 6 0 F L A V I A 1 1 5 1 . 6 5 M A R C O S 2 1 1 1 . 6 0 L U I S 2 1 4 1 . 6 0

PROC PRINT NOOBS ; VAR NOME CLASSE ; RUN ;

Page 39: Principais Distribuições de Probabilidade e Noções Básicas de SAS

39

The SAS System

NOME CLASSE

PAULA 100 FLAVIA 300 MARCOS 200 LUIS 300

11.2 - Comandos DO/END

- Tipo: Comando de execução;

- Uso: Data Step

- Comando que define a execução de um bloco de comandos do SAS;

- Todos os comandos existentes entre o comando DO e o comando END, deverão ser execu-

tados imediatamente;

- Comandos DO e END podem ser usados para executar um grupo de comandos quando se

encontra uma condição, normalmente, para ampliar o comando IF-THEN/ELSE .

IF <expressão> THEN DO;

<comandos> ;

Exemplo simulado no SAS

DATA TRABALHO ;

INFILE "A:\EMPRESA.DAT" ;

INPUT NOME $ 1-8 DEP_NO $ 10-12 COM 14-17 SALARIO 19-23 ;

IF DEP_NO="201" THEN DO ;

DEP="VENDAS" ;

SAL=COM+SALARIO ;

END ;

ELSE DO ;

DEP="ADMINISTRATIVO" ;

SAL=SALARIO ;

END ;

PROC PRINT NOOBS ;

RUN ;

The SAS System NOME DEP_NO COM SALARIO DEP SAL CARLOS 201 1500 1500 VENDAS 3000 ELIANE 101 . 1800 ADMINI 1800 ALVARO 101 . 3800 ADMINI 3800 FATIMA 201 500 1500 VENDAS 2000

Page 40: Principais Distribuições de Probabilidade e Noções Básicas de SAS

40

11.3 - Comando INPUT

- Tipo: Comando de execução;

- Uso: Data Step;

- O comando INPUT serve para descrever ao SAS como estão armazenados e organizados os

dados em arquivos textos que foram especificados pelo comando INFILE.

- Todo arquivo aberto pelo comando INFILE, sempre necessitará de um comando INPUT

para ler o seu conteúdo;

- O comando INPUT irá ler registro a registro (leitura sequencial) até encontrar "fim de arqui-

vo (EOF)", e irá atribuir nomes (Variáveis) para cada campo de um registro;

- Dois tipos básicos de comando INPUT, são os mais utilizados:

- INPUT COLUNADO

- INPUT FORMATADO

11.4 - Input Colunado

- Lê as variáveis especificando a sua posição na linha de dados (posição inicial e posição fi-

nal). As variáveis devem estar alinhadas e colunadas no arquivo de leitura de dados.

INPUT <variável> [$] <início>-<fim> [.decimal] ;

variável Nome da variável, que será associada a uma coluna de dados.

$ Caractere opcional que indica que a variável só irá conter dados alfanuméricos.

Sem o $, significa que a variável será numérica.

início Valor que indica a posição inicial da variável na linha de dados.

Fim Valor que indica a posição final da variável na linha de dados.

.decimal Valor opcional, indica o número de posições decimais de uma variável numérica.

11.5 - Input Formatado

- Lê as variáveis especificando o tamanho e, opcionalmente, o formato do campo na linha de

dados.

- É o tipo de INPUT mais poderoso e complexo do SAS.

INPUT <variável> [$] <w.d> ou [fomatow.d] ;

variável Nome da variável, que será associada a uma coluna de dados.

$ Caractere opcional que indica que a variável só irá conter dados alfanuméricos.

Sem o $, significa que a variável será numérica.

w. Valor que indica o tamanho de um campo na linha de dados.

w.d Valor que indica o tamanho de um campo numérico com casas decimais.

Page 41: Principais Distribuições de Probabilidade e Noções Básicas de SAS

41

formatow.d Campo opcional. Nome de um formato especial de leitura de dados:

BINARYw.d Lê campo numérico no formato binário e o converte para decimal;

COMMAw.d Lê campo numérico com vírgulas e as retira;

Ew.d Lê campo numérico com notação científica;

HEXw. Lê campo numérico em hexadecimal;

DDMMYYw. Lê campo no formato padrão de datas dd/mm/yyyy.

11.6 - Controles Especiais do Comando INPUT

Indicador de COLUNA ( @ )

@n Move a leitura para a coluna n ;

Indicador de LINHA ( / ) / Avança a leitura em um registro;

Exemplo simulado no SAS DATA POSICAO ;

INFILE "C:\SAS\POS.DAT" ;

INPUT A $ 1-5 @10 B $ 4. @17 C $ 4. / D $ 1-4 / E $ 4. @8 F $ 2. ;

RUN;

PROC PRINT ; RUN ;

01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20

1 1 1 1 1 B B B B C C C C

D D D D

E E E E F F

2 2 2 2 2 b b b b c c c c

d d d d f f

e e e e

The SAS System

OBS A B C D E F

1 11111 BBBB CCCC DDDD EEEE FF

2 22222 bbbb cccc dddd eeee ff

11.7 - Detalhes do Comando INPUT

- Em campos numéricos não são permitidos "brancos" entre os números;

- Sinal (+ - ), ponto decimal (.) e notação científica para expoente (E) são permitidos em cam-

pos numéricos;

- Campos tipo caractere podem ter, no máximo, 32K de caracteres;

Page 42: Principais Distribuições de Probabilidade e Noções Básicas de SAS

42

- São permitidos caracteres "brancos", em qualquer posição, em campos do tipo caractere;

- Campos em branco (sem informação) são considerados como "missing value" (valor perdi-

do).

- Os campos de um registro de dados podem ser lidos em qualquer ordem.

INPUT PESO 17-20 NOME $ 1-8 IDADE 11-12 SEXO $ 9 ;

- Campos ou partes de um campo podem ser relidos.

INPUT NOME $ 1-8 PREFIXO $ 1-3 ENDERECO $ 10-40 APT $ 38-40 ;

- Dados caracteres serão armazenados, alinhados pela esquerda, e os dados numéricos, alinha-

dos pela direita;

- Todos os tipos de INPUT, podem ser combinados num único comando INPUT;

Ex: Detalhes de leitura

INPUT JAN 3. FEV 3. MAR 3. ABR 3. MAI 3. JUN 3. ;

INPUT (JAN FEV MAR ABR MAI JUN) (3.) ;

INPUT (MES1 MES2 MES3 MES4 MES5 MES6) (3.) ;

INPUT (MES1-MES6) (3.) ;

Page 43: Principais Distribuições de Probabilidade e Noções Básicas de SAS

43

12 - Referências

BUSSAB, W. O., MORETTIN, P. A. Estatística Básica. São Paulo: Saraiva. 5º edição, 2005.

MAGALHÃES, M. N., LIMA, A. C. P. Noções de Probabilidade e Estatística, São Paulo:

Edusp, 5ª. edição, 2004

TACHIBANA, V. M. Notas de aulas de Computação Aplicada à Estatística. Presidente

Prudente, 2007.

Manuais do SAS.