237
ESTATÍSTICA II 1 © ALBERTO W. RAMOS ESCOLA POLITÉCNICA DA UNIVERSIDADE DE SÃO PAULO DEPARTAMENTO DE ENGENHARIA DE PRODUÇÃO PRO 2711 ESTATÍSTICA II Prof. Alberto W. Ramos SÃO PAULO, 2010

1 Apostila de Estatística II avancado USP

  • Upload
    ihd

  • View
    60

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 1

© ALBERTO W. RAMOS

ESCOLA POLITÉCNICA DA UNIVERSIDADE DE SÃO PAULO DEPARTAMENTO DE ENGENHARIA DE PRODUÇÃO

PRO 2711

ESTATÍSTICA II

Prof. Alberto W. Ramos

SÃO PAULO, 2010

Page 2: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 2

© ALBERTO W. RAMOS

Revisão do Cálculo de

Probabilidades

Page 3: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 3

© ALBERTO W. RAMOS

PROBABILIDADE

FENÔMENOS

DETERMINÍSTICOS

PROBABILÍSTICOS

Definições:

a) Espaço Amostral (S): conjunto de todos os resultados possíveis de um fenômeno probabilístico.

Ex.: lançamento de dado à S = {1,2,3,4,5,6}

b) Evento (A,B,C,...): qualquer subconjunto de S.

Ex.: P = ponto par = {2,4,6} I = ponto ímpar = {1,3,5} T = ponto maior que três = {4,5,6}

Obs.: S = evento certo

Ø = evento impossível

Page 4: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 4

© ALBERTO W. RAMOS

OPERAÇÕES COM EVENTOS

a) Evento intersecção: BA ∩ Ex.: }6,4{TP =∩ (ambos ocorrem)

b) Evento união: BA ∪

Ex.: S}6,5,4,3,2,1{IP ==∪ (pelo menos um ocorre)

c) Evento complementar: A

Ex.: I}5,3,1{P == (P não ocorre)

c) Eventos mutuamente exclusivos: =∩ BA Ø Ex.: =∩ IP Ø (P e I não ocorrem ao mesmo tempo)

S

A ∩B

A B

S

A ∪ B

A B

S A

A

S A B

Page 5: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 5

© ALBERTO W. RAMOS

DEFINIÇÃO DE PROBABILIDADE

É um número real, associado a um evento, que mede sua chance de ocorrência:

n

m)A(P =

onde:

• m é o número de resultados favoráveis a A

• n é o número de resultados possíveis, desde que igual-mente prováveis

Observações:

a) 0 ≤ P(E) ≤ 1

b) P(A∪B) = P(A) + P(B) - P(A∩B)

c) P(A ) = 1 - P(A)

Page 6: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 6

© ALBERTO W. RAMOS

PROBABILIDADE CONDICIONADA

Notação: P(A/B) → probabilidade do evento A, sabendo-se que o evento B ocorreu

Definição:

P(A/B) = )B(P

)BA(P ∩, P(B) ≠ 0

ou

P(B/A) = )A(P

)BA(P ∩, P(A) ≠ 0

logo:

P(A∩B) = P(A) . P(B/A) = P(B) . P(A/B)

Se P(A/B) = P(A/B ) = P(A) ⇒ o evento A é estatisticamente independente de B ⇒ P(B/A) = P(B/ A ) = P(B) Neste Caso:

P(A∩B) = P(A) . P(B)

Page 7: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 7

© ALBERTO W. RAMOS

EXEMPLO

Seja o lançamento de dois dados, com A: dar ponto 1, 2 ou 3 no primeiro dado e B: dar soma ≤ 6. Calcular P(A/B) e P(B/A).

21

3618

)A(P == 125

3615

)B(P == 31

3612

)BA(P ==∩

P(A/B) = 54

1512

)B(P)BA(P

12531

===∩

P(B/A) = 32

)A(P)BA(P

2131

==∩

(1,1) (2,1) (3,1) (4,1) (5,1) (6,1)

(1,2) (2,2) (3,2) (4,2) (5,2) (6,2)

(1,3) (2,3) (3,3) (4,3) (5,3) (6,3)

(1,4) (2,4) (3,4) (4,4) (5,4) (6,4)

(1,5) (2,5) (3,5) (4,5) (5,5) (6,5)

(1,6) (2,6) (3,6) (4,6) (5,6) (6,6)

B

A

S =

A∩B

Page 8: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 8

© ALBERTO W. RAMOS

TEOREMA DA PROBABILIDADE TOTAL Sejam A1, A2, ..., An eventos mutuamente exclusivos e exaustivos (partição) e seja B um evento qualquer de S.

∑==

∩=⇒∩=n

1ii

n

1ii )BA(P)B(PBAB U

∴ )A.P(B)A(P)B(P i

n

1ii = ∑

= (TPT)

TEOREMA DE BAYES Nas mesmas condições do Teorema da Probabilidade Total.

)B(P)BA(P

)BA(P jj

∩=

)AB(P).A(P

)AB(P).A(P)BA(P

j

n

1jj

jjj

=

∑=

(TB)

SA1 A2 A3

AnA4 ...

B

Page 9: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 9

© ALBERTO W. RAMOS

Variáveis Aleatórias

Page 10: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 10

© ALBERTO W. RAMOS

VARIÁVEIS ALEATÓRIAS UNIDIMENSIONAIS

Uma variável aleatória (VA) é a representação dos eventos de uma partição de S através de números reais. Exemplos:

a) número de caras obtidas no lançamento de três moedas.

b) soma de pontos obtida no lançamento de dois dados.

A1 A2

A3

p

VA

0

1

Probabilidade em SFunção VAFunção Probabilidade

Page 11: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 11

© ALBERTO W. RAMOS

TIPOS DE VARIÁVEIS ALEATÓRIAS (VA)

Discreta à S finito Contínua àS infinito VA Discretas: A distribuição de probabilidade é representada pela função probabilidade, tal que: a) P(X=xi) ≥ 0, ∀xi b) ∑ ==

ii 1)xX(P

c) ∑>

≤<==b

axi

i

)bXa(P)xX(P

VA

Page 12: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 12

© ALBERTO W. RAMOS

EXEMPLO Seja X o número de caras (K) obtidas no lançamento de três moedas.

=

KKK

CKKKCKKKC

CCKCKCKCCCCC

S

xi 0 1 2 3

P(X=xi) 1/8 3/8 3/8 1/8

xi1

P(X=xi)

2 3

3/8

2/8

1/8

0

Page 13: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 13

© ALBERTO W. RAMOS

VA Contínuas: S é infinito e a probabilidade de cada resultado individual é zero (mas não teoricamente impossível). A distribuição de probabilidade é representada pela função densidade de probabilidade fX(x). a) fX(x) ≥ 0

b) ∫+∞

∞−

= 1)x(fX

a) ∫ >≤<=b

aX ab),bxa(P)x(f

x

fX(x)

a b

P(a<x≤b)

Page 14: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 14

© ALBERTO W. RAMOS

EXEMPLO

Seja uma função densidade de probabilidade definida como:

a) determinar o valor de K. b) equacionar esta fdp.

x1 2

fX(x)

K

0

Page 15: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 15

© ALBERTO W. RAMOS

FUNÇÃO DE REPARTIÇÃO OU DE DISTRIBUIÇÃO ACUMULADA

É definida por:

+∞<<∞≤= x- )xX(P)x(FX

Para VAB discretas tem-se:

∑≤

==ax

iXi

)xX(P)a(F

Para VAB contínuas tem-se:

∫∞−

=a

XX dx)x(f)a(F

Propriedades:

a) 0)(FX =−∞

b) 1)(FX =+∞

c) )a(F)b(F)bXa(P YX −=≤<

Page 16: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 16

© ALBERTO W. RAMOS

PARÂMETROS DE POSIÇÃO

Indicam onde se localiza o centro da distribuição. 1) Média ou Valor Esperado: µ(X)

• VA Discreta: ∑ ==µ )xX(P.x)X( ii • VA Contínua: ∫=µ dx)x(f.x)X( X

Propriedades:

a) µ(K) = K, K = constante

b) µ(K.X) = K. µ(X)

c) µ(X+Y) = µ(X) + µ(Y)

d) µ(X-Y) = µ(X) - µ(Y)

e) µ(X±K) = µ(X) ± K

f) Se X e Y são independentes ⇒ µ(X.Y) = µ(X) . µ(Y)

2) Mediana: MD É o ponto tal que: P(X<MD) = P(X>MD) = ½. 3) Moda: MO É o ponto de máxima probabilidade ou densidade de probabilidade.

Page 17: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 17

© ALBERTO W. RAMOS

PARÂMETROS DE DISPERSÃO

Indicam a variabilidade da distribuição de probabilidade.

1) Variância: σ2(X), V(X) 2222 )]X([)X(])X[()X( µ−µ=µ−µ=σ

• VA Discreta:

∑ ∑ ∑

=−===µ−=σ

i i

2

iiii

2ii

2i

2 )xX(P.x)xX(P.x)xX(P.)x()X(

• VA Contínua:

∫ ∫ ∫∞+

∞−

∞+

∞−

∞+

∞−

−=µ−=σ2

XX2

X22 dx)x(f.xdx)x(f.xdx)x(f.)x()X(

Propriedades:

a) σ2(K) = 0, K = constante

b) σ2(K.X) = K2. σ2(X)

c) Se X e Y são independentes:

σ2(X+Y) = σ2(X) + σ2(Y)

σ2(X-Y) = σ2(X) + σ2(Y)

d) σ2(X±K) = σ2(X)

Page 18: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 18

© ALBERTO W. RAMOS

2) Desvio-Padrão: σ(X)

)X()X( 2σ=σ

3) Coeficiente de Variação: CV

)X()X(

CVµσ

=

Page 19: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 19

© ALBERTO W. RAMOS

EXEMPLOS Seja X o número de caras (K) obtidas no lançamento de três moedas.

xi 0 1 2 3

P(X=xi) 1/8 3/8 3/8 1/8

5,18

1281

x 383

x 283

x 181

x 0)xX(P.x)X( ii ==+++===µ ∑

∑ ==+++==i

2222i

2i 3

824

81

x383

x283

x181

x0)xX(P.x

( ) 75,05,13)xX(P.x)xX(P.x)X( 2

i

2

iiii

2i

2 =−=

=−==σ ∑ ∑

xi1

P(X=xi)

2 3

3/8

2/8

1/8

0

Page 20: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 20

© ALBERTO W. RAMOS

EXEMPLO

Seja uma função densidade de probabilidade definida como:

Determinar a média µ(X) e a variância σ2(X).

x1 2

fX(x)

K

0

Page 21: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 21

© ALBERTO W. RAMOS

VARIÁVEIS ALEATÓRIAS BIDIMENSIONAIS (VAB)

VAB Discretas A distribuição fica caracterizada pela função probabilidade, tal que: a) j i, 0)yY;xX(P ji ∀∀≥==

b) ∑∑ ===j

jii

1)yY;xX(P

VAB Contínuas Neste caso, tem-se a função densidade de probabilidade conjunta, tal que: a) 0)y,x(fXY ≥

b) ∫∫+∞

∞−

+∞

∞−

= 1dxdy)y,x(fXY

Page 22: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 22

© ALBERTO W. RAMOS

EXEMPLOS Sejam dois dados “viciados”, com X o ponto obtido no 1o dado e Y, o ponto no 2o dado

xi P(X=xi) yj P(Y=yj)

1 1/21 1 1/12

2 2/21 2 2/12

3 3/21 3 3/12

4 4/21 4 3/12

5 5/21 5 2/12

6 6/21 6 1/12

A função probabilidade fica:

X Y 1 2 3 4 5 6 Total

1 1/252 2 3 3 2 1 1/21

2 2/252 4 6 6 4 2 2/21

3 3/252 6 9 9 6 3 3/21

4 4/252 8 12 12 8 4 4/21

5 5/252 10 15 15 10 5 5/21

6 6/252 12 18 18 12 6 6/21

Total 1/12 2/12 3/12 3/12 2/12 1/12 1

Page 23: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 23

© ALBERTO W. RAMOS

Seja

2y x1,x0 ykx)y,x(f 2XY ≤+≤≤=

Determinar o valor de k.

1

2

1 x

y

( )4

15k 1

15k4

dxxx44x2k

dx2yx

k 1ydykxdx

21

0

2

x2

0

x2

0

1

0

222

1

0

=⇒==+−

=⇒=

∫ ∫∫−

Page 24: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 24

© ALBERTO W. RAMOS

FUNÇÃO DE REPARTIÇÃO OU DE DISTRIBUIÇÃO ACUMULADA

BIDIMENSIONAL É definida por:

∞++<<∞+∞<<∞≤≤= y- ,x- )yY,xX(P)y,x(FXY

Para VAB discretas tem-se:

∑ ∑≤ ≤

===ax by

jiXYi j

)yY;xX(P)b,a(F

Para VAB contínuas tem-se:

∫ ∫∞− ∞−

=a b

XYXY dy)y,x(fdx)b,a(F

Propriedades: a) 0),(FXY =−∞−∞

d) 1),(FXY =+∞+∞

e) )x(F),x(F xXY =+∞

f) )y(F)y,(F YXY =+∞

g) )c,a(F)c,b(F

)d,a(F)d,b(F)dYc;bXa(P

XYXY

XYXY

+−

−−==≤<≤<

h) Se X e Y são independentes è FXY(x,y) = FX(x).FY(y)

Page 25: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 25

© ALBERTO W. RAMOS

DISTRIBUIÇÕES MARGINAIS Se quisermos saber a distribuição de probabilidade de uma VAB, independentemente da outra, diremos que esta é a sua distribuição marginal.

• Caso discreto i )yY;xX(P)xX(P j

jii ∀==== ∑

∑ ∀====i

jij j )yY;xX(P)yY(P

• Caso contínuo

∫+∞

∞−

= dy)y,x(f)x(f XYX

∫+∞

∞−

= dx)y,x(f)y(f XYY

Page 26: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 26

© ALBERTO W. RAMOS

EXEMPLOS 1) No caso dos dados viciados, a distribuição marginal do 1o

dado é:

xi P(X=xi)

1 1/21

2 2/21

3 3/21

4 4/21

5 5/21

6 6/21

2) Seja:

2y0 1,x0 ykx)y,x(f 2XY ≤≤≤≤=

1x0 kx22yx

kydykx)x(f 2

2

0

2

0

222

X ≤≤=== ∫

Page 27: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 27

© ALBERTO W. RAMOS

DISTRIBUIÇÕES CONDICIONADAS

• Caso discreto

i )yY(P

)yY;xX(P)y/xX(P

0

0i0i ∀

===

==

j )xX(P

)yY;xX(P)x/yY(P

0

j00j ∀

===

==

• Caso contínuo

)y(f)y,x(f

)y/x(f0Y

0XY0X =

)x(f)y,x(f

)x/y(f0X

0XY0Y =

Page 28: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 28

© ALBERTO W. RAMOS

EXEMPLOS 1) Dados viciados, para Y=3 tem-se que P(Y=3) = 3/12 e

xi P(X=xi/3)

1 1/21

2 2/21

3 3/21

4 4/21

5 5/21

6 6/21

2) Seja

2y0 1,x0 ykx)y,x(f 2XY ≤≤≤≤=

determinar fY(y/1).

Para X=1 à fXY(1,y) = ky

fX(1) = 2k

logo: 2y

k2ky

)1/y(fY ==

Page 29: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 29

© ALBERTO W. RAMOS

VAB INDEPENDENTES Se X e Y são independentes entre si, então:

j i, )yY(P).xX(P)yY;xX(P jiji ∀∀=====

j i, )y(f).x(f)y,x(f YxXY ∀∀=

A distribuição de probabilidades das VAB é igual ao

produtos das distribuições marginais.

Page 30: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 30

© ALBERTO W. RAMOS

COVARIÂNCIA

A covariância entre duas VA é definida como sendo:

( )( )[ ])Y(Y)X(X)Y,X(COV µ−µ−µ=

• Caso discreto ( ) ( )∑ ∑ ==µ−µ−=

i jjiji )yY,xX(P.)Y(y.)X(x)Y,X(COV

• Caso contínuo

( ) ( )∫ ∫+∞

∞−

+∞

∞−

µ−µ−= dxdy)y,x(f.)Y(y.)X(x)Y,X(COV XYji

TEO: COV(X,Y) = µ(XY)-µ(X).µ(Y) onde ∑ ∑ ===µ

i jjiji )yY;xX(P.y.x)XY(

ou

dxdy)y,x(f.y.x)XY(XY

∫ ∫+∞

∞−

+∞

∞−

Page 31: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 31

© ALBERTO W. RAMOS

COEFICIENTE DE CORRELAÇÃO

)Y().X()Y,X(COV

σσ=ρ

TEO: 11 +≤ρ≤−

Observações:

a) Se há independência à COV(X,Y) = 0 à ρ = 0

b) Se ρ > 0, quando X aumenta, Y aumenta

c) Se ρ < 0, quando X aumenta, Y diminui

Page 32: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 32

© ALBERTO W. RAMOS

MÉDIA CONDICIONADA

• Caso discreto )y/xX(P.x)y/X(

ijiij ∑ ==µ

• Caso contínuo

∫+∞

∞−

=µ dx)y/x(f.x)y/X( X

VARIÂNCIA Se X e Y não são independentes entre si, então:

σ2(X+Y) = σ2(X) + σ2(Y) + 2.COV(XY)

σ2(X-Y) = σ2(X) + σ2(Y) – 2.COV(XY)

Page 33: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 33

© ALBERTO W. RAMOS

Distribuições Discretas de

Probabilidade

Page 34: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 34

© ALBERTO W. RAMOS

DISTRIBUIÇÃO DE BERNOULLI Seja uma prova que só possa ter dois resultados:

fracasso à X = 0

sucesso à X = 1

com X = número de sucessos (0 ou 1)

xi 0 1 P(X = xi) 1-p p

pp1)p1(0)X( =×+−×=µ

pp1)p1(0)X( 222 =×+−×=µ

)p1(ppp)]X([)X()X( 2222 −=−=µ−µ=σ

1-p

p

xi

P(X=xi)

p

1-p

0 1

Page 35: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 35

© ALBERTO W. RAMOS

DISTRIBUIÇÃO BINOMIAL

São realizadas n provas independentes de Bernoulli, todas com a mesma probabilidade de sucesso p.

Seja: X = número de sucessos nas n provas = 0, 1, 2,...

xnxd,n )p1.(p.C)xX(P −−==

p.n)X( =µ

)p1.(p.n)X(2 −=σ

Page 36: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 36

© ALBERTO W. RAMOS

DISTRIBUIÇÃO DE POISSON Seja:

X = número de sucessos em um intervalo de observação contínuo t = 0, 1, 2,...

λ = freqüência média de sucessos no fenômeno (constante)

!x)t.(e

)xX(Pxt λ

==λ−

t)X( λ=µ

t)X(2 λ=σ

Page 37: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 37

© ALBERTO W. RAMOS

DISTRIBUIÇÃO HIPERGEOMÉTRICA São realizadas n provas com X = número de sucessos nas n provas N = tamanho da população S = número de elementos favoráveis (sucesso)

inteiro x ,

nN

xnSN

xS

)xX(P iii

i

−−

==

com

( ) ( )n,SminxsNn,0max i ≤≤+−

fazendo-se p = S/N

1NnN

).p1(p.n)X(

p.n)X(

2

−−

−=σ

Page 38: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 38

© ALBERTO W. RAMOS

DISTRIBUIÇÃO GEOMÉTRICA

São realizadas tantas provas de Bernoulli quantas forem necessárias, até se obter o 1o sucesso.

Seja: X = o número de provas necessárias para obter o 1o sucesso

Nesta Situação, deve-se ter somente fracassos nas (xi-1) primeiras provas. Logo:

,...4,3,2,1x p.)p1()xX(P i1x

ii =−== −

2

2

pp1

)X(

p1

)X(

−=σ

Obs.: Esta distribuição não tem memória, ou seja

P(X=s+t/X>s) = P(X=t)

Page 39: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 39

© ALBERTO W. RAMOS

DISTRIBUIÇÃO DE PASCAL

São realizadas tantas provas de Bernoulli quantas forem necessárias, até se obter o s-ésimo sucesso.

Seja: X = número de provas necessárias até o s-ésimo sucesso

Nesta Situação, deve-se ter (s-1) sucessos nas (xi-1) primeiras provas. Logo:

2,...s1,s s, x)p1.(p.1s1x

p.)p1.(p.1s1x)xX(P

sxsi

sx1sii

i

i

++=−

−−=

=−

−−==

−−

2

2

p)p1(s

)X(

ps

)X(

−=σ

Obs.: a distribuição geométrica á a Pascal para s=1

Page 40: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 40

© ALBERTO W. RAMOS

DISTRIBUIÇÃO MULTINOMIAL

São realizadas n provas independentes, cada uma com um único dentre r possíveis resultados e, as probabilidades pi de

ocorrência de um determinado resultado são constantes.

r21 xr

x2

x1

r21

ii p....p.p!x!...x!x

n!1,2,3,...)i ,xX(P ===

com

∑∑ ==i

ii

i 1p nx

)p1.(p.n)X(

p.n)X(

ii2

i

−=σ

Obs.: as distribuições marginais de xi são binomiais.

Page 41: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 41

© ALBERTO W. RAMOS

Distribuições Contínuas de

Probabilidade

Page 42: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 42

© ALBERTO W. RAMOS

DISTRIBUIÇÃO UNIFORME

Seja X uma variável aleatória tal que:

bxa ab

1)x(fX ≤≤

−=

5,04,54,03,53,02,52,0

1,0

0,8

0,6

0,4

0,2

0,0

X

f(x)

a=2 b=5

22 )ab(121

)X(

2ba

)X(

−=σ

+=µ

Page 43: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 43

© ALBERTO W. RAMOS

DISTRIBUIÇÃO EXPONENCIAL Seja T o intervalo decorrido entre dois sucessos consecutivos de um fenômeno de Poisson, com parâmetro λ:

te)0X(P λ−==

P(X=0) é a probabilidade de nenhum sucesso no intervalo de observação t. Significa também a probabilidade do primeiro sucesso levar mais do que t para ocorrer.

te)tT(P)0X(P λ−=>==

tT e1)t(F)tT(P λ−−==≤⇒

t

TT e)t(Fdtd

)t(f λ−λ==⇒ , t ≥ 0

876543210

1,0

0,8

0,6

0,4

0,2

0,0

X

f(x) λ=1

λ=µ

1)T( e 2

2 1)T(

λ=σ

Page 44: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 44

© ALBERTO W. RAMOS

DISTRIBUIÇÃO NORMAL (OU DE GAUSS)

Seja X uma variável aleatória contínua com a seguinte distribuição:

σµ−

−σπ

=2

X

x21

exp21

)x(f , -∞ < x < +∞

1101051009590

0,14

0,12

0,10

0,08

0,06

0,04

0,02

0,00

X

f(x)

Esta distribuição tem média e variância:

µ=µ )X( e 22 )X( σ=σ Obs.: a) exp z = ez

b) É comum escrever-se: X ∼ N(µ;σ2)

Page 45: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 45

© ALBERTO W. RAMOS

DISTRIBUIÇÃO NORMAL REDUZIDA (OU PADRONIZADA)

Seja X uma variável aleatória tal que X ∼ N(µ;σ2) e seja Z definida como:

σµ−

=x

z

Então: Z ∼ N(0;1), com:

3210-1-2-3

0,4

0,3

0,2

0,1

0,0

z

f(z)

0)Z( =µ e 1)Z(2 =σ

Obs.: a) )zz0(P)xx(P 00 ≤≤≡≤≤µ

b)

σµ−

Φ≡

σµ−

≤=≤xx

ZP)xX(P

Page 46: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 46

© ALBERTO W. RAMOS

TABELA DA DISTRIBUIÇÃO NORMAL valores de P(0 < Z < z0)

z0 0 1 2 3 4 5 6 7 8 9

0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359 0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753 0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141 0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517 0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879 0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224 0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549 0,7 0,2580 0,2611 0,2642 0,2673 0,2703 0,2734 0,2764 0,2794 0,2823 0,2852 0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133 0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389 1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621 1,1 0,3643 0,3665 0,3685 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830 1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015 1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177 1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319 1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441 1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545 1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633 1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706 1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767 2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817 2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857 2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890 2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916 2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936 2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952 2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964 2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974 2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981 2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986 3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990 3,1 0,4990 0,4991 0,4991 0,4991 0,4992 0,4992 0,4992 0,4992 0,4993 0,4993 3,2 0,4993 0,4993 0,4994 0,4994 0,4994 0,4994 0,4994 0,4995 0,4995 0,4995 3,3 0,4995 0,4995 0,4995 0,4996 0,4996 0,4996 0,4996 0,4996 0,4996 0,4997 3,4 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4998 3,5 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 3,6 0,4998 0,4998 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 3,7 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 3,8 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 3,9 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000

FONTE: COSTA NETO, P.L.O. Estatística. São Paulo, Edgard Blucher, 1978.

Page 47: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 47

© ALBERTO W. RAMOS

DISTRIBUIÇÃO NORMAL TRUNCADA Diz-se que uma distribuição normal é truncada quando ela não possui uma ou ambas as caudas.

1101051009590

0,14

0,12

0,10

0,08

0,06

0,04

0,02

0,00

X

f(x)

Uma distribuição truncada nada mais é do que uma

distribuição condicionada, ou seja, no caso da figura acima:

)104X/104X(P <<<−∞

Tanto µ como o σ da distribuição normal completa são afetados pelo truncamento.

Page 48: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 48

© ALBERTO W. RAMOS

DISTRIBUIÇÃO NORMAL BIVARIADA

Uma distribuição normal é dita bivariada se a sua fdp é:

σ

µ−+

σ

µ−

σ

µ−ρ−

σ

µ−ρ−

ρ−σπσ=

2

Y

Y

Y

Y

X

X

2

X

X2

2YX

XY

yyx2

x)1(2

1exp x

x12

1)y,x(f

∞<<∞− X ∞<<∞− Y 11 <ρ<−

Page 49: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 49

© ALBERTO W. RAMOS

Dependendo do valor de ρ, a base da normal bivariada modifica-se:

! �

[ [

\

[

\

Page 50: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 50

© ALBERTO W. RAMOS

DISTRIBUIÇÃO GAMA

Seja T o intervalo decorrido entre s sucessos consecutivos de um fenômeno de Poisson com parâmetro λ:

P(X=0) + P(X=1) + P(x=2) + ... + P(X=s-1) é a probabilidade de ocorrerem menos do que s sucessos no intervalo de observação t. É, também, a probabilidade do s-ésimo sucesso levar mais do que t para ocorrer.

∑−

=

λ−λ=>

1s

0xi

tx

i

i

!xe)t(

)tT(P

∑−

=

λ−λ−==≤

1s

0xi

tx

Ti

i

!xe)t(

1)t(F)tT(P

0t, e.t.)!1s(

)t(Fdtd

)t(f t1ss

TT ≥−λ

== λ−−

1086420

1,0

0,8

0,6

0,4

0,2

0,0

X

f(x)

s=1

s=2

s=3

2

2 s)T(

s)T(

λ=σ

λ=µ

Page 51: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 51

© ALBERTO W. RAMOS

Observações: a) Para s=1 a distribuição gama torna-se a exponencial; b) Escreve-se (s-1)! como Γ(s); c) Γ(s+1) = s.Γ(s); d) Uma função gama é definida como sendo:

0t , dx.e.x)t( x

0

1t >=Γ −∞

−∫

e) Para n inteiro

π−

=

n2)1n2...(5.3.1

21

n

f) π=

Γ21

(por definição)

g) A distribuição gama não tem memória h) Se Y = X1 + X2 + ... + Xn, com cada Xi sendo uma variável

independente Gama de parâmetros s e λ, então:

2

2 sn)Y( e

sn)Y(

λ=σ

λ=µ

Page 52: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 52

© ALBERTO W. RAMOS

DISTRIBUIÇÃO BETA Sejam X1 e X2 duas variáveis com distribuição gama, de parâmetros s1 e λ e s2 e λ, respectivamente, e seja Y definida como:

21

1

XXX

Y+

=

então Y terá distribuição beta com:

0s e 0s 1y0 )y1(y)s()s()ss(

)y(f 211s1s

21

21Y

21 >><<−ΓΓ+Γ

= −−

1,00,80,60,40,20,0

3,0

2,5

2,0

1,5

1,0

0,5

0,0

X

f(x)

s1=s2=0,5

s1=s2=5

s1=s2=1

s1=s2=1,5

s2=5s1=1,5

s2=1,5s1=5

)1ss()ss(ss

)Y(

ss

s)Y(

212

21

212

21

1

+++=σ

+=µ

Page 53: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 53

© ALBERTO W. RAMOS

Observações: a) A distribuição Beta é limitada inferior e superiormente e,

portanto, útil quando há situações em que ocorre um valor máximo e um mínimo para a variável.

b) Se s1 = s2 = 1, a distribuição Beta vira uma distribuição uniforme no intervalo de 0 a 1.

c) A quantidade )ss()s()s(

21

21

+ΓΓΓ

é também chamada de função

Beta, ou seja, B(s1, s2).

d) ∫ −− −=1

0

1s1s21 dy)y1(y)s,s(B 21 , ou seja, a função Beta é

apenas um ajuste para que a integral da distribuição Beta seja igual a 1.

e) Para a distribuição Beta ser valida no intervalo entre a e b, adotar a seguinte transformação:

0s e 0s bya abyb

abay

)s()s()ss(

ab1

)y(f 21

1s1s

21

21Y

21

>><<

−−

−−

ΓΓ+Γ

−=

−−

e neste caso

)1ss()ss(ss)ab(

)Y(

ss

s).ab(a)Y(

212

21

212

2

21

1

+++−

+

−+=µ

f) Se a = 0 e b =1, na expressão anterior, retorna-se ao

caso da distribuição Beta padrão, ou seja, no intervalo de 0 a 1.

Page 54: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 54

© ALBERTO W. RAMOS

DISTRIBUIÇÃO LOGNORMAL

Seja X uma variável aleatória tal que X~N(µ, σ2) e seja Y definida como:

Y = eX Demonstra-se que Y tem distribuição lognormal com:

+∞<<

σµ−

−σπ

= y0 , yln

21

exp2y1

)y(f2

Y

876543210

0,7

0,6

0,5

0,4

0,3

0,2

0,1

0,0

X

f(x)

( ) ( )222

2

2exp22exp)Y(

2exp)Y(

σ+µ−σ+µ=σ

σ+µ=µ

Para trabalhar com esta distribuição, basta tomar logaritmo natural de Y, pois estes valores terão distribuição normal.

Page 55: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 55

© ALBERTO W. RAMOS

Teoria da Confiabilidade

Page 56: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 56

© ALBERTO W. RAMOS

CONFIABILIDADE

É a probabilidade de um sistema desempenhar satisfatoriamente a sua missão, (ou seja, sem falhar) durante um certo tempo e sob determinadas condições de operação

ou uso.

1614121086420

0,20

0,15

0,10

0,05

0,00

X

f(x)

P(T > 6)

Conceitos importantes envolvidos nesta definição: • Probabilidade • Sistema • Missão • Tempo de Uso • Condições de Uso

Page 57: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 57

© ALBERTO W. RAMOS

FUNÇÃO DE CONFIABILIDADE

∫−=−=≤−=>=0t

0T0T000 dt)t(f1)t(F1)tT(P1)tT(P)t(R

onde: R(t0) = função de confiabilidade fT(t) = função densidade de probabilidade FT(t) = função de repartição ou de distribuição acumulada

VIDA MÉDIA

∫ ∫∞ ∞

==µ0 0

dt)t(Rdt)t(f.t)T(

Existem dois casos a considerar:

• sistemas reparáveis à Tempo Médio Entre Falhas

(TMEF). • sistemas não-reparáveis: Tempo Médio Para Falha

(TMPF)

Page 58: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 58

© ALBERTO W. RAMOS

TAXA DE FALHAS A probabilidade de um sistema falhar entre t1 e t2 é dado por:

∫=≤≤2

1

t

tT21 dt)t(f]tTt[P

A probabilidade de um sistema falhar no intervalo [t, t1], dado que ele sobreviveu entre [0, t] é:

)t(R)t(F)t(F

]tT[P]tTt[P

]tT[P)]tT()tTt[(P

]tT|tTt[P T1T111

−=

>≤≤

=>

>∩≤≤=>≤≤

Se substituirmos t1 por t + ∆t e dividirmos ambos lados da expressão anterior por ∆t, fazendo o limite de ∆t à 0

)t(Z)t(R)t(f

t)t(F)tt(F

lim)t(R

1t

]tT|tTt[Plim TTT

0t1

0t ==∆

−∆+=

∆>≤≤

→∆→∆

Z(t) é a probabilidade de falha no instante imediatamente posterior a t, dado que o sistema não falhou antes de t.

EXEMPLO

A taxa de falhas de um produto, para 1000 horas, é 0,01%.

Dentre as unidades funcionando na hora 1000, haverá 0,01% delas falhando neste instante.

Page 59: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 59

© ALBERTO W. RAMOS

CURVA DE VIDA

t

Z(t)

Vida ÚtilMortalidade Infantil Desgaste

• No período de mortalidade infantil, a taxa de falhas

decresce em função do tempo; • No período de vida útil, a taxa de falhas mantém-se

aproximadamente constante; • No período de desgaste, a taxa de falhas cresce com o

tempo.

Em cada período, há uma ou mais distribuições de

probabilidade adequada à representação da confiabilidade.

Page 60: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 60

© ALBERTO W. RAMOS

DISTRIBUIÇÃO EXPONENCIAL

0t , e.)t(f tT ≥α= α−

onde: α – parâmetro de escala (freqüência média de sucessos da

distribuição de Poisson).

876543210

1,0

0,8

0,6

0,4

0,2

0,0

X

f(x) α=1

α=2

α=1,5

α=µ

1)T(

2

2 1)T(

α=σ

Page 61: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 61

© ALBERTO W. RAMOS

DISTRIBUIÇÃO NORMAL (OU DE GAUSS)

σµ−

−σπ

=2

T

t21

exp21

)t(f , -∞ < t < +∞

20151050

0,4

0,3

0,2

0,1

0,0

X

f(x)

σ=1

σ=2

σ=3

Esta distribuição tem média e variância:

µ=µ )T(

22 )T( σ=σ

Page 62: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 62

© ALBERTO W. RAMOS

DISTRIBUIÇÃO DE WEIBULL

0 0, 0, 0,t , e.)t.(.)t(f )t(1T >γ>β>α≥γ−βα=

βγ−α−−β onde: α – parâmetro de escala; β – parâmetro de forma; γ – parâmetro de localização (t ≥ 0).

543210

1,2

1,0

0,8

0,6

0,4

0,2

0,0

X

f(x)

β=1

β=2

β=3

+

βΓ−

+

βΓα=σ

γ+

+

βΓα=µ

β−

β−

222

1

11

12

)T(

11

)T(

Page 63: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 63

© ALBERTO W. RAMOS

DISTRIBUIÇÃO DE WEIBULL II

Por vezes, nos livros, encontra-se alternativamente a seguinte expressão para a distribuição Weibull:

0 0, 0, 0,t et

)t(f

t1

T >γ>η>β≥

η

γ−ηβ

=

η

γ−−−β

β

onde:

η – vida característica = β−

α1

Page 64: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 64

© ALBERTO W. RAMOS

EMPREGO DAS DISTRIBUIÇÕES

R(t) Z(t)

R(t) Z(t)

R(t) Z(t)

αe-αt

1

1

Page 65: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 65

© ALBERTO W. RAMOS

EXERCÍCIO

Determinar R(t) e Z(t) para as distribuições exponencial, normal e Weibull.

Page 66: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 66

© ALBERTO W. RAMOS

PAPÉIS DE PROBABILIDADE

Os papéis de probabilidade são testes de aderência gráfica, ou seja, servem para verificar se um dado conjunto de dados é adequadamente representado por uma certa distribuição de

probabilidade.

No caso de confiabilidade, três papéis são costumeiramente empregados:

• papel de probabilidade normal • papel de probabilidade Weibull

Page 67: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 67

© ALBERTO W. RAMOS

PAPEL DE PROBABILIDADE NORMAL (PPN)

O PPN tem por objetivo verificar se os valores de uma determinada variável seguem a distribuição normal

1o Caso: muitos dados (n > 30)

EXEMPLO

DURAÇÃO QUANTIDADE % ACUMULADA

600x500500x400400x300300x200200x100

100x0

<≤<≤<≤<≤<≤

<≤

5 23 36 27 8 1

5,0 28,0 64,0 91,0 99,0

100,0

Page 68: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 68

© ALBERTO W. RAMOS

Page 69: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 69

© ALBERTO W. RAMOS

2o Caso: poucos dados (n < 30)

EXEMPLO

Valores 97,8

102,3 100,4 95,2

105,1 98,4

101,6

%100x4,0n3,0i

P+−

=

i (posto) Valor P 1 2 3 4 5 6 7

95,2 97,8 98,4

100,4 101,6 102,3 105,1

9,5 23,0 36,5 50,0 63,5 77,0 90,5

Page 70: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 70

© ALBERTO W. RAMOS

Page 71: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 71

© ALBERTO W. RAMOS

INTERPRETAÇÃO

HISTOGRAMA

PPN

NORMAL

ASSIMÉTRICO A ESQUERDA

ASSIMÉTRICO A DIREITA

ACHATADO

ALONGADO

BIMODAL

Page 72: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 72

© ALBERTO W. RAMOS

PAPEL DE PROBABILIDADE WEIBULL (PPW)

É similar ao PPN, porém presta-se para verificar se os valores de uma determinada variável seguem a

distribuição Weibull 1o Caso: muitos dados (n > 30)

EXEMPLO

DURAÇÃO QUANTIDADE % ACUMULADA 25x0 <≤

50x25 <≤ 75x50 <≤

100x75 <≤ 125x100 <≤ 150x125 <≤ 175x150 <≤ 200x175 <≤

110 215 225 195 130 65 30 30

11,0 32,5 55,0 74,5 87,5 94,0 97,0

100,0

Page 73: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 73

© ALBERTO W. RAMOS 10

0,0

90,0

80,0

70,0

60,0

50,0

40,0

30,0

20,0

10,09,0

8,0

7,0

6,0

5,0

4,0

3,0

2,0

1,0

0,9

0,8

0,7

0,6

0,5

0,4

0,3

0,2

0,1

99

9590

8070605040

302520

15

10

54

3

21,5

1

0,50,40,3

0,20,15

0,1

F(t)

= %

Acu

mul

ada

Papel de Probabilidade Weibull

B=

ln ln

(1/(

1-F(

t)))

A = ln(t- )γ0

0

Page 74: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 74

© ALBERTO W. RAMOS

2o Caso: poucos dados (n < 30)

%100x4,0n3,0i

P+−

=

i (posto) Valor P 1 2 3 4 5 6 7 8 9

10

7,6 35,4 52,4 82,1 93,7

131,9 137,7 269,1 300,4 396,2

6,7 16,3 26,0 35,6 45,2 54,8 64,4 74,0 83,7 93,3

Page 75: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 75

© ALBERTO W. RAMOS

100,

090

,080

,070

,0

60,0

50,0

40,0

30,0

20,0

10,09,0

8,0

7,0

6,0

5,0

4,0

3,0

2,0

1,0

0,9

0,8

0,7

0,6

0,5

0,4

0,3

0,2

0,1

99

9590

8070605040

302520

15

10

54

3

21,5

1

0,50,40,3

0,20,15

0,1

F(t)

= %

Acu

mul

adaPapel de Probabilidade Weibull

B=

ln ln

(1/(

1-F(

t)))

A = ln(t- )γ0

0

Page 76: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

ENSAIOS DE CONFIABILIDADE

Existem, basicamente, os seguintes tipos de ensaio: a) Ensaios Completos: o ensaio é encerrado somente

quando a última unidade falhar

b) Ensaios Suspensos ou Censurados: o ensaio é

interrompido quando uma certa quantidade de unidades falhar, ou após certo tempo decorrido.

7HP SR

8 QL�GDGH

W

Page 77: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

c) Ensaios de Morte Súbita: o ensaio é suspenso após a falha da primeira unidade do grupo em avaliação

d) Ensaios Acelerados: o ensaio é executado em uma condição mais severa do que a sua condição normal de uso.

Page 78: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

ENSAIOS COM DADOS COMPLETOS

Neste tipo de ensaio, ele somente é interrompido quando todas as unidades falharem.

Existem dois casos a considerar:

a) Dados Agrupados: isto normalmente ocorre quando se possui uma grande quantidade de unidades em ensaio (n>30).

b) Dados Não-agrupados: neta situação há poucas

unidades disponíveis (n<30).

Em ambos os casos pode-se empregar o papel de probabilidade Weibull, conforme mostrado anteriormente.

Page 79: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

ENSAIOS SUSPENSOS OU CENSURADOS

Neste caso não há dados completos, pois se busca reduzir o tempo para avaliar os resultados mais rapidamente.

Normal mente, há poucas unidades em ensaio.

Os ensaios podem ser suspensos de duas formas distintas: a) Por atingir um certo tempo ou porque certa quantidade

pré-estabelecida de itens falhou (censura simples); b) Pois certas unidades são retiradas antes de atingir o

tempo ou quantidade especificados (censura múltipla).

• Censura à esquerda (a): quando a unidade já está

funcionando antes do início do ensaio; • Censura à direita (b e c): quando a unidade é removida

do ensaio antes de falhar ou, então, ainda está funcionando quando o ensaio é interrompido;

• Censura por intervalo (d): quando a unidade falha em

um intervalo particular do ensaio.

Page 80: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

EXEMPLO – CENSURA SIMPLES 20 unidades foram colocadas em ensaio. Quando haviam decorrido 500 horas, o ensaio foi suspenso. Os dados encontram-se a seguir:

%100x4,203,0i

Acumulada%−

=

Posto (i) Duração (h) % Acumulada 1 54 3,4 2 187 8,3 3 216 13,2 4 240 18,1 5 244 23 6 335 27,9 7 361 32,8 8 373 37,7 9 375 42,6

10 386 47,5

Page 81: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

10000100010010

99,99

95

80

50

20

5

2

1

Horas

% A

cum

ula

da

Page 82: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

EXEMPLO – CENSURA MÚLTIPLA Suponho que 5 unidades tenham sido postas em ensaio. Contudo, quando se atingiu 200 horas a unidade 2 foi retirada, conforme apresentam os dados abaixo:

Unidade Tempo da Falha (h) Situação

1 120 F1 2 200 S 3 225 F2 4 350 F3 5 480 F4

A “unidade 2”, que teve seu ensaio suspenso, poderia estar no posto 2, 3, 4 ou 5 se fosse feito um ensaio completo. Situações possíveis a considerar

Posto F2 F3 F4 2 3 4 5 3 2 4 5 4 2 3 5 5 2 3 4

Soma 9 14 19 Posto Médio 2,25 3,5 4,75

Page 83: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

EXEMPLO – CENSURA MÚLTIPLA

Para evitar a análise de todas as possibilidades de posto para a unidade suspensa, emprega-se a seguinte fórmula:

suspensa unidade da além unidades de número1

i)1n(Incremento 1it

+

−+= −

onde iti-1 é ordem do posto anterior e incremento ii

1ii tt +=−

Posto (i) Duração (ti) F/S Incremento iti % Acumulada

1 150 F1 1 1 6,1 2 340 S1 3 560 F2 (11-1)/(1+8)=1,111 1+1,111=2,111 17,4 4 800 F3 2,111+1,111=3,222 28,1 5 1130 S2 6 1720 F4 (11-3,222)/(1+5)=1,2963 3,222+1,2963=4,518 40,6 7 2470 S3 8 4210 S4 9 5230 F5 (11-4,518)/(1+2)=2,160 4,518+2,160=6,679 61,3

10 6890 F6 6,679+2,160=8,839 82,1

Page 84: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

10000010000100010010

99

90

8070605040

30

20

10

5

3

2

1

Horas

% A

cum

ula

da

Page 85: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 85

© ALBERTO W. RAMOS

ENSAIOS DE MORTE SÚBITA

O objetivo maior deste tipo é reduzir o tempo total de ensaio e, conseqüentemente, o seu custo. Embora seja bastante popular nas empresas, possui limitações quanto à baixa

precisão que as estimativas costumam possuir.

1. Formar g grupos com n unidades cada um; • O número de unidades em cada grupo deve ser igual; • Quanto mais unidades forem testadas até a falha,

mais precisa será a análise dos resultados. 2. Colocar as n unidades do grupo em ensaio;

3. Quando a primeira unidade do grupo falhar, o ensaio do

restante do grupo é suspenso; 4. Uma vez que o ensaio de todos os grupos tenha sido

completado, os tempos são marcados num papel de probabilidade Weibull;

• Somente o tempo até a falha da unidade mais fraca do grupo é considerado na análise;

• O tempo das unidades suspensas não interfere na análise.

5. Traçar uma linha através dos pontos marcados;

• Esta linha é chamada de linha de “morte súbita”; • Ela representa a população das primeiras falhas no

grupo de tamanho (n). 6. Outra linha, representando a população é traçada paralela

à linha de morte súbita, cuja distância é determinada pelo posto mediano (% acumulada) e o número de unidades (n) em cada grupo.

Page 86: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

EXEMPLO - MORTE SÚBITA

40 unidades foram selecionadas para ensaio por morte

súbita. Elas foram divididas em 8 grupos, cada um com 5 unidades. Os resultados são apresentados a seguir.

Grupo Unidade que Falhou

Tempo da Falha (h)

1 2 120 2 5 200 3 2 185 4 3 55 5 4 265 6 4 90 7 2 300 8 1 155

Posto Tempo da Falha (h)

% Acumulada

1 55 8,3 2 90 20,2 3 120 32,1 4 155 44,0 5 185 56,0 6 200 67,9 7 265 79,8 8 300 91,7

Page 87: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

100010010

99,9

99

90

8070605040

30

20

10

5

3

2

1

Horas

% A

cum

ula

da

A próxima etapa consiste em traçar a linha que represente toda a população, com base na linha de “morte súbita”. Como cada grupo ensaiado tem 5 unidades, a sua primeira unidade a falhar terá um posto mediano igual a:

%95,12%100x4,053,01

%100x4,0n3,0i

Acumulada% =+−

=+−

=

Para valer para toda a população, deve-se igualar a mediana (50%) da linha de “morte súbita” ao percentil de 12,95% da população. Isto é feito transladando a linha conforme mostrado a seguir:

Page 88: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

100010010

99,9

99

90

8070605040

30

20

10

5

3

2

1

Horas

% A

cum

ula

da

100010010

99,9

99

90

8070605040

30

20

10

5

3

2

1

Horas

% A

cum

ula

da

Page 89: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

ENSAIOS ACELERADOS Ensaios Acelerados de Vida têm como objetivo identificar prematuramente modos de falha no produto e obter estimativas de vida. Isto é obtido através de um “fator acelerador”, que faz com que haja um maior estresse e, consequentemente, que as falhas ocorram mais rapidamente. O Fator Acelerador (FA) pode ser pelo aumento de:

• Temperatura; • Umidade; • Tensão; • Vibração; • Taxa de Uso; • Taxa de Envelhecimento (Degradação); • Salinidade; • Pressão; • Solicitação Mecânica.

As falhas podem ocorrem por fadiga mecânica, corrosão, reação química, migração, ou outras. Em geral, quando há aceleração, o novo nível de estresse costuma ser adequadamente representado por uma transformação linear, ou seja, basta multiplicar a tempo para falha com estresse por FA para obter o tempo para falha em condições de uso normal.

Uso de Normais Condições em Média VidaEstresse com Média Vida

FA =

Page 90: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

Seja: ts = tempo para falha com estresse tu = tempo para falha em uso normal Fs(t) = FDA com estresse Fu(t) = FDA em uso normal fs(t) = FDP com estresse fu(t) = FDP em uso normal hs(t) = taxa de falhas com estresse hu(t) = taxa de falhas em uso normal As relações lineares ficam:

Tempo para Falha tu = AF × ts Probabilidade de Falha Fu(t) = Fs(t/AF) Confiabilidade Ru(t) = Rs(t/AF) FDP fu(t) = (1/AF)fs(t/AF) Taxa de Falha hu(t) = (1/AF) hs(t/AF)

Nota: diferentes modos de falha costumam ser diferentemente afetados pelos FA’s. Logo, é improvável que um único FA serva para todas as situações. A conseqüência direta desta relação linear é que o parâmetro de forma (β na distribuição Weibull) não se altera com diferentes estresses. Logo, a reta dos pontos marcados no papel de probabilidade para a condição de estresse será paralela à de uso normal.

Page 91: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

EXEMPLO – ENSAIO ACELERADO Pilhas alcalinas foram ensaiadas quanto à sua durabilidade, sendo expostas a uma temperatura de 80 oC. Os resultados

obtidos foram:

Posto (i) Dias % Acumulada

1 18 4,55 2 44 11,04 3 85 17,53 4 167 24,03 5 176 30,52 6 210 37,01 7 274 43,51 8 336 50,00 9 407 56,49

10 423 62,99 11 532 69,48 12 639 75,97 13 749 82,47 14 784 88,96 15 1254 95,45

É sabido que 1 dia neste ensaio equivale (em média) a 5 dias

em condições normais de uso.

Page 92: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

100010010

99,99

95

80

50

20

5

2

1

Horas

% A

cum

ula

da

100010010

99,99

95

80

50

20

5

2

1

Horas

% A

cum

ula

da

Page 93: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

MODELOS DE ACELERAÇÃO

Caso haja um modelo físico que permita descrever a variação do tempo de vida em função da solicitação, é possível se

adotar algum modelo de aceleração de acordo com o FA e tipo de falha:

1. Arrhenius à prevê tempos de falha em função do FA

temperatura; 2. Potencial à prevê tempo para falha em função da tensão

(em capacitores); 3. Exponencial à idem ao anterior, mas para dispositivos

eletrônicos em geral; 4. Voltagem/temperatura à para quando estes dois FA’s

estejam presentes; 5. Eletromigração à para películas condutoras submetidas à

alta temperatura e densidade de corrente; 6. Eyring à quando os FA’s são temperatura, tensão e

umidade; 7. Coffin-Manson à modelos para falhas mecânicas, fadiga

ou deformação.

Page 94: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

Comentários importantes: • Normalmente, os ensaios acelerados de vida são

executados em componentes ou subsistemas, e não em equipamentos complexos;

• A razão disto é que estes apresentam grande diversidade

de modos de falha e, portanto, a aceleração de uma condição pode afetar mais de um modo de falha simultaneamente e, assim, dificultar a análise;

• A faixa de validade do modelo não pode ser excedida ou

se incorrerá em custos desnecessários de mudança de projeto;

• Na maioria dos casos, fatores de aceleração podem ser

obtidos através de um estudo da literatura disponível. Contudo, e alguns casos, estes modelos necessitam ser desenvolvidos especificamente;

• Existem diversos manuais do departamento de Defesa

Norte-Americano que podem auxiliar na realização dos ensaios: o MIL-HDBK-19500/620D o MIL-HDBK-217/F o MIL-HDBK-338 o MIL-HDBK-344/A o MIL-HDBK-721/C o MIL-HDBK-781/A o MIL-HDBK-810/E o MIL-HDBK-2164

• Ensaios acelerados devem sempre ser abordados com o

devido cuidado. Existem limitações básicas para a técnica. Toda aplicação é única. Diferenças sutis na aplicação podem invalidar as conclusões obtidas.

Page 95: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

CONFIABILIDADE DE SISTEMAS Quando associamos componentes entre si, se conhecemos a confiabilidade de cada um destes individualmente, é possível

determinar a confiabilidade do sistema geral. • Sistema em Série: basta um componente falhar para o

sistema falhar

C1 C2

R1(t0) R2(t0)

.

( ) ( )[ ])t(xR)t(R

tTtTP)tT(P)t(R

0201

02010SISTEMA0SISTEMA

=

=>∩>=>=

para o caso de n componentes independentes em série:

∏=

=n

1i0i0SISTEMA )t(R)t(R

Page 96: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

• Sistema em Paralelo: todos os componentes devem falhar

para o sistema falhar

C1

C2

R1(t0)

R2(t0)

.

( ) ( )[ ]( ) ( )[ ])t(R1x)t(R11

tTtTP1)tT(P1)t(R

0201

02010SISTEMA0SISTEMA

−−−=

=<∩<−=<−=

para o caso de n componentes independentes em paralelo:

( )∏=

−−=n

1i0i0SISTEMA )t(R11)t(R

Page 97: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

• Sistema em “Stand-by”: o sistema comuta para o componente reserva quando o componente principal falha

S

C1

C2

.

TSISTEMA = T1 + T2 Se C1 e C2 são independentes:

dx)xt(f).x(f)t(ft

021SISTEMA ∫ −=

Nesta situação, a vida média do sistema é:

)T()T()T( 21SISTEMA µ+µ=µ

Page 98: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

EXERCÍCIOS

1) Qual é a confiabilidade do sistema abaixo, para um período de 100 horas, sabendo se que cada componente possui uma confiabilidade de 0,95 para o mesmo período.

C1 C2 C3

C4 C5

C6

.

2) Deseja-se substituir o sistema anterior pelo equivalente

abaixo, com a ressalva de que a confiabilidade deva permanecer, no mínimo, igual à anterior para um período de 100 horas. Se os componentes do novo sistema tem distribuição exponencial, qual deve ser o valor de α?

C1 C2

.

Page 99: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

3) Dado o seguinte conjunto de valores, verificar se o mesmo

pode ser considerado como proveniente de uma distribuição Weibull? Caso positivo, quais seriam as estimativas para α, β e γ?

297 – 210 – 292 – 91 – 389 – 297

166 – 389 – 146 – 430 – 219 - 285

4) Um avião possui quatro turbinas, sendo duas de cada lado

da asa (tipo Boeing 474). Construir os diagramas de bloco para as seguintes situações:

a) O avião cai se somente uma turbina falhar b) O avião cai se duas ou mais turbinas falharem 5) Qual dos dois sistemas abaixo fornece maior confiabili-

dade para um determinado período, admitindo-se que os seus componentes têm a mesma confiabilidade?

C C

.

C C

C C

.

C C

Page 100: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

Amostragem

Page 101: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

TÉCNICAS DE AMOSTRAGEM

Tão importante quanto determinar quantos itens devem compor a amostra (tamanho da amostra), é determinar como

coletar estes itens.

1. Amostragem simples (aleatória ou casual): todos itens do lote têm igual chance de pertencer à população (sorteio)

SORTEIO

.

LOTE

AMOSTRA

2. Amostragem sistemática: os itens encontram-se ordena-

dos e a retirada de elementos da amostra é feita periodicamente

12345678........ 147

AMOSTRALOTE

.

Page 102: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

3. Amostragem estratificada: a população encontra-se dividida em vários estratos e as amostras são coletadas aleatoriamente de cada estrato.

.

LOTE

AMOSTRA

4. Amostragem por agrupamentos: a população encontra-se

fisicamente dividida em pequenos grupos, que são sorteados para formar a amostra.

.

LOTE

AMOSTRA

5. Amostragem de materiais a granel: se o material é liquido

ou gasoso é necessário primeiro homogeneizá-lo e, então, retirar uma amostra a esmo. Para materiais sólidos, a retirada da amostra é feita mediante quarteamento.

Page 103: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

Análise de Dados

Suspeitos

Page 104: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

DADOS SUSPEITOS

Na análise de um conjunto de dados, pode ser que sejam

observados valores totalmente atípicos em relação aos demais. Diremos, então, que se trata de um dado suspeito.

A amostra de 7 peças foi obtida de uma certa máquina:

12 - 18 - 11 - 20 - 34 - 15 - 16

O valor 34, aparentemente é diferente dos demais valores da amostra que variam entre 11 e 20 e, portanto, pode ser um dado

suspeito.

Quando estão sendo avaliados dados deve-se tomar cuidado

com dados suspeitos, pois eles afetam as médias e dispersões que serão utilizadas na análise estatística.

Page 105: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

TÉCNICAS PARA ANÁLISE DE DADOS SUSPEITOS

Existe uma infinidade de técnicas para detecção de dados suspeitos. Vamos nos concentrar em duas que são particularmente úteis:

• Método do valor padronizado;

• Método do diagrama de juntas.

Page 106: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

MÉTODO DO VALOR PADRONIZADO

Este método não é totalmente novo. Na verdade, ele parte da idéia da padronização usada na distribuição de probabilidade

normal.

Seja M definido como:

M = | xi – x-barra | / s

M é a distância do valor à média, em termos de desvios-padrões. M pequeno (positivo ou negativo) significa um valor próximo à média, enquanto que M grande, um valor afastado.

Para se empregar este método, elimina-se o dado suspeito do conjunto de dados e calcula-se a média e o desvio-padrão

dos dados restantes. Se M > 4 è o dado é suspeito.

Page 107: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

Exemplo Seja o conjunto de dados:

12 - 18 - 11 - 20 - 34 - 15 – 16

Eliminando-se 34 do conjunto de dados resulta:

12 - 18 - 11 - 20 - 15 – 16

Este novo conjunto apresenta: x-barra = 15,3 s = 3,4 Logo: M = | 34 – 15,3 |/3,4 = 5,5 è é um dado suspeito

Page 108: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

DIAGRAMA DE JUNTAS (BOXPLOT)

O boxplot é também uma maneira de avaliar a presença de dados suspeitos em um conjunto de dados, com a vantagem de

ser um método visual. 1) Ordenar os valores em ordem crescente; 2) Determinar a mediana (Q2) dos valores ordenados; 3) Determinar o primeiro e terceiro quartis (Q1 E Q3) dos valores

ordenados; 4) Determinar a amplitude (H), definida como sendo a diferença

entre o primeiro e terceiro quartis:

H = Q3 - Q1 5) Calcular os limites extremos, superior e inferior, para os valores

ordenados, definidos como:

LXS = Q3 + (1,5 x H) LXI = Q1 - (1,5 x H)

6) Verificar se há valores fora dos limites extremos; 7) Todos valores acima de LXS ou abaixo de LXI devem ser

considerados como dados suspeitos.

Page 109: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

EXERCÍCIO - DIAGRAMA DE JUNTAS

Os seguintes dados estão disponíveis:

12 - 18 - 11 - 20 - 34 - 15 - 16

Existem dados suspeitos?

1) Ordenação dos dados:

11 – 12 – 15 – 16 – 18 – 20 - 34 2) O segundo quartil (Q2) é a mediana destes valores, ou seja, o

valor que tem metade do total abaixo e acima de si.

Q2 = 16 3) Primeiro e terceiro quartis (Q1 E Q3):

Q1 = 12

Q3 = 20

Page 110: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

4) Amplitude (H)

H = 20 – 12 = 8 5) Limites extremos LXS = Q3 + 1,5 x H = 20 + 1,5 x 8 = 32 LXI = Q1 - 1,5 x H = 12 – 1,5 x 8 = 0 6) Diagrama de juntas

353025201510

7) Análise dos dados Como o valor 34 é superior a LXSI, o mesmo é um dado

suspeito.

Page 111: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

CUIDADOS COM DADOS SUSPEITOS

A pergunta que surge naturalmente é: o que fazer com um dado suspeito?

Embora muitos pensem que a resposta seja simplesmente eliminá-los, ela está errada! O fato é que quando surge um dado suspeito, precisa-se identificar porque este ocorreu:

• Erro na coleta do dado? • Erro no apontamento do dado? • Erro na transcrição do dado?

E o mais importante: o que pode ser feito para evitar que o erro ocorra novamente.

Ao final, pode até ocorrer de se descartar o valor (dado

suspeito), porém isto ocorre apenas após uma boa dose de investigação sobre este.

Page 112: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

Estimação de Parâmetros

Page 113: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

Quando um parâmetro de uma população é desconhecido, vamos estimá-lo a partir das estatísticas fornecidas pelas amostras.

POPULAÇÃO

AMOSTRA

PARÂMETRO

ESTATÍSTICA

Page 114: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

ESTIMADOR E ESTIMATIVA

Estimador (T): Quantidade calculada em função dos elementos da amostra, que será usada na estimação do parâmetro (θ).

Estimativa (t): Um certo valor de um estimador.

EXEMPLO

113 - 124 - 115 - 107 - 120 - 115 – 110

Estimador de µ ?(T) Estimativa (t) x 114,9 x~ 115

m0 115

Page 115: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

CRITÉRIOS PARA ESTIMADORES

Para cada parâmetro, sempre é possível achar mais de um estimador. Resta, portanto, determinar qual destes é superior

aos outros. Para tanto, aplicam-se os seguintes critérios: a) Justeza ou Não Tendenciosidade Se

θ=µ )T( então T é um estimador justo ou não-viesado de θ. Interpretação: o valor médio do estimador deve ser igual ao valor do parâmetro.

EXEMPLO

Seja x a média de uma amostra com n elementos, retirada de uma população infinita:

nx...xxx

n

xx n321

n

1ii ++++

==∑

=

Como µ=µ=µ

=++++µ

=µ )x(n

)x(.nn

)x...xxx()x( n321

Então, x é um estimador justo de µ.

Page 116: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

b) Coerência Se

0)T(Plimn =ε>θ−∞→ , para todo ε > 0 então T é um estimador coerente de θ. Interpretação: quando se aumenta o tamanho da amostra, o vício (ou viés) tende a zero.

TEOREMA

Se θ=µ∞→ )T(limn , e se 0)T(lim 2

n =σ∞→ , então T será um estimador coerente de θ.

EXEMPLO

Seja x a média de uma amostra com n elementos, retirada de uma população infinita:

nx...xxx

n

xx n321

n

1ii ++++

==∑

=

Como n)x(

n)x(.n

nx...xxx

)x(2

2

2n32122 σ

=

++++

σ=σ

Então, x é um estimador coerente de µ, pois µ=µ∞→ )x(limn

e 0)x(lim 2n =σ∞→ .

Page 117: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

c) Eficiência Se, para um mesmo tamanho de amostra,

[ ] [ ]22

21 )T()T( θ−µ<θ−µ

então T1 é um estimador mais eficiente do que T2 Interpretação: quando se têm dois estimadores justos, T1 e T2, o melhor será aquele que possuir menor variância d) Suficiência Um estimador é suficiente se contém o máximo possível de informação com referência ao parâmetro estimado. Interpretação: um estimador que utilize a informação contida na amostra da melhor forma é sempre preferível.

Page 118: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

EXEMPLO

Uma empresa recebeu um lote de 100 peças de um fornecedor. Foi retirada uma amostra de 10 itens e

encontrou-se x peças defeituosas.

Seja: • x a quantidade de peças defeituosas encontrada

• nx

'p = a proporção defeituosa encontrada

Como x tem distribuição binomial:

n)p1(p

n)p1(np

n)x(

nx

)'p(

pn

npn

)x(nx

)'p(

22

222 −

=−

=

σ=σ

==µ

=

µ=µ

Assim sendo, conclui-se que: • p’ é um estimador justo de p, pois µ(p’) = p; • p’ é um estimador coerente de p, pois 0)'p(lim 2

n =σ∞→ ; • pode-se, também, demonstrar que p’ é eficiente e

suficiente.

Page 119: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

EXERCÍCIO

Seja x1, x2, ..., x5 uma amostra retirada de uma população com média µ(X) = µ e desvio-padrão σ(X) = σ. São sugeridos

os seguintes estimadores de µ:

)xxxxx(51

xT

)x2x(21

T )xx(21

T xT

543214

51351211

++++==

+=+==

Qual destes estimadores propostos é melhor?

Page 120: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

MÉTODOS PARA OBTENÇÃO DE ESTIMADORES

• Método da Máxima Verossimilhança Seja fx(x) a fdp de uma variável aleatória X contínua, ou P(X=x) a função probabilidade de uma variável aleatória X discreta. Seja X1, X2, ..., Xn uma amostra aleatória da variável aleatória X e sejam x1, x2, ..., xn os valores amostrais. Define-se como função de verossimilhança L, como a função da amostra e de θ:

( ) );X(f)...;X(f).;X(f;X,...,X,XL nx2x1xn21 θθθ=θ Comentários: • Se X for discreta è ( ) ( )nn11n21 xX,...,xXP;X,...,X,XL ===θ • Se X for contínua è ( ) ( )n21X,...,Xn21 X,...,X,Xf;X,...,X,XL

n1=θ

Ao valor de θ que maximize a função de máxima

verossimilhança, será a melhor estimativa.

Page 121: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

EXEMPLO

Uma caixa contém 4 bolas, das quais há um número desconhecido θ de bolas brancas. Foi retirada uma amostra de 2 bolas (sem reposição) e encontrou-se 1 bola branca.

Qual a estimativa de máxima verossimilhança para θ? Pode-se admitir que há θ bolas brancas na caixa e (4-θ) não-

brancas. X terá distribuição hipergeométrica, ou seja, a probabilidade de em uma extração sem reposição de 2 bolas

sair exatamente uma branca será:

−θ−

θ

==

24

x24

x)xX(P i

Logo:

)4 ,3 ,2 ,1 ,0|,1X(P)(L =θ==θ

Page 122: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

0)0|1X(p ==θ=

21

24

13

11

)1|1X(p =

==θ=

32

24

12

12

)2|1X(p =

==θ=

21

24

11

13

)3|1X(p =

==θ=

0)4|1X(p ==θ=

Logo, pelo método da máxima verossimilhança 2ˆ =θ

Page 123: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

EXERCÍCIOS

Repetir o exercício anterior, mas supondo amostragem com reposição.

Dica: neste caso, empregar a distribuição binomial. Suponha que numa seqüência de n tentativas independentes

e idênticas de Bernoulli, X sucessos foram observados. Encontrar o estimador de máxima verossimilhança de p, a

probabilidade de sucesso em uma única tentativa. Dica: usar o ln da função de máxima verossimilhança na derivação para facilitar as coisas.

Page 124: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

• Método dos Mínimos Quadrados Este método já foi aplicado ao caso de regressão simples, visto no semestre anterior, para a obtenção das melhores estimativas de α e β na equação:

Y = α + β.X • Método de Bayes Este método baseia-se na idéia da teorema de Bayes, ou seja, de incorporar as informações contidas na amostra ao processo de estimação. Para tanto emprega: • uma distribuição de probabilidade, chamada de distri-

buição à priori; • a aplicação do Teorema de Bayes para a obtenção de uma

nova distribuição de probabilidade, chamada de distribui-ção à posteriori;

• a associação de uma função perda, normalmente quadrática, para determinar a melhor estimativa.

Page 125: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

ESTIMAÇÃO POR PONTO

A estimação por ponto consiste em fornecer um único valor, que é a melhor estimativa para o parâmetro da população. a) Estimação com base em uma amostra

Parâmetro Estimado

Melhor Estimador

Observações

µ nx

x i∑=

σ2 n)x(

s2

i2 ∑ µ−=

1n)xx(

s2

i2

−−

= ∑

µ conhecido

µ desconhecido

σ

2ss = 2

4

sc1

s =

n ≥ 30

n < 30

p nx

p =′

Page 126: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

b) Estimação com base em várias (k) amostras

Amostra Valores x s2 1 x11 x12 x13 ... x1n 1x 2

1s 2 x21 x22 x23 ... x2n 2x 2

2s 3 x31 x32 x33 ... x3n 3x 2

3s . . .

.

.

.

.

.

.

.

.

. k xk1 xk2 xk3 ... xkn kx 2

ks

k321

kk332211

n...nnnx.n...x.nx.nx.n

x++++

++++=

Se n1 = n2 = n3 = ... = nk ⇒ kx

x i∑=

kn...nns)1n(...s)1n(s)1n(

sk21

2kk

222

2112

p −+++−++−+−

=

Se n1 = n2 = n3 = ... = nk ⇒ ks

s2i2

p∑=

k21

kk2211p n...nn

p.n...p.np.np

+++′++′+′

=′

Se n1 = n2 = n3 = ... = nk ⇒ kp

p ip

∑ ′=′

Page 127: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

ESTIMAÇÃO POR INTERVALO Todas as estimativas por ponto contêm um erro, pois são diferentes do valor do parâmetro, embora próximas. Para avaliar a magnitude do erro de estimação, constrói-se um “Intervalo de Confiança (IC)” em torno da estimativa, com probabilidade conhecida. Notação:

µ ⇒ média da população x ⇒ média da amostra σ ⇒ desvio-padrão da população s ⇒ desvio-padrão da amostra n ⇒ tamanho da amostra e0 ⇒ semi-amplitude do IC ⇒ IC = 2.e0

0 zp z

p

σz = 1

Page 128: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

a) IC para µ com σ conhecido:

α−=+µ≤≤−µ 1)exe(P 00

xe0 ≤−µ 0ex +µ≤

0ex +≤µ µ≤− 0ex

00 exex +≤µ≤−

α−=+≤µ≤−⇒ 1)exex(P 00

2/

n

0 z)e(

ασ=

µ−+µ

nze 2/0

σ×=∴ α

IC para µ:

nzx 2/

σ×± α

µ µ+e0

α/2

µ-e0

α/21 - α

nx

σ=σ

x

Page 129: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

b) IC para µ com σ desconhecido:

ns

tx 2/;1n ×± α−

c) IC para σ2:

2

2

21n s

)1n(σ−

=χ −

α−=χ≤χ≤χ α−−α−− 1)(P 2

2/;1n2

1n2

2/1;1n

22/;1n2

22

2/1;1n

s)1n(α−α−− χ≤

σ−

≤χ

22/1;1n

22

22/;1n

2 s)1n(s)1n(

α−−α− χ−

≤σ≤χ

α−=

χ

−≤σ≤

χ−

α−−α−

1s)1n(s)1n(

P2

2/1;1n

22

22/;1n

2

α/2α/2 1 - α

Page 130: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

d) IC para σ

α−=

χ−

≤σ≤χ

α−−α−

1s)1n(s)1n(

P2

2/1;1n

2

22/;1n

2

e) IC para p p’ tem Distribuição Binomial → p)p( =′µ

n)p1(p

)p(2 −=′σ

Se n.p ≥ 5 e n.(1-p) ≥ 5 ⇒ vale aproximação pela Normal.

n)p1(p

ze 2/0

−⋅= α

Como não conhecemos p, usa-se p’:

n)p1.(p

zp 2/

′−′⋅±′

α

Page 131: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

ESTIMAÇÃO POR INTERVALO PARA SOMAS

OU DIFERENÇAS DE MÉDIAS Seja a diferença µ1-µ2 entre as médias de duas populações normais com desvios-padrões σ1 e σ2, respectivamente. Neste caso:

( ) ( ) ( )

( )2

22

1

21

21

212121

nnxx

xxxx

σ+

σ=−σ

µ−µ=µ−µ=−µ

Caso geral:

2

22

1

21

2/21nn

zxxσ

±− α

Caso 1: Se σ1 = σ2 = σ, mas σ é desconhecido

+±− α−+

21

2p2/;2nn21

n1

n1

stxx21

Caso 2: Se σ1 ≠ σ2

2

22

1

21

2/;2nn21ns

ns

txx21

+±− α−+

Como ficariam os intervalos para somas de médias?

Page 132: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

ESTIMAÇÃO POR INTERVALO PARA SOMAS OU DIFERENÇAS DE PROPORÇÕES

Seja a diferença p1 - p2 entre as proporções de duas populações. Neste caso, as proporções populacionais serão estimadas pelas freqüências relativas (proporções) p’1 e p’2 Supondo que a aproximação pela normal seja válida, tem-se:

2

22

1

112/21 n

)'p1('pn

)'p1('pz'p'p

−+

−±− α

Como ficaria o caso da soma de proporções?

Page 133: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

TAMANHO DE AMOSTRAS (PARA ESTIMAÇÃO)

a) Média: . Se σ conhecido:

nze 2/0

σ×= α

2

0

2/

ez

n

σ= α

. Se σ desconhecido:

2

0

2/;1n se

tn

= α−′

n’ = tamanho da amostra-piloto b) Proporção Populacional (probabilidade):

)p1(pse

zn

2

0

2/ ′−′

= α

Se não há estimativa para p, adotar p’ = 1/2.

Page 134: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

Testes de Hipóteses

Page 135: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

Com base nos resultados da amostra, quer se testar uma certa hipótese (considerada como válida, até prova em contrário), a respeito de um parâmetro da população. Notação:

H0 = hipótese nula, a ser testada H1 = hipótese alternativa

Exemplo: H0 = o réu é inocente

H1 = o réu é culpado

Vai se obter uma amostra e, com base nesta, ou aceita-se H0

(fraco) ou rejeita-se H0 (forte).

Page 136: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

TIPOS DE ERROS

Dois tipos de erros podem ser cometidos nos testes de hipóteses:

a) Erro tipo I: rejeitar H0 quando H0 é verdadeira. Ex.: juiz condenar um réu inocente. b) Erro tipo II: aceitar H0 quando H0 é falsa. Ex.: juiz absolve um réu culpado.

Cada tipo de erro tem uma certa probabilidade de ser cometido (α e β, respectivamente).

REALIDADE

H0 verdadeira H0 falsa

aceitar H0

decisão correta 1 - α

erro tipo II β

DECISÃO rejeitar

H0

erro tipo I α

decisão correta 1 - β

Page 137: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

TESTES PARA A MÉDIA

A) σ conhecido: 1º Caso: H0: µ = µ0

H1: µ < µ0

nzx 0CRIT

σ−µ= α

Se ⇒< CRITCALC xx Rejeita-se H0

chamando-se de

n

xz 0

CALC σµ−

=

e

zCRIT = zα

Se ⇒−< CRITCALC zz rejeita-se H0

µ0CRIT

α1 - α

x x

Page 138: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

2º Caso: H0: µ = µ0

H1: µ > µ0

n

xz 0

CALC σµ−

=

e

zCRIT = zα

Se ⇒> CRITCALC zz rejeita-se H0

3º Caso: H0: µ = µ0

H1: µ ≠ µ0

n

xz 0

CALC σµ−

=

e

zCRIT = zα/2

Se ⇒> CRITCALC z|z| rejeita-se H0

Page 139: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

σ desconhecido:

1º Caso: H0: µ = µ0 H1: µ < µ0

ns

xt 0

CALC

µ−=

e

tCRIT = tn−1; α

Se ⇒−< CRITCALC tt rejeita-se H0

2º Caso: H0: µ = µ0

H1: µ > µ0

ns

xt 0

CALC

µ−=

e

tCRIT = tn−1; α

Se ⇒> CRITCALC tt rejeita-se H0

Page 140: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

3º Caso: H0: µ = µ0

H1: µ ≠ µ0

ns

xt 0

CALC

µ−=

e

tCRIT = tn-1;α/2

Se ⇒> CRITCALC t|t| rejeita-se H0

Page 141: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

TESTES PARA VARIÂNCIA 1º Caso: H0: 2

02 σ=σ

H1: 20

2 σ>σ

Se H0 for verdadeira ( 2

02 σ=σ ), resulta:

21n2

0

2s)1n(−χ=

σ−

Se ⇒> 2

22CALC ss rejeito H0

Se ⇒χ>σ

−α−

2;1n2

0

2CALCs)1n(

rejeito H0

Se ⇒χ>χ α−

2;1n

2CALC rejeito H0

α1 - α

s2s22

Page 142: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

2º Caso: H0: 2

02 σ=σ

H1: 20

2 σ<σ

Se ⇒χ<χ α−−

21;1n

2CALC rejeito H0

3º Caso: H0: 2

02 σ=σ

H1: 20

2 σ≠σ

Se ⇒χ<χ α−−

22/1;1n

2CALC rejeito H0

ou

Se ⇒χ>χ α−2

2/;1n2CALC rejeito H0

Page 143: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

TESTES PARA PROPORÇÃO

Se n.p0 ≥ 5 e n.(1-p0) ≥ 5 ⇒ p’ terá distribuição Normal 1º Caso: H0: p = p0

H1: p < p0

n)p1(p

p'pz

00

0CALC −

−=

Se ⇒=−< αzzz CRITCALC rejeito H0

2º Caso: H0: p = p0

H1: p > p0

n)p1(p

p'pz

00

0CALC −

−=

Se ⇒=> αzzz CRITCALC rejeito H0

Page 144: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

3º Caso: H0: p = p0

H1: p ≠ p0

n)p1(p

p'pz

00

0CALC −

−=

Se ⇒>−< αα 2/CALC2/CALC zz se ou zz rejeito H0

Page 145: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

TAMANHO DE AMOSTRA PARA

TESTES DE HIPÓTESES

Sejam as hipóteses:

H0: µ ≤ µ0

H1: µ > µ0 e vamos assumir que: • σ é conhecido e; • α e β estão fixados (determinados). Se H0 é verdadeira, ou seja, se µ = µ0

nzx 0CRIT

σ⋅+µ= α

µ0

α1 - α

xCA

x

Page 146: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

Mas, se em realidade µ = µ´ > µ0, então

E, conseqüentemente

nz´xCRIT

σ⋅−µ= β

igualando-se as expressões, resulta em

2

zzn

σ

µ−µ

+= βα

ou, se σ é desconhecido

2

0

;1´n;1´n s´

ttn

µ−µ

+= β−α−

µ’

β1 - β

xµ0

α1 - α

xCA

Page 147: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

Se, alternativamente, as hipóteses testadas fossem:

H0: µ = µ0

H1: µ ≠ µ0

Então:

2

0

2/

´

zzn

σ

µ−µ

+= βα

ou, se σ fôr desconhecido

2

0

;1´n2/;1´n s´

ttn

µ−µ

+= β−α−

Page 148: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

COMPARAÇÃO DE DUAS MÉDIAS

Quando se deseja comparar uma média contra outra, tem-se:

H0: µ1 = µ2

Há diversos casos a considerar

Comparação de Média

Dados Emparelha-

dos

Dados Não Emparelha-

dos

σ's Desco- nhecidos

mas iguais

σ's Conhecidos

σ's Desco- nhecidos e diferentes

.

Page 149: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

DADOS EMPARELHADOS

Nesta situação, os dados das duas amostras encontram-se emparelhados, ou seja, cada elemento da amostra está

perfeitamente identificado e é possível saber o seu resultado antes e após certo tratamento.

São exemplos de dados emparelhados situações do tipo

antes x depois, onde há correspondência entre os elementos da amostra.

A hipótese H0 pode ser modificada

H0: µ1 = µ2 à H0: µ1 - µ2 = ∆

logo, H0 pode ser re-escrita como

H0: ∆?= 0

que será testada contra

H1: ∆ > 0 ou

H1: ∆ < 0 ou ainda

H1: ∆ ≠ 0

Page 150: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

Se H0 for verdadeira, então ∆ terá distribuição normal com média 0 e desvio-padrão ∆σ . Como não se conhece µ(∆)??nem

∆σ , eles serão estimados mediante:

21 xxd −= e ( )

1ndd

s2

id −

−= ∑

Então, o teste pode ser feito através de um t de Student, tal que:

nsd

ns

dtt

dd1nCALC =

∆−== −

Hipóteses Rejeição de H0 H0: ∆?= 0 H1: ∆ < 0

CRITCALC tt −<

H0: ∆?= 0 H1: ∆ > 0

CRITCALC tt >

H0: ∆?= 0 H1: ∆ ≠ 0

CRITCALC t|t| >

Page 151: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

EXEMPLO Dez alunos foram submetidos a um novo método de ensino (tratamento de choque). Os QI’s de cada aluno foram medidos antes e depois, conforme tabela abaixo. Há evidências de que o método aumente o QI médio? (α=5%)

Aluno QI Antes QI Depois d 1 105 115 -10 2 115 122 -7 3 98 102 -4 4 95 99 -4 5 102 101 1 6 105 107 -2 7 120 118 2 8 100 101 -1 9 104 110 -6

10 102 110 -8

H0: ∆?= 0 H1: ∆ < 0

93,3s 90,3d d =−=

833,1tt

14,3

1093,390,3

tt

%5;9CRIT

9CALC

−==

−=−

==

Logo, rejeita-se H0

Page 152: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

DADOS NÃO-EMPARELHADOS

Nesta situação, continua-se querendo testar:

H0: µ1 - µ2 = ∆ A diferença entre as médias amostrais 21 xx − será usada e lembrando que

( )2

22

1

21

212

nnxx

σ+

σ=−σ

Admitindo-se que as variâncias populacionais sejam conhecidas, então o teste pode ser feito mediante um z, definido como

2

22

1

21

21

CALC

nn

)xx(z

σ+

σ∆−−

=

Se 222

21 σ=σ=σ , a expressão anterior resume-se a

21

21

CALC

n1

n1

)xx(z

∆−−=

Page 153: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

Se as variâncias populacionais 2

221 e σσ não forem

conhecidas, elas serão substituídas por 22

21 s e s ,

respectivamente. Se, também, pode-se admitir que 22

221 σ=σ=σ , então esta será estimada por

2nns)1n(s)1n(

s21

222

2112

p −+−+−

=

Conseqüentemente, o teste será conduzido por um t de Student, tal que

21

p

21

2nnCALC

n1

n1

s

)xx(tt

21

+

∆−−== −+

Por fim, se as variâncias populacionais 2

221 e σσ não forem

conhecidas, e não puder ser admitido que 222

21 σ=σ=σ , então

o teste será realizado através de

2

22

1

21

21

CALC

ns

ns

)xx(tt

+

∆−−== ν

Page 154: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

Para se determinar a quantidade de graus de liberdade desta estatística, pode-se empregar o critério de Aspin-Welch, definido como

( )2

1nw

1nw

ww

2

22

1

21

2

21 −

++

+

+=ν

onde

2

22

2

1

21

1 ns

w e ns

w ==

Os critérios de decisão continuam sendo os mesmos, ou seja

Hipóteses Rejeição de H0 H0: ∆?= 0 H1: ∆ < 0

CRITCALC tt −<

H0: ∆?= 0 H1: ∆ > 0

CRITCALC tt >

H0: ∆ = 0 H1: ∆ ≠ 0

CRITCALC t|t| >

Page 155: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

EXEMPLO

Dois tipos de borracha estão sendo comparados quanto à sua durabilidade média de pneus. Foram fabricados seis pneus com cada tipo de borracha. É possível afirmar, ao nível de significância de 10%, que a borracha A é melhor que a B?

A B média 35,30 31,50

desvio-padrão 3,93 3,73 n 6 6

O teste a ser executado é

H0: ∆ = 0 H1: ∆ > 0

Como os desvios-padrões amostrais são próximos, é razoável admitir-se que as populações têm a mesma dispersão. Logo:

68,142

)73,3()93,3(s

222p =

+=

736,1

61

61

68,14

80,3tCALC =

+

=

tCRIT = t10;10% = 1,372

Ao nível de significância de 10% rejeita-se H0.

Page 156: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

COMPARAÇÃO DE DUAS VARIÂNCIAS

Na comparação de duas variância, tem-se

H0: 22

221 σ=σ=σ

contra, por exemplo

H1: 22

21 σ>σ

Como as variâncias populacionais 2

221 e σσ são desconheci-

das, elas serão substituídas por 22

21 s e s , respectivamente, e o

teste é conduzido através de um F-Snedecor, definido como:

22

21

1n;1nCALC ss

FF21

== −−

que será comparado contra

α−−= ;1n;1nCRIT 21FF

Se Fcalc > Fcrit è rejeita-se H0

Page 157: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

Se, alternativamente

H1: 22

21 σ<σ

então

22

21

1n;1nCALC ss

FF21

== −−

que será comparado contra

α−−−= 1;1n;1nCRIT 21FF

Se Fcalc < Fcrit è rejeita-se H0 Finalmente, se

H1: 22

21 σ≠σ

pode-se fazer

)s;smin()s;smax(

F22

21

22

21

CALC =

que será comparado contra

2/;;CRIT 21FF ανν=

Se Fcalc > Fcrit è rejeita-se H0

Page 158: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

EXEMPLO Um engenheiro acredita ter conseguido reduzir a variabilidade do processo de usinagem. Para tanto, usinou 20 peças na condição anterior e obteve s2=0,125 e, na nova condição, obteve s2=0,102. Ele está certo? Admitir dados com distribuição normal.

H0: 2DEPOIS

2ANTES σ=σ

H1: 2

DEPOIS2ANTES σ>σ

23,1102,0125,0

FCALC ==

18,3FF %5;19;19CRIT == Aceito H0, ou seja, não há evidências ao nível de significância de 5% de que tenha havido redução da variabilidade.

Page 159: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

Comparações Múltiplas

Page 160: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

COMPARAÇÃO DE VÁRIAS VARIÂNCIAS Sejam várias amostras, de mesmo tamanho (n), retiradas de k populações Normais. Se quisermos testar as hipóteses:

H0: 2k

22

21 ... σ==σ=σ

H1: pelo menos um 2iσ diferente dos demais

Calcula-se a estatística g, definida como:

∑=

2i

2i

CALC ssmax

g (i = 1, 2,..., k)

e obtém-se de uma tabela gCRIT , que é função de n, k e α. Se ⇒> CRITCALC gg rejeita-se H0 e afirma-se H1

Este método é conhecido como Teste de Cochran. Caso as amostras não tenham tamanhos iguais,

deve-se empregar o Teste de Bartlett.

Page 161: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

TABELA g

(α = 5%)

n = 2 3 4 5 6 7 8 9 10 k = 2 0,9985 0,9750 0,9392 0,9057 0,8772 0,8534 0,8332 0,8159 0,8010

3 0,9669 0,8709 0,7977 0,7457 0,7071 0,6771 0,6530 0,6333 0,6167 4 0,9065 0,7679 0,6841 0,6287 0,5895 0,5598 0,5365 0,5157 0,5017 5 0,8412 0,6838 0,5931 0,5441 0,5065 0,4783 0,4564 0,4387 0,4241 6 0,7808 0,6161 0,5321 0,4803 0,4447 0,4184 0,3980 0,3817 0,3682 7 0,7271 0,5612 0,4800 0,4307 0,3974 0,3726 0,3535 0,3384 0,3259 8 0,6798 0,5157 0,4377 0,3910 0,3595 0,3362 0,3185 0,3043 0,2926 9 0,6385 0,4775 0,4027 0,3584 0,3286 0,3067 0,2901 0,2768 0,2659

10 0,6020 0,4450 0,3733 0,3311 0,3029 0,2823 0,2666 0,2541 0,2439 Observações:

k = quantidade de amostras n = tamanho da amostra

Page 162: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

EXEMPLO

Cinco amostras com cinco elementos cada uma forneceram 2is : 3,7 - 2,5 - 5,1 - 6,0 - 3,2. Ao nível de significância de 5%,

existe evidência que alguma 2iσ seja diferente das demais?

n = 5 e k = 5

max 2is = 6,0

∑ = 5,20s2i

Com isso, temos:

2927,05,20

0,6gCALC ==

5441,0gg %5;5;5CRIT ==

⇒ aceito que as variâncias são iguais, ou seja:

25

24

23

22

21 σ=σ=σ=σ=σ

Page 163: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

ANÁLISE DE VARIÂNCIA COM UM FATOR (UMA CLASSIFICAÇÃO)

Sejam três grupos de pessoas que se quer verificar se sua inteligência (medida pelo QI) média é igual. Para tanto, sorteou-se oito indivíduos de cada grupo e a estes foi

aplicado um certo teste. Pode-se, em outras palavras, dizer que há um único fator em

avaliação (inteligência) em três níveis (grupos), conforme revela a tabela abaixo.

Grupo Notas x s2 1 x11 x12 x13 .... x18 x1 s1

2 2 x21 x22 x23 .... x28 x2 s2

2 3 x31 x32 x33 .... x38 x3 s3

2

Notação empregada: n - tamanho da amostra (8, no caso) k - quantidade de médias comparadas (3, no caso)

ix - média da amostra do grupo i x - média geral (média das médias)

2is - variância da amostra do grupo i 2Rs - variância dentro da amostra (ou residual) 2Es - variância entre amostras 2Ts - variância total

Page 164: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

Como não se conhece a variância da população, chamada de σ2, pode-se estimá-la mediante três métodos diferentes: Método 1: através dos s2 obtidos em cada grupo

)1n.(k)xx(

ks

s2

iij2i2

R −−

==∑∑∑

Método 2: através das médias dos grupos

1k)xx(

.ns2

i2E −

−= ∑

Método 3: através de todos os dados individuais

1k.n)xx(

s2

ij2T −

−=

∑ ∑

Como toda esta notação é muito complicada, vamos mostrar

os conceitos mediante aplicação ao exemplo do QI.

Page 165: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

Imagine que os resultados obtidos tenham sido os seguintes:

Grupo Notas x s2 1 4 5 5 4 8 4 3 7 5,0 2,9 2 2 4 3 7 5 4 2 5 4,0 2,9 3 3 6 6 4 5 4 6 6 5,0 1,4

Método 1: através dos s2 obtidos em cada grupo

4,23

4,19,29,2s2

R =++

=

Método 2: através das médias dos grupos

7,43

0,50,40,5x =

++=

7,2)13(

])7,40,5()7,40,4()7,40,5[(.8s

2222E =

−−+−+−

=

Método 3: através de todos os dados individuais

4,213.8

])7,46(...)7,45()7,45()7,44[(s

22222T =

−−++−+−+−

=

Pode-se perceber que: • as médias x são próximas; • os valores de 2

Rs , 2Es e 2

Ts também são próximos.

Page 166: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

Imagine, agora, que os resultados obtidos fossem:

Grupo Notas x s2 1 4 5 5 4 8 4 3 7 5,0 2,9 2 0 2 1 5 3 2 0 3 2,0 2,9 3 7 10 10 8 9 8 10 10 9,0 1,4

Método 1: através dos s2 obtidos em cada grupo

4,23

4,19,29,2s2

R =++

=

Método 2: através das médias dos grupos

3,53

0,90,20,5x =

++=

7,98)13(

])3,50,9()3,50,2()3,50,5[(.8s

2222E =

−−+−+−

=

Método 3: através de todos os dados individuais

8,1013.8

])3,56(...)3,55()3,55()3,54[(s

22222T =

−−++−+−+−

=

Pode-se perceber, neste novo conjunto de resultados, que: • as médias x não mais são próximas; • o valor de 2

Rs não se alterou; • os valores de 2

Es e 2Ts aumentaram muito.

Page 167: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

Os gráficos abaixo ajudam na interpretação dos resultados. No primeiro conjunto de dados as médias estavam próximas:

MaxMinMédia

-2

0

2

4

6

8

10

12

1 2 3

Já no outro conjunto, as médias apresentavam-se mais afastadas umas em relação às outras:

MaxMin

Média-2

0

2

4

6

8

10

12

1 2 3

Page 168: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

COMENTÁRIOS

1. Se as médias das populações (grupos) são iguais, os

valores de ix serão próximos e tanto faz estimar-se σ2 através de 2

Rs , 2Es ou 2

Ts , pois todos elas fornecerão valores próximos.

2. Contudo, quando as médias das populações são diferen-

tes, os valores de ix divergirão entre si. Embora 2Rs

continue sendo um bom estimador de σ2, 2Es e 2

Ts não mais o serão, pois são afetados pela diferença entre as médias.

3. Assim, pode-se comparar as médias das diversas popula-

ções (k) através da comparação de variâncias: 2Es e 2

Rs , respectivamente. Este teste é chamado de teste F, onde:

2R

2E

calc ss

F =

4. Enquanto que 2

Es tem (k-1) graus de liberdade, 2Rs tem

[k.(n-1)] graus de liberdade (veja os denominadores destas variâncias). Portanto, Fcalc terá (k-1) no seu numerador; [k.(n-1)] graus de liberdade no seu denominador.

5. Quanto maior o valor de Fcalc maior é a probabilidade de

que as médias sejam diferentes entre si. Para chegar a uma conclusão, Fcalc é comparado contra um Fcrit, obtido a partir de uma tabela.

6. Se Fcalc < Fcrit, então admite-se que as médias são iguais.

7.A análise de variância assume a hipótese de que as populações possuem a mesma variância (σ2). Se isto não ocorrer, os resultados não serão válidos.

Page 169: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

DISTRIBUIÇÃO F-SNEDECOR Sejam duas amostras independentes, retiradas de populações Normais, com mesma variância (σ2), que forneceram estimativas 2

1s e 22s , respectivamente. Ao

quociente de 21s por 2

2s , chamamos de:

22

21

1n;1ns

sF

21=−−

F

f(F)

Page 170: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

TABELA F-SNEDECOR

(α = 5%)

ν1 ν2 1 2 3 4 5 6 7 8 9 10 1 161,4 199,5 215,7 224,6 230,2 234,0 236,8 238,9 240,5 241,9 2 18,51 19,00 19,16 19,25 19,30 19,33 19,35 19,37 19,38 19,40 3 10,13 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,81 8,79 4 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96 5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,77 4,74 6 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 4,06 7 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,68 3,64 8 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35 9 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18 3,14

10 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,02 2,98 11 4,84 3,98 3,59 3,36 3,20 3,09 3,01 2,95 2,90 2,85 12 4,75 3,89 3,49 3,26 3,11 3,00 2,91 2,85 2,80 2,75 13 4,67 3,81 3,41 3,18 3,03 2,92 2,83 2,77 2,71 2,67 14 4,60 3,74 3,34 3,11 2,96 2,85 2,76 2,70 2,65 2,60 15 4,54 3,68 3,29 3,06 2,90 2,79 2,71 2,64 2,59 2,54 16 4,49 3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,54 2,49 17 4,45 3,59 3,20 2,96 2,81 2,70 2,61 2,55 2,49 2,45 18 4,41 3,55 3,16 2,93 2,77 2,66 2,58 2,51 2,46 2,41 19 4,38 3,52 3,13 2,90 2,74 2,63 2,54 2,48 2,42 2,38 20 4,35 3,49 3,10 2,87 2,71 2,60 2,51 2,45 2,39 2,35 21 4,32 3,47 3,07 2,84 2,68 2,57 2,49 2,42 2,37 2,32

FONTE: COSTA NETO, P.L.O. Estatística. São Paulo, Edgard Blucher, 1978.

Page 171: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

EXEMPLO

O segundo conjunto de resultados do teste de QI, forneceu:

2Es = 98,7 e 2

Rs = 2,4

logo

1,414,27,98

Fcalc ==

Fcalc tem (3 -1) = 2 GL no numerador e [3 x (8-1)] = 21 GL no denominador. Fcrit (para um α=5%) será F2, 21, 5% = 3,47 à pelo menos uma turma é diferente das demais.

Page 172: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

TABELA DA ANÁLISE DE VARIÂNCIA É comum apresentar-se os resultados da análise de variância na forma de uma tabela, similar à de baixo: Fonte SQ GL QM FCALC

Entre ∑ −= 2i )xx(.nSQE (k-1)

1kSQE

s2E −

= 2Es / 2

Rs

Residual ∑∑ −= 2iij )xx(SQR k.(n-1) )1n(k

SQRs2

R −=

Total ∑∑ −= 2ij )xx(SQT k.n-1

onde:

SQ - é a soma de quadrados GL - são os graus de liberdade das estimativas QM - é o quadrado médio = SQ/GL

perceba que:

SQTotal = SQEntre + SQResidual

GLTotal = GLEntre + GLResidual No caso de nosso exemplo do teste de QI, com o segundo conjunto de dados, tem-se: Fonte SQ GL QM FCALC Entre amostras 197,3 2 98,7 41,4 Residual 50,0 21 2,4 Total 247,3 23

Page 173: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

AMOSTRAS DE TAMANHOS DIFERENTES

Há situações onde, eventualmente, pode-se estar trabalhando com amostras de tamanho diferente. Neste caso,

a tabela da Análise de Variância é modificada da seguinte forma:

Fonte SQ GL QM FCALC

Entre SQE=SQT-SQD (k-1) 1k

SQEs2

E −=

2Es / 2

Rs

Residual ∑ −= 2ii s)1n(SQR ∑ − kni ∑ −

=kn

SQRs

i

2R

Total ∑∑ −= 2ij )xx(SQT ∑ − 1ni

Obs: neste caso

kn...nns)1n(...s)1n(s)1n(

sk21

2kk

222

2112

R −+++−++−+−

=

Page 174: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

ALGUNS CUIDADOS

A análise de variância tem algumas hipóteses básicas que são assumidas para sua validade:

• o modelo válido é do tipo ijiijx ε+α+µ= , onde µ é a média

geral, αi é o efeito do nível i do fator e ijε é o erro;

• as populações são homocedásticas, ou seja, possuem a mesma variância;

• as populações podem ser adequadamente representadas por uma distribuição de probabilidade normal;

• conseqüentemente, ijε ~N(0; σ2).

1. A primeira hipótese é fundamental para que os resultados sejam válidos. A condição de homocedasticidade pode ser verificada mediante uma análise de resíduos ou, então, pelo teste de Cochran ou de Bartlett.

2. A segunda hipótese (normalidade dos dados) não é

essencial, pois a análise de variância fornece bons resultados quando a população não é normal. Ela pode ser verificada através do papel de probabilidade normal.

Page 175: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

ANÁLISE DE RESÍDUOS Um resíduo (eij) é definido como sendo a quantidade:

iijij xxe −=

onde ix é a média do grupo i. É costume fazer a análise de resíduos por meios gráficos, já

que estes facilitam a visualização. Dentre estes, os mais habituais são:

Ferramenta Forma e Objetivo

Papel de Probabilidade Normal

Os resíduos são ordenados e marcados no PPN. Desvios de normalidade indicam inadequação do modelo, ou seja, erros não-aleatórios em torno da média geral

Gráfico Linear Constrói-se um gráfico com os resíduos ordenados no tempo para avaliar a sua aleatoriedade e eventual presença de dados suspeitos (outliers)

Gráfico de resíduos x amostra

É um gráfico cartesiano das amostras pelos respectivos resíduos, visando verificar se há problemas de dispersão, ou seja, se em certos pontos há maior diferença entre resultados do que em outros.

Page 176: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

EXEMPLO

Grupo Resíduo

1 -1 0 0 -1 +3 -1 -2 +2 2 -2 0 -1 +3 +1 -1 -2 +1 3 -2 +3 +3 -1 0 -1 +1 +1

Residuo

Pe

rce

nta

ge

m

43210-1-2-3-4

99

95

90

80

70

60

50

40

30

20

10

5

1

Observação

Re

sid

uo

24222018161412108642

3

2

1

0

-1

-2

Média

Re

sid

uo

98765432

3

2

1

0

-1

-2

Page 177: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

COMPARAÇÕES MÚLTIPLAS

A análise de variância testa se as médias das populações podem ser assumidas como iguais ou não, mas não revela

que médias são diferentes umas das outras.

Para realizar esta tarefa, pode recorrer aos intervalos de confiança empregando a estimativa da variância residual ( 2

Rs ) na sua construção. Assim, para cada média, faz-se o

seguinte intervalo:

i

2R

2/;1nins

txi α−±

se estes se sobrepuserem, então não se pode dizer que há

diferença entre as médias.

EXEMPLO

Para os dados do último exercício, tem-se:

Grupo x n 2Rs t7;2,5% Min Max

1 5,0 8 2,4 2,365 3,7 6,3 2 2,0 8 2,4 2,365 0,7 3,3 3 9,0 8 2,4 2,365 7,7 10,3

Grupo N Média DP -------+---------+---------+---------+-- 1 8 5,000 1,690 (----*----) 2 8 2,000 1,690 (----*----) 3 8 9,000 1,195 (----*----) -------+---------+---------+---------+-- 2,5 5,0 7,5 10,0

Page 178: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

ANÁLISE DE VARIÂNCIA COM DOIS FATORES

(DUAS CLASSIFICAÇÕES)

Quando há mais de um fator (ou classificação) em avaliação, a análise de variância é ligeiramente diferente do caso de um

único fator.

Por exemplo, para dois fatores, as hipóteses a serem testadas são:

H01: µ11 = µ12 = µ13 = ....

H02: µ21 = µ22 = µ23 = ....

contra:

H1: pelo menos um µij diferente dos demais

Page 179: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

EXPERIMENTOS SEM REPETIÇÃO

(BLOCOS)

Três modelos diferentes de carros foram testados por seis motoristas, obtendo-se os seguintes desempenhos (Km/l):

Motorista Carro 1 2 3 4 5 6 x s2

A 15,1 14,7 16,0 14,3 13,9 14,2 14,7 0,58 B 13,9 13,7 14,4 13,3 13,6 14,5 13,9 0,22 C 16,0 15,4 15,8 14,4 14,2 15,4 15,2 0,54

Usando-se a Análise de Variância com um fator, vem:

45,03

54,022,058,0s2

R =++

=

58,2)13(

])6,142,15()6,149,13()6,147,14[(.6s

2222E =

−−+−+−

=

E a tabela da Análise de Variância fica: Fonte SQ GL QM FCALC FCRIT Entre 5,16 2 2,58 5,73 3,68 Residual 6,75 15 0,45 Total 11,91 17 FCRIT = F5% A conclusão é clara: deve-se rejeitar a igualdade de médias

dos diferentes modelos de carros.

Page 180: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

Contudo, se o modelo for novamente examinado, pode-se verificar que este pode ser aperfeiçoado, já que é de se

esperar que existam diferenças entre motoristas quanto ao modo de dirigir e estas, de certa forma, tendem a “mascarar”

eventuais diferenças entre os modelos de carro testados.

Assim, se houvesse um meio de eliminar ou, então, descontar as diferenças entre motoristas, a avaliação seria

feita com muito mais confiança nos resultados obtidos.

Esta possibilidade existe e é chamada de experimentos em blocos.

a) Unidades experimentais heterogêneas

.

b) Formação de blocos

.

Page 181: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

Voltando-se à tabela de dados original, pode-se verificar que:

Motorista Carro 1 2 3 4 5 6 x i.

A 15,1 14,7 16,0 14,3 13,9 14,2 14,7 B 13,9 13,7 14,4 13,3 13,6 14,5 13,9 C 16,0 15,4 15,8 14,4 14,2 15,4 15,2 x .j 15,0 14,6 15,4 14,0 13,9 14,7

Com base nas médias dos carros tem-se:

58,22

)6,142,15()6,149,13()6,147,14(.6

1k)xx(

.ns

222

2.i2

CARROS

=−+−+−

=

=−−

= ∑

Por outro lado, com base nas médias dos motoristas:

996,05

)6,147,14(...)6,140,15(.3

1n)xx(

.ks

22

2J.2

MOTOR

=−++−

=

=−−

= ∑

Utilizando-se todos os elementos, obtém-se

699,017

...)6,147,14()6,141,15(1nk

)xx(s

222ij2

T =+−+−

=−

−=

∑∑

Page 182: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

Ou, na forma de tabela da Análise de Variância Fonte SQ GL QM FCALC

Carros SQC=n.∑ − 2.i )xx( k-1 2

CARROSs 2R

2CARROS s/s

Motoristas SQM=k.∑ − 2J. )xx( n-1 2

MOTORs 2R

2MOTOR s/s

Residual SQR=SQT-SQC-SQM (k-1)(n-1) 2Rs

Total SQT=∑ ∑ − 2ij )xx( nk-1

ou, ainda, numericamente Fonte SQ GL QM FCALC FCRIT Carros 5,16 2 2,58 14,83 4,10 Motoristas 4,98 5 0,996 5,72 3,33 Residual 1,74 10 0,174 Total 11,880 17 Com FCRIT = F5%

Comentários: O modelo é dito aditivo, ou seja, a fórmula genérica é

xij = µ + αi + βj + εij

onde: - i é a quantidade de níveis do fator A (i = 1, 2, ..., n) - j é a quantidade de níveis do fator B (j = 1, 2, ..., k) -? αi é o efeito do nível i do fator A -? βj é o efeito do nível j do fator B

Page 183: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

EXPERIMENTOS COM REPETIÇÃO

Quando há mais de um fator (ou classificação) em avaliação, a análise de variância é ligeiramente diferente do caso

anterior. Por exemplo, para dois fatores:

B0 B1

A0 x111 x112 x113

x121 x122 x123

A1

x211 x212 x213

x221 x222 x223

Neste caso, a fórmula genérica é

xijt = µ + αi + βj + (αβ)ij + εijt onde: - i é a quantidade de níveis do fator A (i = 1, 2, ..., n) - j é a quantidade de níveis do fator B (j = 1, 2, ..., k) - k é a quantidade de réplicas por tratamento (t= 1, 2, ..., n) -?αi é o efeito do nível i do fator A -?βj é o efeito do nível j do fator B -??αβ?ij é o efeito da interação entre os fatores A e B

Page 184: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

INTERAÇÃO ENTRE FATORES

Quando existe mais do que um fator em avaliação, pode surgir um fenômeno chamado de interação. Isto significa que

quando os fatores estão presentes o resultado combinado destes não é aditivo, mas sim multiplicativo.

Modelo aditivo:

xijk = µ + αi + βj + εijk Modelo multiplicativo:

xijk = µ + αi + βj + (αβ)ij + εijk

Alguns exemplos desta a situação são: mistura de drogas com álcool, sinergia entre crianças brincado em um grupo, potencialização entre teores ativos em medicamentos, etc.

O aparecimento de interação entre fatores na análise de

variância não é exceção, mas regra.

Page 185: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

EXEMPLO

Certa operação pode ser executada em uma de duas máquinas (A0 ou A1), com um certo operador (B0 ou B1).

Existe influência das máquinas ou operadores com relação aos tempos de execução médios obtidos (em segundos)?

B0 B1

A0

(1)

20 22

(3)

40 37

A1

(2)

50 46

(4)

12 15

Como tanto as máquinas como os operadores podem ter

influência (efeito) sobre a resposta (tempo), então pode-se adotar como estimativa para o erro εijk a estimativa residual

da amostra (ou tratamento), ou seja, 2is :

Tratamento x-barra 2is

1 A0B0 21,0 2,00 2 A1B0 48,0 8,00 3 A0B1 38,5 4,50 4 A1B1 13,5 4,50

A média geral dos tempos é

25,304

5,135,380,480,21x =

+++=

Page 186: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

Admitindo-se que os tratamentos têm iguais variâncias, mas esta é desconhecida, então pode-se estimá-la mediante:

75,44

50,450,400,800,2s2

R =+++

=

As outras estimativas da variância, obtidas através da diferença entre as médias dos níveis das máquinas e dos operadores, são:

Máquina x-barra Operador x-barra

A0 29,75 B0 34,5 A1 30,75 B1 26,0

00,212

)25,3075,30()25,3075,29(x4s

222A =

−−+−

=

50,14412

)25,300,26()25,305,34(x4s

222B =

−−+−

=

A estimativa total da variância, por sua vez:

79,21618

)25,3015(...)25,3022()25,3020(s

2222T =

−−++−+−

=

A última forma de obtenção de estimativas, que é a com base na interação, será feita mediante a interação, lembrando-se que: RABBAT SQSQSQSQSQ +++=

Page 187: 1 Apostila de Estatística II avancado USP

PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos

© ALBERTO W. RAMOS

Colocando-se estes resultados, na forma da tabela da análise de variância, resulta em

Fonte SQ GL QM F Efeito

A

2,00

1

2,00

0,42

B

144,50

1

144,50

30,42

Interação

AxB

1352,00

1

1352,00

284,63

Resídual 19,00 4 4,75

Total

1517,50

7

Adotando-se α = 5%, resulta em:

Fcrit = F1;4: 5% = 7,71

Qual é sua interpretação dos resultados?

Page 188: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 188

© ALBERTO W. RAMOS

Fonte SQ GL QM F Efeito

A ∑ −=

i

2iA )xx(bnSQ

a-1 1aSQ

s A2A −

= 2R

2A

A ss

F =

B ∑ −=

j

2jB )xx(anSQ

b-1 1bSQ

s B2B −

= 2R

2B

B ss

F =

Interação

AxB

RBATAB SQSQSQSQSQ −−−=

(a-1)(b-1) )1b)(1a(SQ

s AB2AB −−

= 2R

2AB

AB ss

F =

Resídual ∑ ∑ ∑ −=i

2ijijk

j kR )xx(SQ

ab(n-1) )1n(abSQ

s E2R −

=

Total

2

iijk

j kT )xx(SQ ∑∑∑ −=

abn-1

Page 189: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 189

© ALBERTO W. RAMOS

INTERPRETAÇÃO DOS RESULTADOS

Quando há a presença de interação, o efeito de cada fator não pode ser considerado individualmente. Em outras

palavras, a interação demanda que o efeito combinado dos níveis dos fatores seja avaliado, por exemplo, através de um

gráfico como o abaixo.

0

10

20

30

40

50

60

A0 A1

B0B1

A consideração do melhor nível de um fator depende do nível do outro fator.

Por outro lado, quando houver evidências estatísticas de que não há interação entre os fatores, a sua soma de quadrados

da interação (SQI) poderá ser acrescida à residual (SQR).

Page 190: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 190

© ALBERTO W. RAMOS

MODELO FIXO E MODELO ALEATÓRIO

Exemplo 1

Uma indústria de parafusos adquiriu 5 máquinas e está interessada em realizar um experimento para verificar se estas são idênticas com relação ao diâmetro médio das peças por elas produzidas. Exemplo 2

Uma indústria está interessada em realizar um experimento para verificar se as máquinas são idênticas com relação ao diâmetro médio das peças por elas produzidas. Contudo, a quantidade de máquinas é muito grande, optou-se por selecionar ao acaso uma amostra de 5 máquinas.

No 1o exemplo o fator “máquina” é fixo, enquanto que no 2o modelo, este é aleatório. No modelo fixo, as

conclusões referem-se somente aos níveis testados mas, no aleatório, as conclusões devem ser estendidas

para toda população de níveis.

Page 191: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 191

© ALBERTO W. RAMOS

Conseqüências: • No caso de análise de variância com uma classificação, ou

com duas classificações, mas sem repetição (blocos), o fato do modelo ser fixo ou aleatório não afeta a forma em que a análise foi apresentada anteriormente;

• Contudo, quando há duas classificações com repetição, a análise para o caso de modelo aleatório é conduzida de maneira ligeiramente diferente da anteriormente vista (que somente é valida para modelo fixo).

Quando ambos os fatores são fixos as hipóteses:

H01: µ11 = µ12 = µ13 = ....

H02: µ21 = µ22 = µ23 = .... Equivalem a:

H01: α1 = α2 = α3 = ....= αa = 0 (não existe efeito do fator A)

H02: β1 = β2 = β3 = ....= βb = 0 (não existe efeito do fator B)

Page 192: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 192

© ALBERTO W. RAMOS

Entretanto, quando os fatores são aleatórios, tem-se que os parâmetros:

);0(NID~ 2i ασα

);0(NID~ 2

j βσβ

);0(NID~ 2ij αβσαβ

);0(NID~ 2

jki σε Conseqüentemente:

22222TOTAL σ+σ+σ+σ=σ αββα

Portanto, as hipóteses adequadas são:

H01: σ2A = 0 (não existe efeito do fator A)

H02: σ2

B = 0 (não existe efeito do fator B) Logo, se houver interação (ou não), o teste de significância do fator A e B (teste F) deve ser feito com 2

ABs no

denominador e não com 2Rs .

Page 193: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 193

© ALBERTO W. RAMOS

Fonte SQ GL QM F Efeito

A ∑ −=

i

2iA )xx(bnSQ

a-1 1aSQ

s A2A −

= 2AB

2A

A s

sF =

B ∑ −=

j

2jB )xx(anSQ

b-1 1bSQ

s B2B −

= 2AB

2B

B s

sF =

Interação

AxB

RBATAB SQSQSQSQSQ −−−=

(a-1)(b-1) )1b)(1a(SQ

s AB2AB −−

= 2R

2AB

AB ss

F =

Resídual ∑ ∑ ∑ −=i

2ijijk

j kR )xx(SQ

ab(n-1) )1n(abSQ

s E2R −

=

Total

2

iijk

j kT )xx(SQ ∑∑∑ −=

abn-1

Page 194: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 194

© ALBERTO W. RAMOS

ANÁLISE DE RESÍDUOS

Similarmente ao visto na análise de variância com um fator, também é recomendada aqui uma análise dos resíduos para

se detectar algum eventual problema nos dados.

Nesta situação (dois fatores), os resíduos são definidos como sendo a diferença entre os valores obtidos

experimentalmente e as médias de cada tratamento:

B0 B1

A0

(1)

-1 +1

(3)

+1,5 -1,5

A1

(2)

+2 -2

(4)

-1,5 +1,5

As mesmas ferramentas podem ser adotadas na análise de resíduos, ou seja, papel de probabilidade normal, gráfico

linear, etc.

Page 195: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 195

© ALBERTO W. RAMOS

Residuo

Po

rce

nta

ge

m

43210-1-2-3-4

99

95

90

80

70

60

50

40

30

20

10

5

1

Observação

Re

sid

uo

87654321

2

1

0

-1

-2

Média

Re

sid

uo

5040302010

2

1

0

-1

-2

Page 196: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 196

© ALBERTO W. RAMOS

Regressão

Page 197: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 197

© ALBERTO W. RAMOS

REGRESSÃO

O objetivo fundamental da regressão é descobrir a equação que relaciona duas (ou mais) variáveis, ou seja:

y = f(x1, x2, ... , xk) + ε

onde:

x1, x2, ... , xk são chamadas de fatores;

f(x1, x2, ... , xk) indica uma função de várias variáveis;

ε é chamado de erro. As hipóteses básicas assumidas na regressão são:

• x1, x2, ... , xk são admitidos sem erro

• y é admitido com erro

• ε é admitido ~ N(0,2Rσ )

• 2Rσ é admitido constante

Page 198: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 198

© ALBERTO W. RAMOS

REGRESSÃO LINEAR SIMPLES

Admite que uma equação do primeiro grau representa satisfatoriamente o modelo:

y = β0 + β1.x

como as constantes β0 e β1 são desconhecidas, então a equação da reta será estimada através de:

x.bby 10 += onde:

b0 - é o intercepto da reta

b1 - é a coeficiente angular da reta

x

y

b0

tg θ = b1

y = b0 + b1x^

Page 199: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 199

© ALBERTO W. RAMOS

EXEMPLO

Foi feito um levantamento de diversos modelos de automóveis quanto a potência do motor (Hp) e o

consumo médio (km/l).

Carro Potência Consumo 1 2 3 4 5 6 7 8 9

10 11 12 13 14 15 16 17 18

130 81 93

113 90 63 55

102 92 81

103 90 74 73

102 78

100 100

10,1 10,5 11,3 10,5 11,6 12,4 15,0 11,3 12,4 12,0 10,9 11,6 12,4 13,1 10,9 12,0 10,5 10,5

Page 200: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 200

© ALBERTO W. RAMOS

DETERMINAÇÃO DA EQUAÇÃO DA RETA

A equação da reta é determinada a partir dos dados da tabela anterior, através do método dos mínimos quadrados:

ei2

y

x

∑ ∑ ∑ −−=−= 2

10i2

ii2i )xbby(min)yy(minemin

Para se obter o mínimo, faz-se

0eb

e 0eb

2i

1

2i

0

=∂∂

=∂

∂ ∑∑

que resulta em

0)x.bby(x2

0)x.bby(2

10ii

10i

=−−−

=−−−

Page 201: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 201

© ALBERTO W. RAMOS

que resulta no seguintes sistema de equações

(2) xbxbyx

(1) xbnby

2i1i0ii

i10i

∑ ∑ ∑

∑ ∑

+=

+=

de (1), dividindo-se tudo por n, resulta

xbynx

bny

b 1i

1i

0 −=−= ∑∑

de (2), pode-se demonstrar que

XX

XY1 S

Sb =

onde:

( )∑ ∑ ∑−=

ny.x

yxS iiiiXY

e

( )nx

xS2

i2iXX

∑∑ −=

Page 202: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 202

© ALBERTO W. RAMOS

Voltando-se ao exemplo, usa-se uma tabela auxiliar:

Carro Potência (xi)

Consumo (yi)

xi2 yi

2 xiyi

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

130 81 93

113 90 63 55

102 92 81

103 90 74 73

102 78

100 100

10,1 10,5 11,3 10,5 11,6 12,4 15,0 11,3 12,4 12,0 10,9 11,6 12,4 13,1 10,9 12,0 10,5 10,5

16900 6561 8649 12769 8100 3969 3025 10404 8464 6561 10609 8100 5476 5329 10404 6084 10000 10000

102,01 110,25 106,09 110,25 134,56 153,76 225,00 127,69 153,76 144,00 118,81 134,56 153,76 171,61 118,81 144,00 110,25 110,25

1313,0 850,5 957,9 1186,5 1044,0 781,2 825,0 1152,6 1140,8 972,0 1122,7 1044,0 917,6 956,3 1111,8 936,0 1050,0 1050,0

TOTAL 1620 209,0 151404 2451,02 18504,9

1,30518

209x16209,18504SXY −=−=

( )

560418

1620151404S

2

XX =−=

0544,05604

1,305b1 −=−= 507,16

181620

0544,018209

b0 =+=

y= 16,507 - 0,0544.x

Page 203: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 203

© ALBERTO W. RAMOS

COMENTÁRIOS:

• o método dos mínimos quadrados busca traçar a melhor reta através dos pontos, ou seja, aquela que torna mínima a distância destes à reta;

• sempre é possível obter a equação de uma reta que

passa por um conjunto de pontos, mas isto não significa que o modelo seja necessariamente adequado;

• para se verificar a adequação do modelo, emprega-se a

análise de variância (ANOVA).

• é recomendável também fazer uma análise de resíduos para completar a análise de adequação do modelo.

Page 204: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 204

© ALBERTO W. RAMOS

ANÁLISE DE VARIÂNCIA APLICADA À REGRESSÃO

Para verificar se a regressão linear é estatisticamente significativa, deve-se testar o seguinte conjunto de hipóteses:

H0: β1 = 0 (não há regressão)

H1: β1 ≠ 0 (há regressão)

Este teste pode ser feito mediante a aplicação do método da análise de variância. Pode-se identificar dois tipos de variância diferentes: a total e a residual. A variância total é estimada através de:

1nS

1n

)yy(s YY

n

1i

2i

2T −

=−

−=

∑=

A variância residual (ou em torno da reta de regressão) é estimada através de:

2nSbS

2n

)yy(s XX

21YY

n

1i

2ii

2R −

−=

−=

∑=

Page 205: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 205

© ALBERTO W. RAMOS

Lembrando que

SQTOTAL = SQREGRESSÃO + SQERRO então, a variância devido ao modelo de regressão é estimada através de:

1Sb

s XX212

M =

Se a regressão for significativa, então a variância residual (ou devida ao erro) deve ser pequena quando comparada com a variância devida a regressão. Conseqüentemente, o quociente das duas variâncias (regressão/erro) pode ser testado mediante um F-Snedecor. Em termos de tabela, este teste fica:

Fonte GL SQ QM Fcalc

Regressão

1

b1

2SXX

2Ms 2

R

2M

ss

Residual

n-2

SYY – b1

2SXX 2Rs

Total

n-1

SYY

Fcalc será comparado contra Fcrit = F1; n-2; α e se Fcalc > Fcrit è rejeita-se H0

Page 206: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 206

© ALBERTO W. RAMOS

COEFICIENTE DE DETERMINAÇÃO

Se dividirmos a soma de quadrados devido à regressão (SQREGRESSÃO) pela soma de quadrados total (SQTOTAL), a

este índice chamamos de coeficiente de determinação (R2). Numericamente:

YY

XY1

YY

XX212

SS.b

SS.b

R ==

O coeficiente de determinação informa que % da variação de Y é explicada pela variação de X. Logo, quanto maior o valor de R2, maior chance de que a regressão seja válida

estatisticamente falando.

Perceba que R2 nada mais é do que o coeficiente de correlação (R) elevado ao quadrado, ou seja:

YYXX

2XY

YY

XY1

YY

XX2

2

S.SS

SS.b

S

S.bR 1 ===

Page 207: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 207

© ALBERTO W. RAMOS

INTERVALOS DE CONFIANÇA

a) Para a reta de regressão Seja x’ um valor que não foi utilizado para o cálculo da reta. Nesta circunstância, tem-se:

XX

2

R

10

S)x'x(

n1

)'y(

'x)'y(

−+σ=σ

β+β=µ

Então, o IC para a reta de regressão é

XX

2

R2/;2n S)x'x(

n1

s.t 'y−

+± α−

b) Para Futuras Observações

Neste caso, o intervalo (de previsão) fica:

XX

2

R2/;2n S)x'x(

n1

1s.t'y−

++± α−

Page 208: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 208

© ALBERTO W. RAMOS

ANÁLISE DE RESÍDUOS

O erro ε do modelo é estimado mediante o resíduo e, definido como sendo a diferença entre o valor observado (y) e o valor previsto pela equação obtida (y-chapéu). Assim, no exemplo:

Amostra x y y e = y - y 1 2 3 4 5 6 7 8 9

10 11 12 13 14 15 16 17 18

130 81 93

113 90 63 55

102 92 81

103 90 74 73

102 78

100 100

10,1 10,5 11,3 10,5 11,6 12,4 15,0 11,3 12,4 12,0 10,9 11,6 12,4 13,1 10,9 12,0 10,5 10,5

9,4 12,0 11,4 10,3 11,6 13,0 13,5 10,9 11,4 12,0 10,8 11,6 12,4 12,5 10,9 12,2 11,0 11,0

0,7 -1,5 -1,1 0,2 0

-0,6 1,5 0,4 1,0 0

0,1 0 0

0,6 0

-0,2 -0,5 -0,5

Page 209: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 209

© ALBERTO W. RAMOS

Se o modelo (linear) ajustado aos dados for adequado, então os resíduos devem se apresentar distribuídos aleatoriamente em torno do valor zero, quando marcados num gráfico cartesiano como o abaixo.

x

RE

SÍD

UO

-2

-1.5

-1

-0.5

0

0.5

1

1.5

2

9.5 10.5 11.5 12.5 13.5 14.5 15.5

Padrões estranhos observados na forma em que os resíduos se distribuem neste gráfico podem indicar problemas.

Page 210: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 210

© ALBERTO W. RAMOS

REGRESSÃO POLINOMIAL

Muitas vezes, ao analisar o diagrama de dispersão, fica evidente que o modelo linear não é o mais adequado para a

representação de:

y = f(x) + ε

Neste caso, o modelo a ser adotado pode ser do tipo polinomial, ou seja

y = β0 + β1.x + β2x2 + β3x3 + β4x4 + ...

De particular interesse é o caso em que o polinômio é de 2o grau, ou seja

y = β0 + β1.x + β2.x2

que será estimado mediante

2210P xbxbby ++=

Page 211: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 211

© ALBERTO W. RAMOS

Aplicando-se o método dos mínimos quadrados, similarmen-te ao feito no caso linear, chega-se ao seguinte conjunto de equações

∑ ∑ ∑ ∑

∑ ∑ ∑∑

∑ ∑ ∑

++=

++=

++=

4i2

3i1

2i0i

2i

3i2

2i1i0ii

2i2i10i

xbxbxbyx

xbxbxbyx

xbxbnby

cuja solução fornece os valores de b0, b1 e b2.

Page 212: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 212

© ALBERTO W. RAMOS

EXEMPLO

y x x2 x3 x4 xy x2y 1 1 1 1 1 1 1

1,2 2 4 8 16 2,4 4,8 1,8 3 9 27 81 5,4 16,2 2,5 4 16 64 256 10 40 3,6 5 25 125 625 18 90 4,7 6 36 216 1296 28,2 169 6,6 7 49 343 2401 46,2 323 9,1 8 64 512 4096 72,8 582

30,5 36 204 1296 8772 184 1227

30,5 = 8b0 + 36b1 + 204b2 184 = 36b0 + 204b1 + 1296b2 1227 = 204b0 + 1296b1 + 8772b2

A solução deste sistema fornece

b0 = 1,348 b1 = -0,414 b2 = 0,170

Logo, a parábola estimativa será

2

P x170,0x414,0348,1y +−=

Page 213: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 213

© ALBERTO W. RAMOS

ANÁLISE DE VARIÂNCIA APLICADA À REGRESSÃO

Para verificar se a regressão polinomial é estatisticamente significativa, deve-se testar o seguinte conjunto de hipóteses:

H0: β1 = β2 = 0 (não há regressão)

H1: pelo menos um βi ≠ 0 (há regressão)

Novamente, a variância total pode ser estimada através de:

1n)yy(

s2

i2T −

−= ∑

A variância residual (ou em torno da parábola de regressão) é estimada através de:

3ne

3n)yy(

s2i

2iPi2

R −=

−−

= ∑∑

Lembrando a propriedade da análise de variância que

SQTOTAL = SQREGRESSÃO + SQERRO

Page 214: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 214

© ALBERTO W. RAMOS

então, a tabela da análise de variância fica

Fonte GL SQ QM Fcalc Regressão

2

por diferença

2Ms 2

R

2M

ss

Residual

n-3

∑ 2

ie 2Rs

Total

n-1

∑ − 2i )yy(

Fcalc será comparado contra Fcrit = F2; n-3; α e se Fcalc > Fcrit è rejeita-se H0, ou seja, a regressão é significativa.

Page 215: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 215

© ALBERTO W. RAMOS

EXEMPLO

Empregando-se os dados do exemplo anterior, tem-se que

y x py e e2

1 1 1,104 -0,104 0,011 1,2 2 1,2 0 0,000 1,8 3 1,636 0,164 0,027 2,5 4 2,412 0,088 0,008 3,6 5 3,528 0,072 0,005 4,7 6 4,984 -0,284 0,081 6,6 7 6,78 -0,18 0,032 9,1 8 8,916 0,184 0,034

30,5 36 0,198

Então:

1796,872572,57

1n)yy(

s2

i2T ==

−−

= ∑

0396,05198,0

3ne

3n)yy(

s2i

2iPi2

R ==−

=−−

= ∑∑

Fonte GL SQ QM Fcalc Regressão 2 57,0592 28,5296 720,444 Residual 5 0,198 0,0396 Total 7 57,2572

Como FCRIT = F2; 5; 5% = 5,79 à A regressão é significativa

Page 216: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 216

© ALBERTO W. RAMOS

ANÁLISE DE MELHORIA

Comparando-se o modelo linear com o quadrático, verifica-se a seguinte decomposição dos componentes da variação:

Variação Residual sobre a

Reta

Variação Explicada pela Reta

VariaçãoTotal

Melhoria do Ajuste

Variação Residual sobre

a Parábola

Variação Explicada

pela Parábola

.

Em outras palavras, pode-se decompor a variação residual sobre a reta em duas parcelas: variação residual sobre a

parábola e melhoria de ajuste.

O teste de hipóteses será conduzido para avaliar:

H0: não há melhoria

H1: há melhoria

Page 217: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 217

© ALBERTO W. RAMOS

Conseqüentemente:

∑ ∑∑ −+−=− 2Pii

2iPi

2ii )yy()yy()yy(

A verificação de que se há melhoria significativa de ajuste pode ser feita mediante a análise de variância

Fonte GL SQ QM Fcalc Melhoria do Ajuste

1

∑ − 2

iPi )yy(

2Melhorias 2

P

2Melhoria

ss

Residual sobre a parábola

n-3

∑ − 2

Pii )yy( 2Ps

Residual sobre a reta

n-2

∑ − 2

ii )yy(

Fcalc será comparado contra Fcrit = F1; n-3; α e se Fcalc > Fcrit è rejeita-se H0, ou seja, a melhoria no modelo quadrático é significativa.

Page 218: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 218

© ALBERTO W. RAMOS

EXEMPLO

Com os mesmos dados dos exemplos anteriores, ajustando-se uma reta por estes, obtém-se:

y = -1,196 + 1,113 x

y x Py 2

iiP )yy( − 2Pii )yy( − 2

ii )yy( − 1 1 1,104 1,409 0,011 1,173

1,2 2 1,2 0,029 0,000 0,029 1,8 3 1,636 0,257 0,027 0,118 2,5 4 2,412 0,712 0,008 0,572 3,6 5 3,528 0,707 0,005 0,591 4,7 6 4,984 0,248 0,081 0,612 6,6 7 6,78 0,034 0,032 0,000 9,1 8 8,916 1,459 0,034 1,938

30,5 36 4,856 0,198 5,032

Então

Fonte GL SQ QM Fcalc Melhoria do Ajuste 1 4,856 4,856 122,626 Residual sobre a parábola 5 0,198 0,0396 Residual sobre a reta 6 5,032

Como FCRIT = F1; 5; 5% = 6,61 è Há melhoria de ajuste com o modelo quadrático.

Page 219: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 219

© ALBERTO W. RAMOS

87654321

9

8

7

6

5

4

3

2

1

x

y

S = 0,198356 R-Sq = 99,7 % R-Sq(adj) = 99,5 %

+ 0,169643 x**2

y = 1,34821 - 0,413690 x

Regression Plot

87654321

9

8

7

6

5

4

3

2

1

0

x

y

S = 0,915746 R-Sq = 91,2 % R-Sq(adj) = 89,7 %

y = -1,19643 + 1,11310 x

Regression Plot

Page 220: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 220

© ALBERTO W. RAMOS

REGRESSÃO LINEAR MÚLTIPLA

Neste caso, a resposta é função de mais de uma variável e admite-se que esta função seja do tipo:

y = β0 + β1.x1 + β2.x2 + ... + βk.xk + ε

que será estimada mediante

y= b0 + b1.x1 + b2.x2 + b3.x3 + ... + bk.xk

Page 221: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 221

© ALBERTO W. RAMOS

Se possuirmos dados de yi e xij

y x1 x2 ... xk y1 x11 x12 ... x1k y2 x21 x22 ... x2k . . .

.

.

.

.

.

.

...

.

.

. yn xn1 xn2 ... xnk

através da notação matricial pode-se escrever

y = X.β + ε

onde:

=

n

3

2

1

y...

yyy

y

=

nkn2n1

2k2221

1k1211

x... x x1...

x... x x1 x... x x1

X

β

βββ

k

2

1

0

.

.

.

ε

εεε

n

3

2

1

.

.

.

Pelo método dos mínimos quadrados, quer se encontrar o vetor β tal que minimize:

)()'(MQn

ii XßyXßyee'e

1

2 −−=== ∑=

Page 222: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 222

© ALBERTO W. RAMOS

que pode ser re-escrita como:

XßX'ß'yX''2yy'XßX'ß'Xßy'yX'ß'yy' +−=+−−= ßMQ

como yX'ß' é uma matriz 1X1 a sua transposta é igual, ou seja, Xßy'yX'ß' =)'( . Assim:

0Xb2X'y2X' =+−=β∂

b

MQ

ou

X’Xb=X’y

ou ainda

b= (X’X)-1X’y

Page 223: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 223

© ALBERTO W. RAMOS

EXEMPLO

y x1 x2 1,5 0 0 6,5 1 2

10,0 1 4 11,0 2 2 11,5 2 4 16,5 3 6

Para facilitar os cálculos, pode-se utilizar variáveis centradas, ou seja, subtrai-se de x1 e x2 as suas respectivas médias:

y x’1 x’2

1,5 -1,5 -3 6,5 -0,5 -1

10,0 -0,5 1 11,0 0,5 -1 11,5 0,5 1 16,5 1,5 3

Assim, resulta

6 0 0 57 X'X = 0 5,5 9 X'y = 25,5

0 9 22 49

Page 224: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 224

© ALBERTO W. RAMOS

Logo:

1/6 0 0 57 9,5

b = (X'X)-1X'y = 0 11/20 -9/40 x 25,5 = 3 0 -9/40 11/80 49 1

A equação obtida é da forma:

21 'x'x35,9y ++= Como

5,1x'x 11 −= e

resulta em

21 xx32y ++= que gera o seguinte plano

Page 225: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 225

© ALBERTO W. RAMOS

COMENTÁRIOS

• quando há duas variáveis no modelo, obtém-se um plano; • quando há mais do que duas variáveis no modelo, obtém-

se um hiperplano, que infelizmente não é possível representar graficamente;

• para se verificar a adequação do modelo, emprega-se a

análise de variância, similar à regressão polinomial:

Fonte g.l. SQ QM Fcalc Regressão Residual Total

2 3 5

125,5 3,0

128,5

62,75 1,0

62,75

• genericamente, o modelo de análise de variância é

Fonte GL SQ QM Fcalc

Regressão

k

por diferença

2Ms 2

R

2M

ss

Residual

n-k-1

∑ 2

ie 2Rs

Total

n-1

∑ − 2i )yy(

• assim como no caso das demais regressões, é também

recomendável fazer uma análise de resíduos para completar a análise de adequação do modelo;

• para k > 2 recomenda-se o emprego de algum software

estatístico na análise de regressão.

Page 226: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 226

© ALBERTO W. RAMOS

COEFICIENTE DE DETERMINAÇÃO MÚLTIPLO

A idéia do coeficiente de determinação anteriormente vista pode ser adaptada para o caso da regressão múltipla. Neste

caso faz-se:

∑∑ ∑

−−==

2i

22i

TOTAL

REGRESSÃO2

)yy(

e)yy(

SQSQ

Ri

Entretanto, quando se lida com modelos de regressão múltipla, é comum também calcular o coeficiente de

determinação ajustado. Matematicamente:

( )

−−−

−−=1kn

1nR11R 22

AJ

onde: • n é a quantidade de pontos (amostras) disponível; • k é a quantidade de variáveis independentes (X´s).

Este coeficiente é mais adequado a comparações entre duas ou mais regressões sobre uma mesma variável dependente

(Y), quando o número de variáveis independentes é diferente. A inclusão de um novo X faz sempre com que R2 aumente,

mas não necessariamente R2aj.

Page 227: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 227

© ALBERTO W. RAMOS

EXEMPLO

No exemplo da regressão linear múltipla tem-se:

962,0126

16)977,01(1R

977,05,1285,125

SQSQ

R

2AJ

TOTAL

REGRESSÃO2

=

−−−

−−=

===

Page 228: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 228

© ALBERTO W. RAMOS

MULTICOLINEARIDADE Na regressão múltipla, admite-se que as variáveis X´s sejam independentes entre si, ou seja, que não exista correlação entre elas. Quando isto ocorre, fica impossível separar o

efeito individual de cada uma das variáveis. A este tipo de problema chama-se de multicolinearidade.

Uma saída para esta questão é considerar na equação

somente os X´s com maior R2, retirando os demais Um método para avaliar se existe multicolinearidade entre as variáveis X´s é mediante o cálculo do VIF (Variation Inflation

Factor), definido como:

2i

i R11

VIF−

=

onde 2

iR é o coeficiente de determinação de Xi com todos os demais X´s. Se VIF > 5, então há problema de

multicolinearidade.

Page 229: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 229

© ALBERTO W. RAMOS

EXEMPLO No exercício anterior, podemos calcular R2 de x1 com x2. Este é simplesmente o coeficiente de correlação elevado ao quadrado.

x1 x2 x21 x2

2 x1.x2 0 0 0 0 0 1 2 1 4 2 1 4 1 16 4 2 2 4 4 4 2 4 4 16 8 3 6 9 36 18

Total 9 18 19 76 36

818,022.5,5

9R

226

1876S

5,569

19S

9618.9

36S

2

2X2X

2

1X1X

2X1X

==

=−=

=−=

=−=

02,3)818,0(1

1VIFVIF

221 =−

==

Conclui-se que não há problema com multicolinearidade.

Page 230: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 230

© ALBERTO W. RAMOS

CORRELAÇÃO PARCIAL

Estudos de correlação indicam se duas (ou mais) variáveis estão associadas, ou seja, se quando uma destas varia a

outra (ou outras) também varia(m).

Quando se tem, por exemplo, três variáveis X1, X2 e X3, pode-se querer estudar a correlação existente entre elas

tomando-se duas a duas variáveis. Assim, r12 seria o coeficiente de correlação entre X1 e X2, r13, entre X1 e X3, etc.

Contudo, estes índices medem a correlação total entre as variáveis, ou seja, não descontam o efeito da terceira variável

presente no estudo.

Conseqüentemente, se é desejado o cálculo da correlação parcial de X1 e X2, esta deve ser calculada mediante o índice:

)r1)(r1(

rrrr

223

213

2313123,12

−−

−=

Page 231: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 231

© ALBERTO W. RAMOS

EXEMPLO

x1 x2 x3 0 0 1 1 2 2 1 4 3 2 2 4 2 4 5 3 6 6

866,0r

968,0r

818,0r

23

13

12

=

=

=

Logo,

162,0)866,01)(968,01(

866,0.968,0818,0r

223,12 −=−−

−=

EXERCÍCIO

Calcular r23,1 e r13,2 com os dados anteriores.

Page 232: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 232

© ALBERTO W. RAMOS

Teste Qui-quadrado

Page 233: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 233

© ALBERTO W. RAMOS

TESTE QUI-QUADRADO

O teste Qui-quadrado serve para avaliar se duas variáveis qualitativas (também chamadas de categóricas) são ou não

independentes entre si.

Variáveis

Quantita-tivas

Qualita-tivas

Contínuas

Discretas

Ordinal

Nominal

.

Logo, o conjunto de hipóteses que está sendo testado é:

H0: as variáveis são independentes H1: as variáveis são dependentes

Page 234: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 234

© ALBERTO W. RAMOS

EXEMPLO Uma amostra de 300 estudantes de uma universidade foi obtida, e estes foram classificados quanto a : Área de concentração : Exatas ; Humanas Jornal preferido : A, B, C, Outros Obtendo-se os seguintes resultados.

Oij Jornal A Jornal B Jornal C Outros Total

Exatas 60 20 90 20 190

Humanas 30 40 30 10 110

Total 90 60 120 30 300

Existem evidências de que Área de Concentração e Jornal Preferido estejam relacionados (dependência) ?

Page 235: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 235

© ALBERTO W. RAMOS

As hipóteses testadas, neste caso, são: Ho : Área e Jornal Preferido são independentes H1 : Área e Jornal Preferido não são independentes Na amostra havia 190 alunos de Exatas, num total de 300, ou seja, 190/300 = 0,633 ou 63,3% e, conseqüentemente, havia 110/300 = 0,366 ou 36,6% de alunos de Humanas. Na coluna do Jornal A obteve-se um total de 90 alunos. Se não houver dependência entre área e jornal, espera-se que:

Proporção de Exatas è 5790x300190

=

Proporção de Humanas è 3390x300110

=

Analogamente, para as demais colunas, obtém-se os valores entre parênteses da tabela abaixo. Oij (Eij) Jornal A Jornal B Jornal C Outros Total

Exatas 60(57) 20(38) 90(76) 20(19) 190

Humanas 30(33) 40(22) 30(44) 10(11) 110

Total 90 60 120 30 300 Ou, genericamente:

EL C

niji j=×

Li = Total da linha i Cj = Total da coluna j

Page 236: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 236

© ALBERTO W. RAMOS

Assim, pode-se obter as diferenças entre o observado (Oij) e o esperado (Eij ) na tabela, conforme abaixo: Oij - Eij Jornal A Jornal B Jornal C Outros Total

Exatas +3 -18 +14 +1 0

Humanas -3 +18 -14 -1 0

Total 0 0 0 0 0

Define-se como Qui-quadrado, à estatística:

∑−

=χij

2ijij2

calc E)EO(

χ2 Jornal A Jornal B Jornal C Outros Total Exatas 0,158 8,526 2,579 0,053 11,316

Humanas 0,273 14,727 4,455 0,091 19,545 Total 0,431 23,254 7,033 0,144 30,861

que, para a decisão, será comparado contra

815,72%5;3

2);1C)(1L(

2crítico =χ=χ=χ α−−

como 2calcχ >

2críticoχ ⇒ Rejeito Ho

Page 237: 1 Apostila de Estatística II avancado USP

ESTATÍSTICA II 237

© ALBERTO W. RAMOS

TABELA DE VALORES CRÍTICOS QUI-QUADRADO

ν α = 0,10 α = 0,05 α = 0,01 1 2,706 3,841 6,635 2 4,605 5,991 9,210 3 6,251 7,815 11,345 4 7,779 9,488 13,277 5 9,236 11,070 15,086 6 10,645 12,592 16,812 7 12,017 14,067 18,475 8 13,362 15,507 20,090 9 14,684 16,919 21,666

10 15,987 18,307 23,209 11 17,275 19,675 24,725 12 18,549 21,026 26,217 13 19,812 22,362 27,688 14 21,064 23,685 29,141 15 22,307 24,996 30,578