Upload
ihd
View
60
Download
0
Embed Size (px)
Citation preview
ESTATÍSTICA II 1
© ALBERTO W. RAMOS
ESCOLA POLITÉCNICA DA UNIVERSIDADE DE SÃO PAULO DEPARTAMENTO DE ENGENHARIA DE PRODUÇÃO
PRO 2711
ESTATÍSTICA II
Prof. Alberto W. Ramos
SÃO PAULO, 2010
ESTATÍSTICA II 2
© ALBERTO W. RAMOS
Revisão do Cálculo de
Probabilidades
ESTATÍSTICA II 3
© ALBERTO W. RAMOS
PROBABILIDADE
FENÔMENOS
DETERMINÍSTICOS
PROBABILÍSTICOS
Definições:
a) Espaço Amostral (S): conjunto de todos os resultados possíveis de um fenômeno probabilístico.
Ex.: lançamento de dado à S = {1,2,3,4,5,6}
b) Evento (A,B,C,...): qualquer subconjunto de S.
Ex.: P = ponto par = {2,4,6} I = ponto ímpar = {1,3,5} T = ponto maior que três = {4,5,6}
Obs.: S = evento certo
Ø = evento impossível
ESTATÍSTICA II 4
© ALBERTO W. RAMOS
OPERAÇÕES COM EVENTOS
a) Evento intersecção: BA ∩ Ex.: }6,4{TP =∩ (ambos ocorrem)
b) Evento união: BA ∪
Ex.: S}6,5,4,3,2,1{IP ==∪ (pelo menos um ocorre)
c) Evento complementar: A
Ex.: I}5,3,1{P == (P não ocorre)
c) Eventos mutuamente exclusivos: =∩ BA Ø Ex.: =∩ IP Ø (P e I não ocorrem ao mesmo tempo)
S
A ∩B
A B
S
A ∪ B
A B
S A
A
S A B
ESTATÍSTICA II 5
© ALBERTO W. RAMOS
DEFINIÇÃO DE PROBABILIDADE
É um número real, associado a um evento, que mede sua chance de ocorrência:
n
m)A(P =
onde:
• m é o número de resultados favoráveis a A
• n é o número de resultados possíveis, desde que igual-mente prováveis
Observações:
a) 0 ≤ P(E) ≤ 1
b) P(A∪B) = P(A) + P(B) - P(A∩B)
c) P(A ) = 1 - P(A)
ESTATÍSTICA II 6
© ALBERTO W. RAMOS
PROBABILIDADE CONDICIONADA
Notação: P(A/B) → probabilidade do evento A, sabendo-se que o evento B ocorreu
Definição:
P(A/B) = )B(P
)BA(P ∩, P(B) ≠ 0
ou
P(B/A) = )A(P
)BA(P ∩, P(A) ≠ 0
logo:
P(A∩B) = P(A) . P(B/A) = P(B) . P(A/B)
Se P(A/B) = P(A/B ) = P(A) ⇒ o evento A é estatisticamente independente de B ⇒ P(B/A) = P(B/ A ) = P(B) Neste Caso:
P(A∩B) = P(A) . P(B)
ESTATÍSTICA II 7
© ALBERTO W. RAMOS
EXEMPLO
Seja o lançamento de dois dados, com A: dar ponto 1, 2 ou 3 no primeiro dado e B: dar soma ≤ 6. Calcular P(A/B) e P(B/A).
21
3618
)A(P == 125
3615
)B(P == 31
3612
)BA(P ==∩
P(A/B) = 54
1512
)B(P)BA(P
12531
===∩
P(B/A) = 32
)A(P)BA(P
2131
==∩
(1,1) (2,1) (3,1) (4,1) (5,1) (6,1)
(1,2) (2,2) (3,2) (4,2) (5,2) (6,2)
(1,3) (2,3) (3,3) (4,3) (5,3) (6,3)
(1,4) (2,4) (3,4) (4,4) (5,4) (6,4)
(1,5) (2,5) (3,5) (4,5) (5,5) (6,5)
(1,6) (2,6) (3,6) (4,6) (5,6) (6,6)
B
A
S =
A∩B
ESTATÍSTICA II 8
© ALBERTO W. RAMOS
TEOREMA DA PROBABILIDADE TOTAL Sejam A1, A2, ..., An eventos mutuamente exclusivos e exaustivos (partição) e seja B um evento qualquer de S.
∑==
∩=⇒∩=n
1ii
n
1ii )BA(P)B(PBAB U
∴ )A.P(B)A(P)B(P i
n
1ii = ∑
= (TPT)
TEOREMA DE BAYES Nas mesmas condições do Teorema da Probabilidade Total.
)B(P)BA(P
)BA(P jj
∩=
)AB(P).A(P
)AB(P).A(P)BA(P
j
n
1jj
jjj
=
∑=
(TB)
SA1 A2 A3
AnA4 ...
B
ESTATÍSTICA II 9
© ALBERTO W. RAMOS
Variáveis Aleatórias
ESTATÍSTICA II 10
© ALBERTO W. RAMOS
VARIÁVEIS ALEATÓRIAS UNIDIMENSIONAIS
Uma variável aleatória (VA) é a representação dos eventos de uma partição de S através de números reais. Exemplos:
a) número de caras obtidas no lançamento de três moedas.
b) soma de pontos obtida no lançamento de dois dados.
A1 A2
A3
p
VA
0
1
Probabilidade em SFunção VAFunção Probabilidade
ESTATÍSTICA II 11
© ALBERTO W. RAMOS
TIPOS DE VARIÁVEIS ALEATÓRIAS (VA)
Discreta à S finito Contínua àS infinito VA Discretas: A distribuição de probabilidade é representada pela função probabilidade, tal que: a) P(X=xi) ≥ 0, ∀xi b) ∑ ==
ii 1)xX(P
c) ∑>
≤<==b
axi
i
)bXa(P)xX(P
VA
ESTATÍSTICA II 12
© ALBERTO W. RAMOS
EXEMPLO Seja X o número de caras (K) obtidas no lançamento de três moedas.
=
KKK
CKKKCKKKC
CCKCKCKCCCCC
S
xi 0 1 2 3
P(X=xi) 1/8 3/8 3/8 1/8
xi1
P(X=xi)
2 3
3/8
2/8
1/8
0
ESTATÍSTICA II 13
© ALBERTO W. RAMOS
VA Contínuas: S é infinito e a probabilidade de cada resultado individual é zero (mas não teoricamente impossível). A distribuição de probabilidade é representada pela função densidade de probabilidade fX(x). a) fX(x) ≥ 0
b) ∫+∞
∞−
= 1)x(fX
a) ∫ >≤<=b
aX ab),bxa(P)x(f
x
fX(x)
a b
P(a<x≤b)
ESTATÍSTICA II 14
© ALBERTO W. RAMOS
EXEMPLO
Seja uma função densidade de probabilidade definida como:
a) determinar o valor de K. b) equacionar esta fdp.
x1 2
fX(x)
K
0
ESTATÍSTICA II 15
© ALBERTO W. RAMOS
FUNÇÃO DE REPARTIÇÃO OU DE DISTRIBUIÇÃO ACUMULADA
É definida por:
+∞<<∞≤= x- )xX(P)x(FX
Para VAB discretas tem-se:
∑≤
==ax
iXi
)xX(P)a(F
Para VAB contínuas tem-se:
∫∞−
=a
XX dx)x(f)a(F
Propriedades:
a) 0)(FX =−∞
b) 1)(FX =+∞
c) )a(F)b(F)bXa(P YX −=≤<
ESTATÍSTICA II 16
© ALBERTO W. RAMOS
PARÂMETROS DE POSIÇÃO
Indicam onde se localiza o centro da distribuição. 1) Média ou Valor Esperado: µ(X)
• VA Discreta: ∑ ==µ )xX(P.x)X( ii • VA Contínua: ∫=µ dx)x(f.x)X( X
Propriedades:
a) µ(K) = K, K = constante
b) µ(K.X) = K. µ(X)
c) µ(X+Y) = µ(X) + µ(Y)
d) µ(X-Y) = µ(X) - µ(Y)
e) µ(X±K) = µ(X) ± K
f) Se X e Y são independentes ⇒ µ(X.Y) = µ(X) . µ(Y)
2) Mediana: MD É o ponto tal que: P(X<MD) = P(X>MD) = ½. 3) Moda: MO É o ponto de máxima probabilidade ou densidade de probabilidade.
ESTATÍSTICA II 17
© ALBERTO W. RAMOS
PARÂMETROS DE DISPERSÃO
Indicam a variabilidade da distribuição de probabilidade.
1) Variância: σ2(X), V(X) 2222 )]X([)X(])X[()X( µ−µ=µ−µ=σ
• VA Discreta:
∑ ∑ ∑
=−===µ−=σ
i i
2
iiii
2ii
2i
2 )xX(P.x)xX(P.x)xX(P.)x()X(
• VA Contínua:
∫ ∫ ∫∞+
∞−
∞+
∞−
∞+
∞−
−=µ−=σ2
XX2
X22 dx)x(f.xdx)x(f.xdx)x(f.)x()X(
Propriedades:
a) σ2(K) = 0, K = constante
b) σ2(K.X) = K2. σ2(X)
c) Se X e Y são independentes:
σ2(X+Y) = σ2(X) + σ2(Y)
σ2(X-Y) = σ2(X) + σ2(Y)
d) σ2(X±K) = σ2(X)
ESTATÍSTICA II 18
© ALBERTO W. RAMOS
2) Desvio-Padrão: σ(X)
)X()X( 2σ=σ
3) Coeficiente de Variação: CV
)X()X(
CVµσ
=
ESTATÍSTICA II 19
© ALBERTO W. RAMOS
EXEMPLOS Seja X o número de caras (K) obtidas no lançamento de três moedas.
xi 0 1 2 3
P(X=xi) 1/8 3/8 3/8 1/8
5,18
1281
x 383
x 283
x 181
x 0)xX(P.x)X( ii ==+++===µ ∑
∑ ==+++==i
2222i
2i 3
824
81
x383
x283
x181
x0)xX(P.x
( ) 75,05,13)xX(P.x)xX(P.x)X( 2
i
2
iiii
2i
2 =−=
=−==σ ∑ ∑
xi1
P(X=xi)
2 3
3/8
2/8
1/8
0
ESTATÍSTICA II 20
© ALBERTO W. RAMOS
EXEMPLO
Seja uma função densidade de probabilidade definida como:
Determinar a média µ(X) e a variância σ2(X).
x1 2
fX(x)
K
0
ESTATÍSTICA II 21
© ALBERTO W. RAMOS
VARIÁVEIS ALEATÓRIAS BIDIMENSIONAIS (VAB)
VAB Discretas A distribuição fica caracterizada pela função probabilidade, tal que: a) j i, 0)yY;xX(P ji ∀∀≥==
b) ∑∑ ===j
jii
1)yY;xX(P
VAB Contínuas Neste caso, tem-se a função densidade de probabilidade conjunta, tal que: a) 0)y,x(fXY ≥
b) ∫∫+∞
∞−
+∞
∞−
= 1dxdy)y,x(fXY
ESTATÍSTICA II 22
© ALBERTO W. RAMOS
EXEMPLOS Sejam dois dados “viciados”, com X o ponto obtido no 1o dado e Y, o ponto no 2o dado
xi P(X=xi) yj P(Y=yj)
1 1/21 1 1/12
2 2/21 2 2/12
3 3/21 3 3/12
4 4/21 4 3/12
5 5/21 5 2/12
6 6/21 6 1/12
A função probabilidade fica:
X Y 1 2 3 4 5 6 Total
1 1/252 2 3 3 2 1 1/21
2 2/252 4 6 6 4 2 2/21
3 3/252 6 9 9 6 3 3/21
4 4/252 8 12 12 8 4 4/21
5 5/252 10 15 15 10 5 5/21
6 6/252 12 18 18 12 6 6/21
Total 1/12 2/12 3/12 3/12 2/12 1/12 1
ESTATÍSTICA II 23
© ALBERTO W. RAMOS
Seja
2y x1,x0 ykx)y,x(f 2XY ≤+≤≤=
Determinar o valor de k.
1
2
1 x
y
( )4
15k 1
15k4
dxxx44x2k
dx2yx
k 1ydykxdx
21
0
2
x2
0
x2
0
1
0
222
1
0
=⇒==+−
=⇒=
∫
∫ ∫∫−
−
ESTATÍSTICA II 24
© ALBERTO W. RAMOS
FUNÇÃO DE REPARTIÇÃO OU DE DISTRIBUIÇÃO ACUMULADA
BIDIMENSIONAL É definida por:
∞++<<∞+∞<<∞≤≤= y- ,x- )yY,xX(P)y,x(FXY
Para VAB discretas tem-se:
∑ ∑≤ ≤
===ax by
jiXYi j
)yY;xX(P)b,a(F
Para VAB contínuas tem-se:
∫ ∫∞− ∞−
=a b
XYXY dy)y,x(fdx)b,a(F
Propriedades: a) 0),(FXY =−∞−∞
d) 1),(FXY =+∞+∞
e) )x(F),x(F xXY =+∞
f) )y(F)y,(F YXY =+∞
g) )c,a(F)c,b(F
)d,a(F)d,b(F)dYc;bXa(P
XYXY
XYXY
+−
−−==≤<≤<
h) Se X e Y são independentes è FXY(x,y) = FX(x).FY(y)
ESTATÍSTICA II 25
© ALBERTO W. RAMOS
DISTRIBUIÇÕES MARGINAIS Se quisermos saber a distribuição de probabilidade de uma VAB, independentemente da outra, diremos que esta é a sua distribuição marginal.
• Caso discreto i )yY;xX(P)xX(P j
jii ∀==== ∑
∑ ∀====i
jij j )yY;xX(P)yY(P
• Caso contínuo
∫+∞
∞−
= dy)y,x(f)x(f XYX
∫+∞
∞−
= dx)y,x(f)y(f XYY
ESTATÍSTICA II 26
© ALBERTO W. RAMOS
EXEMPLOS 1) No caso dos dados viciados, a distribuição marginal do 1o
dado é:
xi P(X=xi)
1 1/21
2 2/21
3 3/21
4 4/21
5 5/21
6 6/21
2) Seja:
2y0 1,x0 ykx)y,x(f 2XY ≤≤≤≤=
1x0 kx22yx
kydykx)x(f 2
2
0
2
0
222
X ≤≤=== ∫
ESTATÍSTICA II 27
© ALBERTO W. RAMOS
DISTRIBUIÇÕES CONDICIONADAS
• Caso discreto
i )yY(P
)yY;xX(P)y/xX(P
0
0i0i ∀
===
==
j )xX(P
)yY;xX(P)x/yY(P
0
j00j ∀
===
==
• Caso contínuo
)y(f)y,x(f
)y/x(f0Y
0XY0X =
)x(f)y,x(f
)x/y(f0X
0XY0Y =
ESTATÍSTICA II 28
© ALBERTO W. RAMOS
EXEMPLOS 1) Dados viciados, para Y=3 tem-se que P(Y=3) = 3/12 e
xi P(X=xi/3)
1 1/21
2 2/21
3 3/21
4 4/21
5 5/21
6 6/21
2) Seja
2y0 1,x0 ykx)y,x(f 2XY ≤≤≤≤=
determinar fY(y/1).
Para X=1 à fXY(1,y) = ky
fX(1) = 2k
logo: 2y
k2ky
)1/y(fY ==
ESTATÍSTICA II 29
© ALBERTO W. RAMOS
VAB INDEPENDENTES Se X e Y são independentes entre si, então:
j i, )yY(P).xX(P)yY;xX(P jiji ∀∀=====
j i, )y(f).x(f)y,x(f YxXY ∀∀=
A distribuição de probabilidades das VAB é igual ao
produtos das distribuições marginais.
ESTATÍSTICA II 30
© ALBERTO W. RAMOS
COVARIÂNCIA
A covariância entre duas VA é definida como sendo:
( )( )[ ])Y(Y)X(X)Y,X(COV µ−µ−µ=
• Caso discreto ( ) ( )∑ ∑ ==µ−µ−=
i jjiji )yY,xX(P.)Y(y.)X(x)Y,X(COV
• Caso contínuo
( ) ( )∫ ∫+∞
∞−
+∞
∞−
µ−µ−= dxdy)y,x(f.)Y(y.)X(x)Y,X(COV XYji
TEO: COV(X,Y) = µ(XY)-µ(X).µ(Y) onde ∑ ∑ ===µ
i jjiji )yY;xX(P.y.x)XY(
ou
dxdy)y,x(f.y.x)XY(XY
∫ ∫+∞
∞−
+∞
∞−
=µ
ESTATÍSTICA II 31
© ALBERTO W. RAMOS
COEFICIENTE DE CORRELAÇÃO
)Y().X()Y,X(COV
σσ=ρ
TEO: 11 +≤ρ≤−
Observações:
a) Se há independência à COV(X,Y) = 0 à ρ = 0
b) Se ρ > 0, quando X aumenta, Y aumenta
c) Se ρ < 0, quando X aumenta, Y diminui
ESTATÍSTICA II 32
© ALBERTO W. RAMOS
MÉDIA CONDICIONADA
• Caso discreto )y/xX(P.x)y/X(
ijiij ∑ ==µ
• Caso contínuo
∫+∞
∞−
=µ dx)y/x(f.x)y/X( X
VARIÂNCIA Se X e Y não são independentes entre si, então:
σ2(X+Y) = σ2(X) + σ2(Y) + 2.COV(XY)
σ2(X-Y) = σ2(X) + σ2(Y) – 2.COV(XY)
ESTATÍSTICA II 33
© ALBERTO W. RAMOS
Distribuições Discretas de
Probabilidade
ESTATÍSTICA II 34
© ALBERTO W. RAMOS
DISTRIBUIÇÃO DE BERNOULLI Seja uma prova que só possa ter dois resultados:
fracasso à X = 0
sucesso à X = 1
com X = número de sucessos (0 ou 1)
xi 0 1 P(X = xi) 1-p p
pp1)p1(0)X( =×+−×=µ
pp1)p1(0)X( 222 =×+−×=µ
)p1(ppp)]X([)X()X( 2222 −=−=µ−µ=σ
1-p
p
xi
P(X=xi)
p
1-p
0 1
ESTATÍSTICA II 35
© ALBERTO W. RAMOS
DISTRIBUIÇÃO BINOMIAL
São realizadas n provas independentes de Bernoulli, todas com a mesma probabilidade de sucesso p.
Seja: X = número de sucessos nas n provas = 0, 1, 2,...
xnxd,n )p1.(p.C)xX(P −−==
p.n)X( =µ
)p1.(p.n)X(2 −=σ
ESTATÍSTICA II 36
© ALBERTO W. RAMOS
DISTRIBUIÇÃO DE POISSON Seja:
X = número de sucessos em um intervalo de observação contínuo t = 0, 1, 2,...
λ = freqüência média de sucessos no fenômeno (constante)
!x)t.(e
)xX(Pxt λ
==λ−
t)X( λ=µ
t)X(2 λ=σ
ESTATÍSTICA II 37
© ALBERTO W. RAMOS
DISTRIBUIÇÃO HIPERGEOMÉTRICA São realizadas n provas com X = número de sucessos nas n provas N = tamanho da população S = número de elementos favoráveis (sucesso)
inteiro x ,
nN
xnSN
xS
)xX(P iii
i
−−
==
com
( ) ( )n,SminxsNn,0max i ≤≤+−
fazendo-se p = S/N
1NnN
).p1(p.n)X(
p.n)X(
2
−−
−=σ
=µ
ESTATÍSTICA II 38
© ALBERTO W. RAMOS
DISTRIBUIÇÃO GEOMÉTRICA
São realizadas tantas provas de Bernoulli quantas forem necessárias, até se obter o 1o sucesso.
Seja: X = o número de provas necessárias para obter o 1o sucesso
Nesta Situação, deve-se ter somente fracassos nas (xi-1) primeiras provas. Logo:
,...4,3,2,1x p.)p1()xX(P i1x
ii =−== −
2
2
pp1
)X(
p1
)X(
−=σ
=µ
Obs.: Esta distribuição não tem memória, ou seja
P(X=s+t/X>s) = P(X=t)
ESTATÍSTICA II 39
© ALBERTO W. RAMOS
DISTRIBUIÇÃO DE PASCAL
São realizadas tantas provas de Bernoulli quantas forem necessárias, até se obter o s-ésimo sucesso.
Seja: X = número de provas necessárias até o s-ésimo sucesso
Nesta Situação, deve-se ter (s-1) sucessos nas (xi-1) primeiras provas. Logo:
2,...s1,s s, x)p1.(p.1s1x
p.)p1.(p.1s1x)xX(P
sxsi
sx1sii
i
i
++=−
−−=
=−
−−==
−
−−
2
2
p)p1(s
)X(
ps
)X(
−=σ
=µ
Obs.: a distribuição geométrica á a Pascal para s=1
ESTATÍSTICA II 40
© ALBERTO W. RAMOS
DISTRIBUIÇÃO MULTINOMIAL
São realizadas n provas independentes, cada uma com um único dentre r possíveis resultados e, as probabilidades pi de
ocorrência de um determinado resultado são constantes.
r21 xr
x2
x1
r21
ii p....p.p!x!...x!x
n!1,2,3,...)i ,xX(P ===
com
∑∑ ==i
ii
i 1p nx
)p1.(p.n)X(
p.n)X(
ii2
i
−=σ
=µ
Obs.: as distribuições marginais de xi são binomiais.
ESTATÍSTICA II 41
© ALBERTO W. RAMOS
Distribuições Contínuas de
Probabilidade
ESTATÍSTICA II 42
© ALBERTO W. RAMOS
DISTRIBUIÇÃO UNIFORME
Seja X uma variável aleatória tal que:
bxa ab
1)x(fX ≤≤
−=
5,04,54,03,53,02,52,0
1,0
0,8
0,6
0,4
0,2
0,0
X
f(x)
a=2 b=5
22 )ab(121
)X(
2ba
)X(
−=σ
+=µ
ESTATÍSTICA II 43
© ALBERTO W. RAMOS
DISTRIBUIÇÃO EXPONENCIAL Seja T o intervalo decorrido entre dois sucessos consecutivos de um fenômeno de Poisson, com parâmetro λ:
te)0X(P λ−==
P(X=0) é a probabilidade de nenhum sucesso no intervalo de observação t. Significa também a probabilidade do primeiro sucesso levar mais do que t para ocorrer.
te)tT(P)0X(P λ−=>==
tT e1)t(F)tT(P λ−−==≤⇒
t
TT e)t(Fdtd
)t(f λ−λ==⇒ , t ≥ 0
876543210
1,0
0,8
0,6
0,4
0,2
0,0
X
f(x) λ=1
λ=µ
1)T( e 2
2 1)T(
λ=σ
ESTATÍSTICA II 44
© ALBERTO W. RAMOS
DISTRIBUIÇÃO NORMAL (OU DE GAUSS)
Seja X uma variável aleatória contínua com a seguinte distribuição:
σµ−
−σπ
=2
X
x21
exp21
)x(f , -∞ < x < +∞
1101051009590
0,14
0,12
0,10
0,08
0,06
0,04
0,02
0,00
X
f(x)
Esta distribuição tem média e variância:
µ=µ )X( e 22 )X( σ=σ Obs.: a) exp z = ez
b) É comum escrever-se: X ∼ N(µ;σ2)
ESTATÍSTICA II 45
© ALBERTO W. RAMOS
DISTRIBUIÇÃO NORMAL REDUZIDA (OU PADRONIZADA)
Seja X uma variável aleatória tal que X ∼ N(µ;σ2) e seja Z definida como:
σµ−
=x
z
Então: Z ∼ N(0;1), com:
3210-1-2-3
0,4
0,3
0,2
0,1
0,0
z
f(z)
0)Z( =µ e 1)Z(2 =σ
Obs.: a) )zz0(P)xx(P 00 ≤≤≡≤≤µ
b)
σµ−
Φ≡
σµ−
≤=≤xx
ZP)xX(P
ESTATÍSTICA II 46
© ALBERTO W. RAMOS
TABELA DA DISTRIBUIÇÃO NORMAL valores de P(0 < Z < z0)
z0 0 1 2 3 4 5 6 7 8 9
0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359 0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753 0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141 0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517 0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879 0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224 0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549 0,7 0,2580 0,2611 0,2642 0,2673 0,2703 0,2734 0,2764 0,2794 0,2823 0,2852 0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133 0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389 1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621 1,1 0,3643 0,3665 0,3685 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830 1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015 1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177 1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319 1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441 1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545 1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633 1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706 1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767 2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817 2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857 2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890 2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916 2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936 2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952 2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964 2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974 2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981 2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986 3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990 3,1 0,4990 0,4991 0,4991 0,4991 0,4992 0,4992 0,4992 0,4992 0,4993 0,4993 3,2 0,4993 0,4993 0,4994 0,4994 0,4994 0,4994 0,4994 0,4995 0,4995 0,4995 3,3 0,4995 0,4995 0,4995 0,4996 0,4996 0,4996 0,4996 0,4996 0,4996 0,4997 3,4 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4998 3,5 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 3,6 0,4998 0,4998 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 3,7 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 3,8 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 3,9 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000
FONTE: COSTA NETO, P.L.O. Estatística. São Paulo, Edgard Blucher, 1978.
ESTATÍSTICA II 47
© ALBERTO W. RAMOS
DISTRIBUIÇÃO NORMAL TRUNCADA Diz-se que uma distribuição normal é truncada quando ela não possui uma ou ambas as caudas.
1101051009590
0,14
0,12
0,10
0,08
0,06
0,04
0,02
0,00
X
f(x)
Uma distribuição truncada nada mais é do que uma
distribuição condicionada, ou seja, no caso da figura acima:
)104X/104X(P <<<−∞
Tanto µ como o σ da distribuição normal completa são afetados pelo truncamento.
ESTATÍSTICA II 48
© ALBERTO W. RAMOS
DISTRIBUIÇÃO NORMAL BIVARIADA
Uma distribuição normal é dita bivariada se a sua fdp é:
σ
µ−+
σ
µ−
σ
µ−ρ−
σ
µ−ρ−
−
ρ−σπσ=
2
Y
Y
Y
Y
X
X
2
X
X2
2YX
XY
yyx2
x)1(2
1exp x
x12
1)y,x(f
∞<<∞− X ∞<<∞− Y 11 <ρ<−
ESTATÍSTICA II 49
© ALBERTO W. RAMOS
Dependendo do valor de ρ, a base da normal bivariada modifica-se:
! �
[ [
\
[
\
ESTATÍSTICA II 50
© ALBERTO W. RAMOS
DISTRIBUIÇÃO GAMA
Seja T o intervalo decorrido entre s sucessos consecutivos de um fenômeno de Poisson com parâmetro λ:
P(X=0) + P(X=1) + P(x=2) + ... + P(X=s-1) é a probabilidade de ocorrerem menos do que s sucessos no intervalo de observação t. É, também, a probabilidade do s-ésimo sucesso levar mais do que t para ocorrer.
∑−
=
λ−λ=>
1s
0xi
tx
i
i
!xe)t(
)tT(P
∑−
=
λ−λ−==≤
1s
0xi
tx
Ti
i
!xe)t(
1)t(F)tT(P
0t, e.t.)!1s(
)t(Fdtd
)t(f t1ss
TT ≥−λ
== λ−−
1086420
1,0
0,8
0,6
0,4
0,2
0,0
X
f(x)
s=1
s=2
s=3
2
2 s)T(
s)T(
λ=σ
λ=µ
ESTATÍSTICA II 51
© ALBERTO W. RAMOS
Observações: a) Para s=1 a distribuição gama torna-se a exponencial; b) Escreve-se (s-1)! como Γ(s); c) Γ(s+1) = s.Γ(s); d) Uma função gama é definida como sendo:
0t , dx.e.x)t( x
0
1t >=Γ −∞
−∫
e) Para n inteiro
π−
=
+Γ
n2)1n2...(5.3.1
21
n
f) π=
Γ21
(por definição)
g) A distribuição gama não tem memória h) Se Y = X1 + X2 + ... + Xn, com cada Xi sendo uma variável
independente Gama de parâmetros s e λ, então:
2
2 sn)Y( e
sn)Y(
λ=σ
λ=µ
ESTATÍSTICA II 52
© ALBERTO W. RAMOS
DISTRIBUIÇÃO BETA Sejam X1 e X2 duas variáveis com distribuição gama, de parâmetros s1 e λ e s2 e λ, respectivamente, e seja Y definida como:
21
1
XXX
Y+
=
então Y terá distribuição beta com:
0s e 0s 1y0 )y1(y)s()s()ss(
)y(f 211s1s
21
21Y
21 >><<−ΓΓ+Γ
= −−
1,00,80,60,40,20,0
3,0
2,5
2,0
1,5
1,0
0,5
0,0
X
f(x)
s1=s2=0,5
s1=s2=5
s1=s2=1
s1=s2=1,5
s2=5s1=1,5
s2=1,5s1=5
)1ss()ss(ss
)Y(
ss
s)Y(
212
21
212
21
1
+++=σ
+=µ
ESTATÍSTICA II 53
© ALBERTO W. RAMOS
Observações: a) A distribuição Beta é limitada inferior e superiormente e,
portanto, útil quando há situações em que ocorre um valor máximo e um mínimo para a variável.
b) Se s1 = s2 = 1, a distribuição Beta vira uma distribuição uniforme no intervalo de 0 a 1.
c) A quantidade )ss()s()s(
21
21
+ΓΓΓ
é também chamada de função
Beta, ou seja, B(s1, s2).
d) ∫ −− −=1
0
1s1s21 dy)y1(y)s,s(B 21 , ou seja, a função Beta é
apenas um ajuste para que a integral da distribuição Beta seja igual a 1.
e) Para a distribuição Beta ser valida no intervalo entre a e b, adotar a seguinte transformação:
0s e 0s bya abyb
abay
)s()s()ss(
ab1
)y(f 21
1s1s
21
21Y
21
>><<
−−
−−
ΓΓ+Γ
−=
−−
e neste caso
)1ss()ss(ss)ab(
)Y(
ss
s).ab(a)Y(
212
21
212
2
21
1
+++−
=σ
+
−+=µ
f) Se a = 0 e b =1, na expressão anterior, retorna-se ao
caso da distribuição Beta padrão, ou seja, no intervalo de 0 a 1.
ESTATÍSTICA II 54
© ALBERTO W. RAMOS
DISTRIBUIÇÃO LOGNORMAL
Seja X uma variável aleatória tal que X~N(µ, σ2) e seja Y definida como:
Y = eX Demonstra-se que Y tem distribuição lognormal com:
+∞<<
σµ−
−σπ
= y0 , yln
21
exp2y1
)y(f2
Y
876543210
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0,0
X
f(x)
( ) ( )222
2
2exp22exp)Y(
2exp)Y(
σ+µ−σ+µ=σ
σ+µ=µ
Para trabalhar com esta distribuição, basta tomar logaritmo natural de Y, pois estes valores terão distribuição normal.
ESTATÍSTICA II 55
© ALBERTO W. RAMOS
Teoria da Confiabilidade
ESTATÍSTICA II 56
© ALBERTO W. RAMOS
CONFIABILIDADE
É a probabilidade de um sistema desempenhar satisfatoriamente a sua missão, (ou seja, sem falhar) durante um certo tempo e sob determinadas condições de operação
ou uso.
1614121086420
0,20
0,15
0,10
0,05
0,00
X
f(x)
P(T > 6)
Conceitos importantes envolvidos nesta definição: • Probabilidade • Sistema • Missão • Tempo de Uso • Condições de Uso
ESTATÍSTICA II 57
© ALBERTO W. RAMOS
FUNÇÃO DE CONFIABILIDADE
∫−=−=≤−=>=0t
0T0T000 dt)t(f1)t(F1)tT(P1)tT(P)t(R
onde: R(t0) = função de confiabilidade fT(t) = função densidade de probabilidade FT(t) = função de repartição ou de distribuição acumulada
VIDA MÉDIA
∫ ∫∞ ∞
==µ0 0
dt)t(Rdt)t(f.t)T(
Existem dois casos a considerar:
• sistemas reparáveis à Tempo Médio Entre Falhas
(TMEF). • sistemas não-reparáveis: Tempo Médio Para Falha
(TMPF)
ESTATÍSTICA II 58
© ALBERTO W. RAMOS
TAXA DE FALHAS A probabilidade de um sistema falhar entre t1 e t2 é dado por:
∫=≤≤2
1
t
tT21 dt)t(f]tTt[P
A probabilidade de um sistema falhar no intervalo [t, t1], dado que ele sobreviveu entre [0, t] é:
)t(R)t(F)t(F
]tT[P]tTt[P
]tT[P)]tT()tTt[(P
]tT|tTt[P T1T111
−=
>≤≤
=>
>∩≤≤=>≤≤
Se substituirmos t1 por t + ∆t e dividirmos ambos lados da expressão anterior por ∆t, fazendo o limite de ∆t à 0
)t(Z)t(R)t(f
t)t(F)tt(F
lim)t(R
1t
]tT|tTt[Plim TTT
0t1
0t ==∆
−∆+=
∆>≤≤
→∆→∆
Z(t) é a probabilidade de falha no instante imediatamente posterior a t, dado que o sistema não falhou antes de t.
EXEMPLO
A taxa de falhas de um produto, para 1000 horas, é 0,01%.
Dentre as unidades funcionando na hora 1000, haverá 0,01% delas falhando neste instante.
ESTATÍSTICA II 59
© ALBERTO W. RAMOS
CURVA DE VIDA
t
Z(t)
Vida ÚtilMortalidade Infantil Desgaste
• No período de mortalidade infantil, a taxa de falhas
decresce em função do tempo; • No período de vida útil, a taxa de falhas mantém-se
aproximadamente constante; • No período de desgaste, a taxa de falhas cresce com o
tempo.
Em cada período, há uma ou mais distribuições de
probabilidade adequada à representação da confiabilidade.
ESTATÍSTICA II 60
© ALBERTO W. RAMOS
DISTRIBUIÇÃO EXPONENCIAL
0t , e.)t(f tT ≥α= α−
onde: α – parâmetro de escala (freqüência média de sucessos da
distribuição de Poisson).
876543210
1,0
0,8
0,6
0,4
0,2
0,0
X
f(x) α=1
α=2
α=1,5
α=µ
1)T(
2
2 1)T(
α=σ
ESTATÍSTICA II 61
© ALBERTO W. RAMOS
DISTRIBUIÇÃO NORMAL (OU DE GAUSS)
σµ−
−σπ
=2
T
t21
exp21
)t(f , -∞ < t < +∞
20151050
0,4
0,3
0,2
0,1
0,0
X
f(x)
σ=1
σ=2
σ=3
Esta distribuição tem média e variância:
µ=µ )T(
22 )T( σ=σ
ESTATÍSTICA II 62
© ALBERTO W. RAMOS
DISTRIBUIÇÃO DE WEIBULL
0 0, 0, 0,t , e.)t.(.)t(f )t(1T >γ>β>α≥γ−βα=
βγ−α−−β onde: α – parâmetro de escala; β – parâmetro de forma; γ – parâmetro de localização (t ≥ 0).
543210
1,2
1,0
0,8
0,6
0,4
0,2
0,0
X
f(x)
β=1
β=2
β=3
+
βΓ−
+
βΓα=σ
γ+
+
βΓα=µ
β−
β−
222
1
11
12
)T(
11
)T(
ESTATÍSTICA II 63
© ALBERTO W. RAMOS
DISTRIBUIÇÃO DE WEIBULL II
Por vezes, nos livros, encontra-se alternativamente a seguinte expressão para a distribuição Weibull:
0 0, 0, 0,t et
)t(f
t1
T >γ>η>β≥
η
γ−ηβ
=
η
γ−−−β
β
onde:
η – vida característica = β−
α1
ESTATÍSTICA II 64
© ALBERTO W. RAMOS
EMPREGO DAS DISTRIBUIÇÕES
R(t) Z(t)
R(t) Z(t)
R(t) Z(t)
αe-αt
1
1
ESTATÍSTICA II 65
© ALBERTO W. RAMOS
EXERCÍCIO
Determinar R(t) e Z(t) para as distribuições exponencial, normal e Weibull.
ESTATÍSTICA II 66
© ALBERTO W. RAMOS
PAPÉIS DE PROBABILIDADE
Os papéis de probabilidade são testes de aderência gráfica, ou seja, servem para verificar se um dado conjunto de dados é adequadamente representado por uma certa distribuição de
probabilidade.
No caso de confiabilidade, três papéis são costumeiramente empregados:
• papel de probabilidade normal • papel de probabilidade Weibull
ESTATÍSTICA II 67
© ALBERTO W. RAMOS
PAPEL DE PROBABILIDADE NORMAL (PPN)
O PPN tem por objetivo verificar se os valores de uma determinada variável seguem a distribuição normal
1o Caso: muitos dados (n > 30)
EXEMPLO
DURAÇÃO QUANTIDADE % ACUMULADA
600x500500x400400x300300x200200x100
100x0
<≤<≤<≤<≤<≤
<≤
5 23 36 27 8 1
5,0 28,0 64,0 91,0 99,0
100,0
ESTATÍSTICA II 68
© ALBERTO W. RAMOS
ESTATÍSTICA II 69
© ALBERTO W. RAMOS
2o Caso: poucos dados (n < 30)
EXEMPLO
Valores 97,8
102,3 100,4 95,2
105,1 98,4
101,6
%100x4,0n3,0i
P+−
=
i (posto) Valor P 1 2 3 4 5 6 7
95,2 97,8 98,4
100,4 101,6 102,3 105,1
9,5 23,0 36,5 50,0 63,5 77,0 90,5
ESTATÍSTICA II 70
© ALBERTO W. RAMOS
ESTATÍSTICA II 71
© ALBERTO W. RAMOS
INTERPRETAÇÃO
HISTOGRAMA
PPN
NORMAL
ASSIMÉTRICO A ESQUERDA
ASSIMÉTRICO A DIREITA
ACHATADO
ALONGADO
BIMODAL
ESTATÍSTICA II 72
© ALBERTO W. RAMOS
PAPEL DE PROBABILIDADE WEIBULL (PPW)
É similar ao PPN, porém presta-se para verificar se os valores de uma determinada variável seguem a
distribuição Weibull 1o Caso: muitos dados (n > 30)
EXEMPLO
DURAÇÃO QUANTIDADE % ACUMULADA 25x0 <≤
50x25 <≤ 75x50 <≤
100x75 <≤ 125x100 <≤ 150x125 <≤ 175x150 <≤ 200x175 <≤
110 215 225 195 130 65 30 30
11,0 32,5 55,0 74,5 87,5 94,0 97,0
100,0
ESTATÍSTICA II 73
© ALBERTO W. RAMOS 10
0,0
90,0
80,0
70,0
60,0
50,0
40,0
30,0
20,0
10,09,0
8,0
7,0
6,0
5,0
4,0
3,0
2,0
1,0
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
99
9590
8070605040
302520
15
10
54
3
21,5
1
0,50,40,3
0,20,15
0,1
F(t)
= %
Acu
mul
ada
Papel de Probabilidade Weibull
B=
ln ln
(1/(
1-F(
t)))
A = ln(t- )γ0
0
ESTATÍSTICA II 74
© ALBERTO W. RAMOS
2o Caso: poucos dados (n < 30)
%100x4,0n3,0i
P+−
=
i (posto) Valor P 1 2 3 4 5 6 7 8 9
10
7,6 35,4 52,4 82,1 93,7
131,9 137,7 269,1 300,4 396,2
6,7 16,3 26,0 35,6 45,2 54,8 64,4 74,0 83,7 93,3
ESTATÍSTICA II 75
© ALBERTO W. RAMOS
100,
090
,080
,070
,0
60,0
50,0
40,0
30,0
20,0
10,09,0
8,0
7,0
6,0
5,0
4,0
3,0
2,0
1,0
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
99
9590
8070605040
302520
15
10
54
3
21,5
1
0,50,40,3
0,20,15
0,1
F(t)
= %
Acu
mul
adaPapel de Probabilidade Weibull
B=
ln ln
(1/(
1-F(
t)))
A = ln(t- )γ0
0
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
ENSAIOS DE CONFIABILIDADE
Existem, basicamente, os seguintes tipos de ensaio: a) Ensaios Completos: o ensaio é encerrado somente
quando a última unidade falhar
b) Ensaios Suspensos ou Censurados: o ensaio é
interrompido quando uma certa quantidade de unidades falhar, ou após certo tempo decorrido.
7HP SR
8 QL�GDGH
W
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
c) Ensaios de Morte Súbita: o ensaio é suspenso após a falha da primeira unidade do grupo em avaliação
d) Ensaios Acelerados: o ensaio é executado em uma condição mais severa do que a sua condição normal de uso.
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
ENSAIOS COM DADOS COMPLETOS
Neste tipo de ensaio, ele somente é interrompido quando todas as unidades falharem.
Existem dois casos a considerar:
a) Dados Agrupados: isto normalmente ocorre quando se possui uma grande quantidade de unidades em ensaio (n>30).
b) Dados Não-agrupados: neta situação há poucas
unidades disponíveis (n<30).
Em ambos os casos pode-se empregar o papel de probabilidade Weibull, conforme mostrado anteriormente.
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
ENSAIOS SUSPENSOS OU CENSURADOS
Neste caso não há dados completos, pois se busca reduzir o tempo para avaliar os resultados mais rapidamente.
Normal mente, há poucas unidades em ensaio.
Os ensaios podem ser suspensos de duas formas distintas: a) Por atingir um certo tempo ou porque certa quantidade
pré-estabelecida de itens falhou (censura simples); b) Pois certas unidades são retiradas antes de atingir o
tempo ou quantidade especificados (censura múltipla).
• Censura à esquerda (a): quando a unidade já está
funcionando antes do início do ensaio; • Censura à direita (b e c): quando a unidade é removida
do ensaio antes de falhar ou, então, ainda está funcionando quando o ensaio é interrompido;
• Censura por intervalo (d): quando a unidade falha em
um intervalo particular do ensaio.
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
EXEMPLO – CENSURA SIMPLES 20 unidades foram colocadas em ensaio. Quando haviam decorrido 500 horas, o ensaio foi suspenso. Os dados encontram-se a seguir:
%100x4,203,0i
Acumulada%−
=
Posto (i) Duração (h) % Acumulada 1 54 3,4 2 187 8,3 3 216 13,2 4 240 18,1 5 244 23 6 335 27,9 7 361 32,8 8 373 37,7 9 375 42,6
10 386 47,5
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
10000100010010
99,99
95
80
50
20
5
2
1
Horas
% A
cum
ula
da
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
EXEMPLO – CENSURA MÚLTIPLA Suponho que 5 unidades tenham sido postas em ensaio. Contudo, quando se atingiu 200 horas a unidade 2 foi retirada, conforme apresentam os dados abaixo:
Unidade Tempo da Falha (h) Situação
1 120 F1 2 200 S 3 225 F2 4 350 F3 5 480 F4
A “unidade 2”, que teve seu ensaio suspenso, poderia estar no posto 2, 3, 4 ou 5 se fosse feito um ensaio completo. Situações possíveis a considerar
Posto F2 F3 F4 2 3 4 5 3 2 4 5 4 2 3 5 5 2 3 4
Soma 9 14 19 Posto Médio 2,25 3,5 4,75
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
EXEMPLO – CENSURA MÚLTIPLA
Para evitar a análise de todas as possibilidades de posto para a unidade suspensa, emprega-se a seguinte fórmula:
suspensa unidade da além unidades de número1
i)1n(Incremento 1it
+
−+= −
onde iti-1 é ordem do posto anterior e incremento ii
1ii tt +=−
Posto (i) Duração (ti) F/S Incremento iti % Acumulada
1 150 F1 1 1 6,1 2 340 S1 3 560 F2 (11-1)/(1+8)=1,111 1+1,111=2,111 17,4 4 800 F3 2,111+1,111=3,222 28,1 5 1130 S2 6 1720 F4 (11-3,222)/(1+5)=1,2963 3,222+1,2963=4,518 40,6 7 2470 S3 8 4210 S4 9 5230 F5 (11-4,518)/(1+2)=2,160 4,518+2,160=6,679 61,3
10 6890 F6 6,679+2,160=8,839 82,1
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
10000010000100010010
99
90
8070605040
30
20
10
5
3
2
1
Horas
% A
cum
ula
da
ESTATÍSTICA II 85
© ALBERTO W. RAMOS
ENSAIOS DE MORTE SÚBITA
O objetivo maior deste tipo é reduzir o tempo total de ensaio e, conseqüentemente, o seu custo. Embora seja bastante popular nas empresas, possui limitações quanto à baixa
precisão que as estimativas costumam possuir.
1. Formar g grupos com n unidades cada um; • O número de unidades em cada grupo deve ser igual; • Quanto mais unidades forem testadas até a falha,
mais precisa será a análise dos resultados. 2. Colocar as n unidades do grupo em ensaio;
3. Quando a primeira unidade do grupo falhar, o ensaio do
restante do grupo é suspenso; 4. Uma vez que o ensaio de todos os grupos tenha sido
completado, os tempos são marcados num papel de probabilidade Weibull;
• Somente o tempo até a falha da unidade mais fraca do grupo é considerado na análise;
• O tempo das unidades suspensas não interfere na análise.
5. Traçar uma linha através dos pontos marcados;
• Esta linha é chamada de linha de “morte súbita”; • Ela representa a população das primeiras falhas no
grupo de tamanho (n). 6. Outra linha, representando a população é traçada paralela
à linha de morte súbita, cuja distância é determinada pelo posto mediano (% acumulada) e o número de unidades (n) em cada grupo.
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
EXEMPLO - MORTE SÚBITA
40 unidades foram selecionadas para ensaio por morte
súbita. Elas foram divididas em 8 grupos, cada um com 5 unidades. Os resultados são apresentados a seguir.
Grupo Unidade que Falhou
Tempo da Falha (h)
1 2 120 2 5 200 3 2 185 4 3 55 5 4 265 6 4 90 7 2 300 8 1 155
Posto Tempo da Falha (h)
% Acumulada
1 55 8,3 2 90 20,2 3 120 32,1 4 155 44,0 5 185 56,0 6 200 67,9 7 265 79,8 8 300 91,7
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
100010010
99,9
99
90
8070605040
30
20
10
5
3
2
1
Horas
% A
cum
ula
da
A próxima etapa consiste em traçar a linha que represente toda a população, com base na linha de “morte súbita”. Como cada grupo ensaiado tem 5 unidades, a sua primeira unidade a falhar terá um posto mediano igual a:
%95,12%100x4,053,01
%100x4,0n3,0i
Acumulada% =+−
=+−
=
Para valer para toda a população, deve-se igualar a mediana (50%) da linha de “morte súbita” ao percentil de 12,95% da população. Isto é feito transladando a linha conforme mostrado a seguir:
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
100010010
99,9
99
90
8070605040
30
20
10
5
3
2
1
Horas
% A
cum
ula
da
100010010
99,9
99
90
8070605040
30
20
10
5
3
2
1
Horas
% A
cum
ula
da
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
ENSAIOS ACELERADOS Ensaios Acelerados de Vida têm como objetivo identificar prematuramente modos de falha no produto e obter estimativas de vida. Isto é obtido através de um “fator acelerador”, que faz com que haja um maior estresse e, consequentemente, que as falhas ocorram mais rapidamente. O Fator Acelerador (FA) pode ser pelo aumento de:
• Temperatura; • Umidade; • Tensão; • Vibração; • Taxa de Uso; • Taxa de Envelhecimento (Degradação); • Salinidade; • Pressão; • Solicitação Mecânica.
As falhas podem ocorrem por fadiga mecânica, corrosão, reação química, migração, ou outras. Em geral, quando há aceleração, o novo nível de estresse costuma ser adequadamente representado por uma transformação linear, ou seja, basta multiplicar a tempo para falha com estresse por FA para obter o tempo para falha em condições de uso normal.
Uso de Normais Condições em Média VidaEstresse com Média Vida
FA =
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
Seja: ts = tempo para falha com estresse tu = tempo para falha em uso normal Fs(t) = FDA com estresse Fu(t) = FDA em uso normal fs(t) = FDP com estresse fu(t) = FDP em uso normal hs(t) = taxa de falhas com estresse hu(t) = taxa de falhas em uso normal As relações lineares ficam:
Tempo para Falha tu = AF × ts Probabilidade de Falha Fu(t) = Fs(t/AF) Confiabilidade Ru(t) = Rs(t/AF) FDP fu(t) = (1/AF)fs(t/AF) Taxa de Falha hu(t) = (1/AF) hs(t/AF)
Nota: diferentes modos de falha costumam ser diferentemente afetados pelos FA’s. Logo, é improvável que um único FA serva para todas as situações. A conseqüência direta desta relação linear é que o parâmetro de forma (β na distribuição Weibull) não se altera com diferentes estresses. Logo, a reta dos pontos marcados no papel de probabilidade para a condição de estresse será paralela à de uso normal.
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
EXEMPLO – ENSAIO ACELERADO Pilhas alcalinas foram ensaiadas quanto à sua durabilidade, sendo expostas a uma temperatura de 80 oC. Os resultados
obtidos foram:
Posto (i) Dias % Acumulada
1 18 4,55 2 44 11,04 3 85 17,53 4 167 24,03 5 176 30,52 6 210 37,01 7 274 43,51 8 336 50,00 9 407 56,49
10 423 62,99 11 532 69,48 12 639 75,97 13 749 82,47 14 784 88,96 15 1254 95,45
É sabido que 1 dia neste ensaio equivale (em média) a 5 dias
em condições normais de uso.
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
100010010
99,99
95
80
50
20
5
2
1
Horas
% A
cum
ula
da
100010010
99,99
95
80
50
20
5
2
1
Horas
% A
cum
ula
da
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
MODELOS DE ACELERAÇÃO
Caso haja um modelo físico que permita descrever a variação do tempo de vida em função da solicitação, é possível se
adotar algum modelo de aceleração de acordo com o FA e tipo de falha:
1. Arrhenius à prevê tempos de falha em função do FA
temperatura; 2. Potencial à prevê tempo para falha em função da tensão
(em capacitores); 3. Exponencial à idem ao anterior, mas para dispositivos
eletrônicos em geral; 4. Voltagem/temperatura à para quando estes dois FA’s
estejam presentes; 5. Eletromigração à para películas condutoras submetidas à
alta temperatura e densidade de corrente; 6. Eyring à quando os FA’s são temperatura, tensão e
umidade; 7. Coffin-Manson à modelos para falhas mecânicas, fadiga
ou deformação.
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
Comentários importantes: • Normalmente, os ensaios acelerados de vida são
executados em componentes ou subsistemas, e não em equipamentos complexos;
• A razão disto é que estes apresentam grande diversidade
de modos de falha e, portanto, a aceleração de uma condição pode afetar mais de um modo de falha simultaneamente e, assim, dificultar a análise;
• A faixa de validade do modelo não pode ser excedida ou
se incorrerá em custos desnecessários de mudança de projeto;
• Na maioria dos casos, fatores de aceleração podem ser
obtidos através de um estudo da literatura disponível. Contudo, e alguns casos, estes modelos necessitam ser desenvolvidos especificamente;
• Existem diversos manuais do departamento de Defesa
Norte-Americano que podem auxiliar na realização dos ensaios: o MIL-HDBK-19500/620D o MIL-HDBK-217/F o MIL-HDBK-338 o MIL-HDBK-344/A o MIL-HDBK-721/C o MIL-HDBK-781/A o MIL-HDBK-810/E o MIL-HDBK-2164
• Ensaios acelerados devem sempre ser abordados com o
devido cuidado. Existem limitações básicas para a técnica. Toda aplicação é única. Diferenças sutis na aplicação podem invalidar as conclusões obtidas.
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
CONFIABILIDADE DE SISTEMAS Quando associamos componentes entre si, se conhecemos a confiabilidade de cada um destes individualmente, é possível
determinar a confiabilidade do sistema geral. • Sistema em Série: basta um componente falhar para o
sistema falhar
C1 C2
R1(t0) R2(t0)
.
( ) ( )[ ])t(xR)t(R
tTtTP)tT(P)t(R
0201
02010SISTEMA0SISTEMA
=
=>∩>=>=
para o caso de n componentes independentes em série:
∏=
=n
1i0i0SISTEMA )t(R)t(R
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
• Sistema em Paralelo: todos os componentes devem falhar
para o sistema falhar
C1
C2
R1(t0)
R2(t0)
.
( ) ( )[ ]( ) ( )[ ])t(R1x)t(R11
tTtTP1)tT(P1)t(R
0201
02010SISTEMA0SISTEMA
−−−=
=<∩<−=<−=
para o caso de n componentes independentes em paralelo:
( )∏=
−−=n
1i0i0SISTEMA )t(R11)t(R
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
• Sistema em “Stand-by”: o sistema comuta para o componente reserva quando o componente principal falha
S
C1
C2
.
TSISTEMA = T1 + T2 Se C1 e C2 são independentes:
dx)xt(f).x(f)t(ft
021SISTEMA ∫ −=
Nesta situação, a vida média do sistema é:
)T()T()T( 21SISTEMA µ+µ=µ
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
EXERCÍCIOS
1) Qual é a confiabilidade do sistema abaixo, para um período de 100 horas, sabendo se que cada componente possui uma confiabilidade de 0,95 para o mesmo período.
C1 C2 C3
C4 C5
C6
.
2) Deseja-se substituir o sistema anterior pelo equivalente
abaixo, com a ressalva de que a confiabilidade deva permanecer, no mínimo, igual à anterior para um período de 100 horas. Se os componentes do novo sistema tem distribuição exponencial, qual deve ser o valor de α?
C1 C2
.
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
3) Dado o seguinte conjunto de valores, verificar se o mesmo
pode ser considerado como proveniente de uma distribuição Weibull? Caso positivo, quais seriam as estimativas para α, β e γ?
297 – 210 – 292 – 91 – 389 – 297
166 – 389 – 146 – 430 – 219 - 285
4) Um avião possui quatro turbinas, sendo duas de cada lado
da asa (tipo Boeing 474). Construir os diagramas de bloco para as seguintes situações:
a) O avião cai se somente uma turbina falhar b) O avião cai se duas ou mais turbinas falharem 5) Qual dos dois sistemas abaixo fornece maior confiabili-
dade para um determinado período, admitindo-se que os seus componentes têm a mesma confiabilidade?
C C
.
C C
C C
.
C C
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
Amostragem
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
TÉCNICAS DE AMOSTRAGEM
Tão importante quanto determinar quantos itens devem compor a amostra (tamanho da amostra), é determinar como
coletar estes itens.
1. Amostragem simples (aleatória ou casual): todos itens do lote têm igual chance de pertencer à população (sorteio)
SORTEIO
.
LOTE
AMOSTRA
2. Amostragem sistemática: os itens encontram-se ordena-
dos e a retirada de elementos da amostra é feita periodicamente
12345678........ 147
AMOSTRALOTE
.
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
3. Amostragem estratificada: a população encontra-se dividida em vários estratos e as amostras são coletadas aleatoriamente de cada estrato.
.
LOTE
AMOSTRA
4. Amostragem por agrupamentos: a população encontra-se
fisicamente dividida em pequenos grupos, que são sorteados para formar a amostra.
.
LOTE
AMOSTRA
5. Amostragem de materiais a granel: se o material é liquido
ou gasoso é necessário primeiro homogeneizá-lo e, então, retirar uma amostra a esmo. Para materiais sólidos, a retirada da amostra é feita mediante quarteamento.
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
Análise de Dados
Suspeitos
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
DADOS SUSPEITOS
Na análise de um conjunto de dados, pode ser que sejam
observados valores totalmente atípicos em relação aos demais. Diremos, então, que se trata de um dado suspeito.
A amostra de 7 peças foi obtida de uma certa máquina:
12 - 18 - 11 - 20 - 34 - 15 - 16
O valor 34, aparentemente é diferente dos demais valores da amostra que variam entre 11 e 20 e, portanto, pode ser um dado
suspeito.
Quando estão sendo avaliados dados deve-se tomar cuidado
com dados suspeitos, pois eles afetam as médias e dispersões que serão utilizadas na análise estatística.
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
TÉCNICAS PARA ANÁLISE DE DADOS SUSPEITOS
Existe uma infinidade de técnicas para detecção de dados suspeitos. Vamos nos concentrar em duas que são particularmente úteis:
• Método do valor padronizado;
• Método do diagrama de juntas.
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
MÉTODO DO VALOR PADRONIZADO
Este método não é totalmente novo. Na verdade, ele parte da idéia da padronização usada na distribuição de probabilidade
normal.
Seja M definido como:
M = | xi – x-barra | / s
M é a distância do valor à média, em termos de desvios-padrões. M pequeno (positivo ou negativo) significa um valor próximo à média, enquanto que M grande, um valor afastado.
Para se empregar este método, elimina-se o dado suspeito do conjunto de dados e calcula-se a média e o desvio-padrão
dos dados restantes. Se M > 4 è o dado é suspeito.
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
Exemplo Seja o conjunto de dados:
12 - 18 - 11 - 20 - 34 - 15 – 16
Eliminando-se 34 do conjunto de dados resulta:
12 - 18 - 11 - 20 - 15 – 16
Este novo conjunto apresenta: x-barra = 15,3 s = 3,4 Logo: M = | 34 – 15,3 |/3,4 = 5,5 è é um dado suspeito
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
DIAGRAMA DE JUNTAS (BOXPLOT)
O boxplot é também uma maneira de avaliar a presença de dados suspeitos em um conjunto de dados, com a vantagem de
ser um método visual. 1) Ordenar os valores em ordem crescente; 2) Determinar a mediana (Q2) dos valores ordenados; 3) Determinar o primeiro e terceiro quartis (Q1 E Q3) dos valores
ordenados; 4) Determinar a amplitude (H), definida como sendo a diferença
entre o primeiro e terceiro quartis:
H = Q3 - Q1 5) Calcular os limites extremos, superior e inferior, para os valores
ordenados, definidos como:
LXS = Q3 + (1,5 x H) LXI = Q1 - (1,5 x H)
6) Verificar se há valores fora dos limites extremos; 7) Todos valores acima de LXS ou abaixo de LXI devem ser
considerados como dados suspeitos.
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
EXERCÍCIO - DIAGRAMA DE JUNTAS
Os seguintes dados estão disponíveis:
12 - 18 - 11 - 20 - 34 - 15 - 16
Existem dados suspeitos?
1) Ordenação dos dados:
11 – 12 – 15 – 16 – 18 – 20 - 34 2) O segundo quartil (Q2) é a mediana destes valores, ou seja, o
valor que tem metade do total abaixo e acima de si.
Q2 = 16 3) Primeiro e terceiro quartis (Q1 E Q3):
Q1 = 12
Q3 = 20
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
4) Amplitude (H)
H = 20 – 12 = 8 5) Limites extremos LXS = Q3 + 1,5 x H = 20 + 1,5 x 8 = 32 LXI = Q1 - 1,5 x H = 12 – 1,5 x 8 = 0 6) Diagrama de juntas
353025201510
7) Análise dos dados Como o valor 34 é superior a LXSI, o mesmo é um dado
suspeito.
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
CUIDADOS COM DADOS SUSPEITOS
A pergunta que surge naturalmente é: o que fazer com um dado suspeito?
Embora muitos pensem que a resposta seja simplesmente eliminá-los, ela está errada! O fato é que quando surge um dado suspeito, precisa-se identificar porque este ocorreu:
• Erro na coleta do dado? • Erro no apontamento do dado? • Erro na transcrição do dado?
E o mais importante: o que pode ser feito para evitar que o erro ocorra novamente.
Ao final, pode até ocorrer de se descartar o valor (dado
suspeito), porém isto ocorre apenas após uma boa dose de investigação sobre este.
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
Estimação de Parâmetros
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
Quando um parâmetro de uma população é desconhecido, vamos estimá-lo a partir das estatísticas fornecidas pelas amostras.
POPULAÇÃO
AMOSTRA
PARÂMETRO
ESTATÍSTICA
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
ESTIMADOR E ESTIMATIVA
Estimador (T): Quantidade calculada em função dos elementos da amostra, que será usada na estimação do parâmetro (θ).
Estimativa (t): Um certo valor de um estimador.
EXEMPLO
113 - 124 - 115 - 107 - 120 - 115 – 110
Estimador de µ ?(T) Estimativa (t) x 114,9 x~ 115
m0 115
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
CRITÉRIOS PARA ESTIMADORES
Para cada parâmetro, sempre é possível achar mais de um estimador. Resta, portanto, determinar qual destes é superior
aos outros. Para tanto, aplicam-se os seguintes critérios: a) Justeza ou Não Tendenciosidade Se
θ=µ )T( então T é um estimador justo ou não-viesado de θ. Interpretação: o valor médio do estimador deve ser igual ao valor do parâmetro.
EXEMPLO
Seja x a média de uma amostra com n elementos, retirada de uma população infinita:
nx...xxx
n
xx n321
n
1ii ++++
==∑
=
Como µ=µ=µ
=++++µ
=µ )x(n
)x(.nn
)x...xxx()x( n321
Então, x é um estimador justo de µ.
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
b) Coerência Se
0)T(Plimn =ε>θ−∞→ , para todo ε > 0 então T é um estimador coerente de θ. Interpretação: quando se aumenta o tamanho da amostra, o vício (ou viés) tende a zero.
TEOREMA
Se θ=µ∞→ )T(limn , e se 0)T(lim 2
n =σ∞→ , então T será um estimador coerente de θ.
EXEMPLO
Seja x a média de uma amostra com n elementos, retirada de uma população infinita:
nx...xxx
n
xx n321
n
1ii ++++
==∑
=
Como n)x(
n)x(.n
nx...xxx
)x(2
2
2n32122 σ
=σ
=
++++
σ=σ
Então, x é um estimador coerente de µ, pois µ=µ∞→ )x(limn
e 0)x(lim 2n =σ∞→ .
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
c) Eficiência Se, para um mesmo tamanho de amostra,
[ ] [ ]22
21 )T()T( θ−µ<θ−µ
então T1 é um estimador mais eficiente do que T2 Interpretação: quando se têm dois estimadores justos, T1 e T2, o melhor será aquele que possuir menor variância d) Suficiência Um estimador é suficiente se contém o máximo possível de informação com referência ao parâmetro estimado. Interpretação: um estimador que utilize a informação contida na amostra da melhor forma é sempre preferível.
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
EXEMPLO
Uma empresa recebeu um lote de 100 peças de um fornecedor. Foi retirada uma amostra de 10 itens e
encontrou-se x peças defeituosas.
Seja: • x a quantidade de peças defeituosas encontrada
• nx
'p = a proporção defeituosa encontrada
Como x tem distribuição binomial:
n)p1(p
n)p1(np
n)x(
nx
)'p(
pn
npn
)x(nx
)'p(
22
222 −
=−
=σ
=
σ=σ
==µ
=
µ=µ
Assim sendo, conclui-se que: • p’ é um estimador justo de p, pois µ(p’) = p; • p’ é um estimador coerente de p, pois 0)'p(lim 2
n =σ∞→ ; • pode-se, também, demonstrar que p’ é eficiente e
suficiente.
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
EXERCÍCIO
Seja x1, x2, ..., x5 uma amostra retirada de uma população com média µ(X) = µ e desvio-padrão σ(X) = σ. São sugeridos
os seguintes estimadores de µ:
)xxxxx(51
xT
)x2x(21
T )xx(21
T xT
543214
51351211
++++==
+=+==
Qual destes estimadores propostos é melhor?
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
MÉTODOS PARA OBTENÇÃO DE ESTIMADORES
• Método da Máxima Verossimilhança Seja fx(x) a fdp de uma variável aleatória X contínua, ou P(X=x) a função probabilidade de uma variável aleatória X discreta. Seja X1, X2, ..., Xn uma amostra aleatória da variável aleatória X e sejam x1, x2, ..., xn os valores amostrais. Define-se como função de verossimilhança L, como a função da amostra e de θ:
( ) );X(f)...;X(f).;X(f;X,...,X,XL nx2x1xn21 θθθ=θ Comentários: • Se X for discreta è ( ) ( )nn11n21 xX,...,xXP;X,...,X,XL ===θ • Se X for contínua è ( ) ( )n21X,...,Xn21 X,...,X,Xf;X,...,X,XL
n1=θ
Ao valor de θ que maximize a função de máxima
verossimilhança, será a melhor estimativa.
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
EXEMPLO
Uma caixa contém 4 bolas, das quais há um número desconhecido θ de bolas brancas. Foi retirada uma amostra de 2 bolas (sem reposição) e encontrou-se 1 bola branca.
Qual a estimativa de máxima verossimilhança para θ? Pode-se admitir que há θ bolas brancas na caixa e (4-θ) não-
brancas. X terá distribuição hipergeométrica, ou seja, a probabilidade de em uma extração sem reposição de 2 bolas
sair exatamente uma branca será:
−θ−
θ
==
24
x24
x)xX(P i
Logo:
)4 ,3 ,2 ,1 ,0|,1X(P)(L =θ==θ
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
0)0|1X(p ==θ=
21
24
13
11
)1|1X(p =
==θ=
32
24
12
12
)2|1X(p =
==θ=
21
24
11
13
)3|1X(p =
==θ=
0)4|1X(p ==θ=
Logo, pelo método da máxima verossimilhança 2ˆ =θ
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
EXERCÍCIOS
Repetir o exercício anterior, mas supondo amostragem com reposição.
Dica: neste caso, empregar a distribuição binomial. Suponha que numa seqüência de n tentativas independentes
e idênticas de Bernoulli, X sucessos foram observados. Encontrar o estimador de máxima verossimilhança de p, a
probabilidade de sucesso em uma única tentativa. Dica: usar o ln da função de máxima verossimilhança na derivação para facilitar as coisas.
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
• Método dos Mínimos Quadrados Este método já foi aplicado ao caso de regressão simples, visto no semestre anterior, para a obtenção das melhores estimativas de α e β na equação:
Y = α + β.X • Método de Bayes Este método baseia-se na idéia da teorema de Bayes, ou seja, de incorporar as informações contidas na amostra ao processo de estimação. Para tanto emprega: • uma distribuição de probabilidade, chamada de distri-
buição à priori; • a aplicação do Teorema de Bayes para a obtenção de uma
nova distribuição de probabilidade, chamada de distribui-ção à posteriori;
• a associação de uma função perda, normalmente quadrática, para determinar a melhor estimativa.
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
ESTIMAÇÃO POR PONTO
A estimação por ponto consiste em fornecer um único valor, que é a melhor estimativa para o parâmetro da população. a) Estimação com base em uma amostra
Parâmetro Estimado
Melhor Estimador
Observações
µ nx
x i∑=
σ2 n)x(
s2
i2 ∑ µ−=
1n)xx(
s2
i2
−−
= ∑
µ conhecido
µ desconhecido
σ
2ss = 2
4
sc1
s =
n ≥ 30
n < 30
p nx
p =′
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
b) Estimação com base em várias (k) amostras
Amostra Valores x s2 1 x11 x12 x13 ... x1n 1x 2
1s 2 x21 x22 x23 ... x2n 2x 2
2s 3 x31 x32 x33 ... x3n 3x 2
3s . . .
.
.
.
.
.
.
.
.
. k xk1 xk2 xk3 ... xkn kx 2
ks
k321
kk332211
n...nnnx.n...x.nx.nx.n
x++++
++++=
Se n1 = n2 = n3 = ... = nk ⇒ kx
x i∑=
kn...nns)1n(...s)1n(s)1n(
sk21
2kk
222
2112
p −+++−++−+−
=
Se n1 = n2 = n3 = ... = nk ⇒ ks
s2i2
p∑=
k21
kk2211p n...nn
p.n...p.np.np
+++′++′+′
=′
Se n1 = n2 = n3 = ... = nk ⇒ kp
p ip
∑ ′=′
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
ESTIMAÇÃO POR INTERVALO Todas as estimativas por ponto contêm um erro, pois são diferentes do valor do parâmetro, embora próximas. Para avaliar a magnitude do erro de estimação, constrói-se um “Intervalo de Confiança (IC)” em torno da estimativa, com probabilidade conhecida. Notação:
µ ⇒ média da população x ⇒ média da amostra σ ⇒ desvio-padrão da população s ⇒ desvio-padrão da amostra n ⇒ tamanho da amostra e0 ⇒ semi-amplitude do IC ⇒ IC = 2.e0
0 zp z
p
σz = 1
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
a) IC para µ com σ conhecido:
α−=+µ≤≤−µ 1)exe(P 00
xe0 ≤−µ 0ex +µ≤
0ex +≤µ µ≤− 0ex
00 exex +≤µ≤−
α−=+≤µ≤−⇒ 1)exex(P 00
2/
n
0 z)e(
ασ=
µ−+µ
nze 2/0
σ×=∴ α
IC para µ:
nzx 2/
σ×± α
µ µ+e0
α/2
µ-e0
α/21 - α
nx
σ=σ
x
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
b) IC para µ com σ desconhecido:
ns
tx 2/;1n ×± α−
c) IC para σ2:
2
2
21n s
)1n(σ−
=χ −
α−=χ≤χ≤χ α−−α−− 1)(P 2
2/;1n2
1n2
2/1;1n
22/;1n2
22
2/1;1n
s)1n(α−α−− χ≤
σ−
≤χ
22/1;1n
22
22/;1n
2 s)1n(s)1n(
α−−α− χ−
≤σ≤χ
−
α−=
χ
−≤σ≤
χ−
α−−α−
1s)1n(s)1n(
P2
2/1;1n
22
22/;1n
2
α/2α/2 1 - α
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
d) IC para σ
α−=
χ−
≤σ≤χ
−
α−−α−
1s)1n(s)1n(
P2
2/1;1n
2
22/;1n
2
e) IC para p p’ tem Distribuição Binomial → p)p( =′µ
n)p1(p
)p(2 −=′σ
Se n.p ≥ 5 e n.(1-p) ≥ 5 ⇒ vale aproximação pela Normal.
n)p1(p
ze 2/0
−⋅= α
Como não conhecemos p, usa-se p’:
n)p1.(p
zp 2/
′−′⋅±′
α
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
ESTIMAÇÃO POR INTERVALO PARA SOMAS
OU DIFERENÇAS DE MÉDIAS Seja a diferença µ1-µ2 entre as médias de duas populações normais com desvios-padrões σ1 e σ2, respectivamente. Neste caso:
( ) ( ) ( )
( )2
22
1
21
21
212121
nnxx
xxxx
σ+
σ=−σ
µ−µ=µ−µ=−µ
Caso geral:
2
22
1
21
2/21nn
zxxσ
+σ
±− α
Caso 1: Se σ1 = σ2 = σ, mas σ é desconhecido
+±− α−+
21
2p2/;2nn21
n1
n1
stxx21
Caso 2: Se σ1 ≠ σ2
2
22
1
21
2/;2nn21ns
ns
txx21
+±− α−+
Como ficariam os intervalos para somas de médias?
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
ESTIMAÇÃO POR INTERVALO PARA SOMAS OU DIFERENÇAS DE PROPORÇÕES
Seja a diferença p1 - p2 entre as proporções de duas populações. Neste caso, as proporções populacionais serão estimadas pelas freqüências relativas (proporções) p’1 e p’2 Supondo que a aproximação pela normal seja válida, tem-se:
2
22
1
112/21 n
)'p1('pn
)'p1('pz'p'p
−+
−±− α
Como ficaria o caso da soma de proporções?
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
TAMANHO DE AMOSTRAS (PARA ESTIMAÇÃO)
a) Média: . Se σ conhecido:
nze 2/0
σ×= α
2
0
2/
ez
n
σ= α
. Se σ desconhecido:
2
0
2/;1n se
tn
= α−′
n’ = tamanho da amostra-piloto b) Proporção Populacional (probabilidade):
)p1(pse
zn
2
0
2/ ′−′
= α
Se não há estimativa para p, adotar p’ = 1/2.
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
Testes de Hipóteses
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
Com base nos resultados da amostra, quer se testar uma certa hipótese (considerada como válida, até prova em contrário), a respeito de um parâmetro da população. Notação:
H0 = hipótese nula, a ser testada H1 = hipótese alternativa
Exemplo: H0 = o réu é inocente
H1 = o réu é culpado
Vai se obter uma amostra e, com base nesta, ou aceita-se H0
(fraco) ou rejeita-se H0 (forte).
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
TIPOS DE ERROS
Dois tipos de erros podem ser cometidos nos testes de hipóteses:
a) Erro tipo I: rejeitar H0 quando H0 é verdadeira. Ex.: juiz condenar um réu inocente. b) Erro tipo II: aceitar H0 quando H0 é falsa. Ex.: juiz absolve um réu culpado.
Cada tipo de erro tem uma certa probabilidade de ser cometido (α e β, respectivamente).
REALIDADE
H0 verdadeira H0 falsa
aceitar H0
decisão correta 1 - α
erro tipo II β
DECISÃO rejeitar
H0
erro tipo I α
decisão correta 1 - β
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
TESTES PARA A MÉDIA
A) σ conhecido: 1º Caso: H0: µ = µ0
H1: µ < µ0
nzx 0CRIT
σ−µ= α
Se ⇒< CRITCALC xx Rejeita-se H0
chamando-se de
n
xz 0
CALC σµ−
=
e
zCRIT = zα
Se ⇒−< CRITCALC zz rejeita-se H0
µ0CRIT
α1 - α
x x
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
2º Caso: H0: µ = µ0
H1: µ > µ0
n
xz 0
CALC σµ−
=
e
zCRIT = zα
Se ⇒> CRITCALC zz rejeita-se H0
3º Caso: H0: µ = µ0
H1: µ ≠ µ0
n
xz 0
CALC σµ−
=
e
zCRIT = zα/2
Se ⇒> CRITCALC z|z| rejeita-se H0
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
σ desconhecido:
1º Caso: H0: µ = µ0 H1: µ < µ0
ns
xt 0
CALC
µ−=
e
tCRIT = tn−1; α
Se ⇒−< CRITCALC tt rejeita-se H0
2º Caso: H0: µ = µ0
H1: µ > µ0
ns
xt 0
CALC
µ−=
e
tCRIT = tn−1; α
Se ⇒> CRITCALC tt rejeita-se H0
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
3º Caso: H0: µ = µ0
H1: µ ≠ µ0
ns
xt 0
CALC
µ−=
e
tCRIT = tn-1;α/2
Se ⇒> CRITCALC t|t| rejeita-se H0
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
TESTES PARA VARIÂNCIA 1º Caso: H0: 2
02 σ=σ
H1: 20
2 σ>σ
Se H0 for verdadeira ( 2
02 σ=σ ), resulta:
21n2
0
2s)1n(−χ=
σ−
Se ⇒> 2
22CALC ss rejeito H0
Se ⇒χ>σ
−α−
2;1n2
0
2CALCs)1n(
rejeito H0
Se ⇒χ>χ α−
2;1n
2CALC rejeito H0
α1 - α
s2s22
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
2º Caso: H0: 2
02 σ=σ
H1: 20
2 σ<σ
Se ⇒χ<χ α−−
21;1n
2CALC rejeito H0
3º Caso: H0: 2
02 σ=σ
H1: 20
2 σ≠σ
Se ⇒χ<χ α−−
22/1;1n
2CALC rejeito H0
ou
Se ⇒χ>χ α−2
2/;1n2CALC rejeito H0
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
TESTES PARA PROPORÇÃO
Se n.p0 ≥ 5 e n.(1-p0) ≥ 5 ⇒ p’ terá distribuição Normal 1º Caso: H0: p = p0
H1: p < p0
n)p1(p
p'pz
00
0CALC −
−=
Se ⇒=−< αzzz CRITCALC rejeito H0
2º Caso: H0: p = p0
H1: p > p0
n)p1(p
p'pz
00
0CALC −
−=
Se ⇒=> αzzz CRITCALC rejeito H0
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
3º Caso: H0: p = p0
H1: p ≠ p0
n)p1(p
p'pz
00
0CALC −
−=
Se ⇒>−< αα 2/CALC2/CALC zz se ou zz rejeito H0
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
TAMANHO DE AMOSTRA PARA
TESTES DE HIPÓTESES
Sejam as hipóteses:
H0: µ ≤ µ0
H1: µ > µ0 e vamos assumir que: • σ é conhecido e; • α e β estão fixados (determinados). Se H0 é verdadeira, ou seja, se µ = µ0
nzx 0CRIT
σ⋅+µ= α
µ0
α1 - α
xCA
x
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
Mas, se em realidade µ = µ´ > µ0, então
E, conseqüentemente
nz´xCRIT
σ⋅−µ= β
igualando-se as expressões, resulta em
2
0´
zzn
σ
µ−µ
+= βα
ou, se σ é desconhecido
2
0
;1´n;1´n s´
ttn
µ−µ
+= β−α−
µ’
β1 - β
xµ0
α1 - α
xCA
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
Se, alternativamente, as hipóteses testadas fossem:
H0: µ = µ0
H1: µ ≠ µ0
Então:
2
0
2/
´
zzn
σ
µ−µ
+= βα
ou, se σ fôr desconhecido
2
0
;1´n2/;1´n s´
ttn
µ−µ
+= β−α−
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
COMPARAÇÃO DE DUAS MÉDIAS
Quando se deseja comparar uma média contra outra, tem-se:
H0: µ1 = µ2
Há diversos casos a considerar
Comparação de Média
Dados Emparelha-
dos
Dados Não Emparelha-
dos
σ's Desco- nhecidos
mas iguais
σ's Conhecidos
σ's Desco- nhecidos e diferentes
.
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
DADOS EMPARELHADOS
Nesta situação, os dados das duas amostras encontram-se emparelhados, ou seja, cada elemento da amostra está
perfeitamente identificado e é possível saber o seu resultado antes e após certo tratamento.
São exemplos de dados emparelhados situações do tipo
antes x depois, onde há correspondência entre os elementos da amostra.
A hipótese H0 pode ser modificada
H0: µ1 = µ2 à H0: µ1 - µ2 = ∆
logo, H0 pode ser re-escrita como
H0: ∆?= 0
que será testada contra
H1: ∆ > 0 ou
H1: ∆ < 0 ou ainda
H1: ∆ ≠ 0
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
Se H0 for verdadeira, então ∆ terá distribuição normal com média 0 e desvio-padrão ∆σ . Como não se conhece µ(∆)??nem
∆σ , eles serão estimados mediante:
21 xxd −= e ( )
1ndd
s2
id −
−= ∑
Então, o teste pode ser feito através de um t de Student, tal que:
nsd
ns
dtt
dd1nCALC =
∆−== −
Hipóteses Rejeição de H0 H0: ∆?= 0 H1: ∆ < 0
CRITCALC tt −<
H0: ∆?= 0 H1: ∆ > 0
CRITCALC tt >
H0: ∆?= 0 H1: ∆ ≠ 0
CRITCALC t|t| >
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
EXEMPLO Dez alunos foram submetidos a um novo método de ensino (tratamento de choque). Os QI’s de cada aluno foram medidos antes e depois, conforme tabela abaixo. Há evidências de que o método aumente o QI médio? (α=5%)
Aluno QI Antes QI Depois d 1 105 115 -10 2 115 122 -7 3 98 102 -4 4 95 99 -4 5 102 101 1 6 105 107 -2 7 120 118 2 8 100 101 -1 9 104 110 -6
10 102 110 -8
H0: ∆?= 0 H1: ∆ < 0
93,3s 90,3d d =−=
833,1tt
14,3
1093,390,3
tt
%5;9CRIT
9CALC
−==
−=−
==
Logo, rejeita-se H0
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
DADOS NÃO-EMPARELHADOS
Nesta situação, continua-se querendo testar:
H0: µ1 - µ2 = ∆ A diferença entre as médias amostrais 21 xx − será usada e lembrando que
( )2
22
1
21
212
nnxx
σ+
σ=−σ
Admitindo-se que as variâncias populacionais sejam conhecidas, então o teste pode ser feito mediante um z, definido como
2
22
1
21
21
CALC
nn
)xx(z
σ+
σ∆−−
=
Se 222
21 σ=σ=σ , a expressão anterior resume-se a
21
21
CALC
n1
n1
)xx(z
+σ
∆−−=
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
Se as variâncias populacionais 2
221 e σσ não forem
conhecidas, elas serão substituídas por 22
21 s e s ,
respectivamente. Se, também, pode-se admitir que 22
221 σ=σ=σ , então esta será estimada por
2nns)1n(s)1n(
s21
222
2112
p −+−+−
=
Conseqüentemente, o teste será conduzido por um t de Student, tal que
21
p
21
2nnCALC
n1
n1
s
)xx(tt
21
+
∆−−== −+
Por fim, se as variâncias populacionais 2
221 e σσ não forem
conhecidas, e não puder ser admitido que 222
21 σ=σ=σ , então
o teste será realizado através de
2
22
1
21
21
CALC
ns
ns
)xx(tt
+
∆−−== ν
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
Para se determinar a quantidade de graus de liberdade desta estatística, pode-se empregar o critério de Aspin-Welch, definido como
( )2
1nw
1nw
ww
2
22
1
21
2
21 −
++
+
+=ν
onde
2
22
2
1
21
1 ns
w e ns
w ==
Os critérios de decisão continuam sendo os mesmos, ou seja
Hipóteses Rejeição de H0 H0: ∆?= 0 H1: ∆ < 0
CRITCALC tt −<
H0: ∆?= 0 H1: ∆ > 0
CRITCALC tt >
H0: ∆ = 0 H1: ∆ ≠ 0
CRITCALC t|t| >
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
EXEMPLO
Dois tipos de borracha estão sendo comparados quanto à sua durabilidade média de pneus. Foram fabricados seis pneus com cada tipo de borracha. É possível afirmar, ao nível de significância de 10%, que a borracha A é melhor que a B?
A B média 35,30 31,50
desvio-padrão 3,93 3,73 n 6 6
O teste a ser executado é
H0: ∆ = 0 H1: ∆ > 0
Como os desvios-padrões amostrais são próximos, é razoável admitir-se que as populações têm a mesma dispersão. Logo:
68,142
)73,3()93,3(s
222p =
+=
736,1
61
61
68,14
80,3tCALC =
+
=
tCRIT = t10;10% = 1,372
Ao nível de significância de 10% rejeita-se H0.
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
COMPARAÇÃO DE DUAS VARIÂNCIAS
Na comparação de duas variância, tem-se
H0: 22
221 σ=σ=σ
contra, por exemplo
H1: 22
21 σ>σ
Como as variâncias populacionais 2
221 e σσ são desconheci-
das, elas serão substituídas por 22
21 s e s , respectivamente, e o
teste é conduzido através de um F-Snedecor, definido como:
22
21
1n;1nCALC ss
FF21
== −−
que será comparado contra
α−−= ;1n;1nCRIT 21FF
Se Fcalc > Fcrit è rejeita-se H0
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
Se, alternativamente
H1: 22
21 σ<σ
então
22
21
1n;1nCALC ss
FF21
== −−
que será comparado contra
α−−−= 1;1n;1nCRIT 21FF
Se Fcalc < Fcrit è rejeita-se H0 Finalmente, se
H1: 22
21 σ≠σ
pode-se fazer
)s;smin()s;smax(
F22
21
22
21
CALC =
que será comparado contra
2/;;CRIT 21FF ανν=
Se Fcalc > Fcrit è rejeita-se H0
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
EXEMPLO Um engenheiro acredita ter conseguido reduzir a variabilidade do processo de usinagem. Para tanto, usinou 20 peças na condição anterior e obteve s2=0,125 e, na nova condição, obteve s2=0,102. Ele está certo? Admitir dados com distribuição normal.
H0: 2DEPOIS
2ANTES σ=σ
H1: 2
DEPOIS2ANTES σ>σ
23,1102,0125,0
FCALC ==
18,3FF %5;19;19CRIT == Aceito H0, ou seja, não há evidências ao nível de significância de 5% de que tenha havido redução da variabilidade.
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
Comparações Múltiplas
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
COMPARAÇÃO DE VÁRIAS VARIÂNCIAS Sejam várias amostras, de mesmo tamanho (n), retiradas de k populações Normais. Se quisermos testar as hipóteses:
H0: 2k
22
21 ... σ==σ=σ
H1: pelo menos um 2iσ diferente dos demais
Calcula-se a estatística g, definida como:
∑=
2i
2i
CALC ssmax
g (i = 1, 2,..., k)
e obtém-se de uma tabela gCRIT , que é função de n, k e α. Se ⇒> CRITCALC gg rejeita-se H0 e afirma-se H1
Este método é conhecido como Teste de Cochran. Caso as amostras não tenham tamanhos iguais,
deve-se empregar o Teste de Bartlett.
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
TABELA g
(α = 5%)
n = 2 3 4 5 6 7 8 9 10 k = 2 0,9985 0,9750 0,9392 0,9057 0,8772 0,8534 0,8332 0,8159 0,8010
3 0,9669 0,8709 0,7977 0,7457 0,7071 0,6771 0,6530 0,6333 0,6167 4 0,9065 0,7679 0,6841 0,6287 0,5895 0,5598 0,5365 0,5157 0,5017 5 0,8412 0,6838 0,5931 0,5441 0,5065 0,4783 0,4564 0,4387 0,4241 6 0,7808 0,6161 0,5321 0,4803 0,4447 0,4184 0,3980 0,3817 0,3682 7 0,7271 0,5612 0,4800 0,4307 0,3974 0,3726 0,3535 0,3384 0,3259 8 0,6798 0,5157 0,4377 0,3910 0,3595 0,3362 0,3185 0,3043 0,2926 9 0,6385 0,4775 0,4027 0,3584 0,3286 0,3067 0,2901 0,2768 0,2659
10 0,6020 0,4450 0,3733 0,3311 0,3029 0,2823 0,2666 0,2541 0,2439 Observações:
k = quantidade de amostras n = tamanho da amostra
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
EXEMPLO
Cinco amostras com cinco elementos cada uma forneceram 2is : 3,7 - 2,5 - 5,1 - 6,0 - 3,2. Ao nível de significância de 5%,
existe evidência que alguma 2iσ seja diferente das demais?
n = 5 e k = 5
max 2is = 6,0
∑ = 5,20s2i
Com isso, temos:
2927,05,20
0,6gCALC ==
5441,0gg %5;5;5CRIT ==
⇒ aceito que as variâncias são iguais, ou seja:
25
24
23
22
21 σ=σ=σ=σ=σ
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
ANÁLISE DE VARIÂNCIA COM UM FATOR (UMA CLASSIFICAÇÃO)
Sejam três grupos de pessoas que se quer verificar se sua inteligência (medida pelo QI) média é igual. Para tanto, sorteou-se oito indivíduos de cada grupo e a estes foi
aplicado um certo teste. Pode-se, em outras palavras, dizer que há um único fator em
avaliação (inteligência) em três níveis (grupos), conforme revela a tabela abaixo.
Grupo Notas x s2 1 x11 x12 x13 .... x18 x1 s1
2 2 x21 x22 x23 .... x28 x2 s2
2 3 x31 x32 x33 .... x38 x3 s3
2
Notação empregada: n - tamanho da amostra (8, no caso) k - quantidade de médias comparadas (3, no caso)
ix - média da amostra do grupo i x - média geral (média das médias)
2is - variância da amostra do grupo i 2Rs - variância dentro da amostra (ou residual) 2Es - variância entre amostras 2Ts - variância total
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
Como não se conhece a variância da população, chamada de σ2, pode-se estimá-la mediante três métodos diferentes: Método 1: através dos s2 obtidos em cada grupo
)1n.(k)xx(
ks
s2
iij2i2
R −−
==∑∑∑
Método 2: através das médias dos grupos
1k)xx(
.ns2
i2E −
−= ∑
Método 3: através de todos os dados individuais
1k.n)xx(
s2
ij2T −
−=
∑ ∑
Como toda esta notação é muito complicada, vamos mostrar
os conceitos mediante aplicação ao exemplo do QI.
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
Imagine que os resultados obtidos tenham sido os seguintes:
Grupo Notas x s2 1 4 5 5 4 8 4 3 7 5,0 2,9 2 2 4 3 7 5 4 2 5 4,0 2,9 3 3 6 6 4 5 4 6 6 5,0 1,4
Método 1: através dos s2 obtidos em cada grupo
4,23
4,19,29,2s2
R =++
=
Método 2: através das médias dos grupos
7,43
0,50,40,5x =
++=
7,2)13(
])7,40,5()7,40,4()7,40,5[(.8s
2222E =
−−+−+−
=
Método 3: através de todos os dados individuais
4,213.8
])7,46(...)7,45()7,45()7,44[(s
22222T =
−−++−+−+−
=
Pode-se perceber que: • as médias x são próximas; • os valores de 2
Rs , 2Es e 2
Ts também são próximos.
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
Imagine, agora, que os resultados obtidos fossem:
Grupo Notas x s2 1 4 5 5 4 8 4 3 7 5,0 2,9 2 0 2 1 5 3 2 0 3 2,0 2,9 3 7 10 10 8 9 8 10 10 9,0 1,4
Método 1: através dos s2 obtidos em cada grupo
4,23
4,19,29,2s2
R =++
=
Método 2: através das médias dos grupos
3,53
0,90,20,5x =
++=
7,98)13(
])3,50,9()3,50,2()3,50,5[(.8s
2222E =
−−+−+−
=
Método 3: através de todos os dados individuais
8,1013.8
])3,56(...)3,55()3,55()3,54[(s
22222T =
−−++−+−+−
=
Pode-se perceber, neste novo conjunto de resultados, que: • as médias x não mais são próximas; • o valor de 2
Rs não se alterou; • os valores de 2
Es e 2Ts aumentaram muito.
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
Os gráficos abaixo ajudam na interpretação dos resultados. No primeiro conjunto de dados as médias estavam próximas:
MaxMinMédia
-2
0
2
4
6
8
10
12
1 2 3
Já no outro conjunto, as médias apresentavam-se mais afastadas umas em relação às outras:
MaxMin
Média-2
0
2
4
6
8
10
12
1 2 3
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
COMENTÁRIOS
1. Se as médias das populações (grupos) são iguais, os
valores de ix serão próximos e tanto faz estimar-se σ2 através de 2
Rs , 2Es ou 2
Ts , pois todos elas fornecerão valores próximos.
2. Contudo, quando as médias das populações são diferen-
tes, os valores de ix divergirão entre si. Embora 2Rs
continue sendo um bom estimador de σ2, 2Es e 2
Ts não mais o serão, pois são afetados pela diferença entre as médias.
3. Assim, pode-se comparar as médias das diversas popula-
ções (k) através da comparação de variâncias: 2Es e 2
Rs , respectivamente. Este teste é chamado de teste F, onde:
2R
2E
calc ss
F =
4. Enquanto que 2
Es tem (k-1) graus de liberdade, 2Rs tem
[k.(n-1)] graus de liberdade (veja os denominadores destas variâncias). Portanto, Fcalc terá (k-1) no seu numerador; [k.(n-1)] graus de liberdade no seu denominador.
5. Quanto maior o valor de Fcalc maior é a probabilidade de
que as médias sejam diferentes entre si. Para chegar a uma conclusão, Fcalc é comparado contra um Fcrit, obtido a partir de uma tabela.
6. Se Fcalc < Fcrit, então admite-se que as médias são iguais.
7.A análise de variância assume a hipótese de que as populações possuem a mesma variância (σ2). Se isto não ocorrer, os resultados não serão válidos.
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
DISTRIBUIÇÃO F-SNEDECOR Sejam duas amostras independentes, retiradas de populações Normais, com mesma variância (σ2), que forneceram estimativas 2
1s e 22s , respectivamente. Ao
quociente de 21s por 2
2s , chamamos de:
22
21
1n;1ns
sF
21=−−
F
f(F)
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
TABELA F-SNEDECOR
(α = 5%)
ν1 ν2 1 2 3 4 5 6 7 8 9 10 1 161,4 199,5 215,7 224,6 230,2 234,0 236,8 238,9 240,5 241,9 2 18,51 19,00 19,16 19,25 19,30 19,33 19,35 19,37 19,38 19,40 3 10,13 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,81 8,79 4 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96 5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,77 4,74 6 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 4,06 7 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,68 3,64 8 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35 9 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18 3,14
10 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,02 2,98 11 4,84 3,98 3,59 3,36 3,20 3,09 3,01 2,95 2,90 2,85 12 4,75 3,89 3,49 3,26 3,11 3,00 2,91 2,85 2,80 2,75 13 4,67 3,81 3,41 3,18 3,03 2,92 2,83 2,77 2,71 2,67 14 4,60 3,74 3,34 3,11 2,96 2,85 2,76 2,70 2,65 2,60 15 4,54 3,68 3,29 3,06 2,90 2,79 2,71 2,64 2,59 2,54 16 4,49 3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,54 2,49 17 4,45 3,59 3,20 2,96 2,81 2,70 2,61 2,55 2,49 2,45 18 4,41 3,55 3,16 2,93 2,77 2,66 2,58 2,51 2,46 2,41 19 4,38 3,52 3,13 2,90 2,74 2,63 2,54 2,48 2,42 2,38 20 4,35 3,49 3,10 2,87 2,71 2,60 2,51 2,45 2,39 2,35 21 4,32 3,47 3,07 2,84 2,68 2,57 2,49 2,42 2,37 2,32
FONTE: COSTA NETO, P.L.O. Estatística. São Paulo, Edgard Blucher, 1978.
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
EXEMPLO
O segundo conjunto de resultados do teste de QI, forneceu:
2Es = 98,7 e 2
Rs = 2,4
logo
1,414,27,98
Fcalc ==
Fcalc tem (3 -1) = 2 GL no numerador e [3 x (8-1)] = 21 GL no denominador. Fcrit (para um α=5%) será F2, 21, 5% = 3,47 à pelo menos uma turma é diferente das demais.
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
TABELA DA ANÁLISE DE VARIÂNCIA É comum apresentar-se os resultados da análise de variância na forma de uma tabela, similar à de baixo: Fonte SQ GL QM FCALC
Entre ∑ −= 2i )xx(.nSQE (k-1)
1kSQE
s2E −
= 2Es / 2
Rs
Residual ∑∑ −= 2iij )xx(SQR k.(n-1) )1n(k
SQRs2
R −=
Total ∑∑ −= 2ij )xx(SQT k.n-1
onde:
SQ - é a soma de quadrados GL - são os graus de liberdade das estimativas QM - é o quadrado médio = SQ/GL
perceba que:
SQTotal = SQEntre + SQResidual
GLTotal = GLEntre + GLResidual No caso de nosso exemplo do teste de QI, com o segundo conjunto de dados, tem-se: Fonte SQ GL QM FCALC Entre amostras 197,3 2 98,7 41,4 Residual 50,0 21 2,4 Total 247,3 23
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
AMOSTRAS DE TAMANHOS DIFERENTES
Há situações onde, eventualmente, pode-se estar trabalhando com amostras de tamanho diferente. Neste caso,
a tabela da Análise de Variância é modificada da seguinte forma:
Fonte SQ GL QM FCALC
Entre SQE=SQT-SQD (k-1) 1k
SQEs2
E −=
2Es / 2
Rs
Residual ∑ −= 2ii s)1n(SQR ∑ − kni ∑ −
=kn
SQRs
i
2R
Total ∑∑ −= 2ij )xx(SQT ∑ − 1ni
Obs: neste caso
kn...nns)1n(...s)1n(s)1n(
sk21
2kk
222
2112
R −+++−++−+−
=
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
ALGUNS CUIDADOS
A análise de variância tem algumas hipóteses básicas que são assumidas para sua validade:
• o modelo válido é do tipo ijiijx ε+α+µ= , onde µ é a média
geral, αi é o efeito do nível i do fator e ijε é o erro;
• as populações são homocedásticas, ou seja, possuem a mesma variância;
• as populações podem ser adequadamente representadas por uma distribuição de probabilidade normal;
• conseqüentemente, ijε ~N(0; σ2).
1. A primeira hipótese é fundamental para que os resultados sejam válidos. A condição de homocedasticidade pode ser verificada mediante uma análise de resíduos ou, então, pelo teste de Cochran ou de Bartlett.
2. A segunda hipótese (normalidade dos dados) não é
essencial, pois a análise de variância fornece bons resultados quando a população não é normal. Ela pode ser verificada através do papel de probabilidade normal.
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
ANÁLISE DE RESÍDUOS Um resíduo (eij) é definido como sendo a quantidade:
iijij xxe −=
onde ix é a média do grupo i. É costume fazer a análise de resíduos por meios gráficos, já
que estes facilitam a visualização. Dentre estes, os mais habituais são:
Ferramenta Forma e Objetivo
Papel de Probabilidade Normal
Os resíduos são ordenados e marcados no PPN. Desvios de normalidade indicam inadequação do modelo, ou seja, erros não-aleatórios em torno da média geral
Gráfico Linear Constrói-se um gráfico com os resíduos ordenados no tempo para avaliar a sua aleatoriedade e eventual presença de dados suspeitos (outliers)
Gráfico de resíduos x amostra
É um gráfico cartesiano das amostras pelos respectivos resíduos, visando verificar se há problemas de dispersão, ou seja, se em certos pontos há maior diferença entre resultados do que em outros.
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
EXEMPLO
Grupo Resíduo
1 -1 0 0 -1 +3 -1 -2 +2 2 -2 0 -1 +3 +1 -1 -2 +1 3 -2 +3 +3 -1 0 -1 +1 +1
Residuo
Pe
rce
nta
ge
m
43210-1-2-3-4
99
95
90
80
70
60
50
40
30
20
10
5
1
Observação
Re
sid
uo
24222018161412108642
3
2
1
0
-1
-2
Média
Re
sid
uo
98765432
3
2
1
0
-1
-2
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
COMPARAÇÕES MÚLTIPLAS
A análise de variância testa se as médias das populações podem ser assumidas como iguais ou não, mas não revela
que médias são diferentes umas das outras.
Para realizar esta tarefa, pode recorrer aos intervalos de confiança empregando a estimativa da variância residual ( 2
Rs ) na sua construção. Assim, para cada média, faz-se o
seguinte intervalo:
i
2R
2/;1nins
txi α−±
se estes se sobrepuserem, então não se pode dizer que há
diferença entre as médias.
EXEMPLO
Para os dados do último exercício, tem-se:
Grupo x n 2Rs t7;2,5% Min Max
1 5,0 8 2,4 2,365 3,7 6,3 2 2,0 8 2,4 2,365 0,7 3,3 3 9,0 8 2,4 2,365 7,7 10,3
Grupo N Média DP -------+---------+---------+---------+-- 1 8 5,000 1,690 (----*----) 2 8 2,000 1,690 (----*----) 3 8 9,000 1,195 (----*----) -------+---------+---------+---------+-- 2,5 5,0 7,5 10,0
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
ANÁLISE DE VARIÂNCIA COM DOIS FATORES
(DUAS CLASSIFICAÇÕES)
Quando há mais de um fator (ou classificação) em avaliação, a análise de variância é ligeiramente diferente do caso de um
único fator.
Por exemplo, para dois fatores, as hipóteses a serem testadas são:
H01: µ11 = µ12 = µ13 = ....
H02: µ21 = µ22 = µ23 = ....
contra:
H1: pelo menos um µij diferente dos demais
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
EXPERIMENTOS SEM REPETIÇÃO
(BLOCOS)
Três modelos diferentes de carros foram testados por seis motoristas, obtendo-se os seguintes desempenhos (Km/l):
Motorista Carro 1 2 3 4 5 6 x s2
A 15,1 14,7 16,0 14,3 13,9 14,2 14,7 0,58 B 13,9 13,7 14,4 13,3 13,6 14,5 13,9 0,22 C 16,0 15,4 15,8 14,4 14,2 15,4 15,2 0,54
Usando-se a Análise de Variância com um fator, vem:
45,03
54,022,058,0s2
R =++
=
58,2)13(
])6,142,15()6,149,13()6,147,14[(.6s
2222E =
−−+−+−
=
E a tabela da Análise de Variância fica: Fonte SQ GL QM FCALC FCRIT Entre 5,16 2 2,58 5,73 3,68 Residual 6,75 15 0,45 Total 11,91 17 FCRIT = F5% A conclusão é clara: deve-se rejeitar a igualdade de médias
dos diferentes modelos de carros.
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
Contudo, se o modelo for novamente examinado, pode-se verificar que este pode ser aperfeiçoado, já que é de se
esperar que existam diferenças entre motoristas quanto ao modo de dirigir e estas, de certa forma, tendem a “mascarar”
eventuais diferenças entre os modelos de carro testados.
Assim, se houvesse um meio de eliminar ou, então, descontar as diferenças entre motoristas, a avaliação seria
feita com muito mais confiança nos resultados obtidos.
Esta possibilidade existe e é chamada de experimentos em blocos.
a) Unidades experimentais heterogêneas
.
b) Formação de blocos
.
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
Voltando-se à tabela de dados original, pode-se verificar que:
Motorista Carro 1 2 3 4 5 6 x i.
A 15,1 14,7 16,0 14,3 13,9 14,2 14,7 B 13,9 13,7 14,4 13,3 13,6 14,5 13,9 C 16,0 15,4 15,8 14,4 14,2 15,4 15,2 x .j 15,0 14,6 15,4 14,0 13,9 14,7
Com base nas médias dos carros tem-se:
58,22
)6,142,15()6,149,13()6,147,14(.6
1k)xx(
.ns
222
2.i2
CARROS
=−+−+−
=
=−−
= ∑
Por outro lado, com base nas médias dos motoristas:
996,05
)6,147,14(...)6,140,15(.3
1n)xx(
.ks
22
2J.2
MOTOR
=−++−
=
=−−
= ∑
Utilizando-se todos os elementos, obtém-se
699,017
...)6,147,14()6,141,15(1nk
)xx(s
222ij2
T =+−+−
=−
−=
∑∑
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
Ou, na forma de tabela da Análise de Variância Fonte SQ GL QM FCALC
Carros SQC=n.∑ − 2.i )xx( k-1 2
CARROSs 2R
2CARROS s/s
Motoristas SQM=k.∑ − 2J. )xx( n-1 2
MOTORs 2R
2MOTOR s/s
Residual SQR=SQT-SQC-SQM (k-1)(n-1) 2Rs
Total SQT=∑ ∑ − 2ij )xx( nk-1
ou, ainda, numericamente Fonte SQ GL QM FCALC FCRIT Carros 5,16 2 2,58 14,83 4,10 Motoristas 4,98 5 0,996 5,72 3,33 Residual 1,74 10 0,174 Total 11,880 17 Com FCRIT = F5%
Comentários: O modelo é dito aditivo, ou seja, a fórmula genérica é
xij = µ + αi + βj + εij
onde: - i é a quantidade de níveis do fator A (i = 1, 2, ..., n) - j é a quantidade de níveis do fator B (j = 1, 2, ..., k) -? αi é o efeito do nível i do fator A -? βj é o efeito do nível j do fator B
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
EXPERIMENTOS COM REPETIÇÃO
Quando há mais de um fator (ou classificação) em avaliação, a análise de variância é ligeiramente diferente do caso
anterior. Por exemplo, para dois fatores:
B0 B1
A0 x111 x112 x113
x121 x122 x123
A1
x211 x212 x213
x221 x222 x223
Neste caso, a fórmula genérica é
xijt = µ + αi + βj + (αβ)ij + εijt onde: - i é a quantidade de níveis do fator A (i = 1, 2, ..., n) - j é a quantidade de níveis do fator B (j = 1, 2, ..., k) - k é a quantidade de réplicas por tratamento (t= 1, 2, ..., n) -?αi é o efeito do nível i do fator A -?βj é o efeito do nível j do fator B -??αβ?ij é o efeito da interação entre os fatores A e B
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
INTERAÇÃO ENTRE FATORES
Quando existe mais do que um fator em avaliação, pode surgir um fenômeno chamado de interação. Isto significa que
quando os fatores estão presentes o resultado combinado destes não é aditivo, mas sim multiplicativo.
Modelo aditivo:
xijk = µ + αi + βj + εijk Modelo multiplicativo:
xijk = µ + αi + βj + (αβ)ij + εijk
Alguns exemplos desta a situação são: mistura de drogas com álcool, sinergia entre crianças brincado em um grupo, potencialização entre teores ativos em medicamentos, etc.
O aparecimento de interação entre fatores na análise de
variância não é exceção, mas regra.
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
EXEMPLO
Certa operação pode ser executada em uma de duas máquinas (A0 ou A1), com um certo operador (B0 ou B1).
Existe influência das máquinas ou operadores com relação aos tempos de execução médios obtidos (em segundos)?
B0 B1
A0
(1)
20 22
(3)
40 37
A1
(2)
50 46
(4)
12 15
Como tanto as máquinas como os operadores podem ter
influência (efeito) sobre a resposta (tempo), então pode-se adotar como estimativa para o erro εijk a estimativa residual
da amostra (ou tratamento), ou seja, 2is :
Tratamento x-barra 2is
1 A0B0 21,0 2,00 2 A1B0 48,0 8,00 3 A0B1 38,5 4,50 4 A1B1 13,5 4,50
A média geral dos tempos é
25,304
5,135,380,480,21x =
+++=
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
Admitindo-se que os tratamentos têm iguais variâncias, mas esta é desconhecida, então pode-se estimá-la mediante:
75,44
50,450,400,800,2s2
R =+++
=
As outras estimativas da variância, obtidas através da diferença entre as médias dos níveis das máquinas e dos operadores, são:
Máquina x-barra Operador x-barra
A0 29,75 B0 34,5 A1 30,75 B1 26,0
00,212
)25,3075,30()25,3075,29(x4s
222A =
−−+−
=
50,14412
)25,300,26()25,305,34(x4s
222B =
−−+−
=
A estimativa total da variância, por sua vez:
79,21618
)25,3015(...)25,3022()25,3020(s
2222T =
−−++−+−
=
A última forma de obtenção de estimativas, que é a com base na interação, será feita mediante a interação, lembrando-se que: RABBAT SQSQSQSQSQ +++=
PRO 2711 – ESTATÍSTICA II Prof. Alberto W. Ramos
© ALBERTO W. RAMOS
Colocando-se estes resultados, na forma da tabela da análise de variância, resulta em
Fonte SQ GL QM F Efeito
A
2,00
1
2,00
0,42
B
144,50
1
144,50
30,42
Interação
AxB
1352,00
1
1352,00
284,63
Resídual 19,00 4 4,75
Total
1517,50
7
Adotando-se α = 5%, resulta em:
Fcrit = F1;4: 5% = 7,71
Qual é sua interpretação dos resultados?
ESTATÍSTICA II 188
© ALBERTO W. RAMOS
Fonte SQ GL QM F Efeito
A ∑ −=
i
2iA )xx(bnSQ
a-1 1aSQ
s A2A −
= 2R
2A
A ss
F =
B ∑ −=
j
2jB )xx(anSQ
b-1 1bSQ
s B2B −
= 2R
2B
B ss
F =
Interação
AxB
RBATAB SQSQSQSQSQ −−−=
(a-1)(b-1) )1b)(1a(SQ
s AB2AB −−
= 2R
2AB
AB ss
F =
Resídual ∑ ∑ ∑ −=i
2ijijk
j kR )xx(SQ
ab(n-1) )1n(abSQ
s E2R −
=
Total
2
iijk
j kT )xx(SQ ∑∑∑ −=
abn-1
ESTATÍSTICA II 189
© ALBERTO W. RAMOS
INTERPRETAÇÃO DOS RESULTADOS
Quando há a presença de interação, o efeito de cada fator não pode ser considerado individualmente. Em outras
palavras, a interação demanda que o efeito combinado dos níveis dos fatores seja avaliado, por exemplo, através de um
gráfico como o abaixo.
0
10
20
30
40
50
60
A0 A1
B0B1
A consideração do melhor nível de um fator depende do nível do outro fator.
Por outro lado, quando houver evidências estatísticas de que não há interação entre os fatores, a sua soma de quadrados
da interação (SQI) poderá ser acrescida à residual (SQR).
ESTATÍSTICA II 190
© ALBERTO W. RAMOS
MODELO FIXO E MODELO ALEATÓRIO
Exemplo 1
Uma indústria de parafusos adquiriu 5 máquinas e está interessada em realizar um experimento para verificar se estas são idênticas com relação ao diâmetro médio das peças por elas produzidas. Exemplo 2
Uma indústria está interessada em realizar um experimento para verificar se as máquinas são idênticas com relação ao diâmetro médio das peças por elas produzidas. Contudo, a quantidade de máquinas é muito grande, optou-se por selecionar ao acaso uma amostra de 5 máquinas.
No 1o exemplo o fator “máquina” é fixo, enquanto que no 2o modelo, este é aleatório. No modelo fixo, as
conclusões referem-se somente aos níveis testados mas, no aleatório, as conclusões devem ser estendidas
para toda população de níveis.
ESTATÍSTICA II 191
© ALBERTO W. RAMOS
Conseqüências: • No caso de análise de variância com uma classificação, ou
com duas classificações, mas sem repetição (blocos), o fato do modelo ser fixo ou aleatório não afeta a forma em que a análise foi apresentada anteriormente;
• Contudo, quando há duas classificações com repetição, a análise para o caso de modelo aleatório é conduzida de maneira ligeiramente diferente da anteriormente vista (que somente é valida para modelo fixo).
Quando ambos os fatores são fixos as hipóteses:
H01: µ11 = µ12 = µ13 = ....
H02: µ21 = µ22 = µ23 = .... Equivalem a:
H01: α1 = α2 = α3 = ....= αa = 0 (não existe efeito do fator A)
H02: β1 = β2 = β3 = ....= βb = 0 (não existe efeito do fator B)
ESTATÍSTICA II 192
© ALBERTO W. RAMOS
Entretanto, quando os fatores são aleatórios, tem-se que os parâmetros:
);0(NID~ 2i ασα
);0(NID~ 2
j βσβ
);0(NID~ 2ij αβσαβ
);0(NID~ 2
jki σε Conseqüentemente:
22222TOTAL σ+σ+σ+σ=σ αββα
Portanto, as hipóteses adequadas são:
H01: σ2A = 0 (não existe efeito do fator A)
H02: σ2
B = 0 (não existe efeito do fator B) Logo, se houver interação (ou não), o teste de significância do fator A e B (teste F) deve ser feito com 2
ABs no
denominador e não com 2Rs .
ESTATÍSTICA II 193
© ALBERTO W. RAMOS
Fonte SQ GL QM F Efeito
A ∑ −=
i
2iA )xx(bnSQ
a-1 1aSQ
s A2A −
= 2AB
2A
A s
sF =
B ∑ −=
j
2jB )xx(anSQ
b-1 1bSQ
s B2B −
= 2AB
2B
B s
sF =
Interação
AxB
RBATAB SQSQSQSQSQ −−−=
(a-1)(b-1) )1b)(1a(SQ
s AB2AB −−
= 2R
2AB
AB ss
F =
Resídual ∑ ∑ ∑ −=i
2ijijk
j kR )xx(SQ
ab(n-1) )1n(abSQ
s E2R −
=
Total
2
iijk
j kT )xx(SQ ∑∑∑ −=
abn-1
ESTATÍSTICA II 194
© ALBERTO W. RAMOS
ANÁLISE DE RESÍDUOS
Similarmente ao visto na análise de variância com um fator, também é recomendada aqui uma análise dos resíduos para
se detectar algum eventual problema nos dados.
Nesta situação (dois fatores), os resíduos são definidos como sendo a diferença entre os valores obtidos
experimentalmente e as médias de cada tratamento:
B0 B1
A0
(1)
-1 +1
(3)
+1,5 -1,5
A1
(2)
+2 -2
(4)
-1,5 +1,5
As mesmas ferramentas podem ser adotadas na análise de resíduos, ou seja, papel de probabilidade normal, gráfico
linear, etc.
ESTATÍSTICA II 195
© ALBERTO W. RAMOS
Residuo
Po
rce
nta
ge
m
43210-1-2-3-4
99
95
90
80
70
60
50
40
30
20
10
5
1
Observação
Re
sid
uo
87654321
2
1
0
-1
-2
Média
Re
sid
uo
5040302010
2
1
0
-1
-2
ESTATÍSTICA II 196
© ALBERTO W. RAMOS
Regressão
ESTATÍSTICA II 197
© ALBERTO W. RAMOS
REGRESSÃO
O objetivo fundamental da regressão é descobrir a equação que relaciona duas (ou mais) variáveis, ou seja:
y = f(x1, x2, ... , xk) + ε
onde:
x1, x2, ... , xk são chamadas de fatores;
f(x1, x2, ... , xk) indica uma função de várias variáveis;
ε é chamado de erro. As hipóteses básicas assumidas na regressão são:
• x1, x2, ... , xk são admitidos sem erro
• y é admitido com erro
• ε é admitido ~ N(0,2Rσ )
• 2Rσ é admitido constante
ESTATÍSTICA II 198
© ALBERTO W. RAMOS
REGRESSÃO LINEAR SIMPLES
Admite que uma equação do primeiro grau representa satisfatoriamente o modelo:
y = β0 + β1.x
como as constantes β0 e β1 são desconhecidas, então a equação da reta será estimada através de:
x.bby 10 += onde:
b0 - é o intercepto da reta
b1 - é a coeficiente angular da reta
x
y
b0
tg θ = b1
y = b0 + b1x^
ESTATÍSTICA II 199
© ALBERTO W. RAMOS
EXEMPLO
Foi feito um levantamento de diversos modelos de automóveis quanto a potência do motor (Hp) e o
consumo médio (km/l).
Carro Potência Consumo 1 2 3 4 5 6 7 8 9
10 11 12 13 14 15 16 17 18
130 81 93
113 90 63 55
102 92 81
103 90 74 73
102 78
100 100
10,1 10,5 11,3 10,5 11,6 12,4 15,0 11,3 12,4 12,0 10,9 11,6 12,4 13,1 10,9 12,0 10,5 10,5
ESTATÍSTICA II 200
© ALBERTO W. RAMOS
DETERMINAÇÃO DA EQUAÇÃO DA RETA
A equação da reta é determinada a partir dos dados da tabela anterior, através do método dos mínimos quadrados:
ei2
y
x
∑ ∑ ∑ −−=−= 2
10i2
ii2i )xbby(min)yy(minemin
Para se obter o mínimo, faz-se
0eb
e 0eb
2i
1
2i
0
=∂∂
=∂
∂ ∑∑
que resulta em
0)x.bby(x2
0)x.bby(2
10ii
10i
=−−−
=−−−
∑
∑
ESTATÍSTICA II 201
© ALBERTO W. RAMOS
que resulta no seguintes sistema de equações
(2) xbxbyx
(1) xbnby
2i1i0ii
i10i
∑ ∑ ∑
∑ ∑
+=
+=
de (1), dividindo-se tudo por n, resulta
xbynx
bny
b 1i
1i
0 −=−= ∑∑
de (2), pode-se demonstrar que
XX
XY1 S
Sb =
onde:
( )∑ ∑ ∑−=
ny.x
yxS iiiiXY
e
( )nx
xS2
i2iXX
∑∑ −=
ESTATÍSTICA II 202
© ALBERTO W. RAMOS
Voltando-se ao exemplo, usa-se uma tabela auxiliar:
Carro Potência (xi)
Consumo (yi)
xi2 yi
2 xiyi
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
130 81 93
113 90 63 55
102 92 81
103 90 74 73
102 78
100 100
10,1 10,5 11,3 10,5 11,6 12,4 15,0 11,3 12,4 12,0 10,9 11,6 12,4 13,1 10,9 12,0 10,5 10,5
16900 6561 8649 12769 8100 3969 3025 10404 8464 6561 10609 8100 5476 5329 10404 6084 10000 10000
102,01 110,25 106,09 110,25 134,56 153,76 225,00 127,69 153,76 144,00 118,81 134,56 153,76 171,61 118,81 144,00 110,25 110,25
1313,0 850,5 957,9 1186,5 1044,0 781,2 825,0 1152,6 1140,8 972,0 1122,7 1044,0 917,6 956,3 1111,8 936,0 1050,0 1050,0
TOTAL 1620 209,0 151404 2451,02 18504,9
1,30518
209x16209,18504SXY −=−=
( )
560418
1620151404S
2
XX =−=
0544,05604
1,305b1 −=−= 507,16
181620
0544,018209
b0 =+=
y= 16,507 - 0,0544.x
ESTATÍSTICA II 203
© ALBERTO W. RAMOS
COMENTÁRIOS:
• o método dos mínimos quadrados busca traçar a melhor reta através dos pontos, ou seja, aquela que torna mínima a distância destes à reta;
• sempre é possível obter a equação de uma reta que
passa por um conjunto de pontos, mas isto não significa que o modelo seja necessariamente adequado;
• para se verificar a adequação do modelo, emprega-se a
análise de variância (ANOVA).
• é recomendável também fazer uma análise de resíduos para completar a análise de adequação do modelo.
ESTATÍSTICA II 204
© ALBERTO W. RAMOS
ANÁLISE DE VARIÂNCIA APLICADA À REGRESSÃO
Para verificar se a regressão linear é estatisticamente significativa, deve-se testar o seguinte conjunto de hipóteses:
H0: β1 = 0 (não há regressão)
H1: β1 ≠ 0 (há regressão)
Este teste pode ser feito mediante a aplicação do método da análise de variância. Pode-se identificar dois tipos de variância diferentes: a total e a residual. A variância total é estimada através de:
1nS
1n
)yy(s YY
n
1i
2i
2T −
=−
−=
∑=
A variância residual (ou em torno da reta de regressão) é estimada através de:
2nSbS
2n
)yy(s XX
21YY
n
1i
2ii
2R −
−=
−
−=
∑=
ESTATÍSTICA II 205
© ALBERTO W. RAMOS
Lembrando que
SQTOTAL = SQREGRESSÃO + SQERRO então, a variância devido ao modelo de regressão é estimada através de:
1Sb
s XX212
M =
Se a regressão for significativa, então a variância residual (ou devida ao erro) deve ser pequena quando comparada com a variância devida a regressão. Conseqüentemente, o quociente das duas variâncias (regressão/erro) pode ser testado mediante um F-Snedecor. Em termos de tabela, este teste fica:
Fonte GL SQ QM Fcalc
Regressão
1
b1
2SXX
2Ms 2
R
2M
ss
Residual
n-2
SYY – b1
2SXX 2Rs
Total
n-1
SYY
Fcalc será comparado contra Fcrit = F1; n-2; α e se Fcalc > Fcrit è rejeita-se H0
ESTATÍSTICA II 206
© ALBERTO W. RAMOS
COEFICIENTE DE DETERMINAÇÃO
Se dividirmos a soma de quadrados devido à regressão (SQREGRESSÃO) pela soma de quadrados total (SQTOTAL), a
este índice chamamos de coeficiente de determinação (R2). Numericamente:
YY
XY1
YY
XX212
SS.b
SS.b
R ==
O coeficiente de determinação informa que % da variação de Y é explicada pela variação de X. Logo, quanto maior o valor de R2, maior chance de que a regressão seja válida
estatisticamente falando.
Perceba que R2 nada mais é do que o coeficiente de correlação (R) elevado ao quadrado, ou seja:
YYXX
2XY
YY
XY1
YY
XX2
2
S.SS
SS.b
S
S.bR 1 ===
ESTATÍSTICA II 207
© ALBERTO W. RAMOS
INTERVALOS DE CONFIANÇA
a) Para a reta de regressão Seja x’ um valor que não foi utilizado para o cálculo da reta. Nesta circunstância, tem-se:
XX
2
R
10
S)x'x(
n1
)'y(
'x)'y(
−+σ=σ
β+β=µ
Então, o IC para a reta de regressão é
XX
2
R2/;2n S)x'x(
n1
s.t 'y−
+± α−
b) Para Futuras Observações
Neste caso, o intervalo (de previsão) fica:
XX
2
R2/;2n S)x'x(
n1
1s.t'y−
++± α−
ESTATÍSTICA II 208
© ALBERTO W. RAMOS
ANÁLISE DE RESÍDUOS
O erro ε do modelo é estimado mediante o resíduo e, definido como sendo a diferença entre o valor observado (y) e o valor previsto pela equação obtida (y-chapéu). Assim, no exemplo:
Amostra x y y e = y - y 1 2 3 4 5 6 7 8 9
10 11 12 13 14 15 16 17 18
130 81 93
113 90 63 55
102 92 81
103 90 74 73
102 78
100 100
10,1 10,5 11,3 10,5 11,6 12,4 15,0 11,3 12,4 12,0 10,9 11,6 12,4 13,1 10,9 12,0 10,5 10,5
9,4 12,0 11,4 10,3 11,6 13,0 13,5 10,9 11,4 12,0 10,8 11,6 12,4 12,5 10,9 12,2 11,0 11,0
0,7 -1,5 -1,1 0,2 0
-0,6 1,5 0,4 1,0 0
0,1 0 0
0,6 0
-0,2 -0,5 -0,5
ESTATÍSTICA II 209
© ALBERTO W. RAMOS
Se o modelo (linear) ajustado aos dados for adequado, então os resíduos devem se apresentar distribuídos aleatoriamente em torno do valor zero, quando marcados num gráfico cartesiano como o abaixo.
x
RE
SÍD
UO
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
9.5 10.5 11.5 12.5 13.5 14.5 15.5
Padrões estranhos observados na forma em que os resíduos se distribuem neste gráfico podem indicar problemas.
ESTATÍSTICA II 210
© ALBERTO W. RAMOS
REGRESSÃO POLINOMIAL
Muitas vezes, ao analisar o diagrama de dispersão, fica evidente que o modelo linear não é o mais adequado para a
representação de:
y = f(x) + ε
Neste caso, o modelo a ser adotado pode ser do tipo polinomial, ou seja
y = β0 + β1.x + β2x2 + β3x3 + β4x4 + ...
De particular interesse é o caso em que o polinômio é de 2o grau, ou seja
y = β0 + β1.x + β2.x2
que será estimado mediante
2210P xbxbby ++=
ESTATÍSTICA II 211
© ALBERTO W. RAMOS
Aplicando-se o método dos mínimos quadrados, similarmen-te ao feito no caso linear, chega-se ao seguinte conjunto de equações
∑ ∑ ∑ ∑
∑ ∑ ∑∑
∑ ∑ ∑
++=
++=
++=
4i2
3i1
2i0i
2i
3i2
2i1i0ii
2i2i10i
xbxbxbyx
xbxbxbyx
xbxbnby
cuja solução fornece os valores de b0, b1 e b2.
ESTATÍSTICA II 212
© ALBERTO W. RAMOS
EXEMPLO
y x x2 x3 x4 xy x2y 1 1 1 1 1 1 1
1,2 2 4 8 16 2,4 4,8 1,8 3 9 27 81 5,4 16,2 2,5 4 16 64 256 10 40 3,6 5 25 125 625 18 90 4,7 6 36 216 1296 28,2 169 6,6 7 49 343 2401 46,2 323 9,1 8 64 512 4096 72,8 582
30,5 36 204 1296 8772 184 1227
30,5 = 8b0 + 36b1 + 204b2 184 = 36b0 + 204b1 + 1296b2 1227 = 204b0 + 1296b1 + 8772b2
A solução deste sistema fornece
b0 = 1,348 b1 = -0,414 b2 = 0,170
Logo, a parábola estimativa será
2
P x170,0x414,0348,1y +−=
ESTATÍSTICA II 213
© ALBERTO W. RAMOS
ANÁLISE DE VARIÂNCIA APLICADA À REGRESSÃO
Para verificar se a regressão polinomial é estatisticamente significativa, deve-se testar o seguinte conjunto de hipóteses:
H0: β1 = β2 = 0 (não há regressão)
H1: pelo menos um βi ≠ 0 (há regressão)
Novamente, a variância total pode ser estimada através de:
1n)yy(
s2
i2T −
−= ∑
A variância residual (ou em torno da parábola de regressão) é estimada através de:
3ne
3n)yy(
s2i
2iPi2
R −=
−−
= ∑∑
Lembrando a propriedade da análise de variância que
SQTOTAL = SQREGRESSÃO + SQERRO
ESTATÍSTICA II 214
© ALBERTO W. RAMOS
então, a tabela da análise de variância fica
Fonte GL SQ QM Fcalc Regressão
2
por diferença
2Ms 2
R
2M
ss
Residual
n-3
∑ 2
ie 2Rs
Total
n-1
∑ − 2i )yy(
Fcalc será comparado contra Fcrit = F2; n-3; α e se Fcalc > Fcrit è rejeita-se H0, ou seja, a regressão é significativa.
ESTATÍSTICA II 215
© ALBERTO W. RAMOS
EXEMPLO
Empregando-se os dados do exemplo anterior, tem-se que
y x py e e2
1 1 1,104 -0,104 0,011 1,2 2 1,2 0 0,000 1,8 3 1,636 0,164 0,027 2,5 4 2,412 0,088 0,008 3,6 5 3,528 0,072 0,005 4,7 6 4,984 -0,284 0,081 6,6 7 6,78 -0,18 0,032 9,1 8 8,916 0,184 0,034
30,5 36 0,198
Então:
1796,872572,57
1n)yy(
s2
i2T ==
−−
= ∑
0396,05198,0
3ne
3n)yy(
s2i
2iPi2
R ==−
=−−
= ∑∑
Fonte GL SQ QM Fcalc Regressão 2 57,0592 28,5296 720,444 Residual 5 0,198 0,0396 Total 7 57,2572
Como FCRIT = F2; 5; 5% = 5,79 à A regressão é significativa
ESTATÍSTICA II 216
© ALBERTO W. RAMOS
ANÁLISE DE MELHORIA
Comparando-se o modelo linear com o quadrático, verifica-se a seguinte decomposição dos componentes da variação:
Variação Residual sobre a
Reta
Variação Explicada pela Reta
VariaçãoTotal
Melhoria do Ajuste
Variação Residual sobre
a Parábola
Variação Explicada
pela Parábola
.
Em outras palavras, pode-se decompor a variação residual sobre a reta em duas parcelas: variação residual sobre a
parábola e melhoria de ajuste.
O teste de hipóteses será conduzido para avaliar:
H0: não há melhoria
H1: há melhoria
ESTATÍSTICA II 217
© ALBERTO W. RAMOS
Conseqüentemente:
∑ ∑∑ −+−=− 2Pii
2iPi
2ii )yy()yy()yy(
A verificação de que se há melhoria significativa de ajuste pode ser feita mediante a análise de variância
Fonte GL SQ QM Fcalc Melhoria do Ajuste
1
∑ − 2
iPi )yy(
2Melhorias 2
P
2Melhoria
ss
Residual sobre a parábola
n-3
∑ − 2
Pii )yy( 2Ps
Residual sobre a reta
n-2
∑ − 2
ii )yy(
Fcalc será comparado contra Fcrit = F1; n-3; α e se Fcalc > Fcrit è rejeita-se H0, ou seja, a melhoria no modelo quadrático é significativa.
ESTATÍSTICA II 218
© ALBERTO W. RAMOS
EXEMPLO
Com os mesmos dados dos exemplos anteriores, ajustando-se uma reta por estes, obtém-se:
y = -1,196 + 1,113 x
y x Py 2
iiP )yy( − 2Pii )yy( − 2
ii )yy( − 1 1 1,104 1,409 0,011 1,173
1,2 2 1,2 0,029 0,000 0,029 1,8 3 1,636 0,257 0,027 0,118 2,5 4 2,412 0,712 0,008 0,572 3,6 5 3,528 0,707 0,005 0,591 4,7 6 4,984 0,248 0,081 0,612 6,6 7 6,78 0,034 0,032 0,000 9,1 8 8,916 1,459 0,034 1,938
30,5 36 4,856 0,198 5,032
Então
Fonte GL SQ QM Fcalc Melhoria do Ajuste 1 4,856 4,856 122,626 Residual sobre a parábola 5 0,198 0,0396 Residual sobre a reta 6 5,032
Como FCRIT = F1; 5; 5% = 6,61 è Há melhoria de ajuste com o modelo quadrático.
ESTATÍSTICA II 219
© ALBERTO W. RAMOS
87654321
9
8
7
6
5
4
3
2
1
x
y
S = 0,198356 R-Sq = 99,7 % R-Sq(adj) = 99,5 %
+ 0,169643 x**2
y = 1,34821 - 0,413690 x
Regression Plot
87654321
9
8
7
6
5
4
3
2
1
0
x
y
S = 0,915746 R-Sq = 91,2 % R-Sq(adj) = 89,7 %
y = -1,19643 + 1,11310 x
Regression Plot
ESTATÍSTICA II 220
© ALBERTO W. RAMOS
REGRESSÃO LINEAR MÚLTIPLA
Neste caso, a resposta é função de mais de uma variável e admite-se que esta função seja do tipo:
y = β0 + β1.x1 + β2.x2 + ... + βk.xk + ε
que será estimada mediante
y= b0 + b1.x1 + b2.x2 + b3.x3 + ... + bk.xk
ESTATÍSTICA II 221
© ALBERTO W. RAMOS
Se possuirmos dados de yi e xij
y x1 x2 ... xk y1 x11 x12 ... x1k y2 x21 x22 ... x2k . . .
.
.
.
.
.
.
...
.
.
. yn xn1 xn2 ... xnk
através da notação matricial pode-se escrever
y = X.β + ε
onde:
=
n
3
2
1
y...
yyy
y
=
nkn2n1
2k2221
1k1211
x... x x1...
x... x x1 x... x x1
X
β
βββ
=β
k
2
1
0
.
.
.
ε
εεε
=ε
n
3
2
1
.
.
.
Pelo método dos mínimos quadrados, quer se encontrar o vetor β tal que minimize:
)()'(MQn
ii XßyXßyee'e
1
2 −−=== ∑=
ESTATÍSTICA II 222
© ALBERTO W. RAMOS
que pode ser re-escrita como:
XßX'ß'yX''2yy'XßX'ß'Xßy'yX'ß'yy' +−=+−−= ßMQ
como yX'ß' é uma matriz 1X1 a sua transposta é igual, ou seja, Xßy'yX'ß' =)'( . Assim:
0Xb2X'y2X' =+−=β∂
∂
b
MQ
ou
X’Xb=X’y
ou ainda
b= (X’X)-1X’y
ESTATÍSTICA II 223
© ALBERTO W. RAMOS
EXEMPLO
y x1 x2 1,5 0 0 6,5 1 2
10,0 1 4 11,0 2 2 11,5 2 4 16,5 3 6
Para facilitar os cálculos, pode-se utilizar variáveis centradas, ou seja, subtrai-se de x1 e x2 as suas respectivas médias:
y x’1 x’2
1,5 -1,5 -3 6,5 -0,5 -1
10,0 -0,5 1 11,0 0,5 -1 11,5 0,5 1 16,5 1,5 3
Assim, resulta
6 0 0 57 X'X = 0 5,5 9 X'y = 25,5
0 9 22 49
ESTATÍSTICA II 224
© ALBERTO W. RAMOS
Logo:
1/6 0 0 57 9,5
b = (X'X)-1X'y = 0 11/20 -9/40 x 25,5 = 3 0 -9/40 11/80 49 1
A equação obtida é da forma:
21 'x'x35,9y ++= Como
5,1x'x 11 −= e
resulta em
21 xx32y ++= que gera o seguinte plano
ESTATÍSTICA II 225
© ALBERTO W. RAMOS
COMENTÁRIOS
• quando há duas variáveis no modelo, obtém-se um plano; • quando há mais do que duas variáveis no modelo, obtém-
se um hiperplano, que infelizmente não é possível representar graficamente;
• para se verificar a adequação do modelo, emprega-se a
análise de variância, similar à regressão polinomial:
Fonte g.l. SQ QM Fcalc Regressão Residual Total
2 3 5
125,5 3,0
128,5
62,75 1,0
62,75
• genericamente, o modelo de análise de variância é
Fonte GL SQ QM Fcalc
Regressão
k
por diferença
2Ms 2
R
2M
ss
Residual
n-k-1
∑ 2
ie 2Rs
Total
n-1
∑ − 2i )yy(
• assim como no caso das demais regressões, é também
recomendável fazer uma análise de resíduos para completar a análise de adequação do modelo;
• para k > 2 recomenda-se o emprego de algum software
estatístico na análise de regressão.
ESTATÍSTICA II 226
© ALBERTO W. RAMOS
COEFICIENTE DE DETERMINAÇÃO MÚLTIPLO
A idéia do coeficiente de determinação anteriormente vista pode ser adaptada para o caso da regressão múltipla. Neste
caso faz-se:
∑∑ ∑
−
−−==
2i
22i
TOTAL
REGRESSÃO2
)yy(
e)yy(
SQSQ
Ri
Entretanto, quando se lida com modelos de regressão múltipla, é comum também calcular o coeficiente de
determinação ajustado. Matematicamente:
( )
−−−
−−=1kn
1nR11R 22
AJ
onde: • n é a quantidade de pontos (amostras) disponível; • k é a quantidade de variáveis independentes (X´s).
Este coeficiente é mais adequado a comparações entre duas ou mais regressões sobre uma mesma variável dependente
(Y), quando o número de variáveis independentes é diferente. A inclusão de um novo X faz sempre com que R2 aumente,
mas não necessariamente R2aj.
ESTATÍSTICA II 227
© ALBERTO W. RAMOS
EXEMPLO
No exemplo da regressão linear múltipla tem-se:
962,0126
16)977,01(1R
977,05,1285,125
SQSQ
R
2AJ
TOTAL
REGRESSÃO2
=
−−−
−−=
===
ESTATÍSTICA II 228
© ALBERTO W. RAMOS
MULTICOLINEARIDADE Na regressão múltipla, admite-se que as variáveis X´s sejam independentes entre si, ou seja, que não exista correlação entre elas. Quando isto ocorre, fica impossível separar o
efeito individual de cada uma das variáveis. A este tipo de problema chama-se de multicolinearidade.
Uma saída para esta questão é considerar na equação
somente os X´s com maior R2, retirando os demais Um método para avaliar se existe multicolinearidade entre as variáveis X´s é mediante o cálculo do VIF (Variation Inflation
Factor), definido como:
2i
i R11
VIF−
=
onde 2
iR é o coeficiente de determinação de Xi com todos os demais X´s. Se VIF > 5, então há problema de
multicolinearidade.
ESTATÍSTICA II 229
© ALBERTO W. RAMOS
EXEMPLO No exercício anterior, podemos calcular R2 de x1 com x2. Este é simplesmente o coeficiente de correlação elevado ao quadrado.
x1 x2 x21 x2
2 x1.x2 0 0 0 0 0 1 2 1 4 2 1 4 1 16 4 2 2 4 4 4 2 4 4 16 8 3 6 9 36 18
Total 9 18 19 76 36
818,022.5,5
9R
226
1876S
5,569
19S
9618.9
36S
2
2X2X
2
1X1X
2X1X
==
=−=
=−=
=−=
02,3)818,0(1
1VIFVIF
221 =−
==
Conclui-se que não há problema com multicolinearidade.
ESTATÍSTICA II 230
© ALBERTO W. RAMOS
CORRELAÇÃO PARCIAL
Estudos de correlação indicam se duas (ou mais) variáveis estão associadas, ou seja, se quando uma destas varia a
outra (ou outras) também varia(m).
Quando se tem, por exemplo, três variáveis X1, X2 e X3, pode-se querer estudar a correlação existente entre elas
tomando-se duas a duas variáveis. Assim, r12 seria o coeficiente de correlação entre X1 e X2, r13, entre X1 e X3, etc.
Contudo, estes índices medem a correlação total entre as variáveis, ou seja, não descontam o efeito da terceira variável
presente no estudo.
Conseqüentemente, se é desejado o cálculo da correlação parcial de X1 e X2, esta deve ser calculada mediante o índice:
)r1)(r1(
rrrr
223
213
2313123,12
−−
−=
ESTATÍSTICA II 231
© ALBERTO W. RAMOS
EXEMPLO
x1 x2 x3 0 0 1 1 2 2 1 4 3 2 2 4 2 4 5 3 6 6
866,0r
968,0r
818,0r
23
13
12
=
=
=
Logo,
162,0)866,01)(968,01(
866,0.968,0818,0r
223,12 −=−−
−=
EXERCÍCIO
Calcular r23,1 e r13,2 com os dados anteriores.
ESTATÍSTICA II 232
© ALBERTO W. RAMOS
Teste Qui-quadrado
ESTATÍSTICA II 233
© ALBERTO W. RAMOS
TESTE QUI-QUADRADO
O teste Qui-quadrado serve para avaliar se duas variáveis qualitativas (também chamadas de categóricas) são ou não
independentes entre si.
Variáveis
Quantita-tivas
Qualita-tivas
Contínuas
Discretas
Ordinal
Nominal
.
Logo, o conjunto de hipóteses que está sendo testado é:
H0: as variáveis são independentes H1: as variáveis são dependentes
ESTATÍSTICA II 234
© ALBERTO W. RAMOS
EXEMPLO Uma amostra de 300 estudantes de uma universidade foi obtida, e estes foram classificados quanto a : Área de concentração : Exatas ; Humanas Jornal preferido : A, B, C, Outros Obtendo-se os seguintes resultados.
Oij Jornal A Jornal B Jornal C Outros Total
Exatas 60 20 90 20 190
Humanas 30 40 30 10 110
Total 90 60 120 30 300
Existem evidências de que Área de Concentração e Jornal Preferido estejam relacionados (dependência) ?
ESTATÍSTICA II 235
© ALBERTO W. RAMOS
As hipóteses testadas, neste caso, são: Ho : Área e Jornal Preferido são independentes H1 : Área e Jornal Preferido não são independentes Na amostra havia 190 alunos de Exatas, num total de 300, ou seja, 190/300 = 0,633 ou 63,3% e, conseqüentemente, havia 110/300 = 0,366 ou 36,6% de alunos de Humanas. Na coluna do Jornal A obteve-se um total de 90 alunos. Se não houver dependência entre área e jornal, espera-se que:
Proporção de Exatas è 5790x300190
=
Proporção de Humanas è 3390x300110
=
Analogamente, para as demais colunas, obtém-se os valores entre parênteses da tabela abaixo. Oij (Eij) Jornal A Jornal B Jornal C Outros Total
Exatas 60(57) 20(38) 90(76) 20(19) 190
Humanas 30(33) 40(22) 30(44) 10(11) 110
Total 90 60 120 30 300 Ou, genericamente:
EL C
niji j=×
Li = Total da linha i Cj = Total da coluna j
ESTATÍSTICA II 236
© ALBERTO W. RAMOS
Assim, pode-se obter as diferenças entre o observado (Oij) e o esperado (Eij ) na tabela, conforme abaixo: Oij - Eij Jornal A Jornal B Jornal C Outros Total
Exatas +3 -18 +14 +1 0
Humanas -3 +18 -14 -1 0
Total 0 0 0 0 0
Define-se como Qui-quadrado, à estatística:
∑−
=χij
2ijij2
calc E)EO(
χ2 Jornal A Jornal B Jornal C Outros Total Exatas 0,158 8,526 2,579 0,053 11,316
Humanas 0,273 14,727 4,455 0,091 19,545 Total 0,431 23,254 7,033 0,144 30,861
que, para a decisão, será comparado contra
815,72%5;3
2);1C)(1L(
2crítico =χ=χ=χ α−−
como 2calcχ >
2críticoχ ⇒ Rejeito Ho
ESTATÍSTICA II 237
© ALBERTO W. RAMOS
TABELA DE VALORES CRÍTICOS QUI-QUADRADO
ν α = 0,10 α = 0,05 α = 0,01 1 2,706 3,841 6,635 2 4,605 5,991 9,210 3 6,251 7,815 11,345 4 7,779 9,488 13,277 5 9,236 11,070 15,086 6 10,645 12,592 16,812 7 12,017 14,067 18,475 8 13,362 15,507 20,090 9 14,684 16,919 21,666
10 15,987 18,307 23,209 11 17,275 19,675 24,725 12 18,549 21,026 26,217 13 19,812 22,362 27,688 14 21,064 23,685 29,141 15 22,307 24,996 30,578