Upload
hoangdiep
View
214
Download
0
Embed Size (px)
Citation preview
Prof. José Francisco Moreira Pessanha
Rio de Janeiro, 4 de setembro de 2012
Métodos Quantitativos em Contabilidade
Introdução
O propósito da inferência estatística consiste em fazer afirmações
sobre alguma característica de uma população baseando-se em
resultados de uma amostra da população.
A inferência estatística fornece procedimentos para extrair
conclusões sobre uma população a partir de dados amostrais
(MOORE,2005)
População
Conjunto formado por todos os elementos que compartilham
uma característica comum:
Exemplos:
População carioca
Conjunto dos domicílios cariocas
Conjunto de funcionários da Prefeitura
Conjunto de fornecedores da Prefeitura
População finita: se há um determinado número de
elementos (por exemplo, nº de domicílios em uma cidade)
População infinita: o tamanho da população é ilimitado.
Distribuição populacional Em cada elemento da população podemos observar um conjunto de
atributos, por exemplo:
o consumo de energia elétrica em uma unidade consumidora
o valor da fatura de energia elétrica de uma unidade consumidora
se o cliente é residencial ou não residencial
se o cliente é medido ou não é medido.
Em geral, os atributos não se distribuem com a mesma intensidade em
todos os elementos da população, mas, ao contrário, a distribuição da
intensidade dos atributos é desigual.
Para ilustrar, considere a seguinte população formada por 6 unidades
consumidoras e os respectivos consumos mensais em kWh.
Distribuição
populacional
Distribuição populacional
A distribuição populacional pode ser caracterizada minimamente por
meio de uma medida de posição e uma medida de dispersão.
Medida de posição (média): indica o valor típico da população.
Medida de dispersão (desvio-padrão): indica a variabilidade dos
elementos da população ao redor da média.
Quando calculadas com base em todos os elementos da população estas
medidas são denominadas por parâmetros populacionais.
população
1506
200180160140120100
média
16,34
6
15020015010022
padrãodesvio
kWh
kWh
Parâmetros populacionais Parâmetro populacional é uma função dos valores observados em todos os
elementos da população.
Considere uma população finita com N elementos, cada um apresentando um
valor xi (i=1,N) em uma determinada característica X de interesse.
Com base nos valores de todos os elementos da população calculam-se os
parâmetros populacionais, entre os quais destacam-se:
N
i
ixN 1
1
N
1i
ixN
N
i
ixN 1
22 1
N
i
ixN 1
21
Média populacional
N
i
ixN 1
1
Total populacional
Variância populacional Desvio-padrão populacional
Proporção N
P
Total de elementos da população com a característica de interesse, por
exemplo, total de clientes com consumo acima de 150 kWh e, neste caso,
P = proporção de clientes com consumo acima de 150 kWh.
Censo
Um censo é a inspeção de todos os elementos da população,
para extrair de cada um deles as informações de interesse.
Os valores exatos dos parâmetros populacionais são obtidos
por meio de um censo da população.
Problemas:
Censos podem ter custos proibitivos
Censos podem demandar muito tempo para serem
concluídos e, portanto, os resultados não são imediatos e
podem estar desatualizados.
Em uma população infinita é impossível examinar todos os
elementos da população.
Censo
O censo de uma grande população é uma operação
complexa que envolve um enorme contingente de
recenseadores.
O envolvimento de muita gente cria problemas na
coordenação e controle das operações do censo, o que
aumenta as chances de erros, denominados por erros não
amostrais
Erros não amostrais: entrevistas mau aplicadas ou não
realizadas, erros de medida, erros de digitação dos dados
coletados, enfim erros que não estão nos dados, mas no
sistema para obtê-los.
Logo, os censos não são necessariamente exatos.
Censo
Quando fazer um censo ?
Quando a população é pequena, por exemplo, a
população de uma localidade do interior do país.
Quando se exige precisão completa, como no
setor de faturamento de uma empresa de serviço
público em que todos os clientes são medidos.
Amostragem Consiste na seleção e análise de um subconjunto finito (amostra) dos
elementos da população sob estudo.
Objetivo: estimar os parâmetros da distribuição populacional, por exemplo, a
média populacional e a proporção de elementos portadores de determinada
característica, a partir das observações de uma amostra da população.
O fato de investigar apenas uma parcela da população torna as pesquisas por
amostragem mais econômicas e mais rápidas que os censos.
Muito empregada em controle de qualidade e testes destrutivos, situações em
que não faz sentido fazer um censo.
É a alternativa ao censo.
Pesquisas por amostragem envolvem um menor número de agentes na coleta
de dados, tornando possível treiná-los exaustivamente visando uniformizar os
métodos de coleta de dados e, conseqüentemente, reduzir significativamente o
erro não amostral.
Amostragem
A partir das respostas dos indivíduos amostrados queremos inferir a partir dos
dados amostrais alguma conclusão sobre a população mais ampla que a
amostra representa.
A inferência estatística fornece métodos para extrair conclusões sobre uma
população a partir de dados amostrais.
Em função da flutuação amostral não podemos ter certeza de que nossas
conclusões são corretas, pois uma amostra diferente poderia conduzir a
conclusões diferentes. A inferência estatística usa a linguagem da
probabilidade para expressar o grau de confiança das conclusões.
Estimação Seja x1, x2,..., xn os valores observados em uma amostra aleatória de
tamanho n (n < N) acerca de uma característica X.
Os valores observados na amostra podem ser inseridos nas seguintes
fórmulas matemáticas denominadas estimadores, cujos resultados
numéricos são as estatísticas amostrais, estimativas dos valores
desconhecidos dos parâmetros populacionais:
n
i
ixn
X1
1XNT
2
1
2
1
1
n
i
i Xxn
S 2
11
1
n
i
i Xxn
S
np
ˆ
Média amostral Estimador do total
Variância amostral Desvio-padrão amostral
Proporção Total de elementos da amostra com a característica de interesse.
Parâmetro, estimador e estimativa
Considere
Uma população
Uma variável aleatória X que a cada elemento da população associa um
valor numérico X().
A distribuição de probabilidade de X depende de uma constante (parâmetro)
cujo valor é desconhecido e desejamos estimar
Uma amostra aleatória de tamanho n é retirada da população e medidos
valores x1, x2,...,xn da variável X nos n elementos da amostra. Tais valores
formam o conjunto de dados.
Um estimador do parâmetro é uma função (X1, X2,...,Xn) que associa a cada
possível conjunto de dados (amostra) x1, x2,...,xn o resultado (x1, x2,...,xn) .
Trata-se, portanto de uma variável aleatória.
Cada possível valor numério de um estimador é uma estimativa de .
Exemplo – Pesquisa Eleitoral A população é o universo de eleitores da cidade
A cada eleitor uma variável aleatória X() vale 1, se o eleitor vota no
candidato A e X() vale 0, caso contrário.
O parâmetro é a proporção p populacional de eleitores que votariam em A.
Distribuição da variável aleatória X é Bernoulli(p)
Considere uma amostra aleatória de n eleitores
A amostra aleatória é o conjunto de variáveis aleatórias X1,X2,...,Xn, cada Xi
tem distrbuição Bernoulli(p). As variáveis aleatórias X1,X2,...,Xn são
independentes e identicamente distribuidas.
Conjunto de dados: valores observados x1, x2,...,xn em uma partciular amostra
aleatória de tamanho n, xi =1 se o i-ésimo eleitor da amostra vota em A e xi = 0
se o iésimo eletor da amostra não vota em A.
Estimador pontual de p é a função
Estimativa de p, é o resultado de em uma particular amostra
n
i
in Xn
XXp
1
11
,...,ˆ
nxxp ,...,ˆ 1
Distribuição amostral
População
Amostra 1
Amostra 2
Amostra 3
Amostra k
Parâmetro
1X
2X
3X
kX
População
Amostra 1
Amostra 2
Amostra 3
Amostra k
Parâmetro
1X
2X
3X
kX
Diferentes amostras extraídas da mesma população originam valores
distintos para uma estatística amostral.
A diferença entre a estimativa e o valor
do parâmetro populacional constitui o
erro amostral, uma componente
aleatória inerente ao próprio processo
de seleção da amostra.
Portanto, os estimadores são variáveis
aleatórias, já que seu valor não pode
ser predito com certeza antes da
amostra ter sido extraída.
Há uma flutuação aleatória das estatísticas amostrais, variando de uma
amostra para outra.
Distribuição amostral
Distribuição amostral: distribuição de probabilidade de
uma estatística amostral quando consideramos todas as
possíveis amostras aleatórias de tamanho n extraídas de
uma população de Tamanho N (n<N).
A distribuição amostral descreve a variabilidade de uma
estatística e indica quão prováveis são os diversos valores
que ela pode assumir.
A capacidade de usar amostras para fazer inferências
sobre parâmetros populacionais depende do conhecimento
que temos sobre a distribuição amostral.
Todas as possíveis
amostras de
tamanho 2
extraídas da
população
Distribuição amostral
0
1
2
3
110 120 130 140 150 160 170 180 190
Consumo mensal (kWh)
frequência
absolu
ta
população
Distribuição
da média
amostral
EXEMPLO
Lembre que a
média populacional
é =150 kWh
Distribuição amostral
Simetria da distribuição da média amostral em torno da média
populacional ( =150 ).
Simetria implica na igualdade entre a média populacional e o valor
esperado da distribuição da média amostral (a média de todas as
médias das amostras de tamanho n=2).
0
1
2
3
110 120 130 140 150 160 170 180 190
Consumo mensal (kWh)
frequência
absolu
ta
Quando esta igualdade é verificada o estimador é não tendencioso.
Portanto, a média amostral é um estimador não tendencioso da média
populacional .
Distribuição amostral
0
1
2
3
110 120 130 140 150 160 170 180 190
Consumo mensal (kWh)
fre
qu
ên
cia
ab
so
luta
A dispersão da distribuição amostral dos valores também é importante.
Quanto maior a concentração em torno de , menor é a magnitude do erro
amostral e, portanto, maior a precisão do estimador.
O grau de dispersão é medido pelo desvio-padrão da distribuição
amostral, denominado erro-padrão.
Quanto menor o erro-padrão, maior será a precisão dos resultados
obtidos.
Propriedades de um estimador
O esquema do tiro ao alvo ilustra bem os conceitos de estimador não
tendencioso e precisão com base apenas na dispersão das estimativas
(pontos) em torno do parâmetro populacional (alvo).
não tendencioso e preciso não tendencioso e impreciso
preciso e tendencioso impreciso e tendencioso
não tendencioso e preciso não tendencioso e impreciso
preciso e tendenciosopreciso e tendencioso impreciso e tendencioso
Propriedades da média e da variância amostrais
A média amostral é um estimador não tendencioso da média
populacional:
n
i
iXn
X
1
1 XE
A variância amostral é um estimador não tendencioso da variância
populacional:
n
i
i XXn
S
1
22
1
1 22 SE
Prova-se que e são variáveis aleatórias independentes X2S
Teorema Central do Limite
Nas situações práticas dispomos de apenas uma
única amostra de tamanho n da população
investigada.
Então como construir a distribuição da média
amostral com apenas uma amostra?
As distribuições amostrais são deduzidas
matematicamente e a forma da distribuição
depende do estimador adotado, do tamanho da
amostra e da distribuição original da
característica de interesse X na população.
Teorema Central do Limite
No caso da média amostral, o Teorema do Limite Central
estabelece que, independentemente da distribuição populacional
da característica de interesse X, para amostras suficientemente
grandes (n30) a distribuição de probabilidade da média amostral
converge para uma distribuição normal com média e variância
2/n, à medida que aumenta o tamanho da amostra.
Se a amostra representar mais de 5% do tamanho da população
(n/Nx100% > 5%) a variância da distribuição da média amostral deve ser
corrigida pelo fator de correção finita:
nNX
2
,~
n grande (>30)
1,~
2
N
nN
nNX
n grande (>30)
Fator de correção finita
Teorema Central do Limite O resultado do Teorema do Limite Central pode ser melhor compreendido
pelos gráficos a seguir (Bussab & Morettin, 1987) que mostram como as
distribuições amostrais da média se aproximam da distribuição Normal, à
medida que o aumenta tamanho da amostra, a partir de diferentes
distribuições populacionais da característica X
Quando a distribuição populacional da característica X é normal, a distribuição da média
amostral é normal, independentemente do tamanho da amostra ser pequeno ou grande.
Teorema Central do Limite
A aproximação à curva normal pode ser utilizada em outros
estimadores, tais como o estimador do total e o estimador de
proporção.
No caso do estimador de proporção a sua distribuição
amostral converge para uma normal com média igual a
proporção populacional p e variância igual a p(1-p)/n:
n
pppNp
1,~ˆ
1
1,~ˆ
N
nN
n
pppNp
Em populações finitas (n/N x 100% > 5%) a variância do
estimador deve ser corrigida pelo fator de correção finita:
Amostragem aleatória simples (AAS)
Consiste em selecionar aleatoriamente uma amostra de n elementos em
uma população com N elementos (n<N).
Os elementos são sorteados sem reposição e não importa a ordem de
seleção dos elementos.
Assim, o total de amostras de n elementos que podem ser obtidas de uma
população de tamanho N é:
Todos os elementos da população têm igual probabilidade de pertencer a
amostra. Portanto, todas as possíveis amostras de tamanho n são
equiprováveis.
A probabilidade de um elemento pertencer a amostra é dada pela razão
n/N, conhecida como fração de amostragem.
!!
!
nNn
N
n
N
Exemplo O número total de amostras possíveis de tamanho 3 de uma população
formada pelos oito primeiros números naturais {1,2,3,4,5,6,7,8} é 56:
5678
123
678
!5!3
!8
!38!3
!8
3
8
x
xx
xx
Seja X1 o primeiro elemento a ser sorteado.
P(X1=i1) = 1/8 para todo i1 = 1,2,3,4,5,6,7,8
Seja X2 o segundo elemento a ser sorteado
P(X2=i2 | X1=i1) = 1/7 , para todo i2 diferente de i1
Seja X3 o terceiro elemento a ser sorteado
P(X3=i3|X1=i1 . X2=i2) = 1/6, para todo i3 diferente de i1 e i2
Considere uma das possíveis amostras de três elementos: A={2,5,7}
A probabilidade de que tal amostra seja selecionada é
N =8
n =3
Aiii
iXiXiXP
321,,
332211 ,, Soma das probabilidades de todas
as permutações de 2,5 e 7
Exemplo O número de permutações dos elementos da amostra A = {2, 5, 7} é igual
a 6:
257 275 527 572 725 752
Cada uma das permutações tem probabilidade
(1/8) x (1/7) x (1/6)
Como há 6 permutações
A probabilidade de selecionar a amostra A={2, 5, 7} é
6 x (1/8) x (1/7) x (1/6) = 1/56
Evidentemente, qualquer outra amostra de tamanho 3 tem a mesma
probabilidade de 1/56 de ser selecionada.
Na AAS cada possível amostra de tamanho n tem igual probabilidade de
ser selecionada
Tamanho da amostra
Para dimensionarmos uma amostra devemos especificar duas constantes:
1) Máximo desvio ou erro tolerável (d) entre a média amostral e a média
populacional.
2) A probabilidade de que o máximo desvio ou erro entre a média
amostral e média populacional seja maior do que d.
Os valores das constantes e d devem ser pequenos, tal que
dXP
1dXP
Probabilidade de que o desvio entre a
média amostral e a média populacional
ultrapasse o máximo tolerável é igual a
Probabilidade de que o desvio entre a
média amostral e a média populacional
seja menor que máximo tolerável é igual
a 1-
Tamanho da amostra (população infinita)
1dXP
1dXdP
nNX
2
,~
Pelo Teorema Central do Limite
Admitindo população infinita
1222 n
d
n
X
n
dP
Dividindo a desigualde pelo desvio padrão
1
n
dz
n
dP
z~N(0,1)
Tamanho da amostra (população infinita)
1
n
dz
n
dP
1
21
21
zzzP
n
dz
2
1
2
21
d
z
n
21
z
Valor tabelado
1-0,5
probabilidade
Tamanho da amostra (população finita)
Pelo Teorema Central do Limite a distribuição
da média amostral é Normal.
Logo, a probabilidade de que o desvio entre a média populacional e a média
amostral seja menor do que e é 1-.
1
111
22222
zzzP
nN
nN
d
nN
nN
X
nN
nN
dP
XXX
1dXdPdXP
Tamanho da amostra
nN
nNdz X
2
21 1
Logo
2
21
22
2
21
2
1
zdN
zN
n
X
X
1,~
2
N
nN
nNX
Tamanho da amostra
222/1
2
222/1
1 X
X
zdN
Nzn
N = tamanho da população
d = margem de erro fixada
2X = variância da distribuição populacional
1- = nível de confiança, usualmente 95% ( = 5%)
z1- /2 = abscissa da distribuição normal que deixa uma
probabilidade 1-/2 a esquerda
2
222/1
d
zn X
No caso de populações grandes ou infinitas
podemos usar a seguinte fórmula:
222/1
2
222/1
1 X
X
StdN
NStn
No caso de populações finitas e com
variância populacional não conhecida
devemos usar a seguinte fórmula:
S2X = estimativa da variância da distribuição populacional
t1-/2 = abscissa da distribuição t que deixa uma probabilidade 1-/2 a esquerda
Tamanho da amostra Exemplo
Cliente Número EndereçoConsumo no mês anterior
(kWh)
10000001 301
10000002 204
10000003 303
10000004 205
10000005 191
10000006 391
10000007 349
10000008 274
10000009 285
10000010 394
10000011 274
10000012 392
10000013 309
10000014 180
10000015 290
10000016 356
10000017 199
10000018 474
10000019 392
10000020 226
10000021 521
10000022 178
10000023 242
10000024 206
10000025 348
10000026 109
10000027 414
10000028 223
10000029 316
10000030 280
A título de ilustração considere o cadastro
com todas as unidades consumidoras
residenciais de uma localidade. Uma
população com N=30 elementos. Qual o
tamanho da amostra para estimar o
consumo médio com 95% de confiança de
um erro máximo de 50 kWh?
Considere as seguintes premissas:
nível de
confiança de
95% (=5%)
z/2 =1,96
= -INV.NORMP(0,025)
Erro máximo admissível d = 50 kWh
Desvio-padrão populacional X = 94,04 kWh
10
04,9496,150130
3004,9496,1222
22
n
Tamanho da amostra
Cadastro de uma localidade com 30 clientes
Tamanho da amostra
N = tamanho da população
e = margem de erro fixada
p = proporção populacional
= nível de confiança 1%, 5% ou 10%
z1- /2 = abscissa da distribuição normal que deixa uma
probabilidade 1-/2 a esquerda
No caso de populações grandes ou infinitas
podemos usar a seguinte fórmula:
Note que o tamanho da amostra depende da proporção populacional, justamente
o parâmetro que queremos estimar por amostragem.
Podemos considerar estimativas obtidas em estudos anteriores, fazer uma
amostra piloto ou, na impossibilidade de obter tais estimativas, podemos fixar p
em 0,5, pois assim maximizamos o produto p(1-p) o que resulta em um maior
tamanho para a amostra,
ppzdN
Nppzn
11
1
22/1
2
22/1
2
22/1 1
d
ppzn
Tamanho da amostra para estimar uma proporção.
Amostragem aleatória simples (AAS) Exemplo do cálculo do tamanho da amostra para estimar proporções
Cliente Número EndereçoConsumo no mês anterior
(kWh)
10000001 301
10000002 204
10000003 303
10000004 205
10000005 191
10000006 391
10000007 349
10000008 274
10000009 285
10000010 394
10000011 274
10000012 392
10000013 309
10000014 180
10000015 290
10000016 356
10000017 199
10000018 474
10000019 392
10000020 226
10000021 521
10000022 178
10000023 242
10000024 206
10000025 348
10000026 109
10000027 414
10000028 223
10000029 316
10000030 280
Considere o cadastro com todas as
unidades consumidoras residenciais de
uma localidade. Uma população com N=30
elementos. Qual o tamanho da amostra para
estimar a proporção de clientes com ar
condicionado?
Considere as seguintes premissas:
nível de
confiança de
95% (=5%)
z/2 =1,96
= -INV.NORMP(0,025)
Erro máximo admissível d = 0,2
Desvio-padrão populacional X = 0,5 x 0,5
14
5,096,12,0130
305,096,1222
22
n
Tamanho da amostra
Cadastro de uma localidade com 30 clientes
Amostragem aleatória simples (AAS)
Seleção da amostra
Requer um cadastro ou uma
lista em que sejam identificados
todos os elementos da
população alvo.
Por exemplo, o cadastro de
consumidores ou cadastro de
faturamento.
A seleção da amostra se dá
mediante a aplicação de um
procedimento de seleção
aleatória ao cadastro.
Cadastro de uma localidade com 30 clientes
Cliente Número EndereçoConsumo do último ano
(kWh)
10000001 18.055
10000002 12.232
10000003 18.195
10000004 12.295
10000005 11.450
10000006 23.450
10000007 20.951
10000008 16.457
10000009 17.100
10000010 23.627
10000011 16.440
10000012 23.524
10000013 18.510
10000014 10.824
10000015 17.382
10000016 21.369
10000017 11.912
10000018 28.446
10000019 23.501
10000020 13.536
10000021 31.265
10000022 10.703
10000023 14.528
10000024 12.335
10000025 20.877
10000026 6.530
10000027 24.868
10000028 13.394
10000029 18.953
10000030 16.805
Amostragem aleatória simples (AAS) Seleção da amostra
Como fazer a seleção ?
Vamos selecionar uma amostra de
tamanho n=10, a partir do cadastro ao
lado, onde N=30.
Pode-se sortear 10 números aleatórios
entre 1 e 30 e selecionar os clientes
que ocupem as respectivas posições
no cadastro.
Use o comando =aletatórioentre(1;30)
no Excel e não considere os números
repetidos.
Números sorteados: 3, 14, 10, 20, 5, 1,
15, 23, 9, 6
Cadastro de uma localidade com 30 clientes
Cliente Número EndereçoConsumo do último ano
(kWh)
10000001 18.055
10000002 12.232
10000003 18.195
10000004 12.295
10000005 11.450
10000006 23.450
10000007 20.951
10000008 16.457
10000009 17.100
10000010 23.627
10000011 16.440
10000012 23.524
10000013 18.510
10000014 10.824
10000015 17.382
10000016 21.369
10000017 11.912
10000018 28.446
10000019 23.501
10000020 13.536
10000021 31.265
10000022 10.703
10000023 14.528
10000024 12.335
10000025 20.877
10000026 6.530
10000027 24.868
10000028 13.394
10000029 18.953
10000030 16.805
Amostragem aleatória simples (AAS) Seleção da amostra
Outra opção consiste em atribuir
um nº aleatório entre 0 e 1 a cada
elemento do cadastro.
Use o comando ALEATÓRIO() do
Excel.
Copie a coluna de nº aleatórios e
cole como valor.
Em seguida, ordene os
elementos do cadastro na ordem
decrescente ou crescente do nº
aleatório.
Pegue os dez primeiros
elementos para formar a amostra
de tamanho n=10.
Cadastro de uma localidade com 30 clientes
Cliente Número EndereçoConsumo do último ano
(kWh)Nº aleatório
10000030 18.055 0,98328
10000029 12.232 0,94652
10000021 18.195 0,92820
10000027 12.295 0,90521
10000026 11.450 0,87656
10000023 23.450 0,83263
10000010 20.951 0,69607
10000018 16.457 0,67584
10000019 17.100 0,65748
10000012 23.627 0,64982
10000008 16.440 0,62583
10000001 23.524 0,62388
10000016 18.510 0,59090
10000025 10.824 0,52914
10000024 17.382 0,49418
10000009 21.369 0,48493
10000007 11.912 0,44745
10000017 28.446 0,42220
10000003 23.501 0,36952
10000020 13.536 0,35411
10000011 31.265 0,35327
10000028 10.703 0,27673
10000004 14.528 0,23419
10000005 12.335 0,23057
10000006 20.877 0,21171
10000014 6.530 0,11484
10000013 24.868 0,11434
10000015 13.394 0,10176
10000022 18.953 0,04385
10000002 16.805 0,01997
Coluna de nº aleatórios já ordenados
Intervalo de confiança para a média
Como a média amostral segue uma distribuição normal com
média e variância 2/n, podemos esperar com 95% de
probabilidade que a média amostral seja diferente do valor
populacional por no máximo 1,96 desvios-padrão
%9596,196,1 XDPXXDPP
nNX
2
,~
nn
XDP
2
%9596,196,1 XDPXXDPP
Intervalo de confiança para a média
%9596,196,1 XDPXXDPP
%9596,196,1 XDPXXDPXP
o intervalo tem uma probabilidade de 95%
de conter a média populacional.
Logo, há uma probabilidade de 5% do intervalo não conter a média, ou seja,
uma probabilidade de 5% de erro.
Substituíndo a média amostral por seu valor numérico, a expressão acima
deixa de ser uma probabilidade legítima e transforma-se no intervalo com 95%
de confiança de conter a média populacional:
XDPXXDPX 96,196,1
XDPXXDPX 96,1,96,1
Intervalo de confiança para a média
Na hipótese de serem sorteadas todas as diferentes amostras de
tamanho n de uma população, em cada amostra podemos calcular um
intervalo com 95% de confiança centrado na média amostral, sendo que
somente 95% destes intervalos conterão a média populacional.
População
Amostra 1
Amostra 2
Amostra 3
Amostra k
Média Variância 2
nX
96,1
1
nX
96,1
2
nX
96,1
3
nX
k
96,1
1X
2X
3X
kX
Distribuição da média
amostral
População
Amostra 1
Amostra 2
Amostra 3
Amostra k
Média Variância 2
nX
96,1
1
nX
96,1
2
nX
96,1
3
nX
k
96,1
1X
2X
3X
kX
População
Amostra 1
Amostra 2
Amostra 3
Amostra k
Média Variância 2
nX
96,1
1
nX
96,1
2
nX
96,1
3
nX
k
96,1
1X
2X
3X
kX
Distribuição da média
amostral
A confiança informa com que frequência
o método irá produzir um intervalo que
contém o verdadeiro parâmetro
populacional, no caso a média.
No caso geral, os limites do intervalo com 1- confiança são determinados pela
seguinte fórmula:
Intervalo de confiança para a média
n2zX
n2zX
onde
1- é o nível de confiança especificado, usualmente: 0,9 ; 0,95 e 0,99.
z(/2) são os valores tabelados da normal padronizada N(0,1) que deixam uma
probabilidade igual a /2 nas caudas da distribuição normal.
O termo é o erro máximo provável.
A magnitude do erro é determinada pelo nível de
confiança 1-, pelo desvio padrão populacional
e pelo tamanho da amostra n.
nz
2
maior o tamanho da amostra menor o erro, logo menor o comprimento
do intervalo e mais precisa a estimativa.
maior o erro, logo maior o
comprimento do intervalo
de confiança.
maior o nível de confiança (maior z(/2)) ou
maior o desvio padrão populacional.
Intervalo de confiança para a média
Quando a população é finita e o tamanho da amostra constitui mais de 5% da
população (n/N x 100% > 5%), devemos aplicar o fator de correção finita na
fórmula da variância da distribuição amostral da média:
1N
nN
n2zX
1N
nN
n2zX
Todos os resultados anteriores também são válidos para pequenas amostras
(n30) desde que extraídas de populações normais com variância 2
conhecida.
VAR00001
50,0
45,0
40,0
35,0
30,0
25,0
20,0
15,0
10,0
40
30
20
10
0
Std. Dev = 7,65
Mean = 20,9
N = 50,00
Exemplo 1
A seguir são apresentadas os valores mensais
(em US$) pagos por 50 indivíduos selecionados
aleatoriamente usuários de provedores
comerciais de acesso à internet em agosto de
2000 nos EUA. Construa o intervalo de
confiança de 95% (=5%).
nzX
nzX
22
20 40 22 22 21 21 20 10 20 20
20 13 18 50 20 18 15 8 22 25
22 10 20 22 22 21 15 23 30 12
9 20 40 22 29 19 15 20 20 20
20 15 19 21 14 22 21 35 20 22
Amostra grande (n>30)
9,2050
1 50
1
i
iXX
4592,58150
1 50
1
22
i
i XXS
Use o comando Excel INV.NORMP(0,975)
para obter Z(2,5%) = 1,96
02,2378,18
Xi (i=1,50)
Histograma dos dados
amostrais sugere
distribuição populacional não
normal
Em uma amostra de 15 tubos de imagem, a vida útil média é de 8000
horas. Em geral, a vida útil de tubos de imagem é assumida como sendo
normal. Suponha que o desvio padrão da vida útil dos tubos de imagem
de TV para uma marca particular é conhecido como sendo 500 horas.
Construa o intervalo de confiança de 95% para a vida útil média.
Exemplo 2
n
zXn
zX
%5.2%5.2
Como o intervalo acima não contém o total de horas em um ano (8760
horas), é razoável admitir que a vida útil média de um tubo de imagem seja
menor que um ano.
15
50096,18000
15
50096,18000
04,825397,7746
z(/2) = z(2,5%)
Use o comando Excel
INV.NORMP(0,975) = Z(2,5%) = 1,96
Exemplo 3
Considere uma população, cuja característica de interesse X tenha distribuição
normal com variância 2 = 36. Desta população foi retirada uma amostra
aleatória (com reposição) de tamanho n=16 cuja média amostral é igual a 43.
Construa o intervalo de 90% de confiança da média populacional (amostra
pequena, mas extraída de uma população normalmente distribuída e com 2
conhecido).
%10
6
362
43X z(/2) = z(5%)
Use o comando Excel INV.NORMP(0,95) para obter
Z(5%) = 1,6449
n2zX
n2zX
n =16
Dados
46,4554,40
Intervalo com 90% de confiança de
conter a média populacional
Intervalo de confiança para a média
Até o momento admitimos que a variância populacional é conhecida, uma
situação que não acontece na prática.
Em geral 2 não é conhecida e deve ser substituída por sua estimativa
amostral S2.
Em função desta modificação os valores críticos que definem a região de
rejeição, z(/2), passam a ser definidos pela tabela da distribuição t de
Student com n-1 graus de liberdade e não mais pela tabela da distribuição
N(0,1).
Assim, por exemplo, o valor crítico ao nível de significância de 10% é 1,75
(use o comando =INVT(0,1;15) no MS Exel ®), ligeiramente superior ao valor
crítico de 1,64 definido pela N(0,1).
O uso da distribuição t pressupõe que a população seja normalmente
distribuída.
Distribuição t
Intervalo de confiança para a média
Para pequenas amostras (n 30) extraídas de uma população normalmente
distribuída com o estimador S2 no lugar de 2, pois 2 não é conhecido, tem-se
que:
n
StX
n
StX
22
22
1212
22
N
nN
n
StX
N
nN
n
StX
Para amostras aleatórias de uma população finita em que n/Nx100% > 5%
Neste caso deve-se substituir o z-score com distribuição normal pelo t-score ou
t(/2) com distribuição t de Student com n-1 graus de liberdade:
12
~
nt
n
S
X Variável aleatória com distribuição t de
Student com n-1 graus de liberdade
Distribuição t
Distribuição populacional
Tamanho da amostra Estatística de teste
Normal Grande (n30) Conhecido Z
Normal Pequeno (n<30) Conhecido Z
Normal Grande (n30) Desconhecido t ou Z
Z é usado como uma aproximação de t
Normal Pequeno (n<30) Desconhecido t
Desconhecida Grande (n30) Conhecido Z
Teorema do Limite Central é invocado
Desconhecida Grande (n30) Desconhecido
t ou Z Teorema do Limite
Central é invocado e Z é usado como uma aproximação de t
Desconhecida Pequeno (n<30) Conhecido Nenhum
Desconhecida Pequeno (n<30) Desconhecido Nenhum
Intervalo de confiança para a média
Quando utilizar t ou Z ou nenhum dos dois ?
Testes não paramétricos
ou Bootstrap
Assuma que estes valores são provenientes de uma população normalmente
distribuída e calcule o intervalo com 90% de confiança para o número médio de galões
necessários para percorrer as 100 milhas.
Intervalo de confiança:
Exemplo 4
Uma agência governamental deseja estimar as milhas por galão que um
determinado modelo de veículo é capaz de fazer.
Para isto a agência adquire um destes veículos, enche o tanque de
combustível e um motorista treinado dirige o carro por 100 milhas. Então o
veículo é reabastecido e o mesmo motorista dirige o carro por mais 100 milhas,
ao final do percurso o veículo é novamente reabastecido e assim segue o
experimento. A operação é realizada 10 vezes e o número de galões
necessários para reabastecer o tanque de combustível nestas 10 vezes é
apresentado a seguir:
4,78 4,42 3,94 4,15 4,90 3,92 3,94 4,68 4,32 4,23
n
StX
n
StX
22
22
Exemplo 4
Amostra Xi (i=1,10): 4,78 4,42 3,94 4,15 4,90 3,92 3,94 4,68 4,32 4,23
n=10 328,410
1 10
1
i
iXX 1303,0110
1 10
1
22
i
i XXS 8331,1%5 t
n
StX
n
StX
22
22
10
1303,08331,1328,4
10
1303,08331,1328,4
537,4119,4 Intervalo com 90% de confiança para o número
médio de galões necessários para percorrer 100
milhas
A partir deste resultado também podemos construir o Intervalo com 90% de confiança a
médio de milhas percorridas por galão de combustível
28,2404,22 100/4,119 100/4,537
Use o comando
Excel =INVT(0,1;9)
A vida útil média de uma amostra de 10 lâmpadas é 4000 horas, com
desvio padrão da amostra de 200 horas. Sabendo que a vida útil de uma
lâmpada é assumida como sendo aproximadamente normal, construa o
intervalo de confiança de 95% para a média da vida útil.
Exemplo 5
n
stX
n
stX %5.2%5.2 99
1) A vida útil da lâmpada é uma variável aleatória com distribuição normal
2) Amostra é pequena n = 10
3) Desvio padrão estimado a partir da amostra (s = 200)
Logo deve-se utilizar a distribuição t na definição do intervalo de
confiança para a média
10
2002622,24000
10
2002622,24000
2,41438,3856 =INVT(0.05,9)=2,2622
Assim, os limites do intervalo com 100(1-)% de confiança para a
proporção p são determinados conforme a seguir:
Intervalo de confiança para a proporção
n
ppzpp
n
ppzp
ˆ1ˆ
2ˆ
ˆ1ˆ
2ˆ
Em grandes amostras, a aproximação à curva normal pode ser utilizada
em outros estimadores, tal como o estimador de proporção, cuja
distribuição amostral converge para uma normal com média igual a
proporção populacional p e variância igual a p(1-p)/n:
n
pppNp
1,~ˆ
Dados estimativa da proporção dos que votam no candidato A
tamanho da amostra
= 5% nível de significância
Exemplo 6
6,0ˆ p
Uma empresa de pesquisa eleitoral entrevistou por telefone 400 eleitores
registrados, perguntando-lhes se votariam no candidato A ou no candidato B.
Como resultado foi observado que 60% dos entrevistados responderam que
votariam no candidato A.
Deduza o erro padrão, a margem de erro e o intervalo de 95% de confiança para a
proporção dos que indicam preferência pelo candidato A.
0245,0
400
4,06,0ˆ1ˆ
n
ppsp
400n
048,00245,096,1%5,22 pp szsz
648,0552,02ˆ2ˆ pszppszp pp
Erro padrão =
Margem de erro =
Intervalo de confiança
A vista do intervalo de confiança resultante (55% , 65%) o candidato A pode sentir-se
razoavelmente seguro quanto a suas perspectivas em relação a eleição
Exemplo 7
Uma amostra aleatória de 625 donas-de-casa revela que 70% delas preferem
a marca X de detergente. Construa um intervalo com 90% de confiança para a
proporção de donas-de-casa que preferem X.
Intervalo de confiança para a proporção p
Dados:
n
ppzpp
n
ppzp
ˆ1ˆ
2ˆ
ˆ1ˆ
2ˆ
%10
625
7,0ˆ
n
p
625
7,017,06449,17,0
625
7,017,06449,17,0
p
Use o comando INV.NORMP(0,95) do Excel para obter
Z(5%) = 1,6449
73,067,0 p
Amostras independentes
Amostras independentes x Amostras emparelhadas
Amostras emparelhadas
Considere a tarefa de formular um experimento com a finalidade de avaliar dois tipos de
tênis em relação ao desgaste da sola: tênis Rosa (R) e tênis Verde (V).
A forma mais simples de elaborar o experimento é escolher, ao acaso, um grupo de
meninos e calçá-los com tênis R e calçar um outro grupo com o tênis V, Este tipo de
experimento é conhecido pelo nome de amostras independentes.
Uma estratégia com maior sensibilidade para detectar as diferenças entre R e V
consiste em escolher aleatoriamente para cada menino o pé no qual calçará o tênis R.
O outro pé calçará o tênis V. Esta classe de experimentos é conhecida pelo nome de
amostras dependentes ou emparelhadas.
http://www.midomenech.com.br/admin/arquivos/Emparelhados.pdf
Considere duas populações Normais com média 1 e 2 possivelmente
distintas e com a mesma variância 12= 2
2= 2 . Isto é
X ~ N(1,2)
Y ~ N(2,2)
Considere amostras aleatórias de X e Y (amostras independentes) e com
tamanhos m e n respectivamente, isto é
(x1,...,xm) e (y1,...,yn)
Todos os parâmetros são desconhecidos e o objetivo é construir
intervalos com 100(1-)% de confiança para a diferença das médias 1 - 2
Intervalo de confiança para a diferença nas médias de duas populações
1 - Caso de duas populações com variâncias iguais
(Amostras independentes)
A partir dos pressupostos assumidos sabemos que as distribuições
amostrais das médias amostrais são normais:
As médias amostrais são independentes então a diferença entre elas
também tem distribuição normal:
mNX
2
1,~
nNY
2
2 ,~
nmNYX
22
21 ,~
A partir dos resultados acima tem-se que:
1,0~
112
21 N
nm
YXZ
Intervalo de confiança para a diferença nas médias de duas populações
1 - Caso de duas populações com variâncias iguais
(Amostras independentes)
A variância 2 não é conhecida e pode ser estimada como
onde
2
11 2
2
2
12
nm
SnSmS pooled
m
i
i Xmxm
S1
222
11
1Variância amostral da amostra da população X
Variância amostral da amostra da população Y
Substituindo 2 por seu estimador tem-se que 2
pooledS
2
2
21 ~11
nm
pooled
t
nmS
YX
Intervalo de confiança para a diferença nas médias de duas populações
Distribuição t com m+n-2 graus de liberdade
1 - Caso de duas populações com variâncias iguais
(Amostras independentes)
n
i
i Ynyn
S1
222
21
1
1
21122
2
212 nm
pooled
nm t
nmS
YXtP
1
11
2
11
2
2
221
2
2nm
StYXnm
StYXP poolednmpoolednm
nmStYX
nmStYX poolednmpoolednm
11
2
11
2
2
221
2
2
Substituindo as estatísticas amostrais por seus valores numéricos, a expressão
acima deixa de ser uma probabilidade legítima e transforma-se no intervalo com
100(1-)% de confiança de conter a diferença entre as médias populacionais:
Para grandes amostras m+n >= 30 pode-se aproximar a distribuição t pela normal
padrão z. (t é aproximado por z)
1 - Caso de duas populações com variâncias iguais
(Amostras independentes)
Intervalo de confiança para a diferença nas médias de duas populações
Valores tabelados
De que maneira as empresas que vão à falência diferem daquelas que
continuam a operar?
Para responder a esta questão, um estudo comparou diversas características
de 68 empresas que estão em boa situação com 33 que faliram.
Uma das variáveis estudadas foi a razão entre o patrimônio e as dívidas
atuais. Grosso modo, trata-se do que a firma vale dividido pela quantia que ela
deve. As estatísticas amostrais são apresentadas a seguir:
Empresas bem sucedidas Empresas falidas
A estimativa da diferença da razão patrimônio/dívidas entre as firmas bem
sucedidas e aquelas que faliram é
Construa o intervalo de 95% confiança para a diferença das médias
6393,0
7256,1
1
1
S
X
4811,0
8236,0
2
2
S
X
902,08236,07256,121 XX
1 – Exemplo caso de duas populações com variâncias iguais
(Amostras independentes)
Intervalo de confiança para a diferença nas médias de duas populações
Vamos admitir populações com variâncias iguais.
Então, primeiro deve-se calcular a variância combinada
A margem de erro é
A diferença entre as bem sucedidas e falidas é em média 0,902 com margem de
erro de 0,2495 para uma confiança de 95%. Alternativamente, o intervalo com 95%
confiança para a diferença das médias é 0,902 0,2495 ou (0,6525 , 1,1515).
2495,033
1
68
13514,09842,1
11
2
2
99
nmSt pooled
3514,0
23368
4811,01336393,0168
2
11 222
2
2
12
nm
SnSmS pooled
O grau de liberdade da estatística t é m+n-2 = 68 + 33 – 2 = 99
Ao nível de confiança = 95%, o t(2,5%) é 1,9842. No Excel INVT(0,05;99) = 1, 9842
Como as amostras são grandes, então
poderíamos aproximar pela normal 1,96
1 – Exemplo caso de duas populações com variâncias iguais
(Amostras independentes)
Intervalo de confiança para a diferença nas médias de duas populações
Considere duas populações Normais com média 1 e 2 possivelmente
distintas e com variâncias 12 e 2
2. Isto é
X ~ N(1,12)
Y ~ N(2,22)
Considere amostras aleatórias de X e Y (amostras independentes) e com
tamanhos m e n respectivamente, isto é
(x1,...,xm) e (y1,...,yn)
Todos os parâmetros são desconhecidos e o objetivo é construir
intervalos com 100(1-)% de confiança para a diferença das médias 1 - 2
Intervalo de confiança para a diferença nas médias de duas populações
2 - Caso de duas populações com variâncias diferentes
(Amostras independentes)
A partir dos pressupostos assumidos sabemos que as distribuições
amostrais das médias amostrais são normais:
As médias amostrais são independentes então a diferença das médias
amostrais também tem distribuição normal:
mNX
2
11,~
nNY
2
22 ,~
nmNYX
2
2
2
121 ,~
A partir dos resultados acima tem-se que:
1,0~
2
2
2
1
21 N
nm
YXZ
Intervalo de confiança para a diferença nas médias de duas populações
2 - Caso de duas populações com variâncias diferentes
(Amostras independentes)
A variância de cada população não é conhecida.
Substituindo as variâncias populacionais pelos respectivos estimadores,
obtém-se uma variável aleatória que não tem distribuição t
onde
Variância amostral da amostra da população X
Variância amostral da amostra da população Y
Porém pode ser aproximada por uma distribuição t com v graus de
liberdade determinado por:
2
11
22
2
22
1
22
2
2
1
n
nS
m
mS
n
S
m
S
v
Intervalo de confiança para a diferença nas médias de duas populações
n
S
m
S
YX
2
2
2
1
21
Arredonde o resultado para cima
2 - Caso de duas populações com variâncias diferentes
(Amostras independentes)
m
i
i Xmxm
S1
222
11
1
n
i
i Ynyn
S1
222
21
1
Intervalo de confiança
Onde v é determinado como:
2
11
22
2
22
1
22
2
2
1
n
nS
m
mS
n
S
m
S
v
Intervalo de confiança para a diferença nas médias de duas populações
n
S
m
StYX
n
S
m
StYX vv
2
2
2
121
2
2
2
1
22
Arredonde o resultado para cima
2 - Caso de duas populações com variâncias diferentes
(Amostras independentes)
Valores tabelados
De que maneira as empresas que vão à falência diferem daquelas que
continuam a operar?
Para responder a esta questão, um estudo comparou diversas características
de 68 empresas que estão em boa situação com 33 que faliram.
Uma das variáveis estudadas foi a razão entre o patrimônio e as dívidas
atuais. Grosso modo, trata-se do que a firma vale dividido pela quantia que ela
deve. As estatísticas amostrais são apresentadas a seguir:
Empresas bem sucedidas Empresas falidas
A estimativa da diferença da razão patrimônio/dívidas entre as firmas bem
sucedidas e aquelas que faliram é
Construa o intervalo de 95% confiança para a diferença das médias
6393,0
7256,1
1
1
S
X
4811,0
8236,0
2
2
S
X
902,08236,07256,121 XX
2 – Exemplo caso de duas populações com variâncias diferentes
(Amostras independentes)
Intervalo de confiança para a diferença nas médias de duas populações
Em amostras de tamanhos diferentes não é recomendável admitir a hipótese de
variâncias populacionais iguais, a menos que ambas as amostras sejam
realmente grandes, como neste caso.
Vamos construir o intervalo de confiança admitindo variâncias diferentes.
Então, primeiro deve-se calcular v, o nº de graus de liberdade da estatística t
850879,842
133
334811,0
168
686393,0
33
4811,0
68
6393,0
2
11
2222
222
22
2
22
1
22
2
2
1
n
nS
m
mS
n
S
m
S
v
Ao nível de confiança = 95% , o t(2,5%) é 1,9883. No Excel INVT(0,05;85) = 1, 9883
A margem de erro é
A diferença entre as bem sucedidas e falidas é em média 0,902 com margem de
erro de 0,2269 para uma confiança de 95%. Alternativamente, o intervalo com 95%
confiança para a diferença das médias é 0,902 0,2269 ou (0,6751 , 1,1289).
A título de ilustração, admitindo variâncias iguais o intervalo é (0,6525 ; 1,1515)
2269,033
4811,0
68
6393,09883,1
2
222
2
2
1
n
S
m
Stv
Como as amostras são grandes, então
poderíamos aproximar pela normal 1,96
2 – Exemplo caso de duas populações com variâncias diferentes
(Amostras independentes)
Intervalo de confiança para a diferença nas médias de duas populações
• Quando for necessário comparar, por exemplo, as vendas diárias
de duas filiais que operam com os mesmos produtos, ou os
resultados de um treinamento, confrontando o conhecimento antes
e depois do treinamento, os intervalos de confiança para a
diferenças das médias considerados até este momento não podem
ser aplicados, pois se referem a duas populações independentes.
• Agora, necessitamos analisar duas populações relacionadas, isto é,
duas populações dependentes.
• Neste caso, a variável de interesse será a diferença entre os pares
das duas amostras, no lugar das próprias amostras, que devem ter
o mesmo tamanho.
Amostras emparelhadas
Intervalo de confiança para a diferença nas médias de duas populações
3- Caso de amostras emparelhadas
Considere duas populações Normais com média 1 e 2 possivelmente distintas e
com variâncias 12 e 2
2. Isto é
X1 ~ N(1,12) e X2 ~ N(2,2
2)
Considere amostras aleatórias de X1 e X2 (amostras dependentes ou
emparelhadas) com tamanhos idênticos (n), isto é
(x11,x21), (x12,x22),..., (x1i,x2i),..., (x1n,x2n) formam um conjunto de n observações
emparelhadas.
Em cada par amostrado pode-se calcular o desvio di=x1i-x2i para i=1,...,n
O valor esperado dos desvios é D = E(D) = E(X1-X2) = 1 - 2
Assim, o intervalo de confiança para a diferença entre 1 e 2 pode ser realizado
por meio do intervalo para a média dos desvios D .
n
Std
n
Std d
nDd
n
2
1
2
122
2
1
22
1
1dnd
nS
n
i
id
n
i
idn
d1
1onde e
são estatísticas amostrais Valores tabelados
Intervalo de confiança para a diferença nas médias de duas populações
3- Exemplo caso de amostras emparelhadas
Um fabricante de automóveis coleta dados do consumo de combustível para uma
amostra de n=10 carros em várias categorias de pesos, usando um tipo padrão de
gasolina com e sem determinado aditivo. Os motores foram ajustados para as
mesmas especificações antes de cada teste, e os mesmos motoristas foram
usados para as duas condições de gasolina (sem que o motorista em questão
soubesse qual gasolina estava sendo usada em cada teste particular). Dadas as
informações da amostra construa o intervalo com 95% de confiança para a
diferença do consumo médio com e sem aditivo.
7,110
1
i
id 31,110
1
2 i
id
17,010
7,1
10
1 10
1
i
idd
1134,09
102
10
1
2
2
dd
S i
i
d
Para um nível de confiança de 95% tem-se que t9(2,5%)= INVT(0,05;9) = 2,2622
Intervalo de confiança para a diferença nas médias de duas populações
3- Exemplo caso de amostras emparelhadas
O intervalo para a média dos desvios entre os pares de observações das
amostras emparelhadas é
10
1134,02622,217,0
10
1134,02622,217,0 D
9319,05919,0 D
Como o intervalo contém o zero não podemos afirmar que as médias dos
consumos com e sem aditivo na gasolina são diferentes.
Considere uma população Normal com média e variância 2
desconhecidas da qual foi extraída uma amostra de tamanho n.
A partir dos registros amostrais foi calculada a variância amostral:
Intervalo de confiança para a variância da Normal
2
1
2
1
1
m
i
i Xxm
S
A distribuição amostral de (n-1)S2/2 é qui-quadrado com n-1 graus de
liberdade ou seja 2n-1. Com base nesta distribuição podemos determinar
um intervalo com probabilidade 1- de conter a variância populacional 2.
1
2
)1(
21 2
12
22
1 nn
SnP
Substituindo a estatística amostra S2 por seu valor numérico, a expressão acima
deixa de ser uma probabilidade legítima e transforma-se no intervalo com 100(1-
)% de confiança de conter a variância da normal
1
21
)1(
2
)1(
2
1
22
2
1
2
nn
SnSnP
2
1
)1(
2
)1(
2
1
22
2
1
2
nn
SnSn
Valores tabelados
Intervalo de confiança para a razão de variâncias
Considere duas populações Normais com média 1 e 2 possivelmente
distintas e com variâncias 12 e 2
2. Isto é
X ~ N(1,12)
Y ~ N(1,22)
Considere amostras aleatórias e independentes de X e Y e com tamanhos
m e n respectivamente, isto é
(x1,...,xm) e (y1,...,yn)
Todos os parâmetros são desconhecidos e o objetivo é construir
intervalos com 100(1-)% para a razão das variâncias
Intervalo de confiança para a razão de variâncias
As estatísticas amostrais S12 e S2
2 são independentes e a distribuição
amostral de seus múltiplos é uma distribuição qui-quadrado
2
12
1
2
1 ~)1(
m
Sm
2
12
2
2
2 ~)1(
n
Sn
A razão das duas variáveis aleatórias acima segue uma distribuição F
)1;1(2
2
2
1
2
1
2
2
2
2
2
2
2
1
2
1
2
1
2
1 ~)1(
)1(
nm
n
m FS
S
S
S
n
m
Distribuição F com m-1 graus de
liberdade no numerador e n-1 graus
de liberdade no denominador
Intervalo de confiança para a razão de variâncias
1
221 1,12
2
2
1
2
1
2
21,1 nmnm F
S
SFP
1
221
2
1
2
21,12
1
2
2
2
1
2
21,1
S
SF
S
SFP nmnm
Substituindo as estatísticas amostrais por seus valores numéricos, a
expressão acima deixa de ser uma probabilidade legítima e transforma-se no
intervalo com 100(1-)% de confiança de conter a razão das variâncias:
2
1
2
21,12
1
2
2
2
1
2
21,1
221
S
SF
S
SF nmnm
Com base nesta distribuição podemos determinar um intervalo com
probabilidade 1- de conter a razão das variâncias populacionais.
Exercício 1
Numa experiência agronômica pretende-se avaliar o crescimento total de uma
certa espécie de plantas (expresso em peso seco) relativamente a dois regimes de
fertilização A e B. Ao fim de determinado tempo procedeu-se a medições, tendo-se
obtido os seguintes resultados:
a) Numa experiência anterior (com um elevado numero de plantas da mesma
cultivar) relativa ao tratamento A, obteve-se uma variância de 0.42. Verifique se os
dados atuais são consistentes com esse valor. Comente, justificando, se haveria
alguma(s) hipótese(s) necessária(s) à resolução do problema.
b) Verifique se os dois regimes de fertilização A e B evidenciam diferenças
significativas no que respeita ao crescimento das plantas. Explicite as hipóteses
necessárias à resolução do problema
Exercício 1
(a resolução também pode ser encontrada na planilha exercícios.xlsx)
a) Admitindo populações normais, vamos resolver a questão por meio do
intervalo de confiança para a variância da população A.
Primeiro deve ser calculada a variância da amostra extraída de A
Na sequência, para um nível de confiança de 95%, devem ser determinados
os valores críticos da distribuição qui-quadrado que deixam 2,5% de
probabilidade na cauda esquerda e 2,5% na cauda direita.
valor crítico da cauda direita = 16,01. No Excel INV.QUI(0,025;7)
valor crítico da cauda esquerda = 1,69. No Excel INV.QUI(0,975;7)
O intervalo com 95% de confiança para variância de A é
como o intervalo de confiança contém o valor 0,42 não temos razão para
afirmar, com 95% de confiança, que os dados
8197,02 AS
3953,33538,069,1
8197,0)18(
01,16
8197,0)18(
21
)1(
2
)1( 22
2
1
22
2
1
2
nn
SnSn
b) Admite-se a hipótese de normalidade.
O pressuposto de igualdade das variâncias pode ser avaliado por meio do
intervalo de confiança para a razão das variâncias. Assim, primeiro são
calculadas as variâncias em cada amostra
Na sequência, para um nível de confiança de 95%, devem ser determinados os
valores críticos da distribuição F que deixam 2,5% de probabilidade na cauda
esquerda e 2,5% na cauda direita.
valor crítico da cauda direita = 4,99. No Excel INV.F(0,025;7;7)
valor crítico da cauda esquerda = 0,20. No Excel INV.F(0,975;7;7)
O intervalo com 95% de confiança para a razão das variâncias é
Como o intervalo contém o 1 não temos razão para afirmar que as variâncias são
diferentes. Portando, o pressuposto de variâncias iguais é plausível,
8197,02 AS 9346,02 BS
3804,41756,09346,0
8197,099,4
9346,0
8197,02,0
221
2
2
2
2
2
2
1,12
2
2
2
1,1
B
A
B
A
B
Anm
B
A
B
Anm
S
SF
S
SF
Exercício 1
(a resolução também pode ser encontrada na planilha exercícios.xlsx)
b) As médias amostrais são
O intervalo de confiança para a diferença das médias onde se admite a
hipótese de populações normais com variâncias iguais é
onde
para um nível de confiança de 95% (=5%), o t crítico com 14 graus de
liberdade é 2,1448. (No Excel usar =INVT(0,05;14) )
O intervalo com 95% de confiança para a diferença das médias é
(-0,3168 ; 1,6899).
Como o intervalo contém o zero não podemos afirmar que as médias são
diferentes.
nmStXX
nmStXX poolednmBApoolednmBA
11
2
11
2
2
221
2
2
8772,0
288
9346,0188197,0182
pooledS
8033,5AX 1178,5BX
Exercício 1
(a resolução também pode ser encontrada na planilha exercícios.xlsx)
Exercício 2
Pretende-se verificar se um dado tratamento aos metais tem algum
efeito na quantidade de metal removido numa certa operação.
Uma amostra aleatória de 100 peças foi introduzida num liquido
durante 24 horas sem ser feito o tratamento, obtendo-se uma média
de 12.2 mm de metal removido e um desvio padrão de 1.1 mm.
Uma segunda amostra de 200 peças foi primeiro tratada e depois
introduzida durante 24 horas no tal liquido, resultando uma média de
9.1 mm de metal removido com um desvio padrão de 0.9 mm.
Determine um intervalo de confiança a 98% para a diferença entre as
verdadeiras quantidades médias de metal removido sem tratamento e
com tratamento.
Reduzirá o tratamento a quantidade de metal removido?
Teste de hipóteses para a média As estatísticas amostrais como médias e proporções fornecem estimativas
pontuais dos parâmetros populacionais, porém, em função da variabilidade
inerente à amostragem aleatória, as estatísticas amostrais e os parâmetros
populacionais raramente coincidem.
É justamente na discrepância entre a estatística amostral e a hipótese sobre o
valor de um parâmetro populacional que encontraremos evidências para validar
ou refutar a hipótese acerca do parâmetro.
Desvios pequenos podem ser atribuídos ao erro amostral, inerente ao processo
de amostragem, e neste caso é razoável admitir que a hipótese seja verdadeira,
isto é, que a amostra poderia ter sido extraída de uma população, cujo parâmetro
populacional assume o valor alegado pela hipótese.
Por sua vez, discrepâncias grandes sugerem que a variabilidade não se deve
apenas ao erro amostral, mas a inadequação da hipótese acerca do valor do
parâmetro, ou seja, a hipótese é falsa.
Seguindo esta lógica, os testes de hipóteses decidem pela aceitação
(variabilidade casual atribuída ao erro amostral) ou pela rejeição (variabilidade
real não atribuída apenas ao erro amostral) da hipótese sobre o valor do
parâmetro populacional.
Teste de hipóteses para a média
O teste compara duas hipóteses: a hipótese nula H0 e a hipótese alternativa H1.
Por exemplo, com base no valor da média amostral podemos avaliar a
plausibilidade da hipótese da média populacional ser igual a um determinado
valor 0. Assim, podemos formular as seguintes hipóteses acerca da média
populacional:
H0: =0
H1: 0
Note que a hipótese H0 é uma afirmação sobre o valor do parâmetro populacional,
enquanto H1 oferece uma alternativa à alegação feita na hipótese nula.
A hipótese alternativa H1: 0 é bilateral, pois abrange valores menores e
maiores que 0, mas em outras situações pode assumir outras especificações,
por exemplo, nos testes unilaterais: H1: >0 ou H1: <0.
Para realizar o teste é fundamental estabelecer a distribuição amostral do
estimador do parâmetro populacional correspondente às hipóteses. No caso da
média, sabemos pelo Teorema do Limite Central que a distribuição da média
amostral é normal com média igual a média populacional e variância 2/n.
O teste permite avaliar a evidência fornecida
pelos dados sobre alguma afirmação (expressa
na hipótese nula H0) relativa à população.
Uma grande discrepância entre e 0 indica
que o valor da média amostral situa-se nas
caudas da distribuição normal, ou seja, é
pouco provável que o valor observado da
média amostral provenha de uma população
com média igual a 0.
Este resultado sugere rejeitar H0: =0.
Teste de hipóteses para a média
Se a hipótese nula é verdadeira, a média amostral segue distribuição
normal com média igual a 0. X
X
Um pequeno desvio entre e 0 sugere que a diferença é
casual e se deve apenas ao erro amostral e, portanto, 0 é
um valor plausível para a média populacional.
Resultado que sugere a aceitar H0: =0.
X
Distribuição da média amostral
Teste de hipóteses para a média
0X desvio entre a média amostral e a (hipotética) média
populacional 0
n
X
2
0
desvio entre a média amostral e a (hipotética) média
populacional 0 expresso em número de erros-padrão n2
Dá uma idéia da magnitude do desvio (> 2 desvios é grande)
Não dá uma idéia da magnitude do desvio se pequeno ou grande
1,0~2
0 Nn
Xz
Teorema do limite central
nNX
2
0 ,~
z é normal com média
zero e desvio-padrão 1
Valores de z como
este são bastante
improváveis se H0 é
verdadeira
Valores de z como
este são bastante
prováveis se H0 é
verdadeira
Valores de z como
este são bastante
improváveis se H0 é
verdadeira
Valores de z como
este são bastante
prováveis se H0 é
verdadeira
Estatística
teste
probabilidade
1-
probabilidade
Teste de hipóteses para a média Podemos definir uma região com uma pequena probabilidade de
ocorrência nas caudas da distribuição amostral e rejeitar a hipótese nula
H0: =0 se o valor de z estiver nesta região.
A região de rejeição tem probabilidade /2 em cada cauda da distribuição.
Neste caso a hipótese alternativa é bilateral, H1: 0, logo grandes
desvios negativos ou positivos indicam que a hipótese nula não é
plausível.
A probabilidade é o nível de significância do teste e usualmente adota-
se o valor de 1%, 5% ou 10%.
-z(/2) e z(/2) são valores
tabelados em função do
nível de significância
(valores críticos)
Teste de hipóteses para a média
A regra de decisão é muito simples
valor para a estatística
teste z fora do intervalo
[-z(/2), z(/2)]
Rejeita-se a hipótese H0: =0
valor para a estatística
teste z no intervalo
[-z(/2), z(/2)] Aceita-se a hipótese H0: =0
A decisão sobre aceitar ou rejeitar a validade da hipótese
nula baseia-se nos resultados de uma amostra, os quais
estão sujeitos à variabilidade inerente ao processo de
amostragem, logo a regra de decisão não está livre de erros e
decisões incorretas podem ser tomadas.
Teste de hipóteses para a média
1) Se a média populacional é 0 (H0 é verdadeira), podemos
selecionar uma amostra que produza uma estatística teste
cujo valor esteja na região de rejeição.
Neste caso incorremos no erro tipo I: rejeitar uma hipótese
verdadeira.
2) Se a amostra selecionada é proveniente de uma população
com média diferente de 0, o valor da estatística teste pode
pertencer ao intervalo [-z(/2), z(/2)], a região de aceitação
da hipótese nula.
Neste caso, incorremos no erro tipo II: aceitar uma hipótese
falsa.
O importante é reconhecer que estamos tomando decisões em condições
de incerteza e, portanto, sujeitos a dois tipos de erro:
Erro tipo I : rejeitar H0 quando H0 é verdadeira
Erro tipo II : aceitar H0 quando H0 é falsa
Exemplo:
H0 réu é inocente (todos são inocentes até que se prove o contrário)
H1 réu é culpado
Teste de hipóteses para a média
A probabilidade do erro tipo I é dada pelo nível de significância especificado para o teste
A probabilidade do erro tipo II é denotada por .
Estas probabilidades estão inversamente relacionadas.
A redução da probabilidade do erro tipo I aumenta o valor crítico z(/2), o que reduz a região de rejeição
da hipótese nula nas caudas da distribuição amostral e, portanto, aumenta a probabilidade do erro tipo II.
Enquanto a hipótese nula estipula um valor 0 para a média populacional, a hipótese alternativa admite
que a média pode ser qualquer valor desde que diferente de 0.
Assim, não há um único valor para a probabilidade , mas um conjunto de valores calculados para cada
um dos possíveis valores para a média populacional. Em função da dificuldade de calcular , o
procedimento usual em testes de hipóteses consiste em especificar uma pequena probabilidade de erro
tipo I (nível de significância) e ignorar o erro tipo II (STEVENSON, 1981).
Note que o erro tipo I só pode ocorrer quando a hipótese H0 é verdadeira e o erro tipo II só pode
acontecer quando a hipótese H0 é falsa.
Assim, quando rejeitamos H0 existe uma pequena probabilidade de estarmos cometendo o erro tipo I.
Porém, quando aceitamos H0 como verdadeira, a probabilidade de estarmos cometendo o erro tipo II
pode ser grande.
Por esta razão, HOFFMANN (1998) recomenda que quando o resultado de um teste de hipótese é
significativo, a conclusão deve ser escrita em termos de “rejeitar H0 ao nível de significância ”, porém
quando o resultado é não significativo, a conclusão deve ser escrita em termos de “não há razão para
rejeitar H0 ao nível de significância ”, mas não em termos de “aceitar H0”.
Teste de hipóteses para a média
Exemplo 1: Um comprador de tijolos julga que a qualidade dos tijolos está deteriorando. Sabe-se pela experiência passada que a média de resistência ao esmagamento destes tijolos é de 400 libras com desvio padrão de 20 libras. Uma amostra de 100 tijolos deu uma média de 395 libras. Teste a hipótese de que a qualidade média não se alterou contra a alternativa de que se tenha deteriorado. (considere o nível de significância de 5%)
H0: μ = 400
Ha: μ ≠ 400
= 395 – 400 = -5 = -2,5
20/√100 2
Valor da variância é conhecido e a
amostra é grande (>30), então podemos aproximar
pela normal. Logo para significância de 5%, zc = 1,96
Valor calculado está localizado na região de rejeição de H0
CONCLUSÃO:
rejeitamos H0, isto é,
a resistência não é
maior que 400 libras.
zc = -1,96 zc = 1,96
Teste bilateral
Calculando o valor da estatística teste
Teste de hipóteses para a média
Exemplo 2: Os registros dos últimos anos de um colégio atestam para os calouros
admitidos que a nota média 115 pontos (teste vocacional). Para testar a hipótese de
que a média de uma nova turma é a mesma, tirou-se, ao acaso, uma amostra de 50
notas, obtendo-se uma média 118 e um desvio padrão 20. Admita = 5%, para efetuar
o teste.
H0: = 115 (hipótese nula, com 0 =115)
versus
H1: 115 (hipótese alternativa)
Como é desconhecida, a estatística do teste é:
T = nS
X 0 =
5020
115118 = 1,06,
Para = 5% /2 o valor t/2 da tabela t-Student bicaudal com ( n– 1) = 49 graus de liberdade
é t/2 =.2,093.
Como |T| = 1,06 < 2,093, concluímos que não rejeitamos H0 , isto é, ao nível de 5% de
significância concluímos que a nova turma tem a mesma nota média no teste vocacional que
os do registro dos últimos anos.
Teste bilateral
Usamos a distribuição t, pois
a variância não é conhecida,
mas como a amostra é
grande (>30) poderíamos
aproximar pela normal.
Teste de hipóteses para a média
Exemplo 3: Um trecho de uma rodovia, quando é utilizado o radar, são
verificadas em média 7 infrações diárias por excesso de velocidade. O
chefe da polícia acredita que este número pode ter aumentado. Para
verificar isso, o radar foi mantido por 10 dias consecutivos. Os resultados
foram:
8, 9, 5, 7, 8, 12, 6, 9, 6, 10
Os dados trazem evidências do amento das infrações? Use = 10%
H0: µ ≤ 7
Ha: µ > 7
Média amostral = 8+9+5+7+8+12+6+9+6+10 = 8
10
Não conhecendo σ, estimamos s, onde s = 2,1
A amostra é pequena (<30) com variância desconhecida,
logo devemos usar a distribuição t,
Estatística teste = = 1,5
Calculando valor crítico (tc) no Excel = INVT(0,10;9) = 1,83
t = 1,5 tc = 1,83
CONCLUSÃO: Ao nível de
significância de 10 % não
rejeitamos H0, o que implica que
o número de infrações não teve
um aumento significativo.
Teste unilateral com região de
rejeição no lado direito
Teste de hipóteses para a média
Exemplo 4: Uma pesquisa feita em universidades mostrou que professores ganham em média de R$45.678. Um deles contestou a pesquisa e disse que a real média seria de R$48.000 com um desvio padrão de R$7.000. Foram analisados 81 professores para que ele chegasse a essa média amostral. O que o professor disse é válido? (nível de significância de 5%)
H0: μ ≥ 45.678
Ha: μ < 45.678
A amostra é grande (>30), logo podemos
Aproximar pela normal
= 48.000 – 45.678 = 2.322 = 2,98
7.000/√81 777,77
Calculando valor crítico no Excel
para 5%, zc = INV.NORMP(0,05) = -1,65
CONCLUSÃO: O professor está
correto (Não rejeitamos H0). O
salário é maior que R$ 45.678
considerando o nível de
significância de 5%.
zc = -1,65
Teste unilateral com
região de rejeição no
lado esquerdo
Teste de hipóteses para a média
Teste de hipóteses para a proporção
Com base na distribuição amostral do estimador pode-se construir um
teste de hipóteses para a proporção populacional semelhante ao teste da
média:
Em grandes amostras, a aproximação à curva normal pode ser utilizada
em outros estimadores, tal como o estimador de proporção, cuja
distribuição amostral converge para uma normal com média igual a
proporção populacional p e variância igual a p(1-p)/n:
n
pppNp
1,~ˆ
H0: p=p0
H1: pp0
Sob a hipótese nula a estatística teste tem distribuição normal padrão:
1,0~)1(
ˆ
00
0 Nnpp
pp
Estatística teste
Para um dado nível de significância a hipótese nula é rejeitada se o
valor absoluto da estatística teste for maior que o valor z(/2)
Exemplo 1: Um certo analgésico adotado em determinado hospital é eficaz em 70% dos
casos.
Um grupo de médicos chineses em visita a esse hospital afirma que a utilização de
acupuntura produz melhores resultados.
A direção do hospital resolve testar o método alternativo em 80 pacientes, com a
finalidade de adotá-lo em definitivo se ele apresentar eficiência satisfatória numa
proporção de casos maior que do anestésico atual.
Na amostra foi observado que em 85% dos casos o método de acupuntura apresenta a
eficiência satisfatória. Que decisão tomar ao nível de 5% de significância?
Trata-se de um teste sobre uma proporção p, onde p é a eficiência do método
alternativo.
H0 p=0,7
H1 p>0,7
Teste de hipóteses para a proporção
Teste de hipóteses para a proporção
85,0ˆ p
0512,0
80
3,07,01 00
n
ppS p
Proporção amostral
Erro padrão sob a
hipótese nula
Estatística teste 94,20512,0
7,085,0ˆ0
pS
ppz
Valor crítico para um nível de significância de 5% Zc = INV.NORMP(0,95) = 1,65
Como z > 1,65 concluímos pela rejeição da hipótese nula ao nível de significância de
5%, isto é, o método de acupuntura produz melhores resultados que o método
tradicional.
H0 p=0,7
H1 p>0,7
Teste unilateral com região
de rejeição no lado direito
1,65
Teste de hipóteses para a proporção Exemplo 2: Uma emissora de TV garante que em determinado horário sua audiência é
de 80%. Uma pesquisa realizada em 100 domicílios revela que 62 aparelhos estavam
ligados na emissora no horário indicado. Teste a hipótese da audiência ser a anunciada,
ao nível de significância de 5%.
Trata-se de um teste sobre uma proporção p, onde p é a audiência.
H0 p=0,8
H1 p<0,8 Teste unilateral com região de
rejeição no lado esquerdo
04,0
100
2,08,01 00
n
ppS p
Erro padrão sob a
hipótese nula
Estatística teste 5,404,0
8,062,0ˆ0
pS
ppz
62,0ˆ pProporção amostral
Valor crítico para um nível de significância de 5% Zc = INV.NORMP(0,05) = -1,65
-1,65
Como z < -1,65 concluímos pela rejeição da hipótese nula ao nível de significância de
5%, isto é, não poderemos aceitar a hipótese de uma audiência de 80%, tomando-se
por base os dados coletados em uma amostra de 100 indivíduos.
O teste de hipóteses da diferença das médias de duas populações é freqüentemente utilizado para determinar se é ou não razoável concluir que as médias de duas populações são diferentes. Por exemplo:
– Se o mesmo produto oferecido por dois fornecedores diferentes apresenta a
mesma quantidade de peças com defeitos.
– Determinar se o novo remédio para controle de diabetes é eficiente acompanhando dois grupos de pacientes, o primeiro grupo que recebeu o remédio e o outro que recebeu apenas placebo, produto com a mesma forma, porém sem o elemento ativo.
– O gerente de compras pode estar interessado em determinar se o mesmo produto oferecido por dois fornecedores diferentes apresenta o mesmo prazo real de entrega.
– Da mesma forma, o gerente de salários necessita conhecer se os salários da mesma categoria de trabalhadores têm o mesmo valor em duas cidades diferentes.
Teste de hipóteses para a diferença nas médias
Teste de hipóteses para a diferença nas médias
Considere duas populações Normais com média 1 e 2 possivelmente
distintas e com variâncias 12 e 2
2, Isto é
X ~ N(1,12)
Y ~ N(1,22)
Considere amostras aleatórias de X e Y (amostras independentes) e com
tamanhos m e n respectivamente, isto é
(x1,...,xm) e (y1,...,yn)
Em cada amostra são calculadas a média e a variância ( ).
Todos os parâmetros são desconhecidos e desejamos testar a diferença
das médias:
H0 1 - 2 =
H1 1 - 2
2
2
2
1 ,,, SSYX
O critério de rejeição é semelhante ao utilizado
nos testes de hipóteses para a média
1 - Caso de duas amostras independentes
Teste de hipóteses para a diferença nas médias
1.1 – Amostras independentes de duas populações com variâncias iguais
onde
2
11 2
2
2
12
nm
SnSmS pooled
Variância amostral da amostra da população X
Variância amostral da amostra da população Y
Sob H0 a estatística teste tem distribuição t com m+n-2 graus de liberdade
2
2
~11
nm
pooled
t
nmS
YX
Variância combinada
Considere duas populações Normais com média 1 e 2 possivelmente
distintas e com a mesma variância 12= 2
2= 2 .
Todos os parâmetros são desconhecidos e desejamos testar
H0 1 - 2 =
H1 1 - 2
m
i
i Xmxm
S1
222
11
1
n
i
i Ynyn
S1
222
21
1
Teste de hipóteses para a diferença nas médias
Admitindo um nível de significância de 5%, teste a hipótese de que o
consumos médios sejam idênticos (=0)
Estatística teste sob H0
Deseja-se estimar a diferença no consumo de combustível (km/l) entre as
versões Caminhonete (C) e Sedan (S) de um determinado modelo de
automóvel. Por estudos já realizados anteriormente (e ainda válidos)
sabe-se que os consumos destes automóveis são normalmente
distribuídos e tem variâncias idênticas. Uma amostra de 30 caminhonetes
e 15 sedans foi analisada obtendo-se as seguintes estatísticas amostrais
para o consumo:
22 (km/l) 2012,23
km/l 1748,8
C
C
S
X
22 (km/l) 6108,38
km/l 8742,8
S
S
S
XCaminhonetes Sedan
H0 C - S = 0
H1 C - S 0
43
2
~
15
1
30
1
0t
S
YX
pooled
43
1429 222 SCpooled
SSS
1.1 – Exemplo amostras independentes de duas populações com variâncias iguais
Teste de hipóteses para a diferença nas médias
Sob H0 a estatística teste tem distribuição t com 43 graus de liberdade.
Primeiro é calculado o valor da variância combinada.
2183,2843
6108,38142012,23292
pooledS
Após obtém-se o valor da estatística teste 4164,0
15
1
30
12183,28
8742,81748,8
O valor crítico ao nível de 5% (valor tabelado obtido pelo Excel) é
tcrítico = INVT(0,05,43) = 2,0167
Valor absoluto calculado (0,4164) < Valor crítico ao nível de 5% (2,0167),
logo não rejeitamos a hipótese nula (H0).
Conclusão: A um nível de 5% de significância não há evidências
amostrais que permitam rejeitar a hipótese de que os consumos médios
dos dois modelos sejam idênticos.
1.1 – Exemplo amostras independentes de duas populações com variâncias iguais
Teste de hipóteses para a diferença nas médias
onde
Variância amostral da amostra da população X
Variância amostral da amostra da população Y
Sob H0 a estatística teste tem distribuição t com v graus de liberdade
Considere duas populações Normais com média 1 e 2 possivelmente
distintas e com variâncias 12 e 2
2.
Todos os parâmetros são desconhecidos e desejamos testar
H0 1 - 2 =
H1 1 - 2
2
11
22
2
22
1
22
2
2
1
n
nS
m
mS
n
S
m
S
v
vt
n
S
m
S
YX~
2
2
2
1
Arredonde o resultado para cima
1.2 – Amostras independentes de duas populações com variâncias diferentes
m
i
i Xmxm
S1
222
11
1
n
i
i Ynyn
S1
222
21
1
Teste de hipóteses para a diferença nas médias
Admitindo um nível de significância de 5%, teste a hipótese de igualdade
das médias (=0)
Estatística teste sob H0
Deseja-se estimar a diferença no consumo de combustível (km/l) entre as
versões Caminhonete (C) e Sedan (S) de um determinado modelo de
automóvel. Por estudos já realizados anteriormente (e ainda válidos)
sabe-se que os consumos destes automóveis são normalmente
distribuídos. Uma amostra de 30 caminhonetes e 15 sedans foi analisada
obtendo-se as seguintes estatísticas amostrais para o consumo:
2
115
15
130
30
15302222
222
SC
SC
SS
SS
vv
SC
SC tSS
XX~
1530
0
22
22 (km/l) 2012,23
km/l 1748,8
C
C
S
X
22 (km/l) 6108,38
km/l 8742,8
S
S
S
XCaminhonetes Sedan
H0 C - S = 0
H1 C - S 0
onde
1.2 – Exemplo amostras independentes de duas populações com variâncias diferentes
Teste de hipóteses para a diferença nas médias
Exemplo para o caso de duas populações com variâncias diferentes
O valor crítico ao nível de 5% (valor tabelado obtido pelo Excel) para uma
distribuição t com v graus de liberdade é:
tcrítico = INVT(0,05,23) = 2,0687
O valor calculado da estatística teste (tcalc) é
232
115
156108,38
130
302012,23
15
6108,38
30
2012,23
22
2
v
3823,0
15
6108,38
30
2012,23
8742,81748,8
calct
O nº de graus de liberdade v
Valor absoluto calculado (0,3823) < Valor crítico ao nível de 5% (2,0687),
logo não rejeitamos a hipótese nula (H0).
Conclusão: A um nível de 5% de significância não há evidências
amostrais que permitam rejeitar a hipótese de médias idênticas.
Teste de hipóteses para a diferença nas médias
Exemplo para o caso de duas populações com variâncias diferentes
(teste para igualdade de proporções)
Valor crítico ao nível de 5% = zc = INV.NORMP(0,025) = 1,96
Estatística teste sob H0
Uma amostra de 50 residências em uma comunidade mostra que 10 delas
estão assistindo, pela TV, a um especial sobre a economia nacional. Em
uma segunda comunidade, 15 de uma amostra aleatória de 50 residências
estão assistindo ao especial na TV. Teste a hipótese de que a proporção
geral de espectadores nas duas comunidades não têm diferença, usando
um nível de significância de 5%.
H0: p1 - p2 = 0
H1: p1 - p2 0
O teste pode ser conduzido como o teste para avaliar a
diferença nas médias para amostras independentes.
)1,0(~)ˆ1(ˆ)ˆ1(ˆ
0ˆˆ
2
22
1
11
21 N
n
pp
n
pp
ppz
Valor calculado para a estatística teste = z = -1,16
Conclusão: Como valor absoluto de z é menor que o valor crítico,
decidimos não rejeitar a hipótese nula.
3,050/15ˆ
2,050/10ˆ
2
1
p
p
50
50
2
1
n
n
Teste de hipóteses para a diferença nas médias
Exemplo para o caso de duas populações com variâncias diferentes
(teste para igualdade de proporções)
Em virtude dos protestes feitos sobre as más condições de trabalho em
certas fábricas de roupas dos EUA, em 1998 uma comissão conjunta do
governo e da indústria recomendou que as empresas que monitoram os
padrõe apropriados de produção tenham a permissão de utilizar uma
etiqueta “No Sweat” em seus produtos. Será que a presença dessas
etiquetas influencia o comportamento dos consumidores?
Uma pesquisa feita com residentes dos EUA e com idade acima de 18
anos perguntou-lhes que chance haveria de eles comprarem uma roupa
com a etiqueta “No Sweat”. Assim, cada entrevistado foi classificado
como um “valorizador da etiqueta” ou “não valorizador da etiqueta”. As
proporções amostrais por sexo são apresentadas na tabela abaixo:
Teste a hipótese de que as proporções dos que valorizam a etiqueta é a
mesma entre os homens e as mulheres. Use = 5%.
Teste de hipóteses para a diferença nas médias
Exemplo para o caso de duas populações com variâncias diferentes
(teste para igualdade de proporções)
Valor crítico ao nível de 5% = zc = INV.NORMP(0,025) = 1,96
Estatística teste sob H0
Hipóteses
H0: pM - pH = 0
H1: pM - pH 0
O teste pode ser conduzido como o teste para avaliar a
diferença nas médias para amostras independentes.
)1,0(~)ˆ1(ˆ)ˆ1(ˆ
0ˆˆN
n
pp
n
pp
ppz
H
HH
M
MM
HM
Valor calculado para a estatística teste = z = 3,4181
Conclusão: Como valor absoluto de z é menor que o valor crítico,
decidimos rejeitar a hipótese nula. Ao nível de significância de 5% as
proporções de mulheres e homens que valorizam a etiqueta são
diferentes.
108,0ˆ
213,0ˆ
H
M
p
p
251
296
H
M
n
n
Amostras emparelhadas
• Quando for necessário comparar, por exemplo, as vendas diárias
de duas filiais que operam com os mesmos produtos, ou os
resultados de um treinamento, confrontando o conhecimento antes
e depois do treinamento, os procedimentos de teste de hipóteses
para diferença das médias utilizados até este momento não podem
ser aplicados, pois se referem a duas populações independentes.
• Agora, necessitamos analisar duas populações relacionadas, isto é,
duas populações dependentes.
• Neste caso, a variável de interesse será a diferença entre os pares
das duas amostras, no lugar das próprias amostras, que devem ter
o mesmo tamanho.
3- Caso com amostras emparelhadas
Considere duas populações Normais com média 1 e 2 possivelmente
distintas e com variâncias 12 e 2
2. Isto é
X1 ~ N(1,12) e X2 ~ N(2,2
2)
Considere amostras aleatórias de X1 e X2 (amostras dependentes ou
emparelhadas) com tamanhos idênticos (n), isto é
(x11,x21), (x12,x22),..., (x1i,x2i),..., (x1n,x2n) formam um conjunto de n
observações emparelhadas.
Em cada par amostrado pode-se calcular o desvio di=x1i-x2i para i=1,...,n
O valor esperado dos desvios é D = E(D) = E(X1-X2) = 1 - 2
Assim, o teste da diferença entre 1 e 2 pode ser realizado por meio do
teste t com as hipóteses
Teste de hipóteses para a diferença nas médias
H0 D = 0
H1 D 0
• Como premissa, a população das diferenças tem distribuição
aproximadamente normal e a amostra das diferenças é extraída
aleatoriamente da população das diferenças.
• Assim a estatística teste sob H0 tem distribuição t com n-1 graus de
liberdade
12
~0
n
d
t
n
S
d
• O teste segue o mesmo funcionamento do teste t para a média,
ou seja, a hipótese nula é rejeitada ao nível de significância
se o valor absoluto da estatística teste é maior que o valor
tabelado para a tn-1(/2).
Teste de hipóteses para a diferença nas médias
3- Caso com amostras emparelhadas
2
1
22
1
1dnd
nS
n
i
id
n
i
idn
d1
1e onde
Teste de hipóteses para a diferença nas médias
3 - Exemplo caso com amostras emparelhadas
Um fabricante de automóveis coleta dados do consumo de combustível para uma
amostra de n=10 carros em várias categorias de pesos, usando um tipo padrão de
gasolina com e sem determinado aditivo. Os motores foram ajustados para as
mesmas especificações antes de cada teste, e os mesmos motoristas foram
usados para as duas condições de gasolina (sem que o motorista em questão
soubesse qual gasolina estava sendo usada em cada teste particular). Dadas as
informações da amostra teste ao nível de significância de 5% a hipótese de que
não há diferença entre o consumo médio obtido com e sem aditivo.
7,110
1
i
id 31,110
1
2 i
id
17,010
7,1
10
1 10
1
i
idd
1134,09
102
10
1
2
2
dd
S i
i
d
Para um nível de significância de 5% tem-se que t9(2,5%)= INVT(0,05;9) = 2,2622
Teste de hipóteses para a diferença nas médias
3 - Exemplo caso com amostras emparelhadas
O valor calculado da estatística teste é
59,1101134,0
17,0
Como o valor calculado da estatística teste (1,59) é maior que o valor crítico (2,262),
então podemos concluir pela não rejeição da hipótese nula, ou seja, não há diferenças
entre o consumo obtido com e sem o aditivo.
12
~0
n
d
t
n
S
d
t calculado =
Teste de igualdade de variâncias
• Freqüentemente, é necessário verificar se é ou não razoável
concluir que as variâncias das duas populações são
diferentes.
• O teste F é um teste de hipóteses utilizado para verificar se
as variâncias de duas populações com distribuição normal
são diferentes, ou para verificar qual das duas populações
com distribuição normal têm mais variabilidade.
• De outra maneira, conhecidas duas amostras com qualquer
tamanho, o teste F dá condições para determinar se as duas
amostras pertencem à mesma população.
Teste de igualdade de variâncias
Considere duas populações Normais com média 1 e 2 possivelmente
distintas e com variâncias 12 e 2
2, Isto é
X ~ N(1,12)
Y ~ N(1,22)
Considere amostras aleatórias de X e Y (amostras independentes) e com
tamanhos m e n respectivamente, isto é
(x1,...,xm) e (y1,...,yn)
Em cada amostra são calculadas a média e o desvio-padrão ( ).
Todos os parâmetros são desconhecidos e desejamos testar a igualdade
das variâncias:
2
2
2
1 ,,, SSYX
alternativamente
A estatística teste é a razão das variâncias amostrais
Sob H0 a estatística teste tem distribuição F com m+1 graus de liberdade
no numerador e n-1 graus de liberdade no denominador:
Teste de igualdade de variâncias
1;12
2
2
1 ~ nmFS
S
Comparando o F calculado (Fcalc) com o F crítico (Fc), se Fcalc>Fc, então a
hipótese nula deve ser rejeitada
1;1 nmF
A maior variância amostral entra no numerador
A menor variância amostral entra no denominador
Teste de igualdade de variâncias Exemplo
Deseja-se verificar se há diferenças no consumo de combustível entre as versões
Caminhonete (C) e Sedan (S) de um determinado modelo de automóvel. Por
estudos anteriores sabe-se que os consumos destes são normalmente
distribuidos e, num processo onde foram coletadoas 30 iobservações para a
Caminhonete e 15 observações para o Sedan, obteve-se respectivamente
variâncias de 23,2012 (km/l)2 e 38,6108 (km/l)2. Teste a hipótese de que as
variâncias para os consumos dos dois modelos sejam idênticas, ao nível de
significância de 5%.
6642,12012,23
6108,382
2
C
S
S
S
Como a amostra do Sedan apresentou a maior variância amostral, a
estatística teste tem distribuição F com 14 graus de liberdade no
numerador e 29 graus de liberdade no denominador:
29,142
2
~ FS
S
C
S
O valor calculado da estatística teste é
Ao nível de significância de 5% o valor crítico (obtido pelo Excel) é:
Fc = INVF(0,05;14;29) = 2,05
Conclusão: Ao nível de 5% de significância não podemos rejeitar a hipótese de
que as variâncias dos consumos dos dois modelos sejam idênticas, sendo as
diferenças encontradas explicadas por variações estatísticas no processo de
amostragem.