Upload
others
View
13
Download
0
Embed Size (px)
Citation preview
Análise Multivariada Aplicada à Contabilidade
Prof. Dr. Marcelo Botelho da Costa Moraes
www.marcelobotelho.com
Turma: 2º / 2016
1
Mestrado e Doutorado em
Controladoria
e Contabilidade
Agenda – Aula 2/15
• Inferência Estatística:• Amostragem;
• Tamanho da Amostra;
• Estimação;
• Testes de Hipóteses:• Testes de Normalidade.
2
Distribuição de Probabilidade
3
Inferência Estatística
• Obter conclusões sobre uma população a partir de uma amostra
• A amostra deve ser representativa da população em estudo
• População é o conjunto de todos os elementos e resultados sob investigação e a amostra é qualquer subconjunto da população (BUSSAB; MORETTIN, 2006)
4
Principais Técnicas e Amostragem
5
Técnicas de Amostragem
Aleatória
Não-aleatória
Simples
Estratificada
Sistemática
Conglomerado
Por conveniência
Por julgamento
Por quotas
Bola de Neve
Fonte: Adaptado de Cabral (2006, apud FÁVERO et al, 2009)
Amostragem Probabilística ou Aleatória• A probabilidade de cada elemento da população
fazer parte da amostra é igual, e todas as amostras selecionadas são igualmente prováveis
• Amostragem Aleatória:• Simples
• Estratificada
• Sistemática
• Conglomerado
6
Amostragem Aleatória Simples
• Em uma população com N elementos, da qual se deseja extrair uma amostra com n observações,
existem 𝑁𝑛
possíveis amostradas, com
probabilidade de 1/𝑁𝑛
de cada amostra ser
selecionada
• Todos os elementos (N) são numerados (de 1 até N) e por meio de um procedimento aleatório, nobservações são escolhidas
7
Amostragem Aleatória Simples
• Exemplo: deseja-se entrevistar n = 5 clientes de um cabelereiro que possui um total de 60 clientes cadastrados. Quantas amostras diferentes de tamanho n podem ser extraídas da população? Qual a probabilidade de que uma amostra seja selecionada? Extrair uma amostra aleatória.
• Há 605
=60!
5! 60−5 !=
60∙59∙58∙57∙56
5!= 5.461.512
amostras diferentes
8
Amostragem Aleatória Simples
• A probabilidade de que determinada amostra seja selecionada é de 1/5.461.512
• Os clientes foram numerados de 1 a 60, por meio de um procedimento aleatório foram selecionados os seguintes números
24 02 14 58 35
9
Amostragem Estratificada
• A população é estratificada (dividida em um número de subpopulações que não se superpõem), chamadas de estratos ou camadas
• Se os elementos selecionados em cada estrato constituem amostras aleatórias simples, então temos a amostragem aleatória estratificada (simples)
10
Amostragem Estratificada
• Em uma população com tamanho N é dividida em kestratos de tamanhos N1, N2, ..., Nk
• Para cada estrato uma amostra é selecionada, resultando em k subpopulações de tamanhos n1, n2, ..., nk. A alocação é proporcional se:
𝑛1
𝑁1=
𝑛2
𝑁2= ⋯ =
𝑛𝑘
𝑁𝑘
• O tamanho da amostra pode ser obtido de acordo com:
𝑛1 =𝑁1
𝑁∙ 𝑛, para i = 1, 2, ..., k
• Em que n = n1 + n2 + ... + nk
11
Amostragem Estratificada
• Exemplo: deseja-se realizar uma pesquisa sobre “dieta e saúde” com as mulheres do Rio de Janeiro. Para isso, a população é dividida em categorias de idade (5-14, 15-24, 25-34, 35-44, 45-54, 55-64, 65-74) e, para cada intervalo, 5% da população será entrevistada, ou seja, haverá um respeito à proporção de cada faixa etária na população total
12
Amostragem Sistemática
• Geralmente utilizada quando os elementos da população estão ordenados (se não estiverem ordenados a amostragem será de forma aleatória)
• Deve-se selecionar o intervalo da amostra (k) obtido pelo quociente entre o tamanho da população e o tamanho da amostra. A partir daí, deve-se escolher um elemento a cada k-ésimo elemento da lista, de forma sucessiva, até atingir o tamanho da amostra (n)
• A amostragem sistemática depende do primeiro elemento escolhido, que pode ser um elemento qualquer entre 1 e k
13
Amostragem Sistemática
• Exemplo: deseja-se verificar a qualidade de determinado produto em uma linha de produção. Neste caso, a cada 20 peças produzidas, seleciona-se determinado produto
14
Amostragem por Conglomerados, Grupos ou Áreas• A população total é subdividida em várias partes
relativamente pequenas, e algumas dessas subdivisões (ou conglomerados) são selecionados aleatoriamente para integrar a amostra global
• Dentro de cada conglomerado, podem-se selecionar todos os elementos ou apenas parte deles
• Se os conglomerados são subdivisões geográficas, este tipo de amostragem é chamada de amostragem por área
• A amostragem por conglomerados é frequentemente utilizada, uma vez que muitas populações já estão agrupadas em subgrupos naturais ou geográficos (baixo custo)
15
Amostragem por Conglomerados, Grupos ou Áreas• Exemplo: deseja-se estudar a renda da população
da cidade de Manaus e, para isso, a população foi dividida em bairros
• Alguns bairros (10% deles) foram selecionados aleatoriamente e, para cada bairro, selecionou-se de maneira aleatória 10% do total de moradores
16
Amostragem não-Probabilística ou não-Aleatória• A probabilidade de cada elemento da população
fazer parte da amostra não é igual, portanto, as amostras selecionadas não são igualmente prováveis
• Amostragem Aleatória:• Por conveniência
• Por julgamento
• Por quotas
• Bola de neve
17
Amostragem por Conveniência
• Aplicado quando a participação é voluntária ou os elementos da amostra são escolhidos por uma questão de conveniência ou simplicidade, o que faz com que a amostra não seja representativa da população
• Em função disso, deve ser utilizada somente em casos especiais e com argumento bastante convincente que justifique sua utilização
• Porém, se a amostra estudada for homogênea, qualquer técnica de amostragem pode ser empregada, inclusive amostragem acidental ou por conveniência
18
Amostragem por Conveniência
• Exemplo: um pesquisador deseja estudar o comportamento dos preços dos imóveis residenciais em lançamento em Florianópolis e, para tanto, desenvolve sua amostragem por meio da coleta de dados publicados nos cadernos de imóveis de dois jornais da cidade
• Os jornais podem não apresentar todos os lançamento de imóveis, porém, devem ser significantes
• Cuidado com o viés de conveniência
19
Amostragem por Julgamento
• A amostragem é escolhida segundo a opinião (julgamento prévio) de um especialista
• Exemplo: pesquisa com alunos de mestrado e doutorado em Economia para identificar os livros mais relevantes e didáticos da área. Para selecionar os alunos, recorreu-se a um especialista no assunto
• Não é representativa da população nem científica
20
Amostragem por Quotas
• Difere da amostragem estratificada pelo fato da seleção dos elementos da população não ser aleatória. Os passos a serem aplicados• Passo 1: selecionar as variáveis de controle ou características
relevantes da população para o estudo em questão• Passo 2: definir as quotas dividindo a população em
categorias, em função das variáveis de controle definidas no passo anterior
• Passo 3: para cada categoria, selecionar os elementos
• Vantagens: rapidez, economia e facilidade de administração. Porém, nem sempre é garantido que a amostra é representativa da população
21
Amostragem por Quotas
• Exemplo: uma empresa deseja lançar um novo produto de emagrecimento e seu público-alvo são mulheres entre 15 e 40 anos das classes sociais A e B
• A população é dividida em categorias de acordo com as variáveis de controle) idade e classe social
• Uma amostra de 5% da população recebe uma amostra grátis do produto
22
Amostragem de Propagação Geométrica ou Bola de Neve (Snowball)
• Identificam-se um ou mais indivíduos da população-alvo, e estes identificam outras observações que pertencem à mesma população
• O processo é repetido sucessivamente, até que a amostra final seja composta de todos os elementos identificados
• Bastante utilizado quando os elementos da população são raros ou de difícil acesso, sua vantagem é aumentar a possibilidade de localização da característica desejada da população e baixo custo
• Pode causar viés na identificação de amigos ou pessoas consideradas especialistas
23
Amostragem de Propagação Geométrica ou Bola de Neve (Snowball)
• Exemplo: uma escola de idiomas pretende atrair novos alunos e, para cada aluno matriculado, oferece um desconto na mensalidade se ele trouxer um novo aluno para a escola
• O processo se repete até que a escola consiga atingir um número mínimo de alunos matriculados
24
Tamanho da Amostra
• Amostra representativa da população para estimar a:• Média de uma população infinita
• Média de uma população finita
• Proporção de uma população infinita
• Proporção de uma população finita
• Apenas para amostragem aleatória simples
25
Tamanho da Amostra para Estimar a Média da População Infinita
Tamanho da Amostra Necessária
𝑛 =𝑧𝛼 ∙ 𝜎
𝑒
2
• Em que:
zα = abscissa da distribuição normal padrão, fixado um nível de significância α
σ = desvio padrão da população
e = erro amostral (máxima diferença permitida entre a média populacional µ e a média amostral 𝑥)
26
Tamanho da Amostra para Estimar a Média da População Infinita
• Exemplo: determinar o tamanho de uma amostra para estudar o número médio de clientes que ficam inadimplentes todo mês em determinada empresa financeira
• A média amostral não deve ser afastar da média populacional por mais de 0,10, com grau de confiança de 90% (zα = 1,64)
• Desvio padrão de 7 clientes (populacional)
𝑛 =1,64 ∙ 7
0,10
2
= 13.179
27
Tamanho da Amostra para Estimar a Média da População Finita
Tamanho da Amostra Necessária
𝑛 =𝑧𝛼
2 ∙ 𝜎2 ∙ 𝑁
𝑒2 𝑁 − 1 + 𝑧𝛼2 ∙ 𝜎2
• Em que:
zα = abscissa da distribuição normal padrão, fixado um nível de significância α
σ = desvio padrão da população
N = tamanho da população
e = erro amostral (máxima diferença permitida entre a média populacional µ e a média amostral 𝑥)
28
Tamanho da Amostra para Estimar a Média da População Finita
• Exemplo: mesmo exemplo anterior, imagine que a empresa financeira seja pequena com N = 10.000 clientes (população)
• A média amostral não deve ser afastar da média populacional por mais de 0,10, com grau de confiança de 90% (zα = 1,64)
• Desvio padrão de 7 clientes (populacional)
𝑛 =(1,64)2∙ (7)2∙ 10000
(0,10)2 10000 − 1 + (1,64)2∙ (7)2= 5.686
29
Tamanho da Amostra para Estimar a Média da População Finita
• É possível obter a população infinita ao multiplicar o valor obtido pelo fator de correção para populações finitas
𝑁
𝑁 + 𝑛 − 1• Em que n é o tamanho da amostra para população
infinita
30
Tamanho da Amostra para estimar a Proporção de População Infinita• Se a variável for qualitativa (nominal ou ordinal) e a
população infinita, a dimensão da amostra (n) aleatória simples pode ser calculada pela seguinte expressão
𝑛 =𝑧𝛼
2 ∙ 𝑝 ∙ 𝑞
𝑒2
• Em que:
zα = abscissa da distribuição normal padrão, fixado um nível de significância α 𝑝 = estimativa da proporção p
𝑞 = 1 − 𝑝
e = erro amostral (máxima diferença permitida entre 𝑝 e 𝑝)
• Comum o uso de 𝑝 ∙ 𝑞 = 0,25 (estimativa de p = 0,5)
31
Tamanho da Amostra para estimar a Proporção de População Infinita
• Exemplo: um pesquisador deseja determinar o tamanho de uma amostra para estudar a proporção de eleitores que votarão em determinado candidato na eleição para presidente
• Deseja que a proporção amostral não se afaste da proporção populacional em mais de 2%, com probabilidade de 98% (zα =2,33)
𝑛 =(2,33)2∙ 0,25
(0,02)2= 3.393
32
Tamanho da Amostra para estimar a Proporção de População Finita• Se a variável for qualitativa (nominal ou ordinal) e a
população finita, a dimensão da amostra (n) aleatória simples pode ser calculada pela seguinte expressão
𝑛 =𝑧𝛼
2 ∙ 𝑝 ∙ 𝑞 ∙ 𝑁
𝑒2(𝑁 − 1) + 𝑧𝛼2 ∙ 𝑝 ∙ 𝑞• Em que:
zα = abscissa da distribuição normal padrão, fixado um nível de significância α 𝑝 = estimativa da proporção p
𝑞 = 1 − 𝑝
N = tamanho da população
e = erro amostral (máxima diferença permitida entre 𝑝 e 𝑝)
33
Tamanho da Amostra para estimar a Proporção de População Finita
• Exemplo: um pesquisador deseja determinar o tamanho de uma amostra para estudar a proporção de eleitores que votarão em determinado candidato a prefeito em Bocaina (SP), que tem aproximadamente 12.000 habitantes
• Para o mesmo erro e nível de confiança
𝑛 =(2,33)2∙ 0,25 ∙ 12000
(0,02)2∙ 12000 − 1 + 2,33 2 ∙ 0,25= 2.645
• Podemos utilizar o mesmo fator de correção para populações finitas
34
Estimação
35
Estimação
• Tirar conclusões sobre uma população a partir de dados extraídos de uma amostra representativa dessa população
• Os parâmetros podem ser estimados pontualmente, por meio de um único ponto (estimação pontual) ou por meio de um intervalo (estimação por intervalos)
36
Estimação
• Parâmetro função do conjunto de valores da população
• Estatística função do conjunto de valores da amostra
• Estimativa valor assumido pelo parâmetro em determinada amostra
37
Estimação
• Estimação pontual: estimador dos momentos, método dos mínimos quadrados e o método da máxima verossimilhança
• Estimação intervalar ou intervalo de confiança (IC): IC para média populacional quando a variância é conhecida, IC para média populacional quando a variância é desconhecida, IC para variância populacional e IC para a proporção
38
Estimação
Parâmetro Populacional
Pontual Intervalar
Média A previsão do índice Ibovespapara o final de 2009 é de 74.000
pontos
A previsão do índice Ibovespapara o final de 2009 está entre
70.000 e 78.000 pontos
Proporção Mato Grosso do Sul terá 4% da população obesa em 2010
Mato Grosso do Sul terá entre 3,5% e 4,5% da população obesa
em 2010
39
Fonte: Adaptado de Bruni (2007, apud FÁVERO et al, 2009)
Métodos de Estimação Pontual
• Estimador dos Momentos
• Método dos Mínimos Quadrados
• Método da Máxima Verossimilhança
40
Estimador dos Momentos
• Utiliza a média e variância amostral para estimar os parâmetros da população
• Média da variável aleatória x
𝜇 = 𝑥𝑖
𝑛• Estimador amostral
𝑥𝑚 = 𝑥𝑖
𝑛
41
Estimador dos Momentos
• Os estimadores gerados nem sempre atendem a outras propriedades, já que, por exemplo, o estimador da variância (s2
m) é tendencioso
𝑠2𝑚 =
(𝑥𝑖− 𝑥)2
𝑛≠ 𝑠2 =
(𝑥𝑖− 𝑥)2
𝑛 − 1
42
Método dos Mínimos Quadrados
• Deseja-se estimar os parâmetros de uma regressão linear simples (aula futura) como uma variável dependente (Y) e uma variável explicativa (X)
• Obtém a reta que melhor ajusta os pontos de um diagrama de dispersão
43
Método da Máxima Verossimilhança• Deve-se conhecer o tipo de distribuição da
população
• Entre as possíveis estimativas dos parâmetros da população são escolhidos os valores que maximizam a probabilidade (verossimilhança) de que os valores obtidos na amostra sigam a distribuição da população
• Uma v.a. x tem uma fdp dada por:𝑓(𝑥𝑖; 𝜃𝑘)
• Em que θi, i = 1, 2, ..., k são parâmetros da função
44
Método da Máxima Verossimilhança• Quando os parâmetros não são conhecidos, devem
ser estimados a partir de valores de x obtidos de uma amostra
• Tem-se a função de verossimilhança:função de verossimilhança = 𝐿(𝜃𝑘; 𝑥𝑖)
• O método consiste em achar os valores do parâmetro θk que maximizem a função de verossimilhança ou a probabilidade de que a amostra pertença a uma população cuja distribuição tenha função de densidade f
45
Estimativa Intervalar ou Intervalos de Confiança• IC para média populacional quando a variância é
conhecida
• IC para média populacional quando a variância é desconhecida
• IC para variância populacional
• IC para a proporção
46
Intervalo de Confiança para a Média Populacional (µ) quando a Variância Populacional (σ2) é Conhecida
• Seja X ~ N(µ,σ2) e σ2 conhecido, considera-se que
𝑧 = 𝑥−𝜇0
𝜎/ 𝑛~𝑁(0,1)
𝑃 −𝑧𝑐 < 𝑧 < 𝑧𝑐 = 1 − 𝛼
• Em que 𝑧𝑐 é o valor crítico da variável aleatória z
47
Intervalo de Confiança para a Média Populacional (µ) quando a Variância Populacional (σ2) é Conhecida
48
α /2 α/2
𝒛𝜶/𝟐𝝈 𝒙 𝒛𝜶/𝟐𝝈 𝒙
RA
µ 𝒙
Intervalo de Confiança para a Média Populacional (µ) quando a Variância Populacional (σ2) é Conhecida
• Exemplo: uma v.a. com distribuição normal e variância conhecida de 25. Retira-se uma amostra de 16 valores e calcula-se a média amostral = 18. Construa um intervalo de confiança de 95% (zc = 1,96) para a média populacional
𝑃 𝑥 − 𝑧𝑐𝜎
𝑛< 𝜇 < 𝑥 + 𝑧𝑐
𝜎
𝑛= 95%
𝑃 18 − 1,965
16< 𝜇 < 18 + 1,96
5
16= 95%
𝑃 15,55 < 𝜇 < 20,45 = 95%
Logo o intervalo [15,55; 20,45] contém a média populacional com 95% de confiança
49
Intervalo de Confiança para a Média Populacional (µ) quando a Variância Populacional (σ2) é Desconhecida
• Seja X ~ N(µ,σ2) e σ2 desconhecido, considera-se
usar o estimador (s) que 𝑡 = 𝑥−𝜇0
𝑠/ 𝑛~𝑡𝑛−1
𝑃 −𝑡𝑐 < 𝑡 < 𝑡𝑐 = 1 − 𝛼
• Em que 𝑡𝑐 é o valor crítico da variável aleatória t da distribuição t de Student
50
Intervalo de Confiança para a Média Populacional (µ) quando a Variância Populacional (σ2) é Desconhecida
51
α /2 α/2
-𝒕𝒄
RA
µ𝒕
𝒕𝒄
Intervalo de Confiança para a Média Populacional (µ) quando a Variância Populacional (σ2) é Desconhecida
• Exemplo: uma v.a. com distribuição normal e variância desconhecida. Retira-se uma amostra de 16 valores e calcula-se a média amostral = 18 e a variância amostral = 25. Construa um intervalo de confiança de 95% (tc = 2,131) para a média populacional
𝑃 𝑥 − 𝑡𝑐𝑠
𝑛< 𝜇 < 𝑥 + 𝑡𝑐
𝑠
𝑛= 95%
𝑃 18 − 2,1315
16< 𝜇 < 18 + 2,131
5
16= 95%
𝑃 15,34 < 𝜇 < 20,66 = 95%
Logo o intervalo [15,34; 20,66] contém a média populacional com 95% de confiança
52
Intervalo de Confiança para a Variância Populacional• Seja X ~ N(µ,σ2) e como o estimador de σ2 é s2,
considera-se que a v.a. (n−1)∙𝑠2
𝜎2 ~𝜒𝑛−12
P 𝜒𝑖𝑛𝑓2 < 𝜒𝑛−1
2 < 𝜒sup2 = 1 − 𝛼
Ou
P(n − 1) ∙ 𝑠2
𝜒2𝑖𝑛𝑓
< 𝜎2 <(n − 1) ∙ 𝑠2
𝜒2𝑠𝑢𝑝
= 1 − 𝛼
53
Intervalo de Confiança para a Variância Populacional
54
X2 sup
X2
X2 inf
RA
α/2
α /2
Intervalo de Confiança para a Variância Populacional• Exemplo: uma amostra de 12 elementos, extraída
de uma população normal, forneceu variância = 9,14. construa um intervalo de confiança de 90% para a variância dessa população
• Tabela Qui-quadrado com 11 graus de liberdade, tem-se
X2inf = 4,575
X2sup = 19,675
55
Intervalo de Confiança para a Variância Populacional• Logo
𝑃(n − 1) ∙ 𝑠2
𝜎2< 𝜎2 <
(n − 1) ∙ 𝑠2
𝜎2= 1 − 𝛼
𝑃11 ∙ 9,14
19,675< 𝜎2 <
11 ∙ 9,14
4,575= 90%
𝑃 5,11 < 𝜎2 < 21,98 = 90%
Logo o intervalo [5,11; 21,98] contém a variância populacional com 90% de confiança
56
Intervalo de Confiança para Proporções
• Seja Y ~ binomial e a proporção amostral 𝑝 =𝑌
𝑛.
Logo 𝑝~𝑁 𝑝,𝑝𝑞
𝑛se n é grande. Considera-se que
𝑧 = 𝑝−𝑝
𝑝𝑞
𝑛
~𝑁(0,1)
𝑃 −𝑧𝑐 < 𝑧 < 𝑧𝑐 = 1 − 𝛼
• Em que 𝑧𝑐 é o valor crítico da variável aleatória z
57
Intervalo de Confiança para Proporções
58
α /2 α/2
𝒛𝜶/𝟐𝝈 𝒙 𝒛𝜶/𝟐𝝈 𝒙
RA
µ 𝒙
Intervalo de Confiança para Proporções• Exemplo: uma amostra de 100 peças foi retirada de uma máquina e
verificou-se que quatro delas eram defeituosas. Construa um intervalo de confiança de 95% (zc = 1,96) para a proporção de produtos defeituosos produzidos nessa máquina
𝑝 =𝑌
𝑛=
4
100= 0,04
𝑃 𝑝 − 𝑧𝑐𝑝𝑞
𝑛< 𝑝 < 𝑝 + 𝑧𝑐
𝑝𝑞
𝑛= 1 − 𝛼
𝑃 0,04 − 1,960,04 ∙ 0,96
100< 𝑝 < 0,04 + 1,96
0,04 ∙ 0,96
100= 95%
𝑃 0,03925 < 𝑝 < 0,04075 = 95%
Logo o intervalo [3,925%; 4,075%] contém a proporção de produtos defeituosos com 95% de confiança
59
Testes de Hipóteses
60
Testes de Hipóteses
• Testes de hipóteses podem ser utilizados para determinar se uma indicação sobre o valor de um parâmetro de população deve ou não ser rejeitado
• Quando os testes assumem premissas sobre a distribuição de parâmetros da população são chamados de testes paramétricos
• A hipótese nula, denotada por H0, é uma suposição preliminar sobre um parâmetro populacional
• A hipótese alternativa, denotada por H1, é o oposto do que é formulado na hipótese nula
61
Hipóteses
• A parte da igualdade das hipóteses sempre aparece na hipótese nula
• Em geral, um teste de hipótese sobre o valor de uma média populacional µ deve ter uma das seguintes três formas (onde µ0 é o valor da hipótese da média populacional)
62
𝑯𝟎: 𝝁 ≥ 𝝁𝒐
𝑯𝟏: 𝝁 < 𝝁𝒐
Unicaudal(cauda inferior)
𝑯𝟎: 𝝁 ≤ 𝝁𝒐
𝑯𝟏: 𝝁 > 𝝁𝒐
Unicaudal(cauda superior)
𝑯𝟎: 𝝁 = 𝝁𝒐
𝑯𝟏: 𝝁 ≠ 𝝁𝒐
Bicaudal
Erro do Tipo I
• Erro do Tipo I é rejeitar H0 quando a hipótese é verdadeira
• A probabilidade de fazer um Erro do Tipo I quando a hipótese nula é verdadeira enquanto igualdade é chamado de nível de significância (α)
63
Erro do Tipo II
• Erro do Tipo II é aceitar H0 quando a hipótese é falsa
• É difícil controlar a probabilidade de fazer um Erro do Tipo II
• Estatísticos evitam o risco de cometer um Erro do Tipo II usando a expressão "não rejeitar H0 " ao invés de "aceitar H0”
64
Tipos de Erros
65
Conclusão
Condição da População
H0 Verdadeira H0 Falsa
Não Rejeitar H0 Decisão Correta (1 – α)
Erro do Tipo II (β)
Rejeitar H0 Erro do Tipo I (α) Decisão Correta (1 – β)
Tipos de Erros
66
Etapas do Teste de Hipóteses –Método do p-value (p-valor ou valor-p)Passo 1. Desenvolver as hipóteses nula e alternativa
Passo 2. Definir o nível de significância α
Passo 3. Escolher uma estatística de teste adequada
Passo 4. Retirar uma amostra e calcular o valor da estatística do teste
Passo 5. Determinar o p-value que corresponde à probabilidade associada ao valor observado da amostra
Passo 6. Rejeitar H0 se o p-value ≤ α (caso contrário, não rejeitar)
67
Etapas do Teste de Hipóteses –Método do valor críticoPasso 1. Desenvolver as hipóteses nula e alternativa
Passo 2. Definir o nível de significância α
Passo 3. Escolher uma estatística de teste adequada
Passo 4. Fixar a região crítica do teste (com base no α estabelecido)
Passo 5. Retirar uma amostra e calcular o valor da estatística do teste
Passo 6. Rejeitar H0 se a estatística pertencer à região crítica (caso contrário, não rejeitar)
68
Testes Paramétricos
• Aplicados em situações em que se conhece a distribuição que melhor representa os dados analisados
• Exigem suposições específicas sobre a(s) população(ões) da(s) qual(ais) as amostras foram extraídas
• Exigem que duas hipóteses sejam satisfeitas: (1) que a variável dependente tenha distribuição normal; e (2) que as variâncias populacionais sejam homogêneas no caso da comparação de duas ou mais populações
69
Testes para Normalidade Univariada• Kolmogorov-Smirnov (K-S)
• Shapiro-Wilk
70
Teste de Kolmogorov-Smirnov (K-S)
• Teste de aderência que compara a distribuição de frequência acumulada de um conjunto de valores observados da amostra com uma distribuição esperada ou teórica
• Neste caso, determina se uma amostra é proveniente de uma população com distribuição normal
• Utilizado quando a média e o desvio padrão da população são conhecidos
71
Teste de Kolmogorov-Smirnov (K-S)
• Seja Fesp(X) uma função distribuição esperada (normal) de frequências relativas acumuladas da variável X, em que Fesp(X) ~ N(µ,σ), e Fobs(X) a distribuição de frequências relativas acumuladasobservada da variável X
• Deseja-se testar se Fobs(X) = Fesp(X) contra a alternativa de que Fobs(X) ≠ Fesp(X)
72
Teste de Kolmogorov-Smirnov (K-S)
• A estatística do teste é
𝐷 = max{|𝐹𝑒𝑠𝑝 𝑋𝑖 − 𝐹𝑜𝑏𝑠 𝑋𝑖 |; |𝐹𝑒𝑠𝑝 𝑋𝑖 −𝐹𝑜𝑏𝑠 𝑋𝑖−1 |} para i = 1, ..., n
• Em que:
Fesp(Xi) = frequência relativa acumulada esperada na categoria i
Fobs(Xi) = frequência relativa acumulada observada na categoria i
Fobs(Xi-1) = frequência relativa acumulada observada na categoria i - 1
73
Teste de Kolmogorov-Smirnov (K-S)
• Para uso do teste K-S para parâmetros estimados a partir de uma amostra (ao invés da população), perde-se poder explicativo
• Nessa situação utilizar a correção de Lilliefors(1967)
74
Teste de Kolmogorov-Smirnov (K-S)
• Procedimento para aplicação do teste
1. Fixar a hipótese nula (H0) e a hipótese alternativa (H1). A hipótese nula afirma que a amostra provém de uma distribuição N(µ,σ). A hipótese alternativa afirma que a amostra não provém de uma distribuição N(µ,σ)
2. Fixar o nível de significância α do teste
3. A estatística escolhida é a de Komogorov-Smirnov
75
Teste de Kolmogorov-Smirnov (K-S)
• Procedimento para aplicação do teste
4. Os valores críticos da estatística K-S (D) estão na tabela respectiva
5. Calcular o valor real da estatística K-S, conforme equação anterior
6. Decisão: se o valor da estatística pertencer a região crítica (D > Dc), rejeita-se H0. Caso contrário, não se rejeita H0
76
Teste de Kolmogorov-Smirnov (K-S)
• Exemplo: considere os dados da tabela, relativos à produção mensal de máquinas de costura nos últimos 12 meses. Verifique se os dados seguem uma distribuição normal, com α =5%
77
1 2 3 4 5 6 7 8 9 10 11 12
32 38 40 28 25 23 39 45 50 25 38 42
Teste de Kolmogorov-Smirnov (K-S)
78
Xi Fabs Fac Fracabs zi Fracesp |𝐹𝑒𝑠𝑝 𝑋𝑖 −
𝐹𝑜𝑏𝑠 𝑋𝑖 |
|𝐹𝑒𝑠𝑝 𝑋𝑖 −
𝐹𝑜𝑏𝑠 𝑋𝑖−1 |
23 1 1 0,08 -1,43 0,0764 0,0036 0,0764
25 2 3 0,25 -1,20 0,1151 0,1349 0,0351
28 1 4 0,33 -0,85 0,1977 0,1323 0,0523
32 1 5 0,42 -0,39 0,3483 0,0717 0,0183
38 2 7 0,58 0,30 0,6179 0,0379 0,1979
39 1 8 0,67 0,41 0,6591 0,0109 0,0791
40 1 9 0,75 0,53 0,7019 0,0481 0,0319
42 1 10 0,83 0,76 0,7764 0,0536 0,0264
45 1 11 0,92 1,10 0,8643 0,0557 0,0343
50 1 12 1,0 1,68 0,9535 0,0465 0,0335
Teste de Kolmogorov-Smirnov (K-S)
• Procedimento para realização do teste
1. A hipótese nula afirma (H0) que a amostra provém de uma distribuição N(µ,σ). A hipótese alternativa (H1) afirma que a amostra não provém de uma distribuição N(µ,σ)
2. O nível de significância α = 5%
3. A estatística escolhida é a de Komogorov-Smirnov
79
Teste de Kolmogorov-Smirnov (K-S)
• Procedimento para realização do teste
4. Os valores críticos da estatística K-S para n = 12 e α = 5% na tabela o valor D = 0,375
5. O valor real da estatística K-S, conforme equação anterior, é D = 0,199
6. Decisão: como o valor da estatística não pertence a região crítica D < 0,375 (Dc), não se rejeita H0. A amostra é obtida de uma distribuição normal
80
Teste de Shapiro-Wilk
• Testa se a variável em estudo possui ou não uma distribuição normal
• No caso de pequenas amostras (n < 30) o teste de Shapiro-Wilk é mais apropriado que o teste K-S
𝑊 =𝑏2
(𝑥𝑖 − 𝑥)2, 𝑝𝑎𝑟𝑎 𝑖 = 1,… , 𝑛
𝑏 =
𝑖=1
𝑁/2
𝑎𝑛−1+1 ∙ (𝑥𝑛−𝑖+1 − 𝑥𝑖)
• Em que
xi são os valores da variável x em ordem crescente
𝑥 é a média de x
ai são constantes geradas a partir da média, variância e covariância de nordens com distribuição normal padrão
81
Teste de Shapiro-Wilk
• Valores pequenos de W indicam que a distribuição da variável não é normal
82
Teste de Shapiro-Wilk
• Procedimento para aplicação do teste
1. Fixar a hipótese nula (H0) e a hipótese alternativa (H1). A hipótese nula afirma que a amostra provém de uma distribuição normal. A hipótese alternativa afirma que a amostra não provém de uma distribuição normal
2. Fixar o nível de significância α do teste
3. Para n ≤ 30 a estatística escolhida é a de Shapiro-Wilk
83
Teste de Shapiro-Wilk
• Procedimento para aplicação do teste
4. Os valores críticos da estatística de Shapiro-Wilk(W) estão na tabela respectiva
5. Calcular o valor real da estatística de Shapiro-Wilk, conforme equação anterior
6. Decisão: se o valor da estatística pertencer a região crítica (W > Wc), rejeita-se H0. Caso contrário, não se rejeita H0
84
Teste de Shapiro-Wilk
• Exemplo: considere os dados da tabela (ordenados), relativos à produção mensal de máquinas de costura nos últimos 12 meses. Verifique se os dados seguem uma distribuição normal, com α =5%
85
1 2 3 4 5 6 7 8 9 10 11 12
23 25 25 28 32 38 38 39 40 42 45 50
Teste de Shapiro-Wilk
• Procedimento para realização do teste
1. A hipótese nula afirma (H0) que a amostra provém de uma distribuição normal. A hipótese alternativa (H1) afirma que a amostra não provém de uma distribuição normal
2. O nível de significância α = 5%
3. Como n ≤ 30 a estatística escolhida é a de Shapiro-Wilk
86
Teste de Shapiro-Wilk
• Procedimento para realização do teste
4. Os valores críticos da estatística de Shapiro-Wilkpara n = 12 e α = 5% na tabela o valor W = 0,859
5. O valor real da estatística de Shapiro-Wilk, conforme equação anterior, b = 27,971 e W = 0,939
6. Decisão: como o valor da estatística não pertence a região crítica W > 0,859 (Wc), não se rejeita H0. A amostra é obtida de uma distribuição normal
87
Teste de Levene para Homogeneidade de Variâncias• Para comparar duas ou mais populações é
necessário supor homogeneidade de variâncias
• A hipótese numa afirma que as variâncias populacionais estimadas a partir de k amostras representativas são homogêneas ou iguais
• A hipótese alternativa afirma que pelo menos uma variância populacional é diferente das demais
𝐻0: 𝜎21 = 𝜎2
2 = ⋯ = 𝜎2𝑛
𝐻1: ∃𝑖,𝑗: 𝜎2𝑖 ≠ 𝜎2
𝑗 (𝑖, 𝑗 = 1,… , 𝑘)
88
Teste de Levene para Homogeneidade de Variâncias• A estatística do teste de Levene
𝑊 =(𝑁 − 𝑘)
(𝑘 − 1)∙
𝑖=1𝑘 ( 𝑍𝑖 − 𝑍)2
𝑖=1𝑘
𝑗=1𝑛𝑗
( 𝑍𝑖𝑗 − 𝑍)2~𝑠𝑜𝑏 𝐻0
𝐹𝑘−1,𝑁−𝑘,𝛼
• Em queni é a dimensão de cada uma das k amostras (i = 1, ..., k)N é a dimensão da amostra global (N = n1 + n2 + ... + nk)
𝑍𝑖𝑗 = 𝑋𝑖𝑗 − 𝑋 , i = 1, ..., k e j = 1, ..., nk
Xij é a observação j da amostra i 𝑍𝑖 é a média de Zi na amostra i 𝑍 é a média de Zi na amostra global
89
Teste de Levene para Homogeneidade de Variâncias• Procedimento para aplicação do teste
1. Fixar a hipótese nula (H0) e a hipótese alternativa (H1). A hipótese nula afirma que as variâncias populacionais são homogêneas. A hipótese alternativa afirma que pelo menos uma das variâncias populacionais é diferente das demais
2. Fixar o nível de significância α do teste
3. A estatística escolhida é o teste W de Levene
90
Teste de Levene para Homogeneidade de Variâncias• Procedimento para aplicação do teste
4. Fixar a região crítica com a Tabela F
5. Calcular o valor real da estatística W, conforme equação anterior
6. Decisão: se o valor da estatística pertencer a região crítica (W > Fc), rejeita-se H0. Caso contrário, não se rejeita H0
91
Teste de Levene para Homogeneidade de Variâncias• Exemplo: uma empresa farmacêutica pretende
comparar a satisfação dos consumidores segundo alguns critérios: qualidade do produto, preços, prazo de entrega, disponibilidade do produto, entre outros
• Para isso, foi aplicado um questionário a partir dos critérios listados, resultado em uma pontuação que varia de 1 a 100
• Foram entrevistados 24 consumidores com o objetivo de comparar a satisfação entre homens e mulheres
• Teste a variância dos grupos ao nível de 5% de significância
• Dados na ‘Plan2’ da planilha Cap4-Exemplos.xlsx
92
Teste de Levene para Homogeneidade de Variâncias• Cálculo do W𝑊
=(24 − 2)
(2 − 1)
∙12 × 14,778 − 10,931 2 + 12 × 7,083 − 10,931 2
1146,907= 6,814
93
Teste de Levene para Homogeneidade de Variâncias• Procedimento para realização do teste
1. A hipótese nula afirma (H0) que as variâncias populacionais dos grupos são iguais. A hipótese alternativa (H1) afirma que as variâncias são diferentes
2. O nível de significância α = 5%
3. A estatística escolhida é o teste W de Levene
94
Teste de Levene para Homogeneidade de Variâncias• Procedimento para realização do teste
4. A região crítica, de acordo com a tabela é Fc = F2,9,5% = 4,26
5. O valor real da estatística W, conforme equação anterior, é W = 6,814
6. Decisão: como o valor da estatística não pertence a região crítica W > 4,26 (Fc), não se rejeita H0. concluindo que as variâncias populacionais dos grupos são homogêneas
95
Obrigado pela Atenção!!!
Até a próxima aula
www.marcelobotelho.com
96