Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
Pedro Paulo BalestrassiUNIFEI-UniversidadeFederal de Itajubá
“Pensar estatisticamente será um dia, para a eficiente prática da
Curso de Estatística Aplicada
UNIFEI-UniversidadeFederal de Itajubá
IEPG
35-36291161
88776958
eficiente prática da cidadania, tão necessário como a habilidade de ler e escrever.”
H. G. Wells (Escritor Inglês, considerado o pai da moderna Ficção Científica, 1895)
Estatística Aplicada
Fatores Controláveis
...x1 x2 xp
Motivação das empresas para estudo e uso de Estatística:
Foco no Processo: Um dos principais requisitos da ISO 9001:2000
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br2
Processo
Fatores Incontroláveis (ruído)
Entrada Saída
...
...x1 x2 xp
z1 z2 zq
y1
y2
ym
...
Estatística Aplicada
X•Pressão de ar air strip•Pressão de ar air bag•Pressão de ar front piston•Pressão Hidráulica•Temperatura•Vazão de óleo Solúvel
Processo Bodymaker de fabricação de latas
Exemplo de Processo
Aplicação: Pense em um problema
Y=f(X)+Z
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br3
•Vazão de óleo Solúvel•Pressão do Nitrogênio
Y•Espessura da parede Top Wall•Espessura da Parede Mid Wall•Profundidade do Dome•Altura da Lata•Visualização
Z•Operador•Rede Elétrica•Qualidade da Bobina
em um problema similar em sua área de atuação
É complexo inferir sobre X,Y e Z sem Estatística!
Estatística Aplicada
DO THE REAL
THING!
Cone of Learning
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br4
Faça anotações! Aplicando os conhecimentos na sua área é a únicaforma de sedimentá-los!
Estatística Aplicada
Recursos de Software
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br5
Statgame e Statquiz(Interessante para verificar
o conhecimento básico)
O uso de recursos computacionais tornou os cálculos atividades fáceis permitindo uma maior ênfase na compreensão e interpretação dos resultados
Estatística Aplicada
Pratique:
• Gere a planilha ao lado e entenda a diferença entre Worksheete Project. Observe o que é Session.
• Calcule as principais Estatísticas Descritivas da planilha
Comandos Básicos
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
• Calcule as principais Estatísticas Descritivas da planilha gerada.
Siga o caminho: <Stat> <Basic Statistics> <GraphicalSummary>
Estatística Aplicada
Pratique:
• Navegue no Statguide
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
• Navegue no Statguide
• Navegue pelo Tutorial do Minitab
• Cinco ícones importantes: Worksheet, Session, Show Graph Folders e Edit Last Dialog
Estatística Aplicada
Pratique:
• Gere uma série de 100 valores aleatórios que poderia simular a variabilidade em Anéis de Pistão
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
(considerando por exemplo Folga entre Pontas).
Use <Calc> <Random Data> <Normal Distribution> e inclua os parâmetros convenientes.
• Calcule as principais estatísticas descritivas da planilha usando Graphical Summary. Faça outros gráficos.
Estatística Aplicada
Pratique:
• Entenda o procedimento <Calc> <Set Base>?
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
• Entenda o procedimento <Calc> <Set Base>?
• Salve a planilha na Desktop com um nome qualquer.
• Feche o programa minitab e depois abra a planilha que você salvou.
Estatística Aplicada
Obtenha domínio sobre o Minitab a
Um bom Material de Apoio
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br10
partir do arquivo minitab.pdf.
Estatística Aplicada Um Exemplo de ControleEstatístico da Qualidade
A espessura de uma peça metálica é um importante parâmetro da qualidade para uma empresa. Uma grande quantidade de peças são produzidas diariamente e a cada lote produzido, 5 delas são medidas e colocadas em uma tabela, como
UseSet Base=9
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
ao lado.
Pergunta-se:a) O Processo está sob Controle?b) O Processo atende as
Especificações (LSL=0.060 e USL=0.066)
c) Qual a solução para o problema?
Set Base=9N(0.0625; 0.0025)Para gerar tal tabela
Estatística Aplicada
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Problema Prático
Problema Estatístico
Baixo Rendimento
Média fora do alvo
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Solução Estatística
Solução Prática
© 1994 Dr. Mikel J. Harry V3.0
Média fora do alvo
Identificar variável Vital
Instalar um controlador
Estatística Aplicada
Etapa Descrição FocoDefinir
A Identificar CTQs do ProjetoB Desenvolver Escopo de Atuação da EquipeC Definir Mapa do Processo
Medir1 Selecionar Característica do CTQ Y2 Definir Padrão de Desempenho Y3 Análise do Sistema de Medição e Coleta de Dados Y
Analisar
Six Sigma - DMAIC
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Analisar4 Estabelecer a capabilidade do Processo Y5 Definir Objetivo do Desempenho Y6 Identificar Origens de Variação X
Melhorar7 Filtrar Causas Potenciais de Variação X8 Descobrir Relações entre as Variáveis e Propor Sol uções X9 Estabelecer Tolerâncias Operacionais & Solução Pil oto Y,X
Controlar10 Validar Sistema de Medição Y,X11 Determinar a Capabilidade do Processo Y,X12 Implementar Sistema de Controle do Processo X
Estatística Aplicada
Uma ótima bibliografia:
Montgomery, D.C., Runger, G.C., Estatística Aplicada e Probabilidade para Engenheiros, 2ª ed., LTC Livros Técnicos e Científicos, 2002, 461 p.
Não deixe de ler:
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br16
Fora de Série (Outliers) – Malcolm Gladwell – Editora Sextante – Uma boa análise sobre Causa e Efeito em inúmeras situações.
Uma Senhora Toma Chá – David Salsburg – Editora Zahar – Como a estatística revolucionou a ciência no século XX.
O Andar do Bêbado – Leonard Mlodinow– Editora Zahar– Como a aleatoriedade impacta nossas vidas.
Estatística Aplicada
SUMÁRIO
1 – Estatística Descritiva
2 – Distribuições de Probabilidade
3 – Estimação e Intervalos de Confiança
4 – Testes de Hipótese
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br17
4 – Testes de Hipótese
5– Análise de Variância
6 – Correlação e Regressão
Estatística Aplicada
1 - Estatística Descritiva
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
18
“Deus não joga dados com o universo” (Albert Einstein)
“Os experimentos geralmente não são determinísticos” (Fisher)
Estatística Aplicada
A essência da ciência é a observação. Estatística: A ciência que se preocupa com a organização, descrição, análise e interpretação dos dados experimentais. Ramo da Matemática Aplicada. A palavra estatística provêm de Status.
Do que trata a Estatística
Estatística Básica (Anova, TH, Regressão)
Séries Temporais
Simulação / PO
DOE /Taguchi /RSM
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br19
Séries Temporais
Data Mining
Six Sigma
Redes Neurais
Controle de Qualidade
Estatística Bayseana
Análise do Sistema de Medição
Estatística Multivariada
Amostragem / Pesquisa
Confiabilidade
Caos
Em 1662, John Graunt publicou os primeiros informes estatísticos. Era sobre nascimento e mortes.
Estatística Aplicada
� A População(ou Distribuição) é a coleção de todas as observações potenciais sobre determinado fenômeno.
� O conjunto de dados efetivamente observados, ou extraídos, constitui uma Amostra da população.
População e Amostra
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br20
extraídos, constitui uma Amostra da população.
�Um Censo é uma coleção de dados relativos a Todosos elementos de uma população.
�Um Parâmetro está para a População assim como uma Estatísticaestá para a Amostra.
Estatística Aplicada
Variável
Qualitativa
Quantitativa
Ordinal
Nominal
Discreta
(Também Dados Categóricos ou de Atributos )
Tipos de Dados
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br21
QuantitativaContínua
Ex.: Para uma população de peças produzidas em um determinado processo, poderíamos ter:
Variável Tipo
Estado: Perfeita ou defeituosa Qualitativa Nominal
Qualidade: 1a, 2a ou 3a categoria Qualitativa Ordinal
No de peças defeituosas Quantitativa Discreta
Diâmetro das peças Quantitativa Contínua
(Variáveis)
Estatística Aplicada
Aplicação: Gere sequências de valores aleatórios que represente problemas em sua área.
O que significa o procedimento <Calc> <Set Base>?
<Calc> <Random Data> Números Aleatórios
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br22
Amostragem:Gere a sequência 1 2 3 ...100.
<Calc> <Make Patterned Data>
Selecione uma amostra com 10 valores a partir das sequências geradas anteriormente.
Use <Calc> Random Data> <Sample from Column>
Estatística Aplicada
Aplicação:
Gere uma sequência de dados que represente um processo em sua área e calcule as estatísticas
Ex.:Número de acessos à página do Site da Empresa durante os últimos 100 dias úteis.
<Graphical Summary>
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br23
calcule as estatísticas desse conjunto de dados.
Use:
<Random> e
<Graphical Summary>
Estatística Aplicada Medidas de Posição: Média
xx x x
n
x
nn
ii
n
=+ + +
= =∑
1 2 1L
∑==+++=
n
iii
nn
pxpxpxpx
x 12211 L
Aritmética Simples+...+
+...+
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br24
∑=
==++++++=
n
ii
i
n
nn
pppp
pxpxpxx
1
1
21
2211
L
L
Aritmética Ponderada+...+
+...+
Um pouco sobre arredondamento de médias:
� Tome uma decimal acima da dos dados: Ex.: 2,4 3,4 e 5,7 => média =3,73
� Em várias operações, arredonde apenas o resultado final
Estatística Aplicada
� Chama-se Robert
� Pesa 78 Kg
� Manequim 48
� 85 cm de cintura
Um Cidadão Americano “Médio”
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br25
� 85 cm de cintura
� Consome anualmente 8,5 Kg massa, 11,8Kg de bananas, 1,8 Kg de batatas fritas, 8,15Kg de sorvete e 35,8 Kg de carne.
� Vê TV por ano 2567 horas
� Recebe anualmente 585 “coisas” por correio (cartas e outros)
� Diariamente dorme 7,7 horas, gasta 21 minutos para chegar ao trabalho e trabalha 6,1 horas
Estatística Aplicada
~xn o
=+
1
2termo ~x
n n
=
+ +
2 21
2
o o
termo termo
{ } ~⇒ =Ex.:
Se n é ímpar: Se n é par:
Medidas de Posição: Mediana
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br26
{ }35 36 37 38 40 40 41 43 46 40, , , , , , , , ~⇒ =x
{ }12 14 14 15 16 16 17 2015 16
2155, , , , , , , ~ ,⇒ =
+=x
Ex.:
Mediana é o valor “do meio” de um conjunto de dados dispostos em ordem crescente ou decrescente.
Inconveniente: Não considera todos os valores da amostra!
Estatística AplicadaMédia x Mediana
x = 3457,~x = 300
Ex.: { 200, 250, 250, 300, 450, 460, 510 }
Ambas são boas medidas de Tendência Central.
Prefira a média
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br27
x
{ 200, 250, 250, 300, 450, 460, 2300 }
= 601~x = 300
Devido ao Outlier 2300, a mediana é
melhor estatística que a média.
Estatística Aplicada Medidas de Dispersão
Rode e Entenda o programa Interativo da
PQ Systems
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br28
Discuta:
1) Porque os bancos adotam fila única?
2) “Por favor, com quantos dias de antecedência eu devo postar uma carta de aniversário para minha mãe?”
Estatística Aplicada
A = { 3, 4, 5, 6, 7 }B = { 1, 3, 5, 7, 9 }C = { 5, 5, 5, 5 }D = { 3, 5, 5, 7 }E = { 3.5, 5, 6.5 }
Uma medida de Posição não é suficiente para descrever um conjunto de dados. Os Conjuntos ao lado mostram isso! Eles possuem mesma média, sendo diferentes.
Variabilidade
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br29
E = { 3.5, 5, 6.5 }
Algumas medidas de Variabilidade:
Amplitude (H): Tem o inconveniente de levar em conta apenas os dois valores extremos:
HÁ =7-3=4 Amplitude=Range
Estatística Aplicada
Considerando os desviosem relação à média, temos, para A, por exemplo:
A = { 3, 4, 5, 6, 7 } xxi - {-2, -1, 0, 1, 2}
Medidas de Dispersão
0)( ≡−=−=− ∑ ∑∑ xnxnxxxxn nn
Inconveniente:
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br30
0)(1 11
≡−=−=− ∑ ∑∑= ==
xnxnxxxxi i
ii
iInconveniente:
Uma opção para analisar os desvios das observações é:considerar o total dos quadrados dos desvios.
( )x xii
− = + + + + ==∑
2
1
5
4 1 0 1 4 10
Estatística AplicadaDesvio Padrão
.
( )x xii
n
−=∑
2
1
Associando ao número de elementos da amostra (n), tem-se:
...que é a Variância( Var(x))S2 =
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br31
ni =1 ...que é a Variância( Var(x))S2 =
S S= 2 ...que é o Desvio Padrão(DP(x)), uma medida que é expressa na mesma unidade dos dados originais
Estatística Aplicada Dispersão: Fórmulas Alternativas
( )21
2
1
2
2 xn
x
n
xxn
ii
n
ii
−=−
=∑∑
==σ( )
S
x x
n
ii
n
2
2
1
1=
−
−=∑
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br32
Variância Amostraln-1está
Relacionado a um problema de tendenciosidade
Variância Populacional(σ2 ou σn
2 )
Estatística Aplicada
Média = 3
X =Soma dos pontos de dados
X54312
X210-2-1
( )X X−41041
( )X X−2
Calcular a Variância e o Desvio Padrão de X
Exemplo
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br33
Soma daúltima coluna= 10
Divide a Soma por (n-1):= Variância = S2
= 2,5
X =Número dos pontos de dados
-1 1
Raiz Qadrada da Variância = Desv.Pa. = S= 1,58
S S= 2 S2
Uma Regra Prática para
conjunto de dados típicos:
S=Amplitude/4
Estatística Aplicada
N
N=
N
1∑
=iix
µ
N
)(=
N
1
2
2∑ −i=
i µ xσ( )xx
n
ii∑
=
−1
2
n
n
x
x
n
ii∑
== 1
n-1
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br34
ns i
∑== 12
( )
11
2
2
−
−=∑
=
n
xx
s
n
ii
Estimador Tendencioso deσ
Estimador Não-Tendencioso σ
Estatística Aplicada
( )xx
s
n
ii∑
=
−= 1
2
2 )1( 2σ
n
n−≈
1
23
Simulação (n-1)
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br35
ns = n
( ) ( )
1.
)1(1
2
1
2
2
−
−=
−
−=
∑∑==
n
xx
n
xx
n
ns
n
ii
n
ii
4
Estatística Aplicada
50%
75%109
104
99
DBP
* Outlier ( fora da distância do Q3 + 1,5D )
Q3=75ª Percentil
Observação Máxima
D=Q3-Q1
Outra Estratégia: Percentis e Boxplot
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br36
25%
94
Q1=25ª Percentil
Q2=Mediana (50ª Percentil)
D=Q3-Q1
Interquartil
EDA (Exploratory Data Analysis) e Método dos
Cinco Números
Boxplot é desgastante quando feito sem computador pois supõe a ordenação de dados.
Estatística Aplicada
����Valor do meio
Percentis e Boxplot
3.(n+1)/4 0
graficos.mtw
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br37
Quartis:
� Q1=Quarta Observação Crescente=71.7
� Q3=Quarta Observação Decrescente=150.6
Outliers: Q3+1.5D=150.6+1.5(150.6-71.7)=268.95
� São outliers valores maiores que 268.95
2.(n+1)/4 0
(n+1)/4 0
Para valores não inteiros dos quartis,
usa-se interpolação
Estatística AplicadaEscores padronizados (z)
zx x
sii=
− x
Ex.: Dois grupos de pessoas acusam os seguintes dados:
xi - considera o afastamento de xi em relação à média.
A divisão por s torna s como unidade ou padrão de medida.
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
38
Grupo Peso médio Desvio Padrão
A 66.5 kg 6.38 kg
B 72.9 kg 7.75 kg
e 3,238,6
5,662,81 : em =−=AzA 95,1
75,7
9,7288 : em =−=BzB
Nesses grupos há duas pessoas que pesam respectivamente, 81.2 kg e 88.0 kg.
Logo, a pessoa de A revela um maior excesso relativo de peso.
Estatística Aplicada
ϕ(z)
σµ−= x
z);(: σµNX
Z: N(0; 1)
Tal fórmula está tabeladae fornece valores acumulados
Distribuição Normal
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br39
z
xµ-3σ µ -2σ µ -σ µ µ+σ µ+2σ µ+3σ
-3 -2 -1 0 1 2 3
Distribuião Normal Reduzida ou Padronizada
Qual o formato da curva acumulada?
N(0,1) é a distribuição Benchmark
Estatística AplicadaEscores padronizados (z)
Uma mulher deu à luz um filho 308 dias após a visita de seu marido que serve na marinha dos EUA. Sabendo-se que uma gravidez normal tem média de 268 dias e desvio-padrão de 15 dias, determine se o tempo de gravidez da mulher pode ser considerado comum.
O marido tem razão de se preocupar?
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br40
zx x
sii=
−
O marido tem razão de se preocupar?
Estatística Aplicada
Escores padronizados (z)
zx x
sii=
−
Regra 68 -- 95 -- 99
� Cerca de 68% dos valores estão a menos de 1 desvio padrão a
Regra 68 -- 95 -- 99
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br41
� Cerca de 68% dos valores estão a menos de 1 desvio padrão a contar da média (-1 < z < 1)
� Cerca de 95% dos valores estão a menos de 2 desvios padrão a contar da média (-2 < z < 2)
� Cerca de 99% dos valores estão a menos de 3 desvios padrão a contar da média (-3 < z < 3)
Estatística Aplicada
Assimetria (Skewness)
Próximo de 0: Simétrico
Menor que 0: Assimétrico à Esquerda
Maior que 0: Assimétrico à Direita
Skewness and Kurtosis
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br42
Achatamento (Kurtosis)
Próximo de 0: Pico Normal
Menor que 0: Mais achatada que o Normal (Uniforme)
Maior que 0: Menos achatada que o normal (Afinada)
Estatística AplicadaSkewness - Assimetria
Positiva
~Nula
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br43
Negativa
( )∑=
−−−
=n
ii xx
nn
nAss
1
3
)2)(1(
Estatística AplicadaKurtosis - Achatamento
Normal K~0 Mesocúrtica
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br44
LeptocúrticaK>>0
PlaticúrticaK<<0
( ))3)(2(
)1(3
)3)(2)(1(
)1( 2
1
4
−−−−−
−−−+= ∑
= nn
nxx
nnn
nnK
n
ii
Estatística Aplicada Exercício
Encontre todas as estatísticas descritivas para a série da tabela a seguir.
10 23 34 40 58 74
13 24 35 41 58 80
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br45
13 24 35 41 58 80
15 25 37 48 63 82
15 25 38 53 64 88
20 30 39 58 70 250
21 32 39 58 70 254
Estatística Aplicada
Ex.: População= X=Diâmetro de determinada peça (em mm).Dados brutos:{ 168, 164, 164, 163, 165, 168, 165, 164, 168, 168 }Rol: { 163, 164, 164, 164, 165, 165, 168, 168, 168, 168 }Amplitude (H) = 168 - 163 = 5
Xni
(Frequência Absoluta)
f i(Frequência
Relativa)
Ni(Frequência
Absoluta Acumulada)
F iFrequência
Relativa Acumulada)
Distribuição de Freqüências
n ni
K
1
∑ =
fni=
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br46
Acumulada) Acumulada)
163 1 0.1 1 0.1
164 3 0.3 4 0.4
165 2 0.2 6 0.6
168 4 0.4 10 1.0
Σ 10 1
fn
nii=
f ii
K
=∑ =
1
1
FN
nii=
Estatística Aplicada
x(Variável)
xi (ponto médio)
ni(frequência absoluta)
f i(frequência
relativa)
f%(frequência percentual)
Ni(AbsolutaAcum.)
F i(RelativaAcum.)
F%(Percentual
Acum.)
10 ├ ─ 20 15 2 0.04 4 2 0.04 4
Classes (ou Categorias)
DISTRIBUIÇÃO DE FREQUÊNCIAS
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br47
10 ├ ─ 20 15 2 0.04 4 2 0.04 4
20 ├ ─ 30 25 12 0.24 24 14 0.28 28
30 ├ ─ 40 35 18 0.36 36 32 0.64 64
40 ├ ─ 50 45 13 0.26 26 45 0.9 90
50 ├ ─ 60 55 5 0.1 10 50 1.0 100
Σ 50 1 100
Estatística Aplicada
x(Variável)
xi (ponto médio)
ni(frequência absoluta)
(Xi).(ni)
10 ├ ─ 20 15 2 30
Classes (ou Categorias)
EXEMPLO – MÉDIA P/DADOS AGRUPADOS
.1==∑
∑=
n
nxXMédia
n
n
iii
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br48
10 ├ ─ 20 15 2 30
20 ├ ─ 30 25 12 300
30 ├ ─ 40 35 18 630
40 ├ ─ 50 45 13 585
50 ├ ─ 60 55 5 275
Σ 50 1820
4,3650
18201
==
∑=
X
ni
i
Estatística Aplicada
10
ni
Construção da tabela de distribuição de freqüências a partir do histograma de classes desiguais. Exercício: Complete a tabela.
X ni fi
|--
Histogramas
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br49
8
6
4
2
10 20 30 40 60 x
10 |-- 20
20 |-- 30
30 |--40
40 |--60
Σ 1
Estatística Aplicada
Processo A
Processo B
Tempo Total (A+B)
?
Soma de Normais
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br50
3 7= 3
s = 1X = 7
s = 2X
3 2 1
2.23 5 (2) (1) S S S222
B2ABA
=+≠
==+=+=+
Correto; Some as
variâncias e depois
obtenha o Desvio Padrão
Incorreto;
Estatística Aplicada
Linha A
Linha B
Diferença:Linha A – Linha B
?
Diferença de Normais
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br51
-10 -5 0 5 10 15
= 3s = 1X = 7
s = 2X
4 - 7 - 3 X -X X BABA ===−
121
2.235(2)(1)SSS222
B2ABA
= −−≠
==+=+=–Correto
Incorreto
Estatística Aplicada Representação Gráfica:Ramo-e-folhas
x
Ramos x x Folhas
x x x x x
x x x
81 113 108 74 79 78 90 93 105 109 93
106 103 100 100 100 101 101 101 95 90 94
90 91 92 93 87 89 78 89 85 94 86
Ex.:
graficos.mtw
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br52
11 3
10 8 5 9 6 3 0 0 0 1 1 1
9 0 3 3 5 0 4 0 1 2 3 4
8 1 7 9 9 5 6
7 4 9 8 8
11 3
10+ 8 5 9 6
10- 3 0 0 0 1 1 1
9- 0 3 3 5 0 4 0 1 2 3 4
8 1 7 9 9 5 6
7 4 9 8 8
Estatística Aplicada
Stem-and-Leaf Display: folha_ramo
Stem-and-leaf of Ramo N = 33Leaf Unit = 1.0
1 7 44 7 889
Obtendo o seguinte Folha
e Ramo.
Compare os resultados
Ramo-e-folhas
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br53
4 7 8895 8 110 8 56799(10) 9 000123334413 9 512 10 00011135 10 56891 11 3
resultados fazendo um Histograma.
O que representa tal
coluna?
Coluna folha_ramo
Estatística Aplicada
Exercício no Minitab: Faça o gráfico abaixo a partir dos dados seguintes.
Plot
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br54
graficos.mtw
Estatística Aplicada
Faça o gráfico bidimensional a partir dos dados a seguir
<Marginal Plot>
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br55
graficos.mtw
Estatística Aplicada
<Stat> <Quality Tools>
<Run Chart>
•Column=Tempo na fila
•Subgroup Size=1
Runchart
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br56
� Os dados representam uma série temporal
� Tal gráfico é útil para ver a estabilidade de um processo.
� Control Chart é Melhor!
runchart.mtw
Estatística Aplicada
•Identifica Diversos tipos de variação
•A análise de efeitos é similar em DOE
•Permite identificar interações
•Não é o mesmo que Estatística Multivariada
23,50,5
1,0
TempoSinterUse os
Dados a seguir
Multi-Vari
Sinter.mtw
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br57
15 18 21
17,5
18,5
19,5
20,5
21,5
22,5
TipoMetal
For
ça1,0
2,0 Dados a seguir
<Stat>
<Quality Tools>
<Multi-Vari>:
Response: Força (y)
Factor1: TempoSinter (x1)
Factor2: TipoMetal (x2)
Estatística Aplicada Multi-Vari – Monte a Tabela
x1 x2 y x1 x2 y x1 x2 y0,5 15 23 1 15 22 2 15 180,5 15 20 1 15 20 2 15 180,5 15 21 1 15 19 2 15 16
Nível 0,5 Nível 1,0 Nível 2,0
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br58
0,5 15 21 1 15 19 2 15 160,5 18 22 1 18 24 2 18 210,5 18 19 1 18 25 2 18 230,5 18 20 1 18 22 2 18 200,5 21 19 1 21 20 2 21 200,5 21 18 1 21 19 2 21 220,5 21 21 1 21 22 2 21 24
Estatística Aplicada
2 - DISTRIBUIÇÕES DE PROBABILIDADE
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br59
Estatística Aplicada
1 - Motivação2 - Distribuições de Probabilidade
Sumário
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br60
• Distribuições Contínuas• Distribuição Discretas
Estatística Aplicada Motivação
•O reconhecimento da importância dos processos estocásticos;
•A consideração da “Incerteza” associada aos eventos;
•Exatidão na modelagem matemática;
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br61
•Exatidão na modelagem matemática;
•Correta determinação da probabilidade de ocorrência dos fenômenos;
•A otimização de processos industriais e de serviços através de técnicas de SIMULAÇÃO.
Estatística AplicadaDISTRIBUIÇÕES DE PROBABILIDADE
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br62
Estatística AplicadaFormatos de Distribuições
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br63
Estatística Aplicada
( ) 0≥xf
( ) 1=∫∞
∞−xf
( ) b
f(x) => fdp
Função densidade de probabilidade
Área da curva é unitária
Probabilidade está associada a área
Distribuições Contínuas de Probabilidade
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br64
( ) ∫ >=≤≤b
aabdxxfbXaP )( )(
Algumas Distribuições Contínuas:
Normal Uniforme Chi-square Fisher(F) Student(t)
Beta Cauchy Exponential Gamma Laplace Logistic Lognormal Weibull
associada a área
Estatística Aplicada
f(x)
a) f x dx( )−∞
∞∫ = 1
b) f(x) ≥ 0
c) lim ( ) lim ( )x x
f x f x→ ∞ → − ∞
= =0 0 e
d) f(µ + x) = f(µ - x)
Distribuição Normal
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br65
e) M áx f(x) o co rre em x = µ
f) O s pontos de inflexão são x = µ ± σ
g) E(X) = µ
h) Var(X) = σ 2
xµ µ+σ
( )2
21
2
1)(
−−= σ
µ
πσ
x
exf
Estatística Aplicada Distribuição Normal
Pouca Utilidade Prática
Retorna a probabilidade Acumulada
Retorna a Variável quando é dada a probabilidade
acumulada
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br66
Exemplo
X:N(100,5)P(X<=95)=0,1587
Estatística Aplicada
µµµµ
Distribuição Normal
);(: σµNX
Se a dimensão de uma peça segue uma distribuição Normal X: N(80,3) qual a Probabiliade de ter uma peça defeituosa de
acordo com a figura?
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br67
1σσσσ
T LSE
p(d)
3σσσσUsed With Permission
6 Sigma Academy Inc. 1995
Estatística Aplicada
Exercício 1:
Em uma população onde as medidas tem Média 100 e Desvio Padrão 5, determine a probabilidade de se ter uma medida:
a) Entre 100 e 115
b) Entre 100 e 90
Dica:
Crie uma coluna com
Exercício 2:
Em uma população onde as medidas tem Média 100 e Desvio Padrão 5, determine
Distribuição Normal
Use: <Calc><Probability Distribution><Normal>
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br68
b) Entre 100 e 90
c) Superior a 110
d) Inferior a 95
e) Inferior a 105
f) Superior a 97
g) Entre 105 e 112
h) Entre 89 e 93
i) 98
coluna com os valores 100 115...98 no Minitab
Crie uma coluna com
os valores 0,74...0,05 no
Minitab
Média 100 e Desvio Padrão 5, determine os valores k tais que se tenha a probabilidade:
a) P(X>k)=0,26
b) P(X<k)=0,32
c) P(100-k<100<100+k)=0,47
d) P(x<100-k)+P(x>100+k)=5%
Estatística AplicadaProbabilidades e Escores padronizados (z)
Exemplo
Um cliente temum portfólio de investimentos cuja média é US$500.000 com desvio padrão de US$ 15.000. Determine aprobabilidade de que o valor de seu portfólio esteja entre US$485.000 e US$ 530.000.
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br69
σµ−= i
i
xz
Estatística AplicadaProbabilidades e Escores padronizados (z)
Exemplo
Se X temdistribuição normal N(15, 4), encontre aprobabilidade de X ser maior que 18.
Exemplo
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br70
Exemplo
Uma companhia produz lâmpadas cuja vida segueuma distribuição normal commédia 1.200 horas edesvio padrão de 250 horas. Escolhendo-sealeatoriamente uma lâmpada, qual é aprobabilidade de sua durabilidade estar entre 900 e1.300 horas?
Estatística AplicadaProbabilidades e Escores padronizados (z)
Exemplo
Um grupo de estudantes obtémnotas que são normalmentedistribuídas commédia 60 e desvio padrão 15. Que proporçãodos estudantes obtiveramnotas entre 85 e 95?
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br71
Exemplo
No caso da prova do exercício anterior, determine anota acima da qual estão 10% dos melhores alunosda classe.
Estatística AplicadaProbabilidades e Escores padronizados (z)
Exercício
É sabido que a quantidade anual de dinheiro gasto emlivros poralunos de uma universidade, segue uma distribuição normal commédia $380 e desvio padrão de $50.
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br72
Qual é a probabilidade de que um aluno escolhido aleatoriamente no campus gaste mais do que $ 360 por ano?
Estatística AplicadaProbabilidades e Produção
Exercício
A demanda antecipada de consumo de umcerto produto érepresentada por uma distribuição normal commédia 1.200unidades e desvio padrão de 100.
a) Qual é a probabilidade de que as vendas
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br73
a) Qual é a probabilidade de que as vendas excedam 1.000 unidades?
b) Qual é a probabilidade de que as vendas estejam entre 1.100 e 1300 unidades?
c) A probabilidade de se vender mais do que k unidades é de 10%. Determine k.
Estatística AplicadaProbabilidades e Investimentos
Exercício
Um portfólio de investimentos contémações de umgrande númerode empresas. Ao longo do último ano as taxas de retorno das açõesdessas corporações seguiramdistribuição normal commédia de12,2% e desvio padrão de 7,2%.
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br74
a) Para que proporção de empresas o retorno foi maior que 20%?
b) Para que proporção de empresas o retorno foi negativo?
c) Que proporção de empresas tiveram retornos entre 5% e 15%?
Estatística AplicadaProbabilidades e Investimentos
Exercício
Considere dois investimentos. Emambos, a taxa de retorno segueuma distribuição normal, commédia e desvio padrão conhecidosconforme tabela a seguir. Deseja saber qual dos investimentos émais provável de produzir retornos de no mínimo 10%. Queinvestimentodeveriaserescolhido?
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br75
investimentodeveriaserescolhido?
Média Desvio
Investimento A 10,4 1,2
Investimento B 11,0 4,0
Estatística AplicadaProbabilidades e Finanças
Exercício
Um portifólio de investimentos contémações de umgrande númerode empresas. Ao longo do último ano as taxas de retorno das açõesdessas corporações seguiramdistribuição normal commédia de12,2% e desvio padrão de 7,2%.
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br76
a) Para que proporção de empresas o retorno foi maior que 20%?
b) Para que proporção de empresas o retorno foi negativo?
c) Que proporção de empresas tiveram retornos entre 5% e 15%?
Estatística Aplicada Distribuição Uniforme
F(x)
( ) ∫+∞
∞−
== dxxxfXE )(µ
1)()(.
1
=−===
xfabhbA
A
( ) ( )∫+∞
∞−
−== dxxfxXVar )(22 µσ
1)(xf =
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br77
a b
( ) ( ) ( )12
1
2)(
2222 ab
dxab
baxdxxfxXVar
−=
−
+−=−== ∫∫+∞
∞−
+∞
∞−
µσ
( )2
1 badx
abxXE
b
a
+=−
== ∫µ
)(
1)(
abxf
−=
Estatística Aplicada
F(x)
0,06
0,05
0,04
0,03
0,02
0
Função Exponencial
Distribuição Exponencial
( ) ixexf λλ −= .
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br78
x
140120100806040200
0,02
0,01
0,00 0
( ) ( )2
0
222 11
)(λ
λλ
µσ λ =
−=−== ∫∫+∞
−+∞
∞−
dxexdxxfxXVar x
( )λ
λµ λ 1
0
=== ∫∞
− dxexXE x
Estatística Aplicada
1,0
0,8
0,6
0
Variable
C7 * Weibull 1 1
C8 * Weibull 3,4 2
C9 * Weibull 4,5 6.2
Weibull
Distribuição Weibull
( )β
δβ
δδβ
−−
=x
ex
xf1
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br79
X-Data
Y-Data
1086420
0,6
0,4
0,2
0,0 0
Estatística AplicadaDistribuição Uniforme
Exemplo
A espessura de umcomponente é uma variável aleatóriauniformemente distribuída entre os valores 0,95 a 1,05 cm.
a) Determine a proporção de componentes que excedem a espessura de 1,02 cm.
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br80
que excedem a espessura de 1,02 cm.
b) Qual é o valor de espessura que é excedida por 90% dos componentes?
c) Qual é o valor da espessura abaixo da qual estão 75% dos componentes?
Estatística AplicadaDistribuição Uniforme
Exemplo
Suponha que uma variável aleatória seja uniformemente distribuídano intervalo [1.5; 5.5].
a) Determine a probabilidade de x ser menor que 2,5.
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br81
que 2,5.
b) Qual é a probabilidade de x ser maior que 3,5?
c) Determine o valor de k, de modo que a probabilidade de x ser maior quek seja de 40%
Estatística AplicadaDistribuição Exponencial
Exemplo
Considere o seguinte conjunto de dados: [26, 22, 21, 19, 8, 4].Ajustando estes dados por distribuição exponencial, determine:
a) A probabilidade de uma v.a. x ser menor
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br82
a) A probabilidade de uma v.a. x ser menor que 10.
b) A probabilidade de uma v.a. x ser menor que 5.
c) P(5< x < 10).
Estatística AplicadaDistribuição Exponencial
Exemplo
Suponha que X temuma distribuição exponencial commédia iguala 10. Determine:
a) A probabilidade de uma v.a. x ser maior
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br83
a) A probabilidade de uma v.a. x ser maior que 10.
b) A probabilidade de uma v.a. x ser menor que 20.
c) Encontre k tal que P(X<k)=0,95
Estatística AplicadaDistribuição Exponencial
Exemplo
O tempo entre as chamadas telefônicas para uma loja desuprimentos é distribuído exponencialmente comum tempo médiode 15 minutos entre as chamadas.Determine:
a) A probabilidade de não haver chamadas por um período de 30 minutos.
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br84
período de 30 minutos.
b) A probabilidade de que no mínimo uma chamada chegue dentro do intervalo de 10 minutos.
c) A probabilidade de que a primeira chamada chegue entre 5 e 10 minutos.
d) O intervalo de tempo, tal que exista uma probabilidade de 90% de haver no mínimo uma chamada no intervalo.
Estatística AplicadaDistribuição Exponencial
Exemplo
O tempo entre as chegadas de ônibus a uma estação rodoviária édistribuído exponencialmente, commédia10 min. Determine:
a) x, tal que a probabilidade de vc esperar mais de x minutos seja de 10%.
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br85
b) x, tal que a probabilidade de vc esperar menos de x minutos seja de 90%.
c) x, tal que a probabilidade de vc esperar menos de x minutos seja de 50%.
Estatística AplicadaDistribuição Exponencial
Exemplo
O tempo entre a chegada dee-mails em seu computador édistribuído exponencialmente commédia igual a duas horas.Determine:
a) Qual a probabilidade de vc não receber uma mensagem durante o período de
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br86
uma mensagem durante o período de duas horas?
b) Se vc não tiver recebido uma mensagem na últimas quatro horas, qual será a probabilidade de vc não receber mensagens nas próximas duas horas?
Estatística AplicadaDistribuição Exponencial
Exemplo
O tempo entre as chamadas para o escritório do CEOde umacorporação é exponencialmente distribuído commédia igual a10minutos. Determine:
a) Qual a probabilidade de não haver
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br87
a) Qual a probabilidade de não haver chamadas dentro de meia hora?
b) Se a secretária do CEO se ausentar por 5 minutos, qual será probabilidade dela não atender (e repassar) uma “importante” ligação para o chefe?
Estatística Aplicada
( ) 0≥ixf
( ) 11
=∑=
n
iixf
Algumas Distribuições Discretas
A Distribuição Binomial
A Distribuição de Poisson
A Distribuição Geométrica
A soma das frequências é
unitária
Distribuição Discretas de Probabilidade
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br88
1=i
( ) ( )ii xfxXP ==A Distribuição Geométrica
A Distribuição de Pascal
A Distribuição Multinomial
A Distribuição Hipergeométrica A probabilidade é a frequência
Estatística Aplicada
Use o programa Statdisk
<Analysis>
Distribuição Binomial
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br89
<Analysis>
<Probability Distribution>
<Binomial Distribution>
Observe em <Options>os valores acumulados
Estatística Aplicada
E(X) = np e Var (X) = npq
( ) ( )valores outrospara
0
,...2,1,0)1(!!
!
=
=−
−== − nxpp
xnx
nxXP xnx
Distribuição Binomial
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br90
Ex.: A probabilidade de umteste “Burn in / Burn out”queimar umcomponente eletrônico é 0,2 (p). Colocando-setrês (n) componentes sob teste, qual a probabilidade de quepelo menos dois deles (x) se “queime”?
Estatística Aplicada
E = { QQQ, QQN, QNQ, NQQ, NNQ, NQN, QNN, NNN}ondeQ eN representam a queima ou não do componente
x
0
1
P(x)
P{ NNN} = P(X = 0) = q3 = (0.8)3
P{ NNQ} + P{ NQN} + P{ QNN} = P(X = 1) = 3pq2 = 3(0.2)(0.8)2
X: Número de Queimas Q
Distribuição Binomial
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br91
1
2
3
P{ NNQ} + P{ NQN} + P{ QNN} = P(X = 1) = 3pq2 = 3(0.2)(0.8)2
P{ QQN} + P{ QNQ} + P{ NQQ} = P(X = 2) = 3p2q = 3(0.2)2(0.8)
P{ QQQ} = P(X = 3) = p3 = (0.2)3
P(X ≥ 2) = P(X=2) + P(X= 3) = 3p2q + p3 = 0.104 = 10,4%
Estatística Aplicada
Exercício:
Suponha que uma válvula eletrônica, instalada em determinado circuito, tenha probabilidade 0.2de funcionar durante o tempo de garantia. São ensaiadas 20 válvulas.
a) Qual a probabilidade de que delas, exatamentek,funcionemdurante o tempo de garantia (k = 0, 1, 2, ...20)?
Distribuição Binomial
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br92
20)?b) Qual a probabilidade de que 4 funcionemdurante o
tempo de garantia?c) Qual o número médio e o desvio padrão de válvulas que
irão funcionar durante o tempo de garantia?
X ≡ Número de válvulas que funcionam durante o tempo de garantia.p = 0.2X = 0, 1, 2, ... 20
Estatística Aplicada
P(X = x)
com média E(x) = np = 20.(0.2) = 4
e desvio padrão npq = 1788.
E(X) = np e Var (X) = npq
( ) valoresoutros para 0
,2,1,0 )1(
=
=−
== − nxpp
x
nxXP xnx
L
Distribuição Binomial
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br93
x0 1 2 3 4 5 6 7 8 9 18
e desvio padrão npq = 1788.
( ) ( ) kk
kkXP −
208.02.020
=)=(
Estatística Aplicada
Exercício: Complete a tabela referente a Distribuição Binomial a seguir:
n p k P(X=k) F(k) P(X>k) P(X<k) E(x)
4 0,2 2
8 0,5 4
Distribuição Binomial
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br94
8 0,5 4
12 0,7 3
20 0,8 12
100 0,6 63
Estatística Aplicada
n p k P(X=k) F(k) left k
P(X>k) right
P(X<k) left k-1
E(x) n.p
4 0,2 2 0,1536 0,97 0,0272 0,8192 0,8
8 0,5 4 0,2734 0,3633 0,0899 4
Distribuição Binomial
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br95
8 0,5 4 0,2734 0,3633 0,0899 4
12 0,7 3 0,0015 0,0017 0,9983 0,0002 8,4
20 0,8 12 0,0222 0,9679 0,0099 16
100 0,6 63 0,0682 0,2386 0,6932 60
Estatística Aplicada Distribuição Hipergeométrica
Ex.: Pequenos motores elétricos são expedidos emlotes de50unidades. Antes que uma remessa seja aprovada, uminspetorescolhe5 desses motores e os inspeciona. Se nenhumdosmotores inspecionados for defeituoso, o lote é aprovado. Se umou mais foremverificados defeituosos, todos os motores daremessasãoinspecionados. Suponhaqueexistam,de fato, três
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br96
remessasãoinspecionados. Suponhaqueexistam,de fato, trêsmotores defeituosos no lote. Qual a probabilidade de que ainspeção 100% seja necessária?
P X P X( ) ( ) .≥ = − = = −
≅1 1 0 1
3
0
47
5
50
5
0 28
Estatística Aplicada Distribuição Hipergeométrica
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br97
)0(1)1( =−=≥ XPXP
Estatística Aplicada
Ex.: Em uma experiência de laboratório passam, emmédia, porum contador, quatro partículas radioativas por milissegundo.Quala probabilidadedeentraremno contadorseispartículasem
npnp
Xk
ekXP
k
====
===−
µσµλ
λλ
2,1, , L0!
)(
Distribuição de Poisson
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br98
Quala probabilidadedeentraremno contadorseispartículasemdeterminado milissegundo?
Utilizando a distribuição de Poisson comλ = 4, então:
1042.0!6
4)6(
64
===−e
XP
No Minitab use: <Calc> <Probability Distribution> <Poisson>
Estatística Aplicada
Use o programa Statdisk
<Analysis>
Distribuição de Poisson
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br99
<Analysis>
<Probability Distribution>
<Poisson Distribution>
Observe em <Options>os valores acumulados
Estatística Aplicada
Exercício: Complete a tabela referente à Distribuição Poisson:
Média k P(X=k) F(k) P(X>k) P(X<k)
4 2 0,14 0,23 0,76 0,091
Distribuição de Poisson
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br100
8 4
12 3
20 12
100 63
Estatística Aplicada
Ex.: Chegam, emmédia, 10 navios-tanque por dia a ummovimentadoporto, que temcapacidade para 15desses navios. Qual a probabilidadede que, emdeterminado dia, umoumaisnaviostanquetenhamdeficar ao
Distribuição de Poisson
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br101
maisnaviostanquetenhamdeficar aolargo, aguardando vaga?
Temos aqui que, paraλ = 10:
0487.09513.01)15(1)15( =−=≤−=> XPXP
Estatística Aplicada
Ex.: Uma central telefônica recebe emmédia300 chamadas por hora e pode processar nomáximo 10 ligações por minuto. Estimar aprobabilidade de a capacidade da mesa serultrapassada.
Distribuição de Poisson
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br102
Temos agora:λ = 300/60 = 5 chamadas/minuto emmédia
%4,1014.0986.01)10(1)10( ==−=≤−=> XPXP
Estatística Aplicada Distribuição de Poisson
Aproximação da Distribuição Binomial
P X kn
kp pk n k( ) ( )= =
− −1
Seja X uma v.a.distribuída binomialmente com parâmetro p(baseado em n repetições de um experimento). Isto é,
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br103
P X kk
p p( ) ( )= = −1
!)(lim
k
ekXP
k
n
λλ−
∞→==
Admita-se que quando n → ∞, p →0 e np → λ.Nessas condições é possível demonstrar uma importante consideração:
Estatística Aplicada
Ex.: A probabilidade de umindivíduo ter reação negativa a certainjeção é de 0,001. Determinar a probabilidade de que de 2.000indivíduos injetados, exatamente 3 tenhamreação negativa.
Usando a distribuição binomial comn = 2.000 ep = 0.001 temos:
2000
Distribuição de Poisson
Aproximação da Distribuição Binomial
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br104
19973 )999.0()001.0(3
2000)3(
==XP
O cálculo desses números dá origem a considerável dificuldade. Pela aproximação de Poisson temos:
1804.0!3
2)3(
32
===−e
XP2)001.0)(2000( === npα
Estatística Aplicada
Ex.: Consideremos umexperimento binomial comn = 200, p = 0.04emque se pede a probabilidade de, no máximo, 5 sucessos.
O cálculo direto é impraticável, usando a Distribuição Binomial
Aproximação da Distribuição Binomial
Distribuição de Poisson
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br105
kk
k kXP −
=∑
=≤ 5
5
0
)96.0()04.0(200
)5(
λ = np= (200) (0.04) = 8
P(X ≤ 5) = 0.1912 Obtido de Tabela (ou micro)
Estatística Aplicada
Ex.: A probabilidade de umindivíduo ter reação negativa a certainjeção é de 0,001. Determinar a probabilidade de que de 2.000indivíduos injetados, mais de quatro tenhamreação negativa.
Distribuição de Poisson
2)001.0)(2000( === npα
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br106
( ) ( ) ( ) ( ) ( ) ( )
0526.0122
4
6
8
24
161
!0
2
!1
2
!3
2
!4
21
]01234[14
2
0223242
=
++++−=
+++−=
=+=+=+=+=−=>
−
−−−−
e
eeeeXPXPXPXPXPXP
2)001.0)(2000( === npα
Estatística Aplicada
3 - Estimação de Parâmetros e Intervalos de Confiança
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
Idéia Central:Criar e avaliar intervalos de Confiança para dados amostrais.
Estimação de Parâmetros e ICEstimação de Parâmetros e IC
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br108
Tópicos abordados:• Inferência Estatística• O Teorema Central do Limite • Intervalos de Confiança• A Distribuição t de Student.
Estatística Aplicada
População
Amostragem
Estimação de parâmetros
e escolha da Distribuição
Inferência
Estatística
Ex.: Para a distribuição normal os
parâmetros são
Estimação de Parâmetros -Noções
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br109
e escolha da Distribuição
Cálculo de Probabilidades
(Usando a Distribuição acima)
Estatística
Informação para
tomada de decisão
parâmetros são µ e σ2.
Os termos populaçãoe
distribuição são equivalentes.
Estatística AplicadaNomenclatura
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br110
Estatística Aplicada
“Para uma populaçãonão normal commédiaµ edesvio padrão σ, a distribuição da médiaamostral para amostras de tamanhonsuficientemente grande é aproximadamentenormalcom médiaµ e desviopadrão ,
X
nσ
O Teorema Central do Limite
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br111
normalcom médiaµ e desviopadrão ,isto é:
~ N : (0,1)”
nσ
n
X
σµ−=Ζ
Ou seja:
Se X:(µ, σ) então a distribuição amostral de é N(:(µ, ) X nσ
Estatística Aplicada
“Para uma população normal com média µ edesvio padrãoσ, a média amostral para amostrasde tamanho n suficientemente grande éaproximadamente normal commédia µ e desviopadrão , isto é:
X
nσ
TCL
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br112
~ N : (0,1)”n
X
σµ−=Ζ
Ou seja:
Se X:N(µ, σ) então a média amostral de é N:(µ, ) X nσ
nσErro Padrão = Standard Error=SE=
Estatística Aplicada
0.95
Consideremos uma população normal com média µ, desvio padrão σ e uma amostra dessa população.
n
uX
σ−
~ N : (0,1)
Pelos resultados do Teorema do
Fixando α em 0.05, ou seja, 1-α=0.95,
95.0)96.196.1( =<<− ZP
%)95:(µIC= ... para Sigma conhecido
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br113
z
X
-1.96 0 1.96
0.0250.025
0.95Pelos resultados do Teorema do Limite Central
Estatística Aplicada
População normal com média µ e desvio padrão σ
n
uX
σ−
~ N : (0,1)
Pelos resultados do TCL: α : Nível de significância
1- α: Nível de confiança
95.0)96.196.1( =<<− ZP
Confiança e Significância
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br114
nσ
95.096.196.1 =
<−<−
n
XP
σµ
[ ] 95.0)(96.1)(96.1 =+<<− nXnXP σµσ
[ ] ( ) ( )[ ]nXnX σσθθ 96.1; 96.1ˆ;ˆ10 +−= %)95:(µIC=
Estatística Aplicada
Ela não significa que aprobabilidade doparâmetroµ cair dentrode um intervalo
[ ] 95.0)(96.1)(96.1 =+<<− nXnXP σµσ
IC - Interpretação
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br115
θ
especificado seja igual a0.95. µ sendo oparâmetro, está ou não,dentro do intervalo.
“0.95 é a probabilidade de que um intervalo aleatório contenha µ .”
Estatística Aplicada
( ) ( )[ ]nStXnStXIC 22 ; )100)1(:( αααµ +−=−
nS
Xt
)( µ−= ∑=
−−
=n
ii XX
nS
1
22 )(1
1
%)95:(µIC= ... para Sigma Desconhecido
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br116
- tα/2 0 tα/2
α/2 α/2
1-α
t
nS
Estatística Aplicada (Distribuição t de Student)
nS
Xt
)( µ−= ∑=
−−
=n
ii XX
nS
1
22 )(1
1
“D istribuição t de Student”, com v
graus de liberdade
v = n - 1Normal
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br117
v = n - 1Tal distribuição é
usualmente tabelada para alguns valores de v e α
Normal
hv(t)
t
Estatística AplicadaIntervalos de Confiança para PROPORÇÕES
Exemplo
Uma amostra aleatória de 85 camisas, 10 apresentaramalgumtipode defeito (furos, manchas, costuras soltas etc). Construa umintervalo de confiança de 95% para a proporção populacional dedefeituosos.
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br118
( ) ( )n
ppZpp
n
ppZp
ˆ1ˆˆ
ˆ1ˆˆ 22
−+≤≤−− αα
Usando a aproximação pela NORMAL.
Estatística Aplicada
ExemploUm candidato político deseja avaliar se as
suas intenções de votos são maiores do que as do concorrente, com uma margem de pelo menos 5%. Possui, na última pesquisa realizada, 35% da preferência
Tamanho de Amostra
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br119
pesquisa realizada, 35% da preferência do eleitorado.
Admitindo a = 1% e b = 5%, qual o tamanho de amostra necessária?
Estatística Aplicada
Power and Sample Size
selecionar: Stat > Power and Sample Size > 2 Proportions
“Proportion 1 values”: < 0,35 >
“Power values”: < 0,95 >
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br120
“Proportion 2”: < 0,30 >
selecionar: Options
marcar “Greater Than”
“Significance level”: < 0,01 >
OK
OK
Teste de Hipóteses
44--Teste Teste de de HipótesesHipóteses
BA µµ =:H0
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br
Rejeita-se H0
P_value<0.05
BA0
A
B
Teste de Hipóteses
A perda em um processo caiu de uma proporção de 10% para 5%.
Dois operadores tem em média tempos de 34 e 40 minutos, respectivamente para desenvolver uma atividade.
São diferenças Estatisticamente Significantes?
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br
respectivamente para desenvolver uma atividade.
Quanto maior o número de horas-extras maior a insatisfação dos trabalhadores (correlaçãode 0.40)
Teste de Hipóteses
• Procedimentos Gerais• Teste de média Z para 1 amostra• Teste de média t para 1 amostra• Teste de variância para 2 amostras
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 123
• Teste de variância para 2 amostrasA Distribuição de Fisher
• Teste de média t para 2 amostras• Teste de média para Observações
Emparelhadas• Teste de proporções
Teste de Hipóteses
•Na afirmação: “Uma pessoa é considerada inocente até que se prove o contrário pois é um erro maior condenar um inocente do que libertar um culpado.”, defina:
•Erros Tipo I e Tipo II
•Hipóteses Nula e Alternativa
Erros e Hipóteses
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 124
•Hipóteses Nula e Alternativa
Situação Real
Ho H1
Ho Correta Erro II
β
Decisão
H1 Erro I
α
Correta
RC
Teste de Hipóteses
H : Dados Normais H: Dados não normais
Paramétricos
Não Paramétricos
Testes Paramétricos e Não Paramétricos
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 125
Ho: Dados Normais H1: Dados não normais
P_value
Teste de Hipóteses Algoritmo Básico de Implementação
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 126
No Minitab: Análise do p-value !
Teste de Hipóteses
Teste de dois tipos de Amplificadores
Amostra de 25 amplificadores
Exemplo de Algoritmo Básico
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 127
Teste de Hipóteses Exemplo de Algoritmo Básico
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 128
4º passo: Cálculo da média amostral com base nas 25 amostras
5º passo: Caso a média amostral pertença à região crítica, rejeita-se H0 e aceita-se H1 (Dizemos que os amplificadores são do tipo “Não Americano”). Em caso contrário, aceita-se H0.
Teste de Hipóteses
Ver Programa John Hattie e
Teste_Hipóteses (flash)
Marcianos ou Venusianos?
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 129
Teste de Hipóteses
Exemplos:
• Duas linhas de produção supostamente idênticas estão apresentando resultados diferentes. Como confirmar isso?
• A variabilidade de um processo é maior
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br
• A variabilidade de um processo é maior que outro. Temos certeza?
• Os dados estão normalmente distribuídos?
• Como saber estatisticamente se dois funcionários tem o mesmo desempenho?
Teste de Hipóteses
Quick Guide 1/2
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br
Teste de Hipóteses
Quick Guide 2/2
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br
Teste de Hipóteses
Exemplo
A Resistência ao Estufamento das latas para a inspeção final deve ser maior que 90 psi. Tal resistência obedece a uma distribuição normal com desvio padrão de 1 psi. As medidas da
Teste de média Z para 1 amostra
Processo de fabricação de latas
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 133
com desvio padrão de 1 psi. As medidas da Resistência para uma determinada linha/turno estão dadas na planilha Resistência.MTW
Teste a Hipótese de que as medidas da Resistência ao Estufamento estão dentro do limite de especificação. (Prove que as medidas são maiores que 90)
Resistência.MTW
Teste de Hipóteses
H é geralmente o que se
<1-Sample Z>
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 134
H1 é geralmente o que se deseja provar
Geralmente nãoé fornecido
Teste de Hipóteses
One-Sample Z: Resistencia
Test of mu = 90 vs mu > 90
The assumed sigma = 1
H0 H1
Valor dentro da Região Crítica
Uma boa regra: Quando P_value< 0,05, rejeita-se Ho
1-Sample Z: Resultados
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 135
The assumed sigma = 1
Variable N Mean StDev SE MeanResistencia 15 91,111 0,834 0,258
Variable 95,0% Lower Bound Z PResistencia 90,686 4,30 0,000
Rejeita-se H0Região Crítica
Região Crítica
Teste de Hipóteses
6
5
4
Histogram of Resistencia(with Ho and 95% Z-confidence bound for the mean, and s igma = 1,0000)
A média pertence a região crítica para
rejeição de Ho
1-Sample Z: Histograma
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 136
93,092,592,091,591,090,590,089,5
3
2
1
0
Resistencia
Freq
uenc
y
[X_
Ho
Teste de Hipóteses
Exemplo
A especificação da Largura da Flange das latas para a inspeção final é definida como 0.082’’+/- 0.010’’ e obedece a uma distribuição normal. As medidas da Largura da Flange para
Teste de média t para 1 amostra
Processo de fabricação de latas
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 137
normal. As medidas da Largura da Flange para uma determinada linha/turno estão dadas na planilha.
Teste a Hipótese de que as medidas da Largura da Flange estão dentro do limite de especificação. (Prove que os valores são em média maiores que 0,072”e menores que 0,092”) flange.MTW
Teste de Hipóteses
Teste 1
<1-Sample t>
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 138
Teste 2
Teste de Hipóteses
One-Sample T: Largura Flange
Test of mu = 0,092 vs mu < 0,092
Variable N Mean StDev SE MeanLargura Flan 15 0,083522 0,003446 0,000890
Variable 95,0% Upper Bound T P
H0 H1
Rejeita-se
1-Sample t: Resultados
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 139
Largura Flan 0,085089 -9,53 0,000
One-Sample T: Largura Flange
Test of mu = 0,072 vs mu > 0,072
Variable N Mean StDev SE MeanLargura Flan 15 0,083522 0,003446 0,000890
Variable 95,0% Lower Bound T PLargura Flan 0,081955 12,95 0,000
H0 H1
Rejeita-se H0
Rejeita-se H0
Teste de Hipóteses
5
4
3
2
1
0
Freq
uenc
y
Histogram of Largura Flange(with Ho and 95% t-confidence bound for the mean)
[X_Histogram of Largura Flange
(with Ho and 95% t-confidence bound for the mean)
O Teste t é usado para comparar médias quando o desvio padrão da
população é desconhecido
1-Sample t: Histogramas
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 140
0,0910,0890,0870,0850,0830,0810,079
Largura Flange
[
0,0910,0890,0870,0850,0830,0810,079
5
4
3
2
1
0
Largura Flange
Freq
uenc
y
(with Ho and 95% t-confidence bound for the mean)
]X_
Ho
O teste t é usado na maioria dos casos. O termo t deve-se ao
estatístico Gossetque criou a distribuição t de
Student.
Teste de Hipóteses
Exemplo
Dois tipos de Bico de Aplicação de verniz (Tipo I e Tipo II) foram avaliados. Deseja-se investigar o efeito desses dois Bicos com relação ao Peso do Verniz (em mg)
Teste de Variânciapara 2 amostras
Processo de fabricação de latas
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 141
medido após o processo. Tais medidas são dadas na planilha ao lado.
As variâncias são iguais? (Teste a Hipótese nula de que os dois bicos produzem um peso de Verniz com mesma variância,ou seja, mesma dispersão).
Peso_Verniz.MTW
Teste de Hipóteses
Usando 2 Variances
<2 Variances>
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 142
Obs.: Teste o Procedimento
Stack Columns
Teste de Hipóteses
0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1
95% Confidence Intervals for Sigmas
F-Test Levene's Test
Factor Levels
Verniz_tipo1
Verniz_tipo2
Test for Equal Variances
Prefira sempre pois independe da distribuição
2 Variances – Levene’s Test
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 143
Verniz_tipo2
Verniz_tipo1
110.0 110.5 111.0 111.5 112.0 112.5
Boxplots of Raw Data
F-Test
Test Statistic: 2.738
P-Value : 0.150
Levene's Test
Test Statistic: 1.505
P-Value : 0.236
distribuição dos dados
As variâncias são iguais!
Teste de Hipóteses
Probability Density Function
y=F(x,10,10)
1.125
1.500A Distribuição
F de Fisher
O Teste F testa se duas Variâncias são
2 Variances – Teste F de Fisher
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 144
0.000
0.375
0.750
0 1 2 3 4
O Teste F testa se duas Variâncias são iguais. Em caso de Variâncias
idênticas, F=1. Tal distribuição é geralmente utilizada para cálculos
manuais pois é tabelada!
Teste de Hipóteses
USANDO Test for Equal Variances (melhor!!!)
Level1 Verniz_tipo1
Level2 Verniz_tipo2
ConfLvl 95.0000
Bonferroni confidence intervals for standard deviations
Lower Sigma Upper N Factor Levels
<Anova> <test for equal variances>
Esse método é melhor pois pode testar mais que dois conjuntos de dados.
<Anova> <Test for equal variances>
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 145
0.358564 0.548160 1.10380 10 Verniz_tipo1
0.216713 0.331303 0.66713 10 Verniz_tipo2
F-Test (normal distribution)
Test Statistic: 2.738
P-Value : 0.150
Levene's Test (any continuous distribution)
Test Statistic: 1.505
P-Value : 0.236 (variâncias iguais)
Teste de Hipóteses
Teste de média t para 2 amostras
Exemplo: Em relação ao problema anterior, teste se as médias são diferentes. (Peso_Verniz.MTW)
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 146
Do teste de Levene
Teste de Hipóteses
Two-Sample T-Test and CI: Verniz_tipo1, Verniz_tipo2
Two-sample T for Verniz_tipo1 vs Verniz_tipo2
N Mean StDev SE Mean
Verniz_t 10 110.792 0.548 0.17
Verniz_t 10 112.205 0.331 0.10
<2-Sample t>
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 147
Verniz_t 10 112.205 0.331 0.10
Difference = mu Verniz_tipo1 - mu Verniz_tipo2
Estimate for difference: -1.413
95% CI for difference: (-1.838, -0.987)
T-Test of difference = 0 (vs not =): T-Value = -6.97 P-Value = 0.000 DF = 18
Both use Pooled StDev = 0.453Médias diferentes
Teste de Hipóteses
112.0
112.5
Boxplots of Verniz_t1 and Verniz_t2
(means are indicated by solid circles)
2-Sample t: Boxplots
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 148
Verniz_t Verniz_t
110.0
110.5
111.0
111.5
Teste de Hipóteses
Exemplo
Suspeita-se que dois funcionários estão monitorando o Manômetro do processo de Minster de uma forma desigual. Para
Teste para observações emparelhadas
Processo de fabricação de latas
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 149
uma forma desigual. Para diferentes pressões foram lidas (de uma forma emparelhada) os resultados da planilha.
Teste a Hipótese Nula de que os dois operadores tem o mesmo desempenho.
Oper_Pressao.MTW
Teste de Hipóteses <Paired t>
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 150
Teste de Hipóteses
Paired T-Test and CI: Operador 1, Operador 2
Paired T for Operador 1 - Operador 2
N Mean StDev SE Mean
Operador 1 10 194 428 135
Operador 2 10 196 428 135
Paired t: Resultados
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 151
Difference 10 -2.400 1.075 0.340
95% CI for mean difference: (-3.169, -1.631)
T-Test of mean difference = 0 (vs not = 0): T-Value = -7.06 P-Value = 0.000
Médias diferentes
Teste de Hipóteses
Boxplot of Differences(with Ho and 95% t-confidence interval for the mean)
Paired t: Boxplot
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 152
-4 -3 -2 -1 0
Differences
[ ]
X_
Ho
Teste de Hipóteses
Exemplo: Durante a Inspeção final da lata acabada a especificação define que entre 6 latas (vistas a cada hora em cada linha) 5 não devem apresentar defeitos visuais por palete. As inspeções correspondentes a 24 horas são feitas para dois dias em meses diferentes (admita que a proporção se mantenha constante ao longo dos dois dias). Temos Assim:
Teste para proporçãode 1 amostra
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 153
ao longo dos dois dias). Temos Assim:
Dia 1: 12 Defeitos Visuais em 144 Latas Inspecionadas
Dia 2: 23 Defeitos Visuais em 144 Latas Inspecionadas
Teste a Hipótese Nula de que as duas proporções atendem às especificações.
Teste de Hipóteses
Teste 2Teste 1
<1 Proportion>
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 154
Uma lata em cada 6 são defeituosas 1/6=0,166667
Teste de Hipóteses
Test and CI for One Proportion
Test of p = 0,166667 vs p > 0,166667
ExactSample X N Sample p 95,0% Lower Bound P-Value1 23 144 0,159722 0,111691 0,623
1 Proportion: Resultados
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 155
Test and CI for One Proportion
Test of p = 0,166667 vs p > 0,166667
ExactSample X N Sample p 95,0% Lower Bound P-Value1 12 144 0,083333 0,048788 0,999
Estão dentro da especificação
Teste de Hipóteses <2 Proportions>
Em relação ao exemplo anterior, Teste a Hipótese Nula de que as duas proporções são iguais.
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 156
Teste de Hipóteses
Test and CI for Two Proportions
Sample X N Sample p1 12 144 0,0833332 23 144 0,159722
Estimate for p(1) - p(2): -0,0763889
2 Proportions: Resultados
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 157
Estimate for p(1) - p(2): -0,076388995% CI for p(1) - p(2): (-0,151343; -0,00143469)Test for p(1) - p(2) = 0 (vs not = 0): Z = -1,98 P-Value = 0,047
São diferentes
Teste de Hipóteses
Suponha que uma amostra com n observações possa serclassificada em uma tabela cruzada, formada por um fator delinha e um de coluna.
Se a hipótese nula puder ser escrita como:
H0: Não há associação entre os dois atributos.
TESTES DE INDEPENDÊNCIA 2χ
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br
H0: Não há associação entre os dois atributos.
Então a freqüência esperada dentro de cada célula será:
n
CRE ji
ij =
Onde: Ri = total da linha i; Cj = total da coluna j
Teste de Hipóteses
A rejeição da hipótese nula se dará se:
( ) 2),1)(1(
1 1
2
2αχχ −−
= =∑∑ >
−= cr
r
i
c
j ij
ijijT E
EO
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br159
1 1= =i j ijE
O teste é baseado na magnitude dadiscrepância entre as quantidadesobservadas e esperadas.
Teste de Hipóteses
Método H M Total
Exemplo: De acordo com os dados da tabela abaixo,avalie se existe relação entre o método de reservade passagens e o sexo do passageiro.
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br160
Método H M Total
Agência 256 (233,5) 74 (96,5) 330
Internet 41 (58,7) 42 (24,3) 83
Toll-free 66 (70,8) 34 (29,2) 100
Total: 363 150 513
Teste de Hipóteses
A rejeição da hipótese nula se dará se:
( ) ( ) ( )8,26
2,29
2,2934...
5,96
5,9674
5,233
5,233256 2222 =−++−+−=Tχ
O valor crítico do teste será:
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br161
99,5205.0,2
2),1)(1( ==−− χχ αcr
Como o valor de teste é maior que o valor crítico, rejeitaH0. Logo, o tipo de reserva está relacionado ao sexo dopassageiro. O indício da diferença está no maior .
2celχ
Teste de Hipóteses
Gender
Exemplo: Following a presidential debate, peoplewere asked how they might vote in the forth comingelection. Is there any association between one’sgender and choice of a candidate?
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br162
GenderTotal
Candidate Male Female
A 150 130 280B 100 120 220
Total 250 250 500
Teste de Hipóteses Análise
Bidimensional
Distribuição Conjunta
A Distribuição Conjunta é usada para o estudo da associabilidade entre variáveis. Ex.: A partir de uma renda familiar podemos estimar a classe social de uma pessoa, pois sabemos da existência de dependência entre essas duas variáveis.
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 163
X Y Masculino Feminino Total
Economia 85 35 120
Administração 55 25 80
Total 140 60 200
Distribuição conjunta das freqüências das variáveis X
(Curso) e Y (Sexo)
essas duas variáveis.
Como ver a associação das variáveis na Distribuição Conjunta abaixo?
Teste de Hipóteses Ex.: Independência de Eventos
X Y Masculino Feminino Total
Economia 85 35 120
Administração 55 25 80
Total 140 60 200
Distribuição conjunta das freqüências das variáveis X
(curso) e Y (sexo)
X Y Masculino Feminino Total Distribuição conjunta das proporções
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 164
X Y Masculino Feminino Total
Economia 61% 58% 60%
Administração 39% 42% 40%
Total 100% 100% 100%
Distribuição conjunta das proporções em relação aos totais de cada coluna.Independente do sexo, 60% preferem Economia e 40% preferem
Administração
X Y Masculino Feminino Total
Economia 71% 29% 100%
Administração 69% 31% 100%
Total 70% 30% 100%
Distribuição conjunta das proporções
em relação aos totais de cada linha.Independente do Curso, 70% é Masculino e 30% é feminino
Teste de Hipóteses <Chi-Square Test>
X Y Masculino Feminino Total
Economia 85 35 120
Administração 55 25 80
Total 140 60 200
Desenvolva a análise de Independência de
Eventos para cada uma das tabelas, usando o Escola A
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 165
Minitab (Bidimensional.mtw)
<Stat> <Tables>
<Cross -Tabulation>
<Chi-Square Analysis>
X Y Masculino Feminino Total
Engenharia 100 20 120
C. Sociais 20 60 80
Total 120 80 200
Escola A
Escola B
Teste de Hipóteses Esperados e Observados
Estado Tipo de Cooperativa
Consumidor Produtor Escola Outros Total
São Paulo 214 (33%) 237 (37%) 78 (12%) 119 (18%) 648 (100%)
Paraná 51 (17%) 102 (34%) 126 (42%) 22 ( 7%) 301 (100%)
Rio G.Sul 111(18%) 304(51%) 139(23%) 48 ( 8%) 602(100%)
Distribuição conjunta das proporçõesem relação aos totais de cada linha.
ijo
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 166
Rio G.Sul 111(18%) 304(51%) 139(23%) 48 ( 8%) 602(100%)
Total 376 (24%) 643 (42%) 343 (22%) 189 (12%) 1551 (100%)
Estado Tipo de Cooperativa
Consumidor Produtor Escola Outros Total
São Paulo 156 (24%) 272 (42%) 142 (22%) 78 (12%) 648 (100%)
Paraná 72 (24%) 127 (42%) 66 (22%) 36 (12%) 301 (100%)
Rio G.Sul 144 (24%) 254 (42%) 132 (22%) 72 (12%) 602 (100%)
Total 376 (24%) 643 (42%) 343 (22%) 189 (12%) 1551 (100%)
Distribuição conjunta dos valores esperadosem relação aos totais das linhas
ijo
ije
Teste de Hipóteses
Estado Tipo de Cooperativa
Consumidor Produtor Escola Outros
São Paulo 58 -35 -64 41
Paraná -21 -25 60 -14
Rio G. Sul -33 50 7 -24
n o eij ij ij= −
Chi-Square Test
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 167
Estado Tipo de Cooperativa
Consumidor Produtor Escola Outros
São Paulo 21,56 4,50 28,84 21,55
Paraná 6,12 4,92 54,54 5,44
Rio G. Sul 7,56 9,84 0,37 8,00
( )379,17300,812,656,21
2
2 =+++=−
= ∑∑ L
j ij
ijij
i e
eoχ
( )ij
ijijij e
eon
2−=
Qui-Quadrado
Teste de Hipóteses
Estado Tipo de Cooperativa
Consumidor Produtor Escola Outros Total
São Paulo 214 (33%) 237 (37%) 78 (12%) 119 (18%) 648 (100%)
Paraná 51 (17%) 102 (34%) 126 (42%) 22 ( 7%) 301 (100%)
Rio G.Sul 111(18%) 304(51%) 139(23%) 48 ( 8%) 602(100%)
Cross Tabulation
Pedro Paulo Balestrassi | www.pedro.unifei.edu.br 168
Desenvolva a análise de Independência de Eventos para a tabela, usando o Minitab (Bidimensional.mtw)
<Stat> <Tables> <Cross Tabulation> Stacked
<Stat> <Tables> <Chi-Square> Unstacked
Rio G.Sul 111(18%) 304(51%) 139(23%) 48 ( 8%) 602(100%)
Total 376 (24%) 643 (42%) 343 (22%) 189 (12%) 1551 (100%)
Estatística Aplicada
5– ANÁLISE DE VARIÂNCIA (ANOVA)
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
• As bases da Análise de Variância• Um fator (One-way)• Dois fatores (Two-way)• Análise de Médias (ANOM)
ANOVA
Análise de Variância
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br170
• Análise de Médias (ANOM)• Balanced ANOVA
ANOVA é um Teste para Comparar Médias
(O nome é enganoso!)
Estatística Aplicada
Entendendo o significado da
ANOVA...
ANOVA - Visualmente
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br171
Estatística Aplicada
Tratamentos
Resposta
A B C
5 9 10
4 1 5
6 8 8
As médias são realmente diferentesou tudo não passa de casualidade?
As Bases da ANOVA
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br172
6 8 8
7 11 7
8 6 10
Somatório 30 35 40
Médias 6 7 8
negadoser vai sinais dos um menos Pelo:
:
1
0
===
H
H CBA µµµ
Estatística Aplicada
Passo 1: Cálculo da Variação Total
5 5-7=-2 4
4 4-7=-3 9
iX ii xXX =− 2ix
Como SS>0 é razoável imaginar que ela se compõe de variações que ocorrem Dentro
Média geral
Algoritmo: Variação Total
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br173
4 4-7=-3 9
Etc. Etc. Etc
7 0 0
10 3 9
105 0 96∑Variação Total (SS: Sum Squares)
ocorrem Dentro dos Grupos (Within) e Entre os tratamentos (Between)
Foram considerados 15 observações: DF=14
Estatística Aplicada
5 5-6=-1 1
4 -2 4
Passo 2: Cálculo da Variação Dentro do Grupo -Within
AA XX − 2)( AA XX −AX 2)( BB XX − 2)( CC XX −
Algoritmo: Variação Within
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br174
4 -2 4
6 0 0
7 1 1
8 2 4
10 58 18
VarWithin=SSW=10+58+18=86Foram considerados 5 observações em cada caso: DF=12
Estatística Aplicada
6 -1 1
6 -1 1
Passo 3: Cálculo da Variação Entre Tratamentos (Between)
XXA − 2)( XXA −AX 2)( XXB − 2)( XXC −
Algoritmo: Variação Between
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br175
6 -1 1
6 -1 1
6 -1 1
6 -1 1
5 0 5
SSB=5+0+5=10Foram considerados 3 observações: DF=2
Estatística Aplicada
SS=SSW+SSB ! 96=86+10
Graus de Liberdade (DF):
SS possui (15-1)=14DF
(3 Tratamentos) (5 Observ/Trat)
A B C
5 9 10
4 1 5
Algoritmo: Graus de Liberdade
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br176
(3 Tratamentos) (5 Observ/Trat)
SSW possui (5-1)(3)=12DF
(5 Observ/Amostra)(3 Amostras)
SSB possui (3-1)=2 DF
(3 Tratamentos -1)
4 1 5
6 8 8
7 11 7
8 6 10
DFSS=DFSSW+DFSSB ! 14=12+02
Estatística Aplicada
SS=SSW+SSB ! 96=86+10
DFSS=DFSSW+DFSSB ! 14=12+02
SSB/DFSSB = 10/2 = 5
Estimativas de Variâncias:
Algoritmo: Teste de Fisher para Médias
<Calc F>
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br177
SSW/DFSSW = 86/12 = 7,17
SSB/DFSSB = 10/2 = 5
F0= 5/7,17=0,70
Fcrítico= 3,89 (em função dos DFSSW, DFSSB e alfa=5%
F0<Fcrítico Não s e Rejeita Ho
Estatística Aplicada
Fonte de Variação
Própria Variação
DFVariância Estimada
F0
Quadro Resumo Básico
Algoritmo: Quadro resumo
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br178
SSB (ou SS Factor)
10 2 10/2=5 5/7,17=0,70
SSW (ou SS Error)
86 12 86/12=7,17
SS 96 14
Estatística Aplicada
One-way ANOVA: A; B; C (use unstacked)
Analysis of Variance
Source DF SS MS F P
Factor 2 10,00 5,00 0,70 0,517
Error 12 86,00 7,17
Total 14 96,00
Minitab <ANOVA>One-Way Unstacked
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br179
Total 14 96,00
Individual 95% CIs For Mean
Based on Pooled StDev
Level N Mean StDev ----+---------+- --------+---------+--
A 5 6,000 1,581 (------------*- -----------)
B 5 7,000 3,808 (--------- ---*------------)
C 5 8,000 2,121 (---- --------*------------)
----+---------+---------+---------+--
Pooled StDev = 2,677 4,0 6,0 8,0 10,0
Estatística Aplicada
Exemplo
Na definição do Setup dos fatores para o processo Inside Spray quatro conjuntos de níveis para os parâmetros de Temperatura
One-Way ANOVA
Anova1.mtw
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br180
parâmetros de Temperatura foram avaliados. Deseja-se investigar o efeito desses quatro Setups com relação a Distribuição do Verniz interno no fundo para cerveja medidas em mg/pol2 após o processo. Tais medidas são dadas na planilha ao lado.
Estatística Aplicada
ANOVA One-Way (Unstacked)
ANOVA One-Way (Unstacked)
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br181
Usar o Procedimento Stack Columns para executar o Teste ANOVA One-Way (preferível pois faz a análise de resíduos!!)
Estatística Aplicada
As médias são diferentes
ANOVA One-Way: Resultados
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br182
Estatística Aplicada
7.5
8.5
Boxplots of Setup1 - Setup4(means are indicated by solid circles)
ANOVA One-Way: Boxplots
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br183
Set
up1
Set
up2
Set
up3
Set
up4
4.5
5.5
6.5
Estatística Aplicada
0.5
1.0
1.5
Residuals Versus the Fitted Values(response is mg)
ANOVA One-Way: Residuals x Fitted
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br184
6.0 6.5 7.0
-1.5
-1.0
-0.5
0.0
0.5
Fitted Value
Res
idua
l
Estatística Aplicada
Exemplo
No processo Bodymaker deseja-se investigar a Profundidade do Dome em função de 3 conjuntos de parâmetros (envolvendo pressão, Temperatura Vazão,
Two-Way ANOVA
Processo de fabricação de latas
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br185
pressão, Temperatura Vazão, etc...) e também em dois turnos de operação. Foram então colhidas amostras da Profundidade do Dome (em polegadas) para diferentes Turnos e diferentes Conjuntos de Parâmetros. Anova_2.MTW
Estatística AplicadaANOVA Two-Way: Follow along
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br186
Estatística Aplicada
Diferentes
Iguais
ANOVA Two-Way: Resultados
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br187
Estatística Aplicada
Exemplo
Foram avaliados três níveis de pressões de ar drawpad (em psi) e também três níveis de pressões de ar blow off (em psi) na influência de
ANOM
Análise de Médias
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br188
blow off (em psi) na influência de problemas visuais após o processo Minster. O número de defeitos visuais (Riscos, Abaulamento, orelhas, rebarbas, rugas e ovalização) está mostrado na planilha ao lado. Anova_3.MTW
ANOM: Para identificar qual média é diferente e avaliar a Interação!
Estatística AplicadaANOM
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br189
Isso é melhor estudado em DOE!
Estatística AplicadaANOM: Gráficos
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br190
Não há interação entre as pressões Blow e Draw. O Efeito de
Blow é significativo!
Estatística Aplicada
Draw
Blow
ANOM: Resultados
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br191
A Pressão Blow afeta mais a
média
3,0 e 8,83 são valores distantes
de 6,22
Draw
Estatística Aplicada
Exemplo
Deseja-se avaliar o tempo gasto (em minutos) por seis funcionários para ajustar o Setup de dois processos (I e II) usando dois diferentes
Balanced Anova
Processo de fabricação de latas
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br192
II) usando dois diferentes procedimentos (um novo e um antigo). A planilha seguinte mostra os resultados obtidos.
Anova_5.MTWIsso é a base para
DOE - Delineamento de Experimentos!
Estatística AplicadaBalanced ANOVA
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br193
Estatística AplicadaBalanced ANOVA: Resultados
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br194
Diferentes
Estatística Aplicada TWO-WAY
Ex.: An engineer suspects thatthe surface finish of metal partsis influenced by paint used andthe drying time.
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br195
Using a 5% significancelevel, test the influence ofthese two factors as also itsinteraction.
Estatística Aplicada TWO-WAY
Drying Time (min)
Paint 20 25 30Total(yi..)
1 74 64 50 188 73 61 44 178 78 85 92 255 621
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br196
1 74 64 50 188 73 61 44 178 78 85 92 255 621
2 92 86 68 246 98 73 88 259 66 45 85 196 701
Total:(y.j.)
434 437 4511322(y…)
Estatística Aplicada TWO-WAY
Ex.: An experiment describes aninvestigation about the effect ofglass type and phosphor type onthe brigtness of a television tube.The response is the current (mA)necessary to obtain a specified
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br197
necessary to obtain a specifiedbrightness level.
Using a 5% significancelevel, test the influence ofthese two factors as also itsinteraction.
Estatística Aplicada
6 – CORRELAÇÃO E REGRESSÃO
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
Estatística Aplicada
• Correlação• Procedimentos Gerais Y=f(X)• Regressão linear• Ajuste da Regressão• Regressão linear Múltipla
Análise de Regressão
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br199
• Regressão linear Múltipla• Best Subsets
�A análise de regressão é uma técnica estatística usada para modelar e investigar a relação entre duas ou mais variáveis. O modelo é freqüentemente usado para previsões .�Regressão é um teste de hipótese Ha: O modelo permite significativamente prever a resposta.
Estatística AplicadaCoeficiente de
Correlação
Ex.: Suponha que o nosso desejo seja o de quantificar a associabilidade entre duas variáveis relacionadas a cinco agentes de uma seguradora. Assim, temos:
≡
70
60nte
s
Diagrama de Dispersão
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br200
Assim, temos:X≡ Anos de experiência do agente.Y≡ Número de clientes do agente.
8765432
60
50
ExperiênciaAnos de
Clie
n
Agente x y
A 2 48
B 4 56
C 5 64
D 6 60
E 8 72
(x, y) é um par aleatório – Dados emparelhados
Estatística Aplicada
y
x x x−
y y−
x x
sz
xx
−=
yy
zs
yy =−
r=Correlação de Pearson
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br201
Série de dados originais (x e y) são valores quantitativos.
O conjunto de pontos é deslocado, tendo agora como centro, os valores médios.
A escala de x e y é agora padronizada. Isso torna os valores independente da sua unidade.
∑=
==n
iyx ii
zzn
YXr1
1),(Corr
Estatística Aplicada
Agente x y zx zyzx . zy
A 2 48 -3 -12 -1.5 -1.5 2,25
B 4 56 -1 -4 -0.5 -0.5 0,25
C 5 64 0 4 0 0.5 0
x x− y y−
Coeficiente de Correlação
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br202
C 5 64 0 4 0 0.5 0
D 6 60 1 0 0.5 0 0
E 8 72 3 12 1.5 1.5 2,25
Total 25 300 0 0 0 0 4,75
x = 5Sx = 2
y = 60Sy = 8 %9595,0
5
75,4),( ===YXr = Correlação
Estatística Aplicada
r X Yn
z zn
x x
s
y y
sx yi
ni
x
i
yi
n
i i= = =
−
−
= =∑ ∑Corr ( , )
1 1
1 1
( )( )r
n
x x y y
s s
X Y
s si i
x y x y
=− −
⋅=
⋅∑1 Covariância ( , ) − ≤ ≤1 1r
P_value p/ Correlação
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br203
n s s s sx y x y⋅ ⋅
A correlação apresentada aqui é linear. Existem outros tipos de correlação!
Agente x y
A 2 48
B 4 56
C 5 64
D 6 60
E 8 72
Pearson correlation of Anos Exp and Clientes = 0,950
P-Value = 0,013
Ex.: Cálculo da correlação da tabela ao lado
Forte Correlação pois P-Value <0,05
Estatística Aplicada
Faça a análise de Correlação dasvariáveis ao lado na planilhaBidimensional.mtw
Correlação no Minitab
O Coeficiente de Correlação é
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br204
Correlação é também chamado de Coeficiente de Pearson.
Estatística Aplicada
A) Uma medida de Correlação fornece dois tipos de informações a respeito do relacionamento de duas variáveis. Quais são elas?
B) Qual coeficiente de correlação abaixo indica o mais forte relacionamento?
a) 0.70 b) 0.03 c)-0.77 d) 0.10
C) Se a correlação Rxy=0.45, então Ryx=
D) Qual o valor do coeficiente de correlação melhor descreve os seguintes valores das variáveis X e Y, relacionadas abaixo:
Algumas questões sobre Correlação:
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br205
D) Qual o valor do coeficiente de correlação melhor descreve os seguintes valores das variáveis X e Y, relacionadas abaixo:
X: 20 30 40 50 60
Y: 40 30 20 10 0
a) -1.0
b) 0.0
c) 0.5
d) 1.0
E) Qual a correlação do gráfico abaixo?
Estatística Aplicada
F) Se um coeficiente de correlação for de +1.4, o que ocorre?
a) O Relacionamento é extremamente forte
b) O Relacionamento é positivo
c) As respostas acima estão corretas
d) Um erro computacional foi cometido
Algumas questões sobre Correlação:
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br206
G) Um coeficiente de Pearson de -0.5 entre os valores de Leitura (X) e o número de dias ausentes da escola (Y) indica que:
a) Metade dos valores de Leitura são menos do que o número de dias ausentes da escola
b) Maiores valores de Leitura são associados com menor ausência da escola
c)A soma do produto XY é igual a -0.5
d) Quase não existe relacionamento entre X e Y
Estatística Aplicada
Dia Fator 1 Fator 2 Resultado1 Água Whisky Ficou Bêbado2 Água Vodka Ficou Bêbado3 Água Rum Ficou Bêbado4 Água Bourbon Ficou Bêbado
Variável Comum
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br207
É comum associar-se um defeito com uma variável que está sempre presente quando ele ocorre (é o caso do operador que é culpado, pois quando ele executa a operação ocorre um defeito – Toda operação geralmente tem um operador).
1995 Six Sigma Academy Inc.
Conclusão: a água embebeda
Estatística Aplicada
Se a história servisse de base, os Republicanos deveriam estar vestindo a camisa dos Yankees e dando uma força para o New York vencer o campeonato. Desde a Segunda Guerra Mundial, toda vez que os Yanks venceram em um ano de eleição, o Partido Republicano assumiu a Casa Branca.
Yankees RepublicanosGANHARAM PERDERAM GANHARAM PERDERAM
As “armadilhas”: correlações casuais
Variável ComumVariável ComumVariável ComumVariável Comum
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br208
1976
1964
1960
1956
1952
Estatística AplicadaAs “armadilhas”: causa reversa
Um fator “X” tem influência sobre um “Y” quando, na verdade, o que ele está vendo é a conseqüência do “Y” .
Um exemplo deste caso é o do Departamento de Vendas que insatisfeito com as Vendas resolve dar uma série de descontos e faz promoções para atrair os clientes . Só que a verdadeira causa do problema é o Serviço de Atendimento ao Cliente .
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br209
Com os novos descontos e a nova promoção fica mais difícilainda administrar o Serviço de Atendimento ao Cliente, ocasionando num aumento da insatisfação do cliente e diminuindo mais ainda as vendas (“o tiro saiu pela culatra”) .
Estatística AplicadaAs “armadilhas”: fatores omitidos
Pesquisas continuamente demonstram que a medida que o tamanho dos hospitais aumenta, a taxa de mortalidade dos pacientes aumenta dramaticamente. Portanto, deveríamos evitar hospitais grandes?
Esta análise é enganadora, pois omite um segundo X2 (fator) importante -- a gravidade da condição do paciente quando é admitido ao hospital. Os casos mais
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br210
gravidade da condição do paciente quando é admitido ao hospital. Os casos mais sérios tendem a ser levados aos hospitais maiores!
Fumar cigarros causa câncer? E se eu dissesse que ... (1) Médicos franceses não encontram esta correlação;(2) O tabaco dos EUA geralmente é exposto a pesticidas, fertilizantes e preservativos contendo substâncias conhecidamente cancerígenas, e;(3) O tabaco francês raramente entra em contato com tais substâncias químicas.
Estatística Aplicada
Em 1950, um fazendeiro afirmou que suas árvores frutíferas estavam sendo prejudicadas pelas ondas de rádio de uma estação local próxima. Ele colocou uma tela de arame ao redor de algumas das árvores para “protegê-las” destas ondas de rádio e, realmente, as árvores protegidas se recuperaram rapidamente, enquanto que as desprotegidas ainda sofriam.
Na mesma época, muitas árvores cítricas em todo país foram ameaçadas por uma doença chamada de “folha pequena”. Alguns fazendeiros Texanos descobriram que uma solução de sulfato de ferro curava a doença. No entanto, nem sempre funcionava no Texas, e
O Fazendeiro Radiofóbico
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br211
sulfato de ferro curava a doença. No entanto, nem sempre funcionava no Texas, e praticamente nunca funcionava na Flórida ou na Califórnia.
O mistério foi desvendado quando o problema verdadeiro foi revelado -- deficiência de zinco no solo. A cerca do fazendeiro Radiofóbico era de tela galvanizada, sendo que traços do zinco da galvanização eram levados da tela para o solo.
O sulfato de ferro nada tinham a ver com a cura, mas sim os baldes de ferro galvanizados usados para espalhar a substância! Em outras regiões, onde outros tipos de baldes eram usados, as árvores continuaram doentes.
Estatística AplicadaAs “armadilhas”: multicolinearidade
É difícil saber o quê causa o quê, quando alguns fatores [X’s] tendem a ocorrer juntos regularmente.
• “Tenho visto uma redução dramática nas perdas desde que comecei a implementar as ferramentas estatísticas na fábrica!” No entanto, foi exatamente na mesma época em que o RH introduziu seu novo sistema
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br212
exatamente na mesma época em que o RH introduziu seu novo sistema de recompensa e reconhecimento. O que ocasionou a melhoria?
• Em 1967, um artigo rotulou um determinado tipo de carro como sendo inseguro. O modelo em questão era um carro pequeno esportivo de alto desempenho. Mas que tipo de motorista seria atraído a tal carro? E se eu dissesse que a maioria dos proprietários deste carro tendiam a ser motoristas jovens menores de 25 anos com novas idéias. Esta faixa etária não paga prêmios de seguro mais elevados devido a maior incidência de acidentes?
Estatística Aplicada
y
Linha de Regressão A variável X é dita variávelindependente (ou exógena), enquantoY é dita variável dependente (ouendógena).
Y=f(x)
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br213
x
•Y=f(x) Simples
•Y=f(x,y,z...) Múltipla
Estatística Aplicada
Curvilínea (Um X)
X
Y
Linear Simples (Um X)
X
Y
Múltipla (Dois ou mais Xs)
Y
X 2
X1
Regressão
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br214
Variáveis Indicativas (para Xs Discretos)
xx
xx
x
x
x
x
x x
xx
x
xx
Xi
Y
Xa
Xb
Xc
X
Logística (Ys Discretos)1
0
% y
es
X
Curvilínear (Dois ou mais Xs)
Y
X1
X 2
Estatística Aplicada
xy βα +=y
,ˆ bxay +=Curva de Resíduos (e)
Resíduos
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br215
x x1 x2 x3
Uma importante condição para o uso de regressão simples é que os resíduos (e) sejam independentes de x. Porque?
Resíduos (e)
Estatística Aplicada
y
8
7
6
5
eiei2
1 ini e=Σ
bxay +=ˆ
Regressão Linear Simples
iy
y
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br216
x
y
757065605550
5
4
3
2
( ) ( )21
21
21 ˆ ii
niii
nii
ni bxayminyyminemin −−Σ=−Σ=Σ ===
iy
Estatística Aplicada
21 i
ni e=Σ bxay +=ˆ
( ) ( )21
21
21 ˆ ii
niii
nii
ni bxayminyyminemin −−Σ=−Σ=Σ ===
A matemática da Regressão Linear
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br217
.0 e 01
2
1
2 == ∑∑ ==
n
i i
n
i i db
da ∂
∂∂∂
∑∑
=
=
=−−−
=−−−n
i iii
n
i ii
bxayx
bxay
1
1
,0)(2
,0)(2
Estatística Aplicada
+==+=
∑ ∑∑∑ ∑
= ==
=n
i
n
i
n
i iii
n
i
n
ii
ixbxayx
i xbnay
1 1
2
1
1,1
Ufa!
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br218
−=
=−
−=∑∑
=
=
,
,)(
)(
1
2
1
xbya
S
S
xx
yxxb
xx
xy
n
i i
n
i ii
Estatística Aplicada
Exemplo :Obter a equação da reta (chamada de reta dos mínimos quadrados)para os seguintes pontos experimentais:
x 1 2 3 4 5 6 7 8
Exemplo
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br219
x 1 2 3 4 5 6 7 8y 0,5 0,6 0,9 0,8 1,2 1,5 1,7 2,0
Traçar a reta no diagrama de dispersão. Calcular o coeficiente decorrelação linear.
Qual o valor previsto para x=9?Qual a Tolerância de X para 1<Y<1.5?
Estatística AplicadaRegressão: By Hand
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br220
.421622048
)36(204
,1,94,415,508
2,9365,50
2
=−=−=
=−=⋅−=
xx
xy
S
S
Estatística Aplicada
.421622048
)36(204
,1,94,415,508
2,9365,50
2
=−=−=
=−=⋅−=
xx
xy
S
S
,217,01,9 ≅==
Sb xy
Regressão: Cálculos
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br221
.174,0976,0150,18
36217,0
8
2,9
,217,042
=−=⋅−≅−=
≅==
xbya
Sb
xx
xy
xy 217,0174,0ˆ +=
Estatística AplicadaRegressão: Gráfico
2,00
1,75
1,50
S 0,121335
R-Sq 95,7%
R-Sq(adj) 95,0%
Fitted Line Ploty = 0,1750 + 0,2167 x
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br222
x
y
876543210
1,25
1,00
0,75
0,50
Estatística Aplicada
98,006,242
1,9
,06,258,1064,128
)2,9(64,12
2
≅⋅
==
∴=−=−=
yyxx
xy
yy
SS
Sr
S
Relembre Correlação!
Regressão: Correlação
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br
yyxx
Estatística AplicadaRegressão:
Teste Hipóteses
Para Teste de Hipóteses, considera-se:
Ho:a=0
,ˆ bxay +=
Ho:b=0
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br224
SE Coef (a)= SE Coef (b)=
T=a / SE Coef(a) T=b / SE Coef(b)
Estatística AplicadaRegressão linear simples no Minitab
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br225
Previsão
Estatística Aplicada Ajuste da Regressão
Linear �R-quadrado é a porcentagem da variação explicada pelo seu modelo.
�R-quadrado (ajustado) é a porcentagem da variação explicada pelo seu modelo, ajustada para o número de termos em seu modelo e o
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br226
termos em seu modelo e o número de pontos de dados.
�O “valor-p” para a regressão é para ver se o modelo de regressão inteiro é significativo.
—Ha: O modelo permite significativamente prever a resposta.
Estatística Aplicada
Quadrático
Ajuste Quadrático
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br227
Estatística Aplicada
Cúbico
Ajuste Cúbico
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br228
Estatística Aplicada
Intervalos de confiança e de previsão �Uma faixa (ou intervalo) de confiança é uma medida da certeza da forma da linha de regressão ajustada. Em geral, uma faixa de 95% implica em uma chance de 95% de que as linha verdadeira fique dentro da faixa. [Linhas vermelhas]
Ajuste da Regressão
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br229
vermelhas]
�Uma faixa (ou intervalo) de previsão é uma medida da certeza da dispersão dos pontos individuais em torno da linha de regressão. Em geral, 95% dos pontos individuais (da população em que a linha de regressão se baseia) estarão contidos dentro da faixa. [Linhas azuis]
Estatística Aplicada
CTQ
Estreitando Tolerâncias
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br230
CTQ
1
2
Estatística Aplicada
CTQ
Estreitando Tolerâncias
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br231
CTQ
1 1’
2’ 2
Estatística AplicadaPratique Regressão Linear Simples
Determine a função de transferência entre o Número de Setups e o Tempo de Ciclo para diversas operações em uma certa empresa. Use a planilha cycletime.mtw.
Faça a análise de Resíduos.
Qual a previsão do Tempo de Ciclo para uma operação que
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br232
Qual a previsão do Tempo de Ciclo para uma operação que consiste em 10 Setups de equipamento?
A equação final é adequada? Se não for, como melhorá-la?
Estatística Aplicada
Uma reação Química foi realizada sob seis pares de diferentes condições de pressão e temperatura. Em cada caso foi medido o tempo necessário para
Regressão Múltipla
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br233
medido o tempo necessário para que a reação se completasse. Obter a equação de regressão do tempo em relação a pressão e temperatura.
Regressão.mtw
Estatística Aplicada
Menores que 0,05
Regressão Múltipla: Resultados
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br234
Maior melhor
Estatística Aplicada
92 estudantes americanos participam de um simples experimento. Cada estudante registra o seu peso, altura, gênero, pulso e se é fumante ou não. Todos eles jogam uma moeda e sorteiam se vão dar uma corrida (cara) ou não por
Best Subsets
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br235
uma corrida (cara) ou não por um minuto. Após a corrida, todos os alunos registram o seu pulso novamente. Um aluno sugere que seja inserida a seguinte “importante” consideração: Se a pessoa pinta o cabelo ou não.
Deseja-se fazer uma regressão do segundo pulso em relação a todas as outras variáveis.
Regressão.mtw
Estatística Aplicada
Equação de regressão inicial. Muito complexa
Best Subsets: Resultados
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br236
Correlação muito alta. Quem pinta cabelo é “geralmente” mulher
Estatística Aplicada
Melhor ajuste
Best Subsets: Resultados
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br237
Estatística Aplicada
-1
0
1
2
3Residual
-1
0
1
2
3Residual
3 4 5 6 7 8 9 10 11 12
-3
-2
-1
0
1
2
3
X
Residual
10 20 30
-3
-2
-1
0
1
2
3
X
Residual
Bom Ruim
Nos casos ruins tente uma transformação
em X,em Y ou ambos. Use Box-Cox
Transformation
Considere a
Residuals vs Each X
Time Plot of Residuals
Análise de Resíduos
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br238
30 40 50
-3
-2
-1
0
1
2
3
Pred. Y
Residual
0 50 100
-3
-2
-1
0
1
2
3
Pred. Y
Residual
0 50 100
-3
-2
Time Order0 50 100
-3
-2
Time Order
-3 -2 -1 0 1 2 3
-3
-2
-1
0
1
2
3
Residual
Nscore
-1 0 1 2 3 4
-3
-2
-1
0
1
2
3
Residual
Nscore
Considere a possibilidade da
existência de variáveis ocultas que
não foram consideradas no
modelo (Lurking)
Residuals vs Predicted Y (Fits)
Normal Probability Plot of Residuals
Entenda que X e Y não precisam ser normalmente distribuídos. Os resíduos, contudo, deveriam ser.
Estatística Aplicada
Regressão Curvilínea
2000
2050
2100
Seal Strength(g/cm2)
Um laboratório está fazendo testes em adesivos em função da temperatura. Quando a temperatura aumenta a força do contato entre duas superfícies
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br239
200 250 300 350 400
1900
1950
Temperature
contato entre duas superfícies aumenta Em um determinado ponto, contudo a força desse contato começa a diminuir em função de propriedades térmicas do adesivo. Qual o modelo empírico da força (Seal Strength) em função da temperatura?
Curve.mtw
Estatística Aplicada
Termo quadrático
Deve-se criar a variável quadrática e em seguida rodar o modelo em Regression
Termo quadrático da regressão
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br240
Observe resíduos
VIF
Armazena resíduos
Função quadrática
Estatística AplicadaRegressão Curvilínea
XX2
The regression equation isSealStrength = 923 + 7.45 Temperature - 0.0125 TempSqrd
Predictor Coef StDev T P VIFConstant 922.98 72.33 12.76 0.000Temperat 7.4469 0.5033 14.80 0.000 132.9TempSqrd -0.0124596 0.0008499 -14.66 0.000 132.9
S = 25.18 R-Sq = 69.4% R-Sq(adj) = 68.7%
X e X2 são fortemente correlacionados. Nenhuma surpresa
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br241
Analysis of Variance
Source DF SS MS F PRegression 2 139321 69661 109.87 0.000Residual Error 97 61498 634Total 99 200819
Source DF Seq SSTemperat 1 3051TempSqrd 1 136270
Conclusão: Existe uma curvatura significativa
Estatística Aplicada
n PREÇO VENDAS
1 5,5 420
2 6,0 380
3 6,5 350
Exemplo:
De acordo com osdados da tabela aolado, há correlaçãoentre o preço de um
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br242
3 6,5 350
4 6,0 400
5 5,0 440
6 6,5 380
7 4,5 450
8 5,0 420
entre o preço de umproduto e o respectivovolume de vendas?
Estatística Aplicada
n Price Sales
1 19,2 25,42 20,5 14,73 19,7 18,6
Exemplo:
A liquor wholesaler is interested in assessingthe effect of the price of a whiskey on the quantity
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br243
3 19,7 18,64 21,3 12,45 20,8 11,16 19,9 15,77 17,8 29,28 17,2 35,2
whiskey on the quantitysold. The results in tablerepresent the price (US$) and the respective eightweeks of sales. What are your conclusions?
Estatística Aplicada
n Dosage Recovery Time
Exemplo:
Doctors are interested in the relationship between the dosageof a medicine and the time required for a patient’s recovery.Based on the following data, verify if the variables arecorrelated.
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br244
n Dosage Recovery Time
1 1,2 25
2 1,0 40
3 1,5 10
4 1,2 27
5 1,4 16
Estatística Aplicada
n x y
1 3,6 242 3,3 213 2,8 22
Exemplo:
The table shows, for eightvintages of select wine,purchase per buyer (y) andthe wine buyer’s rating in ayear (x).
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br245
3 2,8 224 2,6 225 2,7 186 2,9 137 2,0 98 2,6 6
year (x).
Are the variables correlated?
* Vintage: safra de vinho
Estatística Aplicada
Exemplo: Determine a correlação entre o tempo deexperiência e o salário anual do funcionário e se existediferença significativa entre os salários dos homens e dasmulheres.
Mulheres
Pedro Paulo Balestrassi - www.pedro.unifei.edu.br246
Salário ($) 36730 40650 46820 50149 59679 67360
Experiência 5 7 9 10 14 17
Homens
Salário ($) 51535 62289 72486 75022 93379 105979
Experiência 5 7 9 10 14 17