Upload
diego-mendonca
View
167
Download
21
Embed Size (px)
Citation preview
ESTATÍSTICA II
Prof.ª Ms. Simone Regina dos Reis
2
I – INTRODUÇÃO 1. DEFINIÇÃO A Estatística é uma ciência de múltiplas aplicações e de fundamental importância no campo
da investigação científica, sendo de utilização cada vez mais acentuada em qualquer
atividade profissional. Então, é razoável que os profissionais de diversas áreas adquiram
um mínimo de conhecimento técnico sobre estatística que possibilitem a compreensão de
termos como: variabilidade, regressão, correlação, significância, e que aparecem com
frequência no nosso cotidiano e em artigos de publicações especializadas.
A Estatística é um conjunto de métodos destinados a coleta, organização, resumo,
apresentação e análise de dados de observação, bem como a tomada de decisões
razoáveis baseadas em tais análises. Ela pode ser dividida em dois campos:
Estatística descritiva: trata da coleta, da organização, classificação,
apresentação e descrição dos dados de observação. Se refere a maneira de apresentar um
conjunto de dados em tabelas e gráficos e a maneira de resumir, através de certas
medidas, as informações contidas nestes dados.
Estatística inferencial: visa tirar conclusões sobre a população a partir de
amostras. Se refere a maneira de estabelecer conclusões para toda uma população quando
se observar apenas parte desta população.
3
2. CONCEITOS BÁSICOS POPULAÇÃO X AMOSTRA
População (N): conjunto de todos os elementos relativos a um determinado fenômeno
que possuem pelo menos uma característica em comum, podendo ser finita (apresenta um
número limitado de observações, que é passível de contagem) ou infinita (apresenta um
número ilimitado de observações que é impossível de contar e geralmente está associada
a processos).
Amostra (n): é um subconjunto da população. A amostra deve ser selecionada seguindo
certas regras e para ser representativa, de modo que ela represente todas as
características da população como se fosse uma fotografia desta.
PARÂMETROS X ESTATÍSTICA
Parâmetros: são medidas obtidas quando se investiga a população em sua totalidade,
neste caso é impossível fazer inferências pois toda a população foi investigada.
Estatísticas ou Estimadores: são medidas obtidas da amostra. Torna-se possível neste
caso, utilizarmos as teorias de inferências para que possamos fazer conclusões sobre a
população.
4
II – TESTES DE HIPÓTESES 1. INTRODUÇÃO
Na teoria de decisão estatística, os testes de hipóteses assumem uma importância
fundamental, já que estes permitem nos dizer, por exemplo, se duas populações são de
fato iguais ou diferentes, utilizando para isso amostras destas populações. Desta forma, a
tomada de decisão de um pesquisador, deve estar baseada na análise dos dados a partir
de um teste de hipóteses.
Então você pode definir as hipóteses a ser testado, retirar amostras das populações a
ser estudado, calcular as estatísticas delas e, por fim, determinar o grau de aceitação de
hipóteses baseadas se uma determinada hipótese será válida ou não.
Para você decidir se uma hipótese é verdadeira ou falsa, ou seja, se ela deve ser aceita
ou rejeitada, considerando uma determinada amostra, precisamos seguir uma série de
passos:
I) Formular as hipóteses 𝑯𝟎 e 𝑯𝟏
𝐻0: hipótese nula – é a hipótese inicial.
𝐻1: hipótese alternativa – é a hipótese contrária a 𝐻0.
Observe que as hipóteses 𝐻0 e 𝐻1 são hipóteses mutuamente excludentes, ou seja,
aceitando-se uma das hipóteses como sendo verdadeira, a outra, automaticamente, será
rejeitada.
Ao testarmos uma 𝐻0, chegamos a uma conclusão: aceitá-la ou rejeitá-la. Desse modo
podemos cometer dois tipos de erros:
Erro Tipo I: consiste em rejeitar 𝐻0, quando ela é verdadeira. Pode ser limitado pela
escolha de .
Erro Tipo II: consiste em aceitar 𝐻0, quando ela é falsa. É a potência do teste.
5
O quadro mostra as possibilidades de se cometer os erros.
II) Definir o nível de significância ()
O nível de significância de um teste é dado pela probabilidade de se cometer um erro tipo
I. Dizemos então, que o nível de significância de um teste é a probabilidade máxima com
que desejamos correr risco de um erro tipo I. O valor de é tipicamente predeterminado,
geralmente usamos 𝛼 = 0,05 ou 𝛼 = 0,01.
III) Definir a distribuição amostral a ser utilizada
A estatística a ser utilizada no teste, você definirá em função da distribuição amostral a
qual os dados seguem. Podemos utilizar a distribuição normal (z), t de Student ou Qui-
Quadrado. Note que o conhecimento das distribuições amostrais é muito importante.
IV) Definir os limites da região de rejeição
Teste Bilateral
H0: μ = número
H1: μ ≠ número
Neste tipo de teste, se aceita H0 se o valor calculado com base na amostra, estiver entre
os dois valores tabelados, como na figura acima.
1 -
𝑣𝑎𝑙𝑜𝑟 𝑡𝑎𝑏𝑒𝑙𝑎𝑑𝑜 𝑣𝑎𝑙𝑜𝑟 𝑡𝑎𝑏𝑒𝑙𝑎𝑑𝑜
/2 /2
6
Teste unilateral à direita
H0: μ = número
H1: μ > 𝑛ú𝑚𝑒𝑟𝑜
Neste tipo de teste, se aceita H0 se o valor calculado com base na amostra for menor que
o valor tabela, como na figura acima.
Teste unilateral à esquerda
H0: μ = número
H1: μ < 𝑛ú𝑚𝑒𝑟𝑜
Neste tipo de teste, se aceita H0 se o valor calculado com base na amostra for maior que
o valor tabela, como na figura acima.
V) Tomar a decisão
Para tomar a decisão, você deve calcular a estimativa do teste estatístico que será utilizado
para rejeitar ou não H0.
1 -
𝑣𝑎𝑙𝑜𝑟 𝑡𝑎𝑏𝑒𝑙𝑎𝑑𝑜
1 -
𝑣𝑎𝑙𝑜𝑟 𝑡𝑎𝑏𝑒𝑙𝑎𝑑𝑜
7
2. TESTES NÃO – PARAMÉTRICOS
A Estatística não-paramétrica não exige suposições quanto a distribuição da
população da qual se tenha retirado amostras para análise. Vamos estudar agora um teste
não-paramétrico, assim chamado por não depender dos parâmetros populacionais nem
de suas respectivas estimativas.
Para a realização desse teste não-paramétrico nós utilizaremos uma nova distribuição
estatística chamada Qui-Quadrado, cuja medida baseia-se no grau de concordância entre
as frequências observadas e as frequências esperadas de acordo com as regras de
probabilidade.
Suponha um experimento realizado 𝑛 vezes, onde se observou um conjunto
𝐴1, 𝐴2, … , 𝐴𝑘 com as respectivas frequências 𝑂1, 𝑂2, … , 𝑂𝑘. No entanto, de acordo com as
regras de probabilidade deveriam apresentar as seguintes frequências teóricas ou
esperadas 𝑒1, 𝑒2, … , 𝑒𝑘.
Exemplo 1: Lançamento de um dado 60 vezes. O resultado deste experimento aparece na
tabela a seguir.
O modelo que serve para determinar as discrepâncias existentes entre as frequências
observadas e esperadas é dado pela estatística:
8
𝜒2 = ∑(𝑂𝑗 − 𝑒𝑗)
2
𝑒𝑗=
(𝑂1 − 𝑒1)2
𝑒1+
(𝑂2 − 𝑒2)2
𝑒2+ ⋯ +
(𝑂𝑘 − 𝑒𝑘)2
𝑒𝑘
Onde 𝑂𝑗 é a frequência observada e 𝑒𝑗é a frequência esperada, sob a hipótese em estudo.
A distribuição amostral da distribuição Qui-quadrado 𝜒2 terá a seguinte forma
aproximada:
A 𝜒2 assim como a “t” de Student, terá graus de liberdade associados à sua
distribuição, que serão definidos de acordo com o procedimento a ser adotado.
Procedimento do teste:
a) Enunciar as hipóteses H0 e H1.
b) Escolher o nível de significância .
c) Estatística calculada 𝜒𝑐𝑎𝑙2 = ∑
(𝑓𝑜−𝑓𝑒)2
𝑓𝑒
𝑘𝑖=1
d) Estatística Tabelada: 𝜒𝑡𝑎𝑏2 = 𝜒𝜙,𝛼
2
e) Comparar 𝜒𝑡𝑎𝑏2 com 𝜒𝑐𝑎𝑙
2 e concluir:
f) Conclusão
H0: fo = fe
H1: fo ≠ fe
9
1º caso – Teste de adequação do ajustamento
Suponhamos uma amostra de tamanho 𝑛. Sejam 𝐸1, 𝐸2, … , 𝐸𝑘, um conjunto de
eventos possíveis da amostra.
Este teste é indicado para verificar se as frequências observadas dos 𝑘 eventos (𝑘
classes em que variável é dividida) concordam ou não com as frequências teóricas
esperadas.
As frequências esperadas (𝐹𝑒𝑖) são obtidas multiplicando-se o número total de
elementos pela proporção teórica da classe 𝑖 (𝑛. 𝑝𝑖).
Para encontrar 𝜒𝑐𝑎𝑙2 necessita-se do nível de significância e dos graus de liberdade os
quais podem ser obtidos da seguinte forma:
a) 𝜙 = 𝑘 − 1, quando as frequências esperadas puderem ser calculadas sem que
façam estimativas dos parâmetros populacionais a partir das distribuições
amostrais.
b) 𝜙 = 𝑘 − 1 − 𝑚, quando para a determinação das frequências esperadas 𝑚
parâmetros tiverem suas estimativas calculadas a partir das distribuições amostrais.
Exemplo 1: Deseja-se testar se o número de acidentes numa rodovia se distribui
igualmente pelos dias da semana. Para tanto foram levantados os seguintes dados (𝛼 =
5%):
10
Exemplo 2: O número de livros emprestados por uma biblioteca durante certa semana está
a seguir. Teste a hipótese que o número de livros emprestados não depende do dia da
semana, com 𝛼 = 1%.
11
2º caso – Teste da independência
Uma importante aplicação do teste 𝜒2 ocorre quando se quer estudar a relação
entre duas ou mais variáveis de classificação. A representação das frequências observadas,
nesse caso, pode ser feita por meio de uma tabela de contingência.
𝐻0: As variáveis são independentes (não estão associadas)
𝐻1: As variáveis não são independentes (estão associadas)
O número de graus de liberdade é dado por: 𝜙 = (𝐿 − 1) (𝐶 − 1), onde L é o número
de linhas e C o número de colunas da tabela de contingência.
Exemplo 1: Verifique se há associação entre os níveis de renda e os municípios onde foram
pesquisados 400 moradores. Use a = 1%.
12
EXERCÍCIOS PROPOSTOS
1. As diferenças entre os sonhos das pessoas dos sexos masculinos e femininos foram documentadas
(Winget & Kramer, 1979). Um pesquisador, através de uma amostra, analisou essa diferença entre os
sonhos de homens e mulheres. Cada sonho é julgado de acordo com as seguintes categorias, referentes a
agressividade; baixa, média ou alta. As frequências observadas estão mostradas na tabela abaixo:
Baixa agressividade Média agressividade Alta agressividade
Mulheres 34 18 8
Homens 7 33 20
Verificar se há alguma relação entre o gênero (masc./fem.) e a agressividade dos sonhos. Adotar o nível
de significância de 1%. 𝑿𝟐𝒄𝒂𝒍 = 𝟐𝟕, 𝟑𝟑𝟓 rejeita-se H0
2. Uma bibliotecária fez uma pesquisa, durante uma certa semana, sobre o número de livros retirado pelos
estudantes. Testar a hipótese de que número de livros emprestados não depende do dia da semana, com
nível de significância de 1%.
Dias da semana Seg Ter Qua Qui Sex
No de livros emprestados 100 138 130 152 118
𝑿𝟐𝒄𝒂𝒍 = 𝟏𝟐, 𝟐𝟓𝟏 Aceita-se H0
3. Um pesquisador deseja saber se existe alguma faixa etária mais propensa ao risco de morte pela ação
da gripe (influenza). Foi colhida uma amostra de 80 pessoas que morreram devido a esse tipo de problema.
Abaixo de 15 anos De 15 a 50 anos Acima de 50 anos
10 casos 20 casos 50 casos
No local onde essa amostra foi selecionada, os valores padrões para esse tipo de morte são; 15% da
população com menos que 15 anos; 35% entre 15 e 50 anos e 50% acima de 50 anos. O pesquisador pode,
ao nível de 5%, concluir que o risco de morte está associado a faixa etária? 𝑿𝟐𝒄𝒂𝒍 = 𝟓, 𝟏𝟏𝟗 Aceita-se H0
4. Um psicólogo submeteu um grupo de pacientes a um teste, ministrando sonífero a um grupo e pílulas
de farinha (placebo) a outro grupo. Perguntado aos pacientes se o medicamento ajudou ou não a dormir
melhor, as respostas foram as seguintes:
Testar, ao nível de 5%, a hipótese de não haver diferença entre o fato do doente tomar sonífero e dormir
melhor. 𝑿𝟐𝒄𝒂𝒍 = 𝟎, 𝟑𝟏 Aceita-se H0
Pílulas Dormiram melhor Dormiram pior Indiferente
Sonífero 32 15 23
Placebo 35 20 30
13
3. TESTES DE HIPÓTESES PARAMÉTRICOS
Muitas vezes o pesquisador tem alguma ideia ou conjectura sobre o comportamento de
uma variável. Nesse caso, o planejamento da pesquisa deve ser de tal forma que permita,
com os dados amostrais, testar a veracidade de suas ideias sobre a população em estudo.
Considera-se que a população seja o mundo real e as ideias sejam as hipóteses de pesquisa,
que poderão ser testadas por técnicas estatísticas denominados de testes de hipóteses.
3.1 TESTE DE HIPÓTESES PARA MÉDIA POPULACIONAL
Quando você retira uma amostra de uma população e calcula a média desta amostra
é possível verificar se a afirmação sobre a média populacional é verdadeira. Para tanto,
basta verificar se a estatística do teste estará na região de aceitação ou de rejeição de H0.
1º caso – Desvio padrão da população () conhecido e amostra considerada grande
(𝑛 > 30).
Distribuição amostral z e a estatística do teste será
Exemplo 1: O desvio padrão da população é 22 unidades. Se uma amostra de 100
elementos retirados dessa população forneceu média 115,8 podemos afirmar que a média
dessa população é inferior a 120 unidades, ao nível de 5% de significância?
14
Exemplo 2: Registros dos últimos anos de funcionários de uma determinada empresa
atestam que sua média num teste de QI foi 115 com desvio padrão de 20. Para saber se
uma nova equipe de funcionários é típica desta empresa, retirou-se uma amostra aleatória
de 50 funcionários desta nova equipe, encontrando média de 118. Com uma significância
de 5%, teste a hipótese de que esta nova equipe apresente a mesma característica dos
funcionários da empresa, com relação ao QI.
15
2º caso – Desvio padrão da população () desconhecido e amostra considerada pequena
(𝑛 ≤ 30).
Distribuição amostral t de Student e a estatística do teste será
Exemplo 1: Os registros dos últimos anos de um colégio atestaram para os calouros
admitidos a nota média de 115 (teste vocacional). Para testar a hipótese de que a média
da nova turma é a mesma, retirou-se ao acaso uma amostra de 20 notas, obtendo-se média
118 e desvio padrão 20. Admitindo-se um nível de 5% de significância, faça o teste de
hipóteses.
Exemplo 2: O tempo médio gasto para profissionais da área de Ciências Contábeis
realizarem um determinado procedimento tem sido de 50 minutos. Um novo
procedimento está sendo implementado. Neste novo procedimento, retirou-se uma
amostra de 12 pessoas, com um tempo médio de 42 minutos e um desvio padrão de 11,9
16
minutos. Teste a hipótese de que a média populacional no novo procedimento é menor
que 50 a um nível de 5% de significância.
3.2 TESTE DE HIPÓTESES PARA A PROPORÇÃO
Este tipo de teste será realizado quando temos uma população e uma hipótese sobre
a proporção de indivíduos portadores de certa característica. Esta hipótese afirma que essa
proporção é igual a certo número p0.
Procedimento do teste:
a) Enunciar as hipóteses H0 e H1.
b) Fixar .
c) Determinar a região crítica em função da variável tabelada. Escolhe-se a variável normal
padrão z.
d) Calcular o valor da variável do teste 𝑧𝑐𝑎𝑙 =𝑓−𝑝0
√𝑝0.𝑞0
𝑛
onde 𝑓 =𝑋
𝑛
e) Conclusão
H0: p = p0
H1: p ≠ p0
p > p0
p < p0
17
Exemplo 1: O consumidor de certa vacina acusou o laboratório fabricante, dizendo que
"mais de 3% das suas vacinas estão vencidas". Para confirmar (ou não) sua acusação, ele
usou uma amostra de 80 vacinas, das quais 4 estavam vencidas. Com base nestes
resultados, o que podemos concluir sobre a acusação do consumidor, ao nível de 6% de
significância?
Exemplo 2: Para testar a alegação de uma nutricionista de que pelo menos 75% das
crianças com menos de seis anos de idade de certo estado tem dietas deficientes em
proteínas, um levantamento amostral revelou que 206 de 300 crianças com menos de seis
anos daquele estado tem dietas deficientes em proteínas. Teste a hipótese nula 𝑝 = 0,75
contra a hipótese alternativa 𝑝 < 0,75 ao nível de 0,01 de significância.
18
Exercícios propostos
1. Um agente de viagem alega que dentre todas as pessoas que solicitam informações sobre cruzeiros
transatlânticos, no máximo 5% delas realmente faz um desses cruzeiros dentro de um ano. Se, numa
amostra aleatória de 16 pessoas que solicitaram informações sobre tais cruzeiros, 3 realmente fizeram
um cruzeiro, isso é evidência suficiente para rejeitar a alegação da agente de viagens 𝑝 = 0,05 contra a
alternativa 𝑝 > 0,05 ao nível de 0,01 de significância?
2. Um cientista social alega que, entre pessoas residindo em áreas urbanas, 50% são contra a pena de
morte (enquanto que os outros são a favor ou indecisos). Teste a hipótese nula 𝑝 = 0,50 contra a hipótese
alternativa 𝑝 ≠ 0,05 ao nível de 0,10 de significância se, num amostra aleatória de 𝑛 = 20 pessoas
residindo em áreas urbanas, 14 são contra a pena de morte.
3. Um processo deveria produzir bancadas com 0,85 m de altura. O engenheiro desconfia que as bancadas
que estão sendo produzidas são diferentes que o especificado. Uma amostra de 8 valores foi coletada e
indicou �̅� = 0,87. Sabendo que o desvio padrão é 0,010, teste a hipótese do engenheiro usando um nível
de significância de 5% zcal=5,66 rejeita-se H0
4. Um empresário desconfia que o tempo médio de espera para atendimento de seus clientes é superior
a 20 minutos. Para testar essa hipótese ele entrevistou 20 pessoas e questionou quanto tempo demorou
para ser atendido. O resultado dessa pesquisa aparece a seguir. Teste ao nível de significância de 5% se o
tempo de espera para atendimento é superior a 20 minutos.
S=1,4 tcal=5,75 rejeita-se H0
5. Uma oceanógrafa, com base numa amostra aleatória de tamanho 𝑛 = 35 e ao nível 0,05 de
significância, quer testar se a profundidade média do oceano numa determinada área é de 72,4 metros,
conforme registrado. O que ela decidirá se obtiver �̅� = 73,2 metros e se puder supor, usando irformações
de estudos anteriores análogos que 𝜎 = 2,1 metros?
6. A safra de alfafa de uma amostra aleatória de seis lotes de teste é dada por 1,4; 1,6; 0,9; 1,9; 2,2 𝑒 1,2
tonelada por acre. Teste ao nível 0,05 de significância, se isso corrobora a alegação de que a safra média
para esse tipo de alfafa é de 1,5 toneladas por acre.
19
4. EXERCÍCIOS DE FIXAÇÃO
1. A Debug Company vende um repelente de insetos que alega ser eficiente pelo prazo de
400 horas no mínimo. Uma análise de 90 itens aleatoriamente inspecionados acusou uma
média de eficiência de 380 horas.
a) Teste a afirmativa da companhia, contra a alternativa que a duração é inferior a 400
horas, ao nível de 1%, seu desvio padrão é de 60 horas.
b) Repita o teste, considerando um desvio padrão populacional de 90 horas.
2. Ao final de 90 dias de uma dieta alimentar envolvendo 32 pessoas, constataram-se os
seguintes ganhos médio de peso 40 g, e desvio padrão de 1,378g.
a) Supondo que o ganho de peso médio dessas pessoas é de 45 g, teste a hipótese para
𝛼 = 5%, se esse valor é o mesmo.
b) Supondo que a variância dessas pessoas é de 1.8 g², teste a hipótese para 𝛼 = 5%, se
esse valor é o mesmo.
3. Uma pesquisa feita alega que 15% das pessoas de uma determinada região sofrem de
cegueira aos 70 anos. Numa amostra aleatória de 60 pessoas acima de 70 anos constatou-
se que 12 pessoas eram cegas. Teste a alegação para 𝛼 = 5% contra p >15%.
4. Uma experiência tem mostrado que 40% dos estudantes de uma Universidade reprovam
em pelo menos 5 disciplinas cursada na faculdade. Se 40 de 90 estudantes fossem
reprovados em mais de 5 disciplinas, o que poderíamos concluir quanto a proporção
populacional, usando 𝛼 = 1%.
20
5. Testar para 𝛼 = 5% se há alguma relação entre as notas escolares e o salário.
6. Com o objetivo de investigar a relação entre a situação do emprego no momento em
que se aprovou um empréstimo e saber se o empréstimo está, agora, pago ou não, o
gerente de uma financeira selecionou ao acaso 100 clientes obtendo os resultados da
tabela. Teste a hipótese nula de que a situação de emprego e a de empréstimo são
variáveis independentes, com 𝛼 = 5%.
21
III - CORRELAÇÃO E REGRESSÃO
1. CORRELAÇÃO
Ao se estudar uma variável o interesse eram as medidas de tendência central, dispersão,
assimetria, etc. Com duas ou mais variáveis além destas medidas individuais também é de
interesse conhecer se elas tem algum relacionamento entre si, isto é, se valores altos
(baixos) de uma das variáveis implicam em valores altos (ou baixos) da outra variável. Por
exemplo, pode-se verificar se existe associação entre a taxa de desemprego e a taxa de
criminalidade em uma grande cidade, entre verba investida em propaganda e retorno nas
vendas, etc.
A associação entre duas variáveis poder ser de dois tipos: correlacional e experimental.
Numa relação experimental os valores de uma das variáveis são controlados pela
atribuição ao acaso do objeto sendo estudado e observando o que acontece com os valores
da outra variável. Por exemplo, pode-se atribuir dosagens casuais de uma certa droga e
observar a resposta do organismo; pode-se atribuir níveis de fertilizante ao acaso e
observar as diferenças na produção de uma determinada cultura.
No relacionamento correlacional, por outro lado, não se tem nenhum controle sobre
as variáveis sendo estudadas. Elas são observadas como ocorrem no ambiente natural,
sem nenhuma interferência, isto é, as duas variáveis são aleatórias. Assim a diferença entre
as duas situações é que na experimental nós atribuímos valores ao acaso de uma forma
não tendenciosa e na outra a atribuição é feita pela natureza.
22
Frequentemente é necessário estudar o relacionamento entre duas ou mais variáveis. Ao
estudo do relacionamento entre duas ou mais variáveis denominamos de correlação e
regressão. Se o estudo tratar apenas de duas variáveis tem-se a correlação e a regressão
simples, se envolver mais do que duas variáveis, tem-se a correlação e a regressão
múltiplas. A regressão e a correlação tratam apenas do relacionamento do tipo linear entre
duas variáveis.
A análise de correlação fornece um número que resume o grau de relacionamento linear
entre as duas variáveis. Já a análise de regressão fornece uma equação que descreve o
comportamento de uma das variáveis em função do comportamento da outra variável.
1.1. PADRÕES DE ASSOCIAÇÃO
Independente do tipo (correlacional ou experimental) a relação entre as variáveis pode ser
resumida através de uma equação indicando o padrão de associação entre as duas
variáveis. As relações mais comuns encontradas estão ilustradas na figura acima. Quando
não é possível perceber uma relação sistemática entre as variáveis é dito que as variáveis
são não correlacionadas, são independentes ou ainda que são ortogonais.
1.2. INDICADORES DE ASSOCIAÇÃO
Diagramas de dispersão. As tabelas fornecem somente a indicação grosseira da relação
entre duas variáveis, a não ser o fato de que os valores estão situados acima e abaixo da
mediana, qualquer outra informação é desperdiçada. Vamos considerar um exemplo,
envolvendo duas variáveis contínuas.
Um comerciante de temperos está curioso sobre a grande variação nas vendas de loja para
loja e acha que as vendas estão associadas com o espaço nas prateleiras dedicados a sua
linha de produto em cada ponto de venda. Dez lojas foram selecionadas ao acaso através
do país e as duas seguintes variáveis foram mensuradas: (1) total de espaço de frente
23
(comprimento x altura em cm2) dedicados à sua linha de produtos e (2) total das vendas
dos produtos, em reais, no último mês. Os dados são apresentados na tabela abaixo.
Tabela– Vendas x espaço dedicado aos produtos (em cm2).
Pela observação da tabela não é fácil perceber o tipo de relacionamento que possa existir
entre as duas variáveis. Para ter uma ideia melhor, as variáveis são colocadas no que é
denominado de diagrama de dispersão. Uma das variáveis (X) é representada no eixo
horizontal e a outra variável (Y) no eixo vertical.
Uma olhada rápida no diagrama de dispersão mostra a existência de um relacionamento
entre as variáveis, com altos valores de uma das variáveis associados a altos valores da
outra variável. Se não houvesse relacionamento entre elas, os pontos estariam distribuídos
ao acaso no gráfico sem mostrarem alguma tendência.
Local Espaço Vendas
1 340 71
2 230 65
3 405 83
4 325 74
5 280 67
6 195 56
7 265 57
8 300 78
9 350 84
10 310 65
24
1.3. O COEFICIENTE DE CORRELAÇÃO
Apesar do diagrama de dispersão nos fornecer uma ideia do tipo e extensão do
relacionamento entre duas variáveis X e Y, seria altamente desejável ter um número que
medisse esta relação. Esta medida existe e é denominada de coeficiente de correlação.
Quando se está trabalhando com amostras o coeficiente de correlação é indicado pela letra
r que é, por sua vez, uma estimativa do coeficiente de correlação populacional: ρ (rho).
O coeficiente de correlação pode variar de –1,00 a + 1,00, com um coeficiente de +1,
indicando uma correlação linear positiva perfeita. Neste caso, as duas variáveis serão
exatamente iguais em termos de escores padronizados z, isto é, um elemento
apresentando um escore padronizado de 1,5 em uma das variáveis vai apresentar o mesmo
escore padronizado na outra variável. Um coeficiente de correlação de –1, indica
correlação linear perfeita negativa, com os escores padronizados exatamente iguais em
valores absolutos, diferindo apenas no sinal.
Uma correlação de +1 ou –1 é raramente observado. O mais comum é que o coeficiente
fique situado no intervalo entre estes dois valores. Um coeficiente de correlação “0”,
significa que não existe um relacionamento linear entre as duas variáveis.
1.4. HIPÓTESES BÁSICAS
A suposição básica sobre o coeficiente de correlação é que o relacionamento entre as duas
variáveis seja linear. Isto é, o coeficiente de correlação é adequado para avaliar somente o
relacionamento linear. As duas variáveis podem estar perfeitamente relacionadas, mas se
não for de forma linear o valor do coeficiente pode ser zero ou próximo de zero.
Uma segunda hipótese é que as variáveis envolvidas sejam aleatórias e que sejam medidas
no mínimo em escala de intervalo. Ele não se aplica a variáveis em escala nominal ou
25
ordinal ou quando uma das variáveis é manipulada experimentalmente, pois neste caso, a
escolha dos valores experimentais vai influenciar o valor de r obtido.
Uma terceira hipótese é que as duas variáveis tenham uma distribuição conjunta normal
bivariada. Isto é equivalente a dizer que para cada x dado a variável y é normalmente
distribuída. Suponha-se que existam apenas duas variáveis X e Y. Uma amostra da variável
“X”, assumindo os valores particulares X1 , X2, ..., Xn e uma amostra da variável “Y”
assumindo os valores particulares Y1, Y2, ..., Yn são obtidas e suponha-se ainda que o objetivo
é saber se existe algum tipo de relacionamento linear entre estas duas variáveis. Isto
poderá ser medido pelo coeficiente de correlação linear de Pearson que fornece o grau de
relacionamento linear entre duas variáveis.
1.5. DEFINIÇÃO
Na população o coeficiente de correlação é representado por ρ e na amostra por r.
Assim dadas duas amostras, uma da variável X e outra da variável Y, o coeficiente de
correlação amostral poderá ser calculado através da seguinte expressão:
𝑟𝑥𝑦 =𝑆𝑥𝑦
√𝑆𝑥𝑥. 𝑆𝑦𝑦
Onde 𝑆𝑥𝑦 = ∑ 𝑥𝑦 −∑ 𝑥.∑ 𝑦
𝑛; 𝑆𝑥𝑥 = ∑ 𝑥2 −
(∑ 𝑥)2
𝑛 e 𝑆𝑦𝑦 = ∑ 𝑦2 −
(∑ 𝑦)2
𝑛
1.6. PROPRIEDADES DE r
As propriedades mais importantes do coeficiente de correlação são:
Intervalo de variação vai de -1 a +1.
Coeficiente de correlação é uma medida adimensional, isto é, ele é independente das
unidades de medida das variáveis X e Y.
26
Quanto mais próximo de +1 for “r”, maior o grau de relacionamento linear positivo entre
X e Y, ou seja, se X varia em uma direção Y variará na mesma direção.
Quanto mais próximo de -1 for “r”, maior o grau de relacionamento linear negativo entre
X e Y, isto é, se X varia em um sentido Y variará no sentido inverso.
Quanto mais próximo de zero estiver “r” menor será o relacionamento linear entre X e
Y. Um valor igual a zero, indicará ausência apenas de relacionamento linear.
1.7. COEFICIENTE DE DETERMINAÇÃO 𝑹𝟐
Indica a proporção de variação da variável independente que é explicada pela variável
dependente, ou seja, é uma ferramenta que avalia a qualidade do ajuste.
𝑅2 = (𝑟𝑥𝑦)2, 0 ≤ 𝑅2 ≤ 1
Quanto mais próximo da unidade o R² estiver, melhor é a qualidade do ajuste. O seu valor
fornece a proporção da variável Y explicada pela variável X através da função ajustada.
EXEMPLO: Dez alunos foram submetidos a um teste de estatística e um de matemática
obtendo as seguintes notas.
Aluno A B C D E F G H I J
Matemática 6 5 9 10 3 4 8 7 6 2
Estatística 7 6 10 9 2 3 9 5 6 3
a) Construa o diagrama de dispersão.
b) Calcule o coeficiente de correlação linear de Pearson.
c) Determine a proporção que Y é explicada por X.
27
EXERCÍCIOS
1. Vamos supor que 5 pessoas tenham sido questionadas a respeito das seguintes
perguntas:
a) Durante quantos anos você frequentou a escolar regularmente?
b) Quantos livros você tem em sua biblioteca particular?
As respostas foram apresentadas na tabela abaixo. Com base nestes dados verifique se
existe correlação entre os anos que estas pessoas frequentaram a escolar e o número de
livros que possuem em sua biblioteca.
Sujeito A B C D E
Frequência a escola 5 8 10 12 15
Número de livros 10 30 45 50 75
2. Uma empresa de propaganda testou o grau de memorização proporcionado por 10
anúncios de televisão através de 2 grupos: um de homens e outro de mulheres. Ambos os
grupos possuiam idênticas características sócio-econômicas. Os resultados em termos do
grau de memorização relative encontram-se na tabela abaixo. Qual o coeficiente de
correlação para os efeitos de memorização entre os sexos?
Anúncio A B C D E F G H I J
Homens 8 3 9 2 7 10 4 6 1 5
Mulheres 9 5 10 1 8 7 3 4 2 6
28
2 REGRESSÃO
2.1 INTRODUÇÃO
Um dos problemas frequentemente encontrados na prática é descrever e predizer
fenômenos observados. Isso pode ser resolvido através da construção de um modelo
matemático que relacione as variáveis envolvidas no fenômeno podendo este modelo ser
utilizado para fins de predição.
Suponha que Y (dependente) seja uma variável que nos interessa estudar e prever seu
comportamento. É esperado que os valores da variável X (independente) sofram influência
dos valores de um número finito de variáveis 𝑋1, 𝑋2, 𝑋3, … , 𝑋𝑛 (independentes) e que exita
uma função “f” que expresse tal dependência.
É fácil perceber que se torna impraticável a utilização de todas as “n” variáveis, ou por
desconhecimento de algumas, ou pela dificuldade de mensuração e tratamento de outras.
2.2 ESPECIFICAÇÃO DO MODELO
Sabe-se que muitas variáveis independentes influenciam a variável dependente. O
problema é encontrar o tipo de função: linear, polinomial, exponencial, etc., que relacione
as variáveis.
Pode-se identificar a relação funcional quando é considerada apenas uma variável
independente, através do diagrama de dispersão. Basta representar os pares (𝑥𝑖 , 𝑦𝑖).
Observando este gráfico tem-se uma ideia da relação functional entre as variáveis.
Considerando-se o modelo linear: 𝑌 = 𝛼 + 𝛽𝑋 + 𝜀𝑖 onde 𝛼 𝑒 𝛽 são os parâmetros da reta
e 𝜀𝑖 representa a influência de outros fatores, ou seja, é a componente aleatória (erro ou
resíduo) do modelo.
29
2.3 ESTIMAÇÃO DOS PARÂMETROS
Estimaremos os parâmetros 𝛼 𝑒 𝛽 da reta através dos valores estimados “a” e “b”
fornecidos pela amostra, logo: �̂� = 𝑎 + 𝑏𝑥 + 𝜀𝑖 será a formula geral da equação de
regressão, onde:
a é o coeficiente linear, ponto onde a reta corta o eixo da variável y;
b é o coeficiente angular, tangente do ângulo que a reta forma com o eixo da variável
x;
𝜺𝒊 é o erro aleatório.
2.4 PRESSUPOSIÇÕES BÁSICAS PARA REALIZAR A REGRESSÃO
a) a relação entre X e Y é linear (os acréscimos em X produzem acréscimos proporcionais
em Y e a razão de crescimento é constante);
b) os valores de X são fixados arbitrariamente, ou seja, X não é uma variável aleatória;
c) Y é uma variável aleatória que depende entre outras coisas dos valores de X;
d) 𝜀𝑖 é o erro aleatório, ou seja, a variação de Y que não é explicada pela variável
independente X;
e) os erros são considerados independentes.
Com isto temos o objetivo de:
a) Estimar valores de uma variável, com base em valores conhecidos da amostra;
b) Explicar valores de uma variável em termos da amostra.
Para estimarmos Y a partir de X expressamos Y como uma função linear de X,
interpolando a nuvem de pontos em uma reta, sendo que a reta que forneceu melhor
ajustamento deve ser escolhida.
30
A escolha dessa reta obedece ao critério do Mínimos Quadrados. A reta de regressão
tem a propriedade de sempre passar pelo ponto (�̅�, �̅�).
2.5 MÉTODO DOS MÍNIMOS QUADRADOS
O MMQ é aquele que torna mínima a soma dos quadrados das distâncias da reta aos
pontos experimentais, medidas no sentido da variação aleatória, ou seja, devemos
procurar uma reta que minimiza ∑(𝑌 − �̂�), que são os erros.
O MMQ consiste em adotar como estimativa dos parâmetros os valores que minimizem a
soma dos quadrados dos desvios.
Como a reta a ser determinada será utilizada para fins de previsão é necessário
determinar a equação que forneça os menores erros de previsão. Erro de previsão é a
diferença entre o valor real e o previsto, isto é, 𝑌 − �̂�.
Assim, obtemos a equação �̂� = 𝑎 + 𝑏𝑥 onde 𝑎 = �̅� − 𝑏�̅� e 𝑏 =𝑆𝑥𝑦
𝑆𝑥𝑥
Interpretação do coeficiente angular b
a) Se b for positivo significa que acréscimos da variável independente corresponderão
a acréscimos da variável dependente, assim a regressão é direta;
b) Se b for negativo significa que acréscimos da variável independente corresponderão
a decréscimos da variável dependente, assim a regressão é inversa;
c) Se b for nulo não há relação entre x e y e a reta será paralela ao eixo x.
31
EXEMPLO: A velocidade máxima de automóveis de Fórmula I com motores de mesma
potência é função, entre outras variáveis, do peso do veículo, no intervalo entre 700 e 800
kg. Assim, verificou-se qual a velocidade máxima atingida em uma reta de 1200 m. Os
resultados foram:
Peso (kg) 790 780 770 760 750
Velocidade (km/h) 280 284 291 295 301
a) Faça o diagrama de dispersão.
b) Determine o coeficiente de correlação de Pearson e o coeficiente de determinação
e interprete-os.
c) Determine a equação de mínimos quadrados para os dados.
d) Qual a velocidade esperada para um carro que pesa 730 kg?
32
2.7 EXERCÍCIOS
1. Uma empresa, estudando como varia a procura de certo produto em função de preço
de venda, obteve as informações contidas a tabela. Com esses dados:
Preço de venda (x) 250 275 300 325 350
Procura (y) 275 213 152 85 25
a) fazer o diagrama de dispersão
b) encontrar o coeficiente de correlação
c) encontrar a equação de regressão
d) qual a procura do produto se o preço for R$ 260,00