Apostila.pdf

ESTATÍSTICA II

Prof.ª Ms. Simone Regina dos Reis

2

I – INTRODUÇÃO 1. DEFINIÇÃO A Estatística é uma ciência de múltiplas aplicações e de fundamental importância no campo

da investigação científica, sendo de utilização cada vez mais acentuada em qualquer

atividade profissional. Então, é razoável que os profissionais de diversas áreas adquiram

um mínimo de conhecimento técnico sobre estatística que possibilitem a compreensão de

termos como: variabilidade, regressão, correlação, significância, e que aparecem com

frequência no nosso cotidiano e em artigos de publicações especializadas.

A Estatística é um conjunto de métodos destinados a coleta, organização, resumo,

apresentação e análise de dados de observação, bem como a tomada de decisões

razoáveis baseadas em tais análises. Ela pode ser dividida em dois campos:

Estatística descritiva: trata da coleta, da organização, classificação,

apresentação e descrição dos dados de observação. Se refere a maneira de apresentar um

conjunto de dados em tabelas e gráficos e a maneira de resumir, através de certas

medidas, as informações contidas nestes dados.

Estatística inferencial: visa tirar conclusões sobre a população a partir de

amostras. Se refere a maneira de estabelecer conclusões para toda uma população quando

se observar apenas parte desta população.

3

2. CONCEITOS BÁSICOS POPULAÇÃO X AMOSTRA

População (N): conjunto de todos os elementos relativos a um determinado fenômeno

que possuem pelo menos uma característica em comum, podendo ser finita (apresenta um

número limitado de observações, que é passível de contagem) ou infinita (apresenta um

número ilimitado de observações que é impossível de contar e geralmente está associada

a processos).

Amostra (n): é um subconjunto da população. A amostra deve ser selecionada seguindo

certas regras e para ser representativa, de modo que ela represente todas as

características da população como se fosse uma fotografia desta.

PARÂMETROS X ESTATÍSTICA

Parâmetros: são medidas obtidas quando se investiga a população em sua totalidade,

neste caso é impossível fazer inferências pois toda a população foi investigada.

Estatísticas ou Estimadores: são medidas obtidas da amostra. Torna-se possível neste

caso, utilizarmos as teorias de inferências para que possamos fazer conclusões sobre a

população.

4

II – TESTES DE HIPÓTESES 1. INTRODUÇÃO

Na teoria de decisão estatística, os testes de hipóteses assumem uma importância

fundamental, já que estes permitem nos dizer, por exemplo, se duas populações são de

fato iguais ou diferentes, utilizando para isso amostras destas populações. Desta forma, a

tomada de decisão de um pesquisador, deve estar baseada na análise dos dados a partir

de um teste de hipóteses.

Então você pode definir as hipóteses a ser testado, retirar amostras das populações a

ser estudado, calcular as estatísticas delas e, por fim, determinar o grau de aceitação de

hipóteses baseadas se uma determinada hipótese será válida ou não.

Para você decidir se uma hipótese é verdadeira ou falsa, ou seja, se ela deve ser aceita

ou rejeitada, considerando uma determinada amostra, precisamos seguir uma série de

passos:

I) Formular as hipóteses 𝑯𝟎 e 𝑯𝟏

𝐻0: hipótese nula – é a hipótese inicial.

𝐻1: hipótese alternativa – é a hipótese contrária a 𝐻0.

Observe que as hipóteses 𝐻0 e 𝐻1 são hipóteses mutuamente excludentes, ou seja,

aceitando-se uma das hipóteses como sendo verdadeira, a outra, automaticamente, será

rejeitada.

Ao testarmos uma 𝐻0, chegamos a uma conclusão: aceitá-la ou rejeitá-la. Desse modo

podemos cometer dois tipos de erros:

Erro Tipo I: consiste em rejeitar 𝐻0, quando ela é verdadeira. Pode ser limitado pela

escolha de .

Erro Tipo II: consiste em aceitar 𝐻0, quando ela é falsa. É a potência do teste.

5

O quadro mostra as possibilidades de se cometer os erros.

II) Definir o nível de significância ()

O nível de significância de um teste é dado pela probabilidade de se cometer um erro tipo

I. Dizemos então, que o nível de significância de um teste é a probabilidade máxima com

que desejamos correr risco de um erro tipo I. O valor de é tipicamente predeterminado,

geralmente usamos 𝛼 = 0,05 ou 𝛼 = 0,01.

III) Definir a distribuição amostral a ser utilizada

A estatística a ser utilizada no teste, você definirá em função da distribuição amostral a

qual os dados seguem. Podemos utilizar a distribuição normal (z), t de Student ou Qui-

Quadrado. Note que o conhecimento das distribuições amostrais é muito importante.

IV) Definir os limites da região de rejeição

Teste Bilateral

H0: μ = número

H1: μ ≠ número

Neste tipo de teste, se aceita H0 se o valor calculado com base na amostra, estiver entre

os dois valores tabelados, como na figura acima.

1 -

𝑣𝑎𝑙𝑜𝑟 𝑡𝑎𝑏𝑒𝑙𝑎𝑑𝑜 𝑣𝑎𝑙𝑜𝑟 𝑡𝑎𝑏𝑒𝑙𝑎𝑑𝑜

/2 /2

6

Teste unilateral à direita

H0: μ = número

H1: μ > 𝑛ú𝑚𝑒𝑟𝑜

Neste tipo de teste, se aceita H0 se o valor calculado com base na amostra for menor que

o valor tabela, como na figura acima.

Teste unilateral à esquerda

H0: μ = número

H1: μ < 𝑛ú𝑚𝑒𝑟𝑜

Neste tipo de teste, se aceita H0 se o valor calculado com base na amostra for maior que

o valor tabela, como na figura acima.

V) Tomar a decisão

Para tomar a decisão, você deve calcular a estimativa do teste estatístico que será utilizado

para rejeitar ou não H0.

1 -

𝑣𝑎𝑙𝑜𝑟 𝑡𝑎𝑏𝑒𝑙𝑎𝑑𝑜

1 -

𝑣𝑎𝑙𝑜𝑟 𝑡𝑎𝑏𝑒𝑙𝑎𝑑𝑜

7

2. TESTES NÃO – PARAMÉTRICOS

A Estatística não-paramétrica não exige suposições quanto a distribuição da

população da qual se tenha retirado amostras para análise. Vamos estudar agora um teste

não-paramétrico, assim chamado por não depender dos parâmetros populacionais nem

de suas respectivas estimativas.

Para a realização desse teste não-paramétrico nós utilizaremos uma nova distribuição

estatística chamada Qui-Quadrado, cuja medida baseia-se no grau de concordância entre

as frequências observadas e as frequências esperadas de acordo com as regras de

probabilidade.

Suponha um experimento realizado 𝑛 vezes, onde se observou um conjunto

𝐴1, 𝐴2, … , 𝐴𝑘 com as respectivas frequências 𝑂1, 𝑂2, … , 𝑂𝑘. No entanto, de acordo com as

regras de probabilidade deveriam apresentar as seguintes frequências teóricas ou

esperadas 𝑒1, 𝑒2, … , 𝑒𝑘.

Exemplo 1: Lançamento de um dado 60 vezes. O resultado deste experimento aparece na

tabela a seguir.

O modelo que serve para determinar as discrepâncias existentes entre as frequências

observadas e esperadas é dado pela estatística:

8

𝜒2 = ∑(𝑂𝑗 − 𝑒𝑗)

2

𝑒𝑗=

(𝑂1 − 𝑒1)2

𝑒1+

(𝑂2 − 𝑒2)2

𝑒2+ ⋯ +

(𝑂𝑘 − 𝑒𝑘)2

𝑒𝑘

Onde 𝑂𝑗 é a frequência observada e 𝑒𝑗é a frequência esperada, sob a hipótese em estudo.

A distribuição amostral da distribuição Qui-quadrado 𝜒2 terá a seguinte forma

aproximada:

A 𝜒2 assim como a “t” de Student, terá graus de liberdade associados à sua

distribuição, que serão definidos de acordo com o procedimento a ser adotado.

Procedimento do teste:

a) Enunciar as hipóteses H0 e H1.

b) Escolher o nível de significância .

c) Estatística calculada 𝜒𝑐𝑎𝑙2 = ∑

(𝑓𝑜−𝑓𝑒)2

𝑓𝑒

𝑘𝑖=1

d) Estatística Tabelada: 𝜒𝑡𝑎𝑏2 = 𝜒𝜙,𝛼

2

e) Comparar 𝜒𝑡𝑎𝑏2 com 𝜒𝑐𝑎𝑙

2 e concluir:

f) Conclusão

H0: fo = fe

H1: fo ≠ fe

9

1º caso – Teste de adequação do ajustamento

Suponhamos uma amostra de tamanho 𝑛. Sejam 𝐸1, 𝐸2, … , 𝐸𝑘, um conjunto de

eventos possíveis da amostra.

Este teste é indicado para verificar se as frequências observadas dos 𝑘 eventos (𝑘

classes em que variável é dividida) concordam ou não com as frequências teóricas

esperadas.

As frequências esperadas (𝐹𝑒𝑖) são obtidas multiplicando-se o número total de

elementos pela proporção teórica da classe 𝑖 (𝑛. 𝑝𝑖).

Para encontrar 𝜒𝑐𝑎𝑙2 necessita-se do nível de significância e dos graus de liberdade os

quais podem ser obtidos da seguinte forma:

a) 𝜙 = 𝑘 − 1, quando as frequências esperadas puderem ser calculadas sem que

façam estimativas dos parâmetros populacionais a partir das distribuições

amostrais.

b) 𝜙 = 𝑘 − 1 − 𝑚, quando para a determinação das frequências esperadas 𝑚

parâmetros tiverem suas estimativas calculadas a partir das distribuições amostrais.

Exemplo 1: Deseja-se testar se o número de acidentes numa rodovia se distribui

igualmente pelos dias da semana. Para tanto foram levantados os seguintes dados (𝛼 =

5%):

10

Exemplo 2: O número de livros emprestados por uma biblioteca durante certa semana está

a seguir. Teste a hipótese que o número de livros emprestados não depende do dia da

semana, com 𝛼 = 1%.

11

2º caso – Teste da independência

Uma importante aplicação do teste 𝜒2 ocorre quando se quer estudar a relação

entre duas ou mais variáveis de classificação. A representação das frequências observadas,

nesse caso, pode ser feita por meio de uma tabela de contingência.

𝐻0: As variáveis são independentes (não estão associadas)

𝐻1: As variáveis não são independentes (estão associadas)

O número de graus de liberdade é dado por: 𝜙 = (𝐿 − 1) (𝐶 − 1), onde L é o número

de linhas e C o número de colunas da tabela de contingência.

Exemplo 1: Verifique se há associação entre os níveis de renda e os municípios onde foram

pesquisados 400 moradores. Use a = 1%.

12

EXERCÍCIOS PROPOSTOS

1. As diferenças entre os sonhos das pessoas dos sexos masculinos e femininos foram documentadas

(Winget & Kramer, 1979). Um pesquisador, através de uma amostra, analisou essa diferença entre os

sonhos de homens e mulheres. Cada sonho é julgado de acordo com as seguintes categorias, referentes a

agressividade; baixa, média ou alta. As frequências observadas estão mostradas na tabela abaixo:

Baixa agressividade Média agressividade Alta agressividade

Mulheres 34 18 8

Homens 7 33 20

Verificar se há alguma relação entre o gênero (masc./fem.) e a agressividade dos sonhos. Adotar o nível

de significância de 1%. 𝑿𝟐𝒄𝒂𝒍 = 𝟐𝟕, 𝟑𝟑𝟓 rejeita-se H0

2. Uma bibliotecária fez uma pesquisa, durante uma certa semana, sobre o número de livros retirado pelos

estudantes. Testar a hipótese de que número de livros emprestados não depende do dia da semana, com

nível de significância de 1%.

Dias da semana Seg Ter Qua Qui Sex

No de livros emprestados 100 138 130 152 118

𝑿𝟐𝒄𝒂𝒍 = 𝟏𝟐, 𝟐𝟓𝟏 Aceita-se H0

3. Um pesquisador deseja saber se existe alguma faixa etária mais propensa ao risco de morte pela ação

da gripe (influenza). Foi colhida uma amostra de 80 pessoas que morreram devido a esse tipo de problema.

Abaixo de 15 anos De 15 a 50 anos Acima de 50 anos

10 casos 20 casos 50 casos

No local onde essa amostra foi selecionada, os valores padrões para esse tipo de morte são; 15% da

população com menos que 15 anos; 35% entre 15 e 50 anos e 50% acima de 50 anos. O pesquisador pode,

ao nível de 5%, concluir que o risco de morte está associado a faixa etária? 𝑿𝟐𝒄𝒂𝒍 = 𝟓, 𝟏𝟏𝟗 Aceita-se H0

4. Um psicólogo submeteu um grupo de pacientes a um teste, ministrando sonífero a um grupo e pílulas

de farinha (placebo) a outro grupo. Perguntado aos pacientes se o medicamento ajudou ou não a dormir

melhor, as respostas foram as seguintes:

Testar, ao nível de 5%, a hipótese de não haver diferença entre o fato do doente tomar sonífero e dormir

melhor. 𝑿𝟐𝒄𝒂𝒍 = 𝟎, 𝟑𝟏 Aceita-se H0

Pílulas Dormiram melhor Dormiram pior Indiferente

Sonífero 32 15 23

Placebo 35 20 30

13

3. TESTES DE HIPÓTESES PARAMÉTRICOS

Muitas vezes o pesquisador tem alguma ideia ou conjectura sobre o comportamento de

uma variável. Nesse caso, o planejamento da pesquisa deve ser de tal forma que permita,

com os dados amostrais, testar a veracidade de suas ideias sobre a população em estudo.

Considera-se que a população seja o mundo real e as ideias sejam as hipóteses de pesquisa,

que poderão ser testadas por técnicas estatísticas denominados de testes de hipóteses.

3.1 TESTE DE HIPÓTESES PARA MÉDIA POPULACIONAL

Quando você retira uma amostra de uma população e calcula a média desta amostra

é possível verificar se a afirmação sobre a média populacional é verdadeira. Para tanto,

basta verificar se a estatística do teste estará na região de aceitação ou de rejeição de H0.

1º caso – Desvio padrão da população () conhecido e amostra considerada grande

(𝑛 > 30).

Distribuição amostral z e a estatística do teste será

Exemplo 1: O desvio padrão da população é 22 unidades. Se uma amostra de 100

elementos retirados dessa população forneceu média 115,8 podemos afirmar que a média

dessa população é inferior a 120 unidades, ao nível de 5% de significância?

14

Exemplo 2: Registros dos últimos anos de funcionários de uma determinada empresa

atestam que sua média num teste de QI foi 115 com desvio padrão de 20. Para saber se

uma nova equipe de funcionários é típica desta empresa, retirou-se uma amostra aleatória

de 50 funcionários desta nova equipe, encontrando média de 118. Com uma significância

de 5%, teste a hipótese de que esta nova equipe apresente a mesma característica dos

funcionários da empresa, com relação ao QI.

15

2º caso – Desvio padrão da população () desconhecido e amostra considerada pequena

(𝑛 ≤ 30).

Distribuição amostral t de Student e a estatística do teste será

Exemplo 1: Os registros dos últimos anos de um colégio atestaram para os calouros

admitidos a nota média de 115 (teste vocacional). Para testar a hipótese de que a média

da nova turma é a mesma, retirou-se ao acaso uma amostra de 20 notas, obtendo-se média

118 e desvio padrão 20. Admitindo-se um nível de 5% de significância, faça o teste de

hipóteses.

Exemplo 2: O tempo médio gasto para profissionais da área de Ciências Contábeis

realizarem um determinado procedimento tem sido de 50 minutos. Um novo

procedimento está sendo implementado. Neste novo procedimento, retirou-se uma

amostra de 12 pessoas, com um tempo médio de 42 minutos e um desvio padrão de 11,9

16

minutos. Teste a hipótese de que a média populacional no novo procedimento é menor

que 50 a um nível de 5% de significância.

3.2 TESTE DE HIPÓTESES PARA A PROPORÇÃO

Este tipo de teste será realizado quando temos uma população e uma hipótese sobre

a proporção de indivíduos portadores de certa característica. Esta hipótese afirma que essa

proporção é igual a certo número p0.

Procedimento do teste:

a) Enunciar as hipóteses H0 e H1.

b) Fixar .

c) Determinar a região crítica em função da variável tabelada. Escolhe-se a variável normal

padrão z.

d) Calcular o valor da variável do teste 𝑧𝑐𝑎𝑙 =𝑓−𝑝0

√𝑝0.𝑞0

𝑛

onde 𝑓 =𝑋

𝑛

e) Conclusão

H0: p = p0

H1: p ≠ p0

p > p0

p < p0

17

Exemplo 1: O consumidor de certa vacina acusou o laboratório fabricante, dizendo que

"mais de 3% das suas vacinas estão vencidas". Para confirmar (ou não) sua acusação, ele

usou uma amostra de 80 vacinas, das quais 4 estavam vencidas. Com base nestes

resultados, o que podemos concluir sobre a acusação do consumidor, ao nível de 6% de

significância?

Exemplo 2: Para testar a alegação de uma nutricionista de que pelo menos 75% das

crianças com menos de seis anos de idade de certo estado tem dietas deficientes em

proteínas, um levantamento amostral revelou que 206 de 300 crianças com menos de seis

anos daquele estado tem dietas deficientes em proteínas. Teste a hipótese nula 𝑝 = 0,75

contra a hipótese alternativa 𝑝 < 0,75 ao nível de 0,01 de significância.

18

Exercícios propostos

1. Um agente de viagem alega que dentre todas as pessoas que solicitam informações sobre cruzeiros

transatlânticos, no máximo 5% delas realmente faz um desses cruzeiros dentro de um ano. Se, numa

amostra aleatória de 16 pessoas que solicitaram informações sobre tais cruzeiros, 3 realmente fizeram

um cruzeiro, isso é evidência suficiente para rejeitar a alegação da agente de viagens 𝑝 = 0,05 contra a

alternativa 𝑝 > 0,05 ao nível de 0,01 de significância?

2. Um cientista social alega que, entre pessoas residindo em áreas urbanas, 50% são contra a pena de

morte (enquanto que os outros são a favor ou indecisos). Teste a hipótese nula 𝑝 = 0,50 contra a hipótese

alternativa 𝑝 ≠ 0,05 ao nível de 0,10 de significância se, num amostra aleatória de 𝑛 = 20 pessoas

residindo em áreas urbanas, 14 são contra a pena de morte.

3. Um processo deveria produzir bancadas com 0,85 m de altura. O engenheiro desconfia que as bancadas

que estão sendo produzidas são diferentes que o especificado. Uma amostra de 8 valores foi coletada e

indicou �̅� = 0,87. Sabendo que o desvio padrão é 0,010, teste a hipótese do engenheiro usando um nível

de significância de 5% zcal=5,66 rejeita-se H0

4. Um empresário desconfia que o tempo médio de espera para atendimento de seus clientes é superior

a 20 minutos. Para testar essa hipótese ele entrevistou 20 pessoas e questionou quanto tempo demorou

para ser atendido. O resultado dessa pesquisa aparece a seguir. Teste ao nível de significância de 5% se o

tempo de espera para atendimento é superior a 20 minutos.

S=1,4 tcal=5,75 rejeita-se H0

5. Uma oceanógrafa, com base numa amostra aleatória de tamanho 𝑛 = 35 e ao nível 0,05 de

significância, quer testar se a profundidade média do oceano numa determinada área é de 72,4 metros,

conforme registrado. O que ela decidirá se obtiver �̅� = 73,2 metros e se puder supor, usando irformações

de estudos anteriores análogos que 𝜎 = 2,1 metros?

6. A safra de alfafa de uma amostra aleatória de seis lotes de teste é dada por 1,4; 1,6; 0,9; 1,9; 2,2 𝑒 1,2

tonelada por acre. Teste ao nível 0,05 de significância, se isso corrobora a alegação de que a safra média

para esse tipo de alfafa é de 1,5 toneladas por acre.

19

4. EXERCÍCIOS DE FIXAÇÃO

1. A Debug Company vende um repelente de insetos que alega ser eficiente pelo prazo de

400 horas no mínimo. Uma análise de 90 itens aleatoriamente inspecionados acusou uma

média de eficiência de 380 horas.

a) Teste a afirmativa da companhia, contra a alternativa que a duração é inferior a 400

horas, ao nível de 1%, seu desvio padrão é de 60 horas.

b) Repita o teste, considerando um desvio padrão populacional de 90 horas.

2. Ao final de 90 dias de uma dieta alimentar envolvendo 32 pessoas, constataram-se os

seguintes ganhos médio de peso 40 g, e desvio padrão de 1,378g.

a) Supondo que o ganho de peso médio dessas pessoas é de 45 g, teste a hipótese para

𝛼 = 5%, se esse valor é o mesmo.

b) Supondo que a variância dessas pessoas é de 1.8 g², teste a hipótese para 𝛼 = 5%, se

esse valor é o mesmo.

3. Uma pesquisa feita alega que 15% das pessoas de uma determinada região sofrem de

cegueira aos 70 anos. Numa amostra aleatória de 60 pessoas acima de 70 anos constatou-

se que 12 pessoas eram cegas. Teste a alegação para 𝛼 = 5% contra p >15%.

4. Uma experiência tem mostrado que 40% dos estudantes de uma Universidade reprovam

em pelo menos 5 disciplinas cursada na faculdade. Se 40 de 90 estudantes fossem

reprovados em mais de 5 disciplinas, o que poderíamos concluir quanto a proporção

populacional, usando 𝛼 = 1%.

20

5. Testar para 𝛼 = 5% se há alguma relação entre as notas escolares e o salário.

6. Com o objetivo de investigar a relação entre a situação do emprego no momento em

que se aprovou um empréstimo e saber se o empréstimo está, agora, pago ou não, o

gerente de uma financeira selecionou ao acaso 100 clientes obtendo os resultados da

tabela. Teste a hipótese nula de que a situação de emprego e a de empréstimo são

variáveis independentes, com 𝛼 = 5%.

21

III - CORRELAÇÃO E REGRESSÃO

1. CORRELAÇÃO

Ao se estudar uma variável o interesse eram as medidas de tendência central, dispersão,

assimetria, etc. Com duas ou mais variáveis além destas medidas individuais também é de

interesse conhecer se elas tem algum relacionamento entre si, isto é, se valores altos

(baixos) de uma das variáveis implicam em valores altos (ou baixos) da outra variável. Por

exemplo, pode-se verificar se existe associação entre a taxa de desemprego e a taxa de

criminalidade em uma grande cidade, entre verba investida em propaganda e retorno nas

vendas, etc.

A associação entre duas variáveis poder ser de dois tipos: correlacional e experimental.

Numa relação experimental os valores de uma das variáveis são controlados pela

atribuição ao acaso do objeto sendo estudado e observando o que acontece com os valores

da outra variável. Por exemplo, pode-se atribuir dosagens casuais de uma certa droga e

observar a resposta do organismo; pode-se atribuir níveis de fertilizante ao acaso e

observar as diferenças na produção de uma determinada cultura.

No relacionamento correlacional, por outro lado, não se tem nenhum controle sobre

as variáveis sendo estudadas. Elas são observadas como ocorrem no ambiente natural,

sem nenhuma interferência, isto é, as duas variáveis são aleatórias. Assim a diferença entre

as duas situações é que na experimental nós atribuímos valores ao acaso de uma forma

não tendenciosa e na outra a atribuição é feita pela natureza.

22

Frequentemente é necessário estudar o relacionamento entre duas ou mais variáveis. Ao

estudo do relacionamento entre duas ou mais variáveis denominamos de correlação e

regressão. Se o estudo tratar apenas de duas variáveis tem-se a correlação e a regressão

simples, se envolver mais do que duas variáveis, tem-se a correlação e a regressão

múltiplas. A regressão e a correlação tratam apenas do relacionamento do tipo linear entre

duas variáveis.

A análise de correlação fornece um número que resume o grau de relacionamento linear

entre as duas variáveis. Já a análise de regressão fornece uma equação que descreve o

comportamento de uma das variáveis em função do comportamento da outra variável.

1.1. PADRÕES DE ASSOCIAÇÃO

Independente do tipo (correlacional ou experimental) a relação entre as variáveis pode ser

resumida através de uma equação indicando o padrão de associação entre as duas

variáveis. As relações mais comuns encontradas estão ilustradas na figura acima. Quando

não é possível perceber uma relação sistemática entre as variáveis é dito que as variáveis

são não correlacionadas, são independentes ou ainda que são ortogonais.

1.2. INDICADORES DE ASSOCIAÇÃO

Diagramas de dispersão. As tabelas fornecem somente a indicação grosseira da relação

entre duas variáveis, a não ser o fato de que os valores estão situados acima e abaixo da

mediana, qualquer outra informação é desperdiçada. Vamos considerar um exemplo,

envolvendo duas variáveis contínuas.

Um comerciante de temperos está curioso sobre a grande variação nas vendas de loja para

loja e acha que as vendas estão associadas com o espaço nas prateleiras dedicados a sua

linha de produto em cada ponto de venda. Dez lojas foram selecionadas ao acaso através

do país e as duas seguintes variáveis foram mensuradas: (1) total de espaço de frente

23

(comprimento x altura em cm2) dedicados à sua linha de produtos e (2) total das vendas

dos produtos, em reais, no último mês. Os dados são apresentados na tabela abaixo.

Tabela– Vendas x espaço dedicado aos produtos (em cm2).

Pela observação da tabela não é fácil perceber o tipo de relacionamento que possa existir

entre as duas variáveis. Para ter uma ideia melhor, as variáveis são colocadas no que é

denominado de diagrama de dispersão. Uma das variáveis (X) é representada no eixo

horizontal e a outra variável (Y) no eixo vertical.

Uma olhada rápida no diagrama de dispersão mostra a existência de um relacionamento

entre as variáveis, com altos valores de uma das variáveis associados a altos valores da

outra variável. Se não houvesse relacionamento entre elas, os pontos estariam distribuídos

ao acaso no gráfico sem mostrarem alguma tendência.

Local Espaço Vendas

1 340 71

2 230 65

3 405 83

4 325 74

5 280 67

6 195 56

7 265 57

8 300 78

9 350 84

10 310 65

24

1.3. O COEFICIENTE DE CORRELAÇÃO

Apesar do diagrama de dispersão nos fornecer uma ideia do tipo e extensão do

relacionamento entre duas variáveis X e Y, seria altamente desejável ter um número que

medisse esta relação. Esta medida existe e é denominada de coeficiente de correlação.

Quando se está trabalhando com amostras o coeficiente de correlação é indicado pela letra

r que é, por sua vez, uma estimativa do coeficiente de correlação populacional: ρ (rho).

O coeficiente de correlação pode variar de –1,00 a + 1,00, com um coeficiente de +1,

indicando uma correlação linear positiva perfeita. Neste caso, as duas variáveis serão

exatamente iguais em termos de escores padronizados z, isto é, um elemento

apresentando um escore padronizado de 1,5 em uma das variáveis vai apresentar o mesmo

escore padronizado na outra variável. Um coeficiente de correlação de –1, indica

correlação linear perfeita negativa, com os escores padronizados exatamente iguais em

valores absolutos, diferindo apenas no sinal.

Uma correlação de +1 ou –1 é raramente observado. O mais comum é que o coeficiente

fique situado no intervalo entre estes dois valores. Um coeficiente de correlação “0”,

significa que não existe um relacionamento linear entre as duas variáveis.

1.4. HIPÓTESES BÁSICAS

A suposição básica sobre o coeficiente de correlação é que o relacionamento entre as duas

variáveis seja linear. Isto é, o coeficiente de correlação é adequado para avaliar somente o

relacionamento linear. As duas variáveis podem estar perfeitamente relacionadas, mas se

não for de forma linear o valor do coeficiente pode ser zero ou próximo de zero.

Uma segunda hipótese é que as variáveis envolvidas sejam aleatórias e que sejam medidas

no mínimo em escala de intervalo. Ele não se aplica a variáveis em escala nominal ou

25

ordinal ou quando uma das variáveis é manipulada experimentalmente, pois neste caso, a

escolha dos valores experimentais vai influenciar o valor de r obtido.

Uma terceira hipótese é que as duas variáveis tenham uma distribuição conjunta normal

bivariada. Isto é equivalente a dizer que para cada x dado a variável y é normalmente

distribuída. Suponha-se que existam apenas duas variáveis X e Y. Uma amostra da variável

“X”, assumindo os valores particulares X1 , X2, ..., Xn e uma amostra da variável “Y”

assumindo os valores particulares Y1, Y2, ..., Yn são obtidas e suponha-se ainda que o objetivo

é saber se existe algum tipo de relacionamento linear entre estas duas variáveis. Isto

poderá ser medido pelo coeficiente de correlação linear de Pearson que fornece o grau de

relacionamento linear entre duas variáveis.

1.5. DEFINIÇÃO

Na população o coeficiente de correlação é representado por ρ e na amostra por r.

Assim dadas duas amostras, uma da variável X e outra da variável Y, o coeficiente de

correlação amostral poderá ser calculado através da seguinte expressão:

𝑟𝑥𝑦 =𝑆𝑥𝑦

√𝑆𝑥𝑥. 𝑆𝑦𝑦

Onde 𝑆𝑥𝑦 = ∑ 𝑥𝑦 −∑ 𝑥.∑ 𝑦

𝑛; 𝑆𝑥𝑥 = ∑ 𝑥2 −

(∑ 𝑥)2

𝑛 e 𝑆𝑦𝑦 = ∑ 𝑦2 −

(∑ 𝑦)2

𝑛

1.6. PROPRIEDADES DE r

As propriedades mais importantes do coeficiente de correlação são:

Intervalo de variação vai de -1 a +1.

Coeficiente de correlação é uma medida adimensional, isto é, ele é independente das

unidades de medida das variáveis X e Y.

26

Quanto mais próximo de +1 for “r”, maior o grau de relacionamento linear positivo entre

X e Y, ou seja, se X varia em uma direção Y variará na mesma direção.

Quanto mais próximo de -1 for “r”, maior o grau de relacionamento linear negativo entre

X e Y, isto é, se X varia em um sentido Y variará no sentido inverso.

Quanto mais próximo de zero estiver “r” menor será o relacionamento linear entre X e

Y. Um valor igual a zero, indicará ausência apenas de relacionamento linear.

1.7. COEFICIENTE DE DETERMINAÇÃO 𝑹𝟐

Indica a proporção de variação da variável independente que é explicada pela variável

dependente, ou seja, é uma ferramenta que avalia a qualidade do ajuste.

𝑅2 = (𝑟𝑥𝑦)2, 0 ≤ 𝑅2 ≤ 1

Quanto mais próximo da unidade o R² estiver, melhor é a qualidade do ajuste. O seu valor

fornece a proporção da variável Y explicada pela variável X através da função ajustada.

EXEMPLO: Dez alunos foram submetidos a um teste de estatística e um de matemática

obtendo as seguintes notas.

Aluno A B C D E F G H I J

Matemática 6 5 9 10 3 4 8 7 6 2

Estatística 7 6 10 9 2 3 9 5 6 3

a) Construa o diagrama de dispersão.

b) Calcule o coeficiente de correlação linear de Pearson.

c) Determine a proporção que Y é explicada por X.

27

EXERCÍCIOS

1. Vamos supor que 5 pessoas tenham sido questionadas a respeito das seguintes

perguntas:

a) Durante quantos anos você frequentou a escolar regularmente?

b) Quantos livros você tem em sua biblioteca particular?

As respostas foram apresentadas na tabela abaixo. Com base nestes dados verifique se

existe correlação entre os anos que estas pessoas frequentaram a escolar e o número de

livros que possuem em sua biblioteca.

Sujeito A B C D E

Frequência a escola 5 8 10 12 15

Número de livros 10 30 45 50 75

2. Uma empresa de propaganda testou o grau de memorização proporcionado por 10

anúncios de televisão através de 2 grupos: um de homens e outro de mulheres. Ambos os

grupos possuiam idênticas características sócio-econômicas. Os resultados em termos do

grau de memorização relative encontram-se na tabela abaixo. Qual o coeficiente de

correlação para os efeitos de memorização entre os sexos?

Anúncio A B C D E F G H I J

Homens 8 3 9 2 7 10 4 6 1 5

Mulheres 9 5 10 1 8 7 3 4 2 6

28

2 REGRESSÃO

2.1 INTRODUÇÃO

Um dos problemas frequentemente encontrados na prática é descrever e predizer

fenômenos observados. Isso pode ser resolvido através da construção de um modelo

matemático que relacione as variáveis envolvidas no fenômeno podendo este modelo ser

utilizado para fins de predição.

Suponha que Y (dependente) seja uma variável que nos interessa estudar e prever seu

comportamento. É esperado que os valores da variável X (independente) sofram influência

dos valores de um número finito de variáveis 𝑋1, 𝑋2, 𝑋3, … , 𝑋𝑛 (independentes) e que exita

uma função “f” que expresse tal dependência.

É fácil perceber que se torna impraticável a utilização de todas as “n” variáveis, ou por

desconhecimento de algumas, ou pela dificuldade de mensuração e tratamento de outras.

2.2 ESPECIFICAÇÃO DO MODELO

Sabe-se que muitas variáveis independentes influenciam a variável dependente. O

problema é encontrar o tipo de função: linear, polinomial, exponencial, etc., que relacione

as variáveis.

Pode-se identificar a relação funcional quando é considerada apenas uma variável

independente, através do diagrama de dispersão. Basta representar os pares (𝑥𝑖 , 𝑦𝑖).

Observando este gráfico tem-se uma ideia da relação functional entre as variáveis.

Considerando-se o modelo linear: 𝑌 = 𝛼 + 𝛽𝑋 + 𝜀𝑖 onde 𝛼 𝑒 𝛽 são os parâmetros da reta

e 𝜀𝑖 representa a influência de outros fatores, ou seja, é a componente aleatória (erro ou

resíduo) do modelo.

29

2.3 ESTIMAÇÃO DOS PARÂMETROS

Estimaremos os parâmetros 𝛼 𝑒 𝛽 da reta através dos valores estimados “a” e “b”

fornecidos pela amostra, logo: �̂� = 𝑎 + 𝑏𝑥 + 𝜀𝑖 será a formula geral da equação de

regressão, onde:

a é o coeficiente linear, ponto onde a reta corta o eixo da variável y;

b é o coeficiente angular, tangente do ângulo que a reta forma com o eixo da variável

x;

𝜺𝒊 é o erro aleatório.

2.4 PRESSUPOSIÇÕES BÁSICAS PARA REALIZAR A REGRESSÃO

a) a relação entre X e Y é linear (os acréscimos em X produzem acréscimos proporcionais

em Y e a razão de crescimento é constante);

b) os valores de X são fixados arbitrariamente, ou seja, X não é uma variável aleatória;

c) Y é uma variável aleatória que depende entre outras coisas dos valores de X;

d) 𝜀𝑖 é o erro aleatório, ou seja, a variação de Y que não é explicada pela variável

independente X;

e) os erros são considerados independentes.

Com isto temos o objetivo de:

a) Estimar valores de uma variável, com base em valores conhecidos da amostra;

b) Explicar valores de uma variável em termos da amostra.

Para estimarmos Y a partir de X expressamos Y como uma função linear de X,

interpolando a nuvem de pontos em uma reta, sendo que a reta que forneceu melhor

ajustamento deve ser escolhida.

30

A escolha dessa reta obedece ao critério do Mínimos Quadrados. A reta de regressão

tem a propriedade de sempre passar pelo ponto (�̅�, �̅�).

2.5 MÉTODO DOS MÍNIMOS QUADRADOS

O MMQ é aquele que torna mínima a soma dos quadrados das distâncias da reta aos

pontos experimentais, medidas no sentido da variação aleatória, ou seja, devemos

procurar uma reta que minimiza ∑(𝑌 − �̂�), que são os erros.

O MMQ consiste em adotar como estimativa dos parâmetros os valores que minimizem a

soma dos quadrados dos desvios.

Como a reta a ser determinada será utilizada para fins de previsão é necessário

determinar a equação que forneça os menores erros de previsão. Erro de previsão é a

diferença entre o valor real e o previsto, isto é, 𝑌 − �̂�.

Assim, obtemos a equação �̂� = 𝑎 + 𝑏𝑥 onde 𝑎 = �̅� − 𝑏�̅� e 𝑏 =𝑆𝑥𝑦

𝑆𝑥𝑥

Interpretação do coeficiente angular b

a) Se b for positivo significa que acréscimos da variável independente corresponderão

a acréscimos da variável dependente, assim a regressão é direta;

b) Se b for negativo significa que acréscimos da variável independente corresponderão

a decréscimos da variável dependente, assim a regressão é inversa;

c) Se b for nulo não há relação entre x e y e a reta será paralela ao eixo x.

31

EXEMPLO: A velocidade máxima de automóveis de Fórmula I com motores de mesma

potência é função, entre outras variáveis, do peso do veículo, no intervalo entre 700 e 800

kg. Assim, verificou-se qual a velocidade máxima atingida em uma reta de 1200 m. Os

resultados foram:

Peso (kg) 790 780 770 760 750

Velocidade (km/h) 280 284 291 295 301

a) Faça o diagrama de dispersão.

b) Determine o coeficiente de correlação de Pearson e o coeficiente de determinação

e interprete-os.

c) Determine a equação de mínimos quadrados para os dados.

d) Qual a velocidade esperada para um carro que pesa 730 kg?

32

2.7 EXERCÍCIOS

1. Uma empresa, estudando como varia a procura de certo produto em função de preço

de venda, obteve as informações contidas a tabela. Com esses dados:

Preço de venda (x) 250 275 300 325 350

Procura (y) 275 213 152 85 25

a) fazer o diagrama de dispersão

b) encontrar o coeficiente de correlação

c) encontrar a equação de regressão

d) qual a procura do produto se o preço for R$ 260,00

Documents

Apostila.pdf