51
Raciocínio Lógico, Estatística, Matemática e Matemática Financeira p/ AFRFB e AFT Prof. Vítor Menezes www.estrategiaconcursos.com.br 1 Aula 16: Correlação linear e análise de variância 1. CORRELAÇÃO LINEAR ..................................................................................................................... 2 1.1. Sinal do coeficiente de correlação ........................................................................................................ 6 1.2. Memorizando a fórmula do coeficiente de correlação.......................................................................... 8 1.3. Propriedades do Coeficiente de correlação ........................................................................................ 16 1.4. Coeficiente de correlação entre variáveis aleatórias ......................................................................... 18 2. ANÁLISE DE VARIÂNCIA ................................................................................................................ 23 2.1. Introdução ........................................................................................................................................... 23 2.2. Hipóteses do modelo ........................................................................................................................... 27 2.3. Somas de quadrados ........................................................................................................................... 28 2.4. Graus de liberdade.............................................................................................................................. 29 2.5. Distribuição de qui-quadrado e soma de quadrados .......................................................................... 34 2.6. Quadrados médios .............................................................................................................................. 37 2.7. A distribuição F .................................................................................................................................. 37 3. RESUMÃO ..................................................................................................................................... 46 4. QUESTÕES APRESENTADAS EM AULA .......................................................................................... 47 5. GABARITO..................................................................................................................................... 51

Aula 16 - Correlação linear e análise de variância

Embed Size (px)

Citation preview

Page 1: Aula 16 - Correlação linear e análise de variância

Raciocínio Lógico, Estatística,

Matemática e Matemática Financeira p/

AFRFB e AFT

Prof. Vítor Menezes www.estrategiaconcursos.com.br 1

Aula 16: Correlação linear e análise de variância

1. CORRELAÇÃO LINEAR ..................................................................................................................... 2

1.1. Sinal do coeficiente de correlação ........................................................................................................ 6

1.2. Memorizando a fórmula do coeficiente de correlação .......................................................................... 8

1.3. Propriedades do Coeficiente de correlação ........................................................................................ 16

1.4. Coeficiente de correlação entre variáveis aleatórias ......................................................................... 18 2. ANÁLISE DE VARIÂNCIA ................................................................................................................ 23

2.1. Introdução ........................................................................................................................................... 23

2.2. Hipóteses do modelo ........................................................................................................................... 27

2.3. Somas de quadrados ........................................................................................................................... 28

2.4. Graus de liberdade .............................................................................................................................. 29

2.5. Distribuição de qui-quadrado e soma de quadrados .......................................................................... 34

2.6. Quadrados médios .............................................................................................................................. 37

2.7. A distribuição F .................................................................................................................................. 37 3. RESUMÃO ..................................................................................................................................... 46

4. QUESTÕES APRESENTADAS EM AULA .......................................................................................... 47

5. GABARITO ..................................................................................................................................... 51

Page 2: Aula 16 - Correlação linear e análise de variância

Raciocínio Lógico, Estatística,

Matemática e Matemática Financeira p/

AFRFB e AFT

Prof. Vítor Menezes www.estrategiaconcursos.com.br 2

1. CORRELAÇÃO LINEAR

Nosso interesse agora é estudar, ao mesmo tempo, duas variáveis que apresentam certa relação.

Suponha que estas variáveis são peso e altura de um grupo de indivíduos adultos. A tabela abaixo representa alguns valores possíveis.

Page 3: Aula 16 - Correlação linear e análise de variância

Prof. Vítor Menezes

Altura (m) Peso (kg)

1,72 68,09

1,75 71,08

1,86 79,25

1,91 83,77

1,86 79,68

1,62 61,28

1,70 66,65

1,93 86,50

1,76 71,69

1,69 65,73

1,68 65,59

1,99 91,52

1,80 74,97

1,87 80,98

1,78 72,76

1,82 77,39

1,92 85,25

Antes de mais nada, peço desculpas pela pelos dados da tabela acima. Construí a tabela, montei alguns gráficos (colocados mais adiante), e só ao final fui reparar que a tabela não é lá muito “real”. Dá pra notar que essas pessoas aí da tabela acima são muito “magrinhas”. Creio que uma tabela fruto de uma pesquisa resultaria em valores de pesos mesmas alturas. Mas não tem problema. O exemplo continua válido.

A figura abaixo representa todos os valores de peso/altura para este grupo de pessoas:

Figura

Este gráfico acima é chamado de diagrama de dispersão.

Apesar das variáveis peso e altura, para o grupo pesquisado, não se comportarem exatamente segundo uma reta, a relação existente é quase uma reta. Ou seja, é quase linear.

Raciocínio Lógico, Estatística,

Matemática e Matemática Financeira

Vítor Menezes www.estrategiaconcursos.com.br

Altura (m) Peso (kg)

1,92 85,81

1,79 74,23

1,67 64,16

1,67 65,03

1,86 79,79

1,70 67,40

1,60 59,24

1,84 77,87

1,92 85,03

1,91 85,05

1,79 74,02

1,86 80,26

1,71 67,78

1,70 66,89

1,96 88,93

1,86 79,65

1,67 64,56

Altura (m)

1,83

1,82

1,93

1,6

1,65

1,62

1,74

1,77

1,88

1,96

1,81

1,80

1,76

1,62

1,98

1,65

1,83

Antes de mais nada, peço desculpas pela pelos dados da tabela acima. Construí a tabela, ntei alguns gráficos (colocados mais adiante), e só ao final fui reparar que a tabela não é

lá muito “real”. Dá pra notar que essas pessoas aí da tabela acima são muito “magrinhas”. Creio que uma tabela fruto de uma pesquisa resultaria em valores de pesos mesmas alturas. Mas não tem problema. O exemplo continua válido.

A figura abaixo representa todos os valores de peso/altura para este grupo de pessoas:

Figura 1 – Diagrama de dispersão peso x altura

cima é chamado de diagrama de dispersão.

Apesar das variáveis peso e altura, para o grupo pesquisado, não se comportarem exatamente segundo uma reta, a relação existente é quase uma reta. Ou seja, é quase

Raciocínio Lógico, Estatística,

Matemática e Matemática Financeira p/

AFRFB e AFT

.com.br 3

Altura (m) Peso (kg)

1,83 77,28

1,82 77,26

1,93 86,40

1,66 64,41

1,65 63,55

1,62 60,04

1,74 70,07

1,77 72,68

1,88 81,38

1,96 88,66

1,81 75,64

1,80 74,49

1,76 71,85

1,62 60,58

1,98 90,07

1,65 63,01

1,83 77,40

Antes de mais nada, peço desculpas pela pelos dados da tabela acima. Construí a tabela, ntei alguns gráficos (colocados mais adiante), e só ao final fui reparar que a tabela não é

lá muito “real”. Dá pra notar que essas pessoas aí da tabela acima são muito “magrinhas”. Creio que uma tabela fruto de uma pesquisa resultaria em valores de pesos maiores para as

A figura abaixo representa todos os valores de peso/altura para este grupo de pessoas:

Apesar das variáveis peso e altura, para o grupo pesquisado, não se comportarem exatamente segundo uma reta, a relação existente é quase uma reta. Ou seja, é quase

Page 4: Aula 16 - Correlação linear e análise de variância

Prof. Vítor Menezes

Num caso assim, é possível aproximarmos o(segundo uma reta). Isto pode ser útil para estimarmos valores. Podemos, sabendo apenas a altura da pessoa, tentar identificar seu pesode regressão linear).

Neste exemplo ficou extremamente claro que existe uma reta que aproxima bem a relação entre peso e altura. É que os dados não foram obtidos a partir de uma pesquisa. Eu construí os dados no Excel de forma que ficasse bem evidente a relação quase linear entre peso e altura.

Em situações reais é comum surgirem casos em que a relação linear não é assim tão evidente. O diagrama de dispersão a seguir ilustra uma situação assim.

Figura 2 – Diagrama de dispersão peso x altura

A Figura 2 representa outra indivíduos não segue uma relação linear tão forte quanto na população representada na Figura 1.

De todo modo, no diagrama acima, ainda fica razoável afirmar que há uma relação linear entre peso e altura. Mas a relação não é tão próxima assim de uma reta quanto era no caso da Figura 1.

Pois bem, aí entra o coeficiente de correlação linear. Ele vai nos dar uma medida do quão forte é a relação linear entre duas variáveis.

A fórmula do coeficiente de correlação linear é:

O coeficiente acima é chamado de

É possível demonstrar que o coeficiente de correlação assume de 1− a 1.

Raciocínio Lógico, Estatística,

Matemática e Matemática Financeira

Vítor Menezes www.estrategiaconcursos.com.br

Num caso assim, é possível aproximarmos os dados segundo uma função de primeiro grau (segundo uma reta). Isto pode ser útil para estimarmos valores. Podemos, sabendo apenas a altura da pessoa, tentar identificar seu peso (é mais ou menos isso que faremos no tópico

plo ficou extremamente claro que existe uma reta que aproxima bem a relação entre peso e altura. É que os dados não foram obtidos a partir de uma pesquisa. Eu construí

de forma que ficasse bem evidente a relação quase linear entre peso e

Em situações reais é comum surgirem casos em que a relação linear não é assim tão evidente. O diagrama de dispersão a seguir ilustra uma situação assim.

Diagrama de dispersão peso x altura – relação linear menos intensa

população, em que a relação entre os pesos e as alturas dos indivíduos não segue uma relação linear tão forte quanto na população representada na

De todo modo, no diagrama acima, ainda fica razoável afirmar que há uma relação linear entre peso e altura. Mas a relação não é tão próxima assim de uma reta quanto era no caso

is bem, aí entra o coeficiente de correlação linear. Ele vai nos dar uma medida do quão forte é a relação linear entre duas variáveis.

A fórmula do coeficiente de correlação linear é:

O coeficiente acima é chamado de coeficiente de correlação linear de Pearson

É possível demonstrar que o coeficiente de correlação assume valores apenas no intervalo

11 ≤≤− r

Raciocínio Lógico, Estatística,

Matemática e Matemática Financeira p/

AFRFB e AFT

.com.br 4

s dados segundo uma função de primeiro grau (segundo uma reta). Isto pode ser útil para estimarmos valores. Podemos, sabendo apenas a

(é mais ou menos isso que faremos no tópico

plo ficou extremamente claro que existe uma reta que aproxima bem a relação entre peso e altura. É que os dados não foram obtidos a partir de uma pesquisa. Eu construí

de forma que ficasse bem evidente a relação quase linear entre peso e

Em situações reais é comum surgirem casos em que a relação linear não é assim tão

s intensa

população, em que a relação entre os pesos e as alturas dos indivíduos não segue uma relação linear tão forte quanto na população representada na

De todo modo, no diagrama acima, ainda fica razoável afirmar que há uma relação linear entre peso e altura. Mas a relação não é tão próxima assim de uma reta quanto era no caso

is bem, aí entra o coeficiente de correlação linear. Ele vai nos dar uma medida do quão

coeficiente de correlação linear de Pearson.

valores apenas no intervalo

Page 5: Aula 16 - Correlação linear e análise de variância

Raciocínio Lógico, Estatística,

Matemática e Matemática Financeira p/

AFRFB e AFT

Prof. Vítor Menezes www.estrategiaconcursos.com.br 5

Quanto mais próximo de zero está o coeficiente de correlação, menor é a relação linear entre as duas variáveis. Quanto mais afastado de zero está o coeficiente de correlação, maior é a relação linear entre as duas variáveis.

Alguns comentários importantes.

Primeiro um trazido por Rodolfo Hoffman (livro “Estatística para economistas”). O fato do coeficiente de correlação ser próximo de zero não significa que não exista relação entre duas variáveis. Significa apenas que as duas não têm relação linear. Pode ser que as variáveis se relacionem de outras maneiras. Pode ser uma relação quadrática, exponencial, etc.

Agora um comentário trazido por Gilberto de Andrade Martins (livro: “Estatística Geral e Aplicada”). O fato do coeficiente de correlação ser muito próximo de 1 (ou -1) não significa que as duas variáveis tenham uma relação de causa e consequência. Não implica que uma delas tenha efeito direto ou indireto sobre a outra. Pode ser que as duas sofram influência de outras variáveis de maneira que isso dê origem a uma forte correlação entre ambas.

Outro comentário: o coeficiente de correlação é geralmente calculado a partir de uma amostra de valores de X e Y. Considere que a amostra tem n pares ordenados (X, Y). Se a amostra for grande (isto é, se n for grande), então o coeficiente de correlação deve dar um bom indício do que ocorre na população. Neste caso, se 0≅r , então é bem possível que não exista relação linear entre X e Y.

Se n for grande e 1≅r ou 1−≅r , novamente temos um forte indício de que há relação linear perfeita entre X e Y.

Contudo, se a amostra for pequena, ela pode fornecer resultados enganosos. Basta pensar numa amostra de tamanho 2. Se temos apenas dois pares ordenados, nosso diagrama de dispersão terá apenas dois pontos. Dois pontos distintos sempre estão ao longo de uma mesma reta. Neste caso, o coeficiente de correlação será igual a 1 (ou -1).

Pergunta: neste caso, podemos afirmar, com certeza, que há relação linear perfeita entre X e Y? Não, não podemos. Nossa amostra é que foi pobre, muito pequena. É bem possível que nossa amostra esteja fornecendo um resultado enganoso.

Para os dados da Figura 1, o coeficiente de correlação é 0,998. Como a quantidade de dados é muito grande, não vou detalhar o cálculo aqui. Apenas observem que o coeficiente de correlação é muito próximo de 1. Ou seja, a relação linear é muito forte. Isto já dava pra ver no próprio gráfico. Os pontos praticamente formavam uma reta.

Vejamos outro exemplo, com menos números envolvidos.

Exemplo 1

Um grupo de quatro alunos estudou junto para as provas finais. Feitas as provas, eles obtiveram se seguintes notas:

Page 6: Aula 16 - Correlação linear e análise de variância

Raciocínio Lógico, Estatística,

Matemática e Matemática Financeira p/

AFRFB e AFT

Prof. Vítor Menezes www.estrategiaconcursos.com.br 6

Aluno Nota de matemática ( )X

Nota de física ( )Y

1 2 6

2 6 7

3 8 7

4 10 8

Média 6,5 7

Calcule o coeficiente de correlação linear entre as notas de física e matemática.

[Observação: isto não é questão de concurso. Serve só para nos familiarizarmos com a fórmula. Então, podem usar calculadora]

Resolução:

As notas em física e matemática guardam certa relação linear. Vamos calcular o coeficiente de correlação para vermos a intensidade da relação linear existente entre elas.

Aluno X Y XX − YY − ( )×− XX ( )YY − ( )2XX − ( )2

YY −

1 2 6 -4,5 -1 4,5 20,25 1

2 6 7 -0,5 0 0 0,25 0

3 8 7 1,5 0 0 2,25 0

4 10 8 3,5 1 3,5 12,25 1

TOTAL 8 35 2

Aplicando a fórmula:

� � ∑ ���� � � � ��� � � �����∑ ��� � ������ � ∑ ��� � ������

� � 8√35 � 2 � 0,956

Veja que o coeficiente de correlação é bem próximo de 1. Ou seja, existe intensa relação linear entre as notas de física e matemática.

1.1. Sinal do coeficiente de correlação

Mais alguns comentários sobre o coeficiente de correlação.

O sinal do coeficiente indica se as grandezas possuem uma relação direta ou inversa. No caso da relação entre peso e altura, vimos que o coeficiente tinha sinal +. Ou seja, a relação entre peso e altura é direta. Quando a altura aumenta, o peso tende a aumentar também.

Se o sinal for negativo, as grandezas têm uma relação inversa. Seria o caso da relação entre o preço de um produto e a sua demanda. Quanto maior o preço, menor sua demanda. E quanto menor o preço, maior a demanda.

Page 7: Aula 16 - Correlação linear e análise de variância

Prof. Vítor Menezes

O diagrama abaixo poderia representar duas variáveis com correlação negativa:

Figura

O preço é dado em R$. A demanda é em milhares de unidades. Quando o preço está por volta de R$ 2,00, a demanda é em torno de 40.000 unidades. Quando o preço aumenta, chegando a valores próximos de R$ 5,00, a demanda cai para cerca de 30.0

Quando a correlação é próxima de zero, o diagrama de dispersão não nos deixa nenhuma dica se a relação é direta ou inversa. Seria o caso do diagrama abaixo:

Figura 4 – Diagrama de dispersão

No diagrama acima ainda é possível notar uma relação inversa (correlação negativa). Mas bem fraca, quase nula. Novamente, isto não significa que as variáveis relação. Significa apenas que não há relação linear.

Raciocínio Lógico, Estatística,

Matemática e Matemática Financeira

Vítor Menezes www.estrategiaconcursos.com.br

O diagrama abaixo poderia representar duas variáveis com correlação negativa:

Figura 3 – Diagrama de dispersão demanda x preço

O preço é dado em R$. A demanda é em milhares de unidades. Quando o preço está por volta de R$ 2,00, a demanda é em torno de 40.000 unidades. Quando o preço aumenta, chegando a valores próximos de R$ 5,00, a demanda cai para cerca de 30.0

Quando a correlação é próxima de zero, o diagrama de dispersão não nos deixa nenhuma dica se a relação é direta ou inversa. Seria o caso do diagrama abaixo:

Diagrama de dispersão Y x X – correlação próxima de zero

No diagrama acima ainda é possível notar uma relação inversa (correlação negativa). Mas bem fraca, quase nula. Novamente, isto não significa que as variáveis relação. Significa apenas que não há relação linear.

Raciocínio Lógico, Estatística,

Matemática e Matemática Financeira p/

AFRFB e AFT

.com.br 7

O diagrama abaixo poderia representar duas variáveis com correlação negativa:

O preço é dado em R$. A demanda é em milhares de unidades. Quando o preço está por volta de R$ 2,00, a demanda é em torno de 40.000 unidades. Quando o preço aumenta, chegando a valores próximos de R$ 5,00, a demanda cai para cerca de 30.000 unidades.

Quando a correlação é próxima de zero, o diagrama de dispersão não nos deixa nenhuma

a de zero

No diagrama acima ainda é possível notar uma relação inversa (correlação negativa). Mas bem fraca, quase nula. Novamente, isto não significa que as variáveis X e Y não tenham

Page 8: Aula 16 - Correlação linear e análise de variância

Raciocínio Lógico, Estatística,

Matemática e Matemática Financeira p/

AFRFB e AFT

Prof. Vítor Menezes www.estrategiaconcursos.com.br 8

TOME NOTA!!!

Coeficiente de correlação

Mede o quão forte é a relação linear entre duas variáveis.

Quando vale zero: não há relação linear.

Quando vale 1 ou -1: relação linear perfeita.

Fórmula:

� � ∑ ���� � � � ��� � � �����∑ ��� � ������ � ∑ ��� � ������

1.2. Memorizando a fórmula do coeficiente de correlação

Agora que já vimos o que indica o sinal do coeficiente de correlação, vamos voltar ao Exemplo 1. Vamos aproveitar este exercício para tentar entender a fórmula do coeficiente de correlação. Isto pode ajudar na sua memorização.

Com os dados originais, podíamos montar o seguinte diagrama de dispersão:

Figura 5 - Diagrama de dispersão – notas de física e matemática

Ok, agora vamos pegar cada nota de matemática e subtrair de sua média. Vamos pegar cada nota de física e subtrair de sua média.

Page 9: Aula 16 - Correlação linear e análise de variância

Raciocínio Lógico, Estatística,

Matemática e Matemática Financeira p/

AFRFB e AFT

Prof. Vítor Menezes www.estrategiaconcursos.com.br 9

Aluno X Y XX − YY − 1 2 6 -4,5 -1

2 6 7 -0,5 0

3 8 7 1,5 0

4 10 8 3,5 1

Vamos montar um diagrama de dispersão destas notas “modificadas”. Ou seja, vamos fazer um diagrama de dispersão das notas, já subtraídas das respectivas médias (valores destacados em vermelho na tabela acima).

O resultado está na figura abaixo:

Figura 6 – Diagrama de dispersão modificiado

Esta modificação faz com que os pontos do diagrama sejam deslocados para próximo da origem do gráfico. Feito isso, com os pontos todos já próximos à origem, podemos adotar o seguinte procedimento. Podemos multiplicar as notas de matemática (alteradas), pelas notas de física (também alteradas).

A tabela a seguir detalha as contas (ver coluna destacada em vermelho).

Aluno X Y XX − YY − ( )×− XX ( )YY −

1 2 6 -4,5 -1 4,5

2 6 7 -0,5 0 0

3 8 7 1,5 0 0

4 10 8 3,5 1 3,5

Feito isso, totalizamos esta coluna:

Page 10: Aula 16 - Correlação linear e análise de variância

Raciocínio Lógico, Estatística,

Matemática e Matemática Financeira p/

AFRFB e AFT

Prof. Vítor Menezes www.estrategiaconcursos.com.br 10

Aluno X Y XX − YY − ( )×− XX ( )YY −

1 2 6 -4,5 -1 4,5

2 6 7 -0,5 0 0

3 8 7 1,5 0 0

4 10 8 3,5 1 3,5

TOTAL 8

Para quê isso? É o seguinte. Depois que subtraímos todas as notas das suas médias, então trazemos os pontos do diagrama para as proximidades da origem do gráfico.

Se as grandezas envolvidas tiverem uma relação linear direta, a maior parte dos pontos estará nos quadrantes ímpares.

Pergunta: quadrantes ímpares, o que é isso?

Os eixos do gráfico separam o plano em quatro partes. Cada uma destas partes é um quadrante.

Figura 7 – Detalhamento dos quadrantes

Os quadrantes apresentam as seguintes características:

• 1º quadrante: os dois eixos apresentam valores positivos

• 2º quadrante: o eixo vertical apresenta valores positivos; o horizontal, negativos

• 3º quadrante: os dois eixos apresentam valores negativos

• 4º quadrante: o eixo horizontal apresenta valores positivos; o vertical, negativos

Se as grandezas envolvidas tiverem relação linear direta, os pontos estarão, em sua maioria, nos quadrantes ímpares. É exatamente o caso da figura acima. São pontos em que os valores a eles associados têm o mesmo sinal. Vejam a tabela abaixo:

Page 11: Aula 16 - Correlação linear e análise de variância

Raciocínio Lógico, Estatística,

Matemática e Matemática Financeira p/

AFRFB e AFT

Prof. Vítor Menezes www.estrategiaconcursos.com.br 11

XX − YY − ( )×− XX ( )YY −

-4,5 -1 4,5

-0,5 0 0

1,5 0 0

3,5 1 3,5

O primeiro ponto corresponde ao par ordenado (-4,5; -1). É um ponto do terceiro quadrante. Os dois valores são negativos. Portanto, o produto entre eles é positivo.

O último ponto corresponde ao par ordenado (3,5;1). É um ponto do primeiro quadrante. Os dois valores são positivos. Portanto, o produto entre eles é positivo.

Assim, se a maioria dos pontos estiver nos quadrantes ímpares (o que indica relação linear direta), então podemos fazer os produtos entre as coordenadas que eles serão positivos, na

maioria das vezes. Se somarmos todos os valores de ( )×− XX ( )YY − e obtivermos um

valor positivo, bem alto, é sinal de que a relação linear é direta. Ou seja: é um sinal de que a maioria dos pontos está nos quadrantes ímpares.

Do contrário, se a soma de todos os valores de ( )×− XX ( )YY − fosse negativa, então

teríamos um sinal de que grande parte dos pontos está nos quadrantes pares, o que indica uma relação linear inversa.

Por fim, caso a soma de todos os valores de ( )×− XX ( )YY − seja próxima de zero, temos

um sinal de que não há relação linear. Há pontos espalhados por todos os 4 quadrantes, sem que haja indícios de relação linear.

Então esta é a finalidade do numerador da fórmula do coeficiente de correlação. A ideia é trazer os pontos para próximo da origem, subtraindo cada valor de X pela sua média e cada

valor de Y pela sua média. Em seguida, multiplicamos os valores de ( )×− XX ( )YY − e

somamos tudo, para tentar identificar se a maioria dos pontos está nos quadrantes ímpares (o que resulta numa soma positiva) ou nos quadrantes pares (o que resulta numa soma negativa). Caso a soma dê próxima de zero, então os pontos estão espalhados por todos os quadrantes e não há indícios de relação linear.

Visto o numerador da fórmula, vamos ao denominador. A função do denominador é fazer com que o coeficiente fique no intervalo de -1 a 1. Isto para quaisquer duas amostras de quaisquer duas variáveis em estudo. Isto faz com que seja possível comparar cálculos de correlação em diferentes estudos.

Para facilitar o entendimento, vamos relembrar do nosso estudo da variável normal. Vimos que há diversas variáveis normais. Elas podem ter as mais diversas médias e desvios-padrão.

Para compararmos todas elas, usamos uma conversão, que faz com que, para qualquer variável normal, nós possamos consultar a tabela de áreas da variável normal padrão. Qual era mesmo esta transformação? Era a seguinte:

σ

µ−=

XZ

Page 12: Aula 16 - Correlação linear e análise de variância

Raciocínio Lógico, Estatística,

Matemática e Matemática Financeira p/

AFRFB e AFT

Prof. Vítor Menezes www.estrategiaconcursos.com.br 12

No numerador temos uma subtração. A subtração da média serve para fazer com que a média de Z seja zero. Ou seja, faz com que o gráfico da variável normal fique ao redor da origem. É exatamente a mesma ideia que vimos acima, para o coeficiente de correlação.

E no denominador? O que temos? Temos uma divisão pelo desvio padrão. Isso faz com que a variância de Z seja igual a 1. Isso permite que comparemos diversas curvas normais, afastando os efeitos de dispersões diferentes.

No caso do coeficiente de correlação, a ideia é a mesma. Dividimos pelos desvios padrão de X e Y.

A fórmula ficaria assim:

( ) ( )[ ]

( ) ( )

n

YY

n

XX

YYXX

n

i

i

n

i

i

n

i

ii

∑∑

==

=

×

−×−

1

2

1

2

1

Deste modo, conseguimos neutralizar o efeito da dispersão.

Só que ainda temos um problema. Imaginem dois estudos diferentes, para verificar a correlação entre as variáveis X e Y. Em um estudo, a amostra tem tamanho 100 (são 100 pares ordenados). No outro estudo, a amostra tem tamanho 200. Suponha que estas duas variáveis tenham uma relação linear direta (é exatamente isso que nosso estudo quer confirmar).

Nos dois casos, o denominador do coeficiente de correlação seria praticamente o mesmo. Contudo, na amostra com tamanho 200, o numerador será bem maior que na amostra de tamanho 100.

Acontece que, no numerador, estamos somando valores positivos (pois os pontos estarão, em sua maioria, nos quadrantes ímpares).

Pois bem, na amostra de tamanho 100, somamos apenas 100 valores. Na amostra de tamanho 200, somamos 200 valores, o que deve fornecer um resultado maior que no estudo anterior.

Ou seja, ainda temos a influência do tamanho da amostra. Para “acabar” com esta influência, dividimos o numerador por ‘n’.

Fica assim:

( ) ( )[ ]

( ) ( )

n

YY

n

XXn

YYXX

n

i

i

n

i

i

n

i

ii

∑∑

==

=

×

×

−×−

1

2

1

2

1 1

No denominador, podemos “tirar” o ‘n’ da raiz quadrada:

Page 13: Aula 16 - Correlação linear e análise de variância

Raciocínio Lógico, Estatística,

Matemática e Matemática Financeira p/

AFRFB e AFT

Prof. Vítor Menezes www.estrategiaconcursos.com.br 13

( ) ( )[ ]

( ) ( )∑∑

==

=

−×−×

×

−×−

n

i

i

n

i

i

n

i

ii

YYXXn

n

YYXX

1

2

1

2

1

1

1

Simplificando o “n”:

( ) ( )[ ]

( ) ( )∑ ∑

= =

=

−×−

−×−

=n

i

n

i

ii

n

i

ii

YYXX

YYXX

r

1 1

22

1

E esta é a fórmula do coeficiente de correlação linear.

Pergunta: Precisa saber todo esse blá blá blá sobre a idéia do coeficiente?

Resposta: não, precisar não precisa. Se você conseguiu decorar, ótimo. Mas creio que entender de onde veio facilita na memorização da fórmula.

Questão 1 INEP 2008 [CESGRANRIO]

Considere as afirmações a seguir a respeito do Coeficiente de Correlação (r) de Pearson entre duas variáveis.

I - Se r = 1, as observações estão todas sobre uma linha reta no diagrama de dispersão.

II - Se r > 0, a variável independente aumenta quando a variável dependente aumenta.

III - Se r < 0, a variável independente decresce quando a variável dependente decresce.

IV - Se r = 0, não existe relação entre as duas variáveis.

São corretas APENAS as afirmações

(A) I e II

(B) I e III

(C) II e III

(D) II e IV

(E) III e IV

Resolução.

Item I.

Se 1=r , a relação linear é perfeita e, além disso, as duas variáveis têm relação direta (quando uma aumenta, a outra aumenta; quando uma diminui, a outra diminui). Item correto.

Page 14: Aula 16 - Correlação linear e análise de variância

Raciocínio Lógico, Estatística,

Matemática e Matemática Financeira p/

AFRFB e AFT

Prof. Vítor Menezes www.estrategiaconcursos.com.br 14

Item II.

Se 0>r , a relação entre as variáveis é direta (quando uma aumenta, a outra aumenta; quando uma diminui, a outra diminui). Item correto.

Item III

Se 0<r , a relação é inversa (quando uma aumenta, a outra diminui). Item errado.

Item IV.

Se 0=r , temos um forte sinal de que não haja relação linear, o que não impede que haja outro tipo de relação (exponencial, logarítmica, etc). Item errado.

Gabarito: A

Questão 2 TCU CESPE [2008]

Uma agência de desenvolvimento urbano divulgou os dados apresentados na tabela

a seguir, acerca dos números de imóveis ofertados (X) e vendidos (Y) em determinado município, nos anos de 2005 a 2007.

Ano Número de imóveis

Ofertados (X) Vendidos (Y)

2005 1.500 100

2006 1.750 400

2007 2.000 700

Considerando as informações do texto, julgue o item subsequente.

O coeficiente de correlação linear entre X e Y é inferior a 0,8.

Resolução:

Ano X Y XX − YY − ( )×− XX

( )YY −

( )2

XX − ( )2

YY −

2005 1.500 100 -250 -300 75.000 62.500 90.000

2006 1.750 400 0 0 0 0 0

2007 2.000 700 250 300 75.000 62.500 90.000

TOTAL 150.000 125.000 180.000

A fórmula do coeficiente de correlação é:

Page 15: Aula 16 - Correlação linear e análise de variância

Raciocínio Lógico, Estatística,

Matemática e Matemática Financeira p/

AFRFB e AFT

Prof. Vítor Menezes www.estrategiaconcursos.com.br 15

( ) ( )[ ]

( ) ( )∑ ∑

= =

=

−×−

−×−

=n

i

n

i

ii

n

i

ii

YYXX

YYXX

r

1 1

22

1

1150

150

9005

150

180125

150

000.180000.125

000.150===

×=

×=r

As contas foram relativamente tranquilas.

Só um detalhe. Era possível resolver a questão sem fazer contas. Note como os valores de X e Y estão exatamente ao longo de uma reta. Para cada variação de 250 em X, temos uma variação de 300 em Y. Ou seja, os três pares ordenados fornecidos estão ao longo de uma mesma reta. Para deixar mais claro, segue o gráfico:

O coeficiente de correlação linear nos dá uma medida de quão forte é a relação linear entre duas variáveis. Acontece que, para os valores fornecidos, temos uma relação linear perfeita (é exatamente uma reta). Por isso já dava para falar que este coeficiente é igual a 1. Portanto, o coeficiente não é inferior a 0,8. Item errado.

Gabarito: errado.

Questão 3 TJ PI 2009 [FCC]

Analisando o diagrama de dispersão entre duas variáveis aleatórias X e Y, um analista optou por utilizar uma forma de relação linear aproximada entre X e Y tal que Y = 3 + 2X, uma vez que nem todos os pontos pertencem a uma mesma reta. Se o coeficiente de correlação linear entre X e Y for r, então

(A) 0 < r < 1

(B) − 1 < r < 0

(C) r = 1

(D) r = 0

Page 16: Aula 16 - Correlação linear e análise de variância

Raciocínio Lógico, Estatística,

Matemática e Matemática Financeira p/

AFRFB e AFT

Prof. Vítor Menezes www.estrategiaconcursos.com.br 16

(E) r = − 1

Resolução:

Observem que X e Y têm uma relação direta. Ou seja, se uma grandeza aumenta, a outra também aumenta.

Exemplificando, se X valer 0, espera-se que Y valha aproximadamente:

3 � 2 � 0 � 3

Se X aumentar, passando a valer 1, espera-se que Y também aumente, valendo:

� � 3 � 2 � 1 � 5

Quando X aumenta, Y aumenta.

Assim, as duas grandezas apresentam relação direta. Quando uma aumenta a outra também aumenta. Logo, o coeficiente de correlação é positivo.

Ou seja, já sabemos que r > 0.

Ficamos entre as alternativas A e C.

O exercício disse que a relação entre X e Y é apenas aproximadamente linear. Logo, não é uma reta perfeita. Logo, o coeficiente de correlação não pode valer exatamente 1.

Com isso assinalamos a alternativa A.

Gabarito: A

1.3. Propriedades do Coeficiente de correlação

Seja r o coeficiente de correlação entre X e Y.

Se multiplicarmos cada uma destas variáveis por duas constantes a e b, o novo coeficiente 'r é dado por:

rr =' , se 0>ab

rr −=' , se 0<ab

Ou seja, se as constantes tiverem mesmo sinal (fazendo com que o produto entre ambas seja positivo), o coeficiente de correlação não se altera.

Se as constantes tiverem sinais opostos (fazendo com que o produto entre ambas seja negativo), o coeficiente de correlação troca de sinal.

Se somarmos (ou subtrairmos), a cada uma destas variáveis, uma constante, o coeficiente de correlação fica inalterado.

Page 17: Aula 16 - Correlação linear e análise de variância

Raciocínio Lógico, Estatística,

Matemática e Matemática Financeira p/

AFRFB e AFT

Prof. Vítor Menezes www.estrategiaconcursos.com.br 17

Questão 4 CAPES 2008 [CESGRANRIO]

Se as variáveis Y e 1

X forem transformadas, respectivamente, para 5,021

+−= YY e

5,0'11

+−= XX , o coeficiente de correlação entre 1

Y e '1

X

(A) 0,382

(B) 0,059

(C) - 0,059

(D) - 0,118

(E) - 0,382

Resolução.

O coeficiente de correlação entre Y e 1

X é de 059,0− (ver figura). A partir destas variáveis,

criamos outras, por meio de uma multiplicação e uma soma.

As somas não interferem no coeficiente de correlação. As multiplicações podem interferir no sinal do coeficiente de correlação. As multiplicações foram feitas por 2− e 1− . As duas constantes têm o mesmo sinal. Com isso, o coeficiente de correlação permanece igual ao da situação inicial.

059,0' −== rr

Gabarito: C

Questão 5 TJ PI 2009 [FCC]

Sejam as variáveis aleatórias X e Y, definidas em um espaço amostral de ocorrências,

assumindo os valores: X = { x1 , x2, . . . ., xn } e Y = { y1, y2, . . ., yn}. O coeficiente de correlação linear entre X e Y é igual a 0,625. Multiplicando por 5 todos os valores de X e por 10 todos os

Page 18: Aula 16 - Correlação linear e análise de variância

Raciocínio Lógico, Estatística,

Matemática e Matemática Financeira p/

AFRFB e AFT

Prof. Vítor Menezes www.estrategiaconcursos.com.br 18

valores de Y, tem-se que o novo coeficiente de correlação linear correspondente aos dois novos conjuntos formados é

(A) 0,8000

(B) 0,6250

(C) 0,5000

(D) 0,4000

(E) 0,3125

Resolução:

X e Y foram multiplicados por constantes de mesmo sinal (positivas). Quando isso ocorre, o coeficiente de correlação permanece inalterado.

Gabarito: B

1.4. Coeficiente de correlação entre variáveis aleatórias

Nos exemplos trabalhados durante a aula, sempre tínhamos um conjunto de observações. Para melhor entendimento, vamos lembrar do Exemplo 1. Naquele exercício tínhamos os valores das notas de cada aluno (valores de X e Y). Dava para calcular as médias em cada

prova ( X e Y ). E, a partir destes valores, conseguimos calcular o coeficiente de correlação.

Só que às vezes estamos interessados em ver se duas variáveis aleatórias estão linearmente relacionadas. Quando temos variáveis aleatórias, que podem assumir diversos valores, onde há o fator chance (probabilidade), o coeficiente de correlação muda um pouquinho.

Quando trabalhamos com variáveis aleatórias falamos em esperanças. E a fórmula do coeficiente de correlação fica:

YX

YXr

σσ ×=

),cov(

Relembrando:

• ),cov( YX é a covariância entre X e Y.

• σ é o desvio padrão da variável aleatória.

Na verdade a fórmula acima é bem parecida com aquela estudada no início do tópico de correlação.

A fórmula que vimos podia ser escrita da seguinte maneira:

( ) ( )[ ]

( ) ( )

n

YY

n

XXn

YYXX

n

i

i

n

i

i

n

i

ii

∑∑

==

=

×

×

−×−

1

2

1

2

1 1

Page 19: Aula 16 - Correlação linear e análise de variância

Raciocínio Lógico, Estatística,

Matemática e Matemática Financeira p/

AFRFB e AFT

Prof. Vítor Menezes www.estrategiaconcursos.com.br 19

Na primeira parte da fórmula, temos uma média. É a média dos produtos ( )×− XX ( )YY − .

Quando temos variáveis aleatórias, esta média é substituída pela esperança. É a esperança de ( )×− XX µ ( )YY µ− . E esta esperança, como vimos na aula de variáveis aleatórias, é

justamente a covariância entre X e Y.

Na segunda parte da fórmula temos a divisão pelos desvios padrão de X e Y, o que é mantido na fórmula para a correlação entre variáveis aleatórias.

Com estas alterações, a fórmula fica:

YX

YXr

σσ ×=

),cov(

Questão 6 BACEN 2009 [CESGRANRIO]

Sejam duas variáveis aleatórias X e Y com variâncias finitas e não zero. O coeficiente de correlação entre essas duas variáveis é

� � !"��, �#$#%

Onde:

�: coeficiente de correlação linear entre X e Y:

cov(X,Y) = covariância entre X e Y.

#$ e #% são, respectivamente, desvio padrão de X e desvio padrão de Y.

Considerando essas informações, analise as proposições a seguir.

I - Se a e b são constantes,

!"��, � � 12() *+(��(� � )� � �(� +(��� � )� +(��� ,

II – Se � � �1,

- �#$ � �#% .

torna-se não estocástica

III – Se cov(X,Y) = 0, então � � 0 e X e Y são estocasticamente independentes.

É(São) correta(s) APENAS a(s) proposição(ões)

(A) I.

(B) II

(C) I e II.

(D) I e III.

(E) II e III.

Page 20: Aula 16 - Correlação linear e análise de variância

Raciocínio Lógico, Estatística,

Matemática e Matemática Financeira p/

AFRFB e AFT

Prof. Vítor Menezes www.estrategiaconcursos.com.br 20

Resolução:

Antes de resolvermos a questão, precisamos estudar uma propriedade da covariância.

Sejam X e Y duas variáveis. Sejam a e b duas constantes.

Quando queremos calcular a covariância

!"�(�, �

temos o seguinte.

Sempre que multiplicamos uma das variáveis por uma constante, esta constante pode sair da covariância, multiplicando. Logo:

!"�(�, � � ( � !"��, �

Analogamente:

!"��, )� � ) � !"��, �

E, por fim:

!"�(�, )� � ( � !"��, )� � ( � ) � !"��, �

Por analogia, isso também vale para a divisão.

Isto porque dividir por k é o mesmo que multiplicar por 1/k.

Assim:

!" -�( , �). � 1() � !"��, �

Visto isso, vamos à questão:

Item I.

Foi dada a seguinte expressão:

12() *+(��(� � )� � �(� +(��� � )� +(��� ,

Aplicando a fórmula da variância da soma:

� 12() *+(��(� � +(��)� � 2 !"�(�, )� � �(� +(��� � )� +(��� ,

Quando multiplicamos uma variável por uma constante, a variância é multiplicada pela constante ao quadrado.

� 12() *(�+(��� � )�+(��� � 2 !"�(�, )� � �(� +(��� � )� +(��� ,

Simplificando os termos de sinal contrário:

� 12() *(�+(��� � )�+(��� � 2 !"�(�, )� � �(� +(��� � )� +(��� ,

Page 21: Aula 16 - Correlação linear e análise de variância

Raciocínio Lógico, Estatística,

Matemática e Matemática Financeira p/

AFRFB e AFT

Prof. Vítor Menezes www.estrategiaconcursos.com.br 21

Ficamos com:

12() *2 !"�(�, )�,

Quando multiplicamos uma variável por uma constante, a covariância fica multiplicada por esta constante:

� 12() *2 � ( � !"��, )�,

Quando multiplicamos uma variável por uma constante, a covariância fica multiplicada por esta constante:

� 12() *2 � ( � ) � !"��, �,

Simplificando 2ab do numerador e do denominador:

� 12() *2 � ( � ) � !"��, �,

� !"��, �

Item correto.

Item II.

“Estocástico” é sinônimo de “aleatório”. O item está nos dizendo que a soma

- �#$ � �#% .

não é aleatória.

Para simplificar os comentários, seja Z tal que:

/ � -�#$ � �#% .

Neste caso, tomamos a variável X e dividimos por uma constante (#$). Tomamos a variável Y e dividimos por outra constante (#%).

Desde que temos uma combinação de duas variáveis aleatórias, em princípio, o resultado (=Z) também será aleatório.

Vamos calcular a variância de Z

Se a variância for nula, é porque Z não varia. Ou seja, é sempre constante. Neste caso, de fato não será aleatório.

Se a variância for diferente de 0, é porque Z varia. E como depende de duas variáveis aleatórias, Z também será uma variável aleatória.

+�/ � + - �#$ � �#% .

Aplicando a fórmula da variância da soma:

Page 22: Aula 16 - Correlação linear e análise de variância

Raciocínio Lógico, Estatística,

Matemática e Matemática Financeira p/

AFRFB e AFT

Prof. Vítor Menezes www.estrategiaconcursos.com.br 22

+�/ � + - �#$. � + - �#%. � 2 !" - �#$ , �#%.

Quando dividimos uma variável por uma constante, a variância é dividida pela constante ao quadrado:

+�/ � +��#$� � +��

#%� � 2 !" - �#$ , �#%.

Quando dividimos uma variável por uma constante, a covariância fica dividida pela mesma constante.

+�/ � +��#$� � +��

#%� � 2#$ !" -�, �#%.

Quando dividimos uma variável por uma constante, a covariância fica dividida pela mesma constante.

+�/ � +��#$� � +��

#%� � 2#$ � #% !"��, �

No primeiro termo da soma, temos a variância de X, dividida pela própria variância de X. Quando o numerador é igual ao denominador, o resultado é 1.

+�/ � 1 � +��#%� � 2

#$ � #% !"��, �

No segundo termo da soma, temos a variância de Y dividida pela variância de Y. Novamente, o resultado é 1.

+�/ � 1 � 1 � 2#$ � #% !"��, � �equação I

O item disse que:

� � �1

Aplicando a fórmula do coeficiente de correlação:

� � 7!"��, �#$#%

�1 � 7!"��, �#$#%

!"��, � � �#$#% �equação II

Substituindo II em I:

+�/ � 1 � 1 � 2#$ � #% � ��#$#%

+�/ � 1 � 1 � 2

+�/ � 0

Ou seja, Z não tem dispersão, Z não varia. Logo, Z é uma constante. Realmente não é algo aleatório.

Item correto.

Page 23: Aula 16 - Correlação linear e análise de variância

Raciocínio Lógico, Estatística,

Matemática e Matemática Financeira p/

AFRFB e AFT

Prof. Vítor Menezes www.estrategiaconcursos.com.br 23

Item III.

O item afirma duas coisas:

- se a covariância é nula, o coeficiente de correlação é nulo

- o resultado final é que X e Y são independentes.

De fato, sempre que a covariância for nula, a correlação também será nula.

Basta ver que:

� � 7!"��, �#$#%

Se o numerador for nulo (covariância nula), o resultado da fração (=�) também será nulo.

A primeira parte da frase está correta.

Quanto à segunda parte, ela está errada.

Vimos na aula 7 que o fato de a covariância ser nula não garante variáveis independentes.

Item errado.

Gabarito: C

2. ANÁLISE DE VARIÂNCIA

2.1. Introdução

A análise de variância serve para testarmos a hipótese de que as médias de diferentes populações são todas iguais entre si.

Para termos uma primeira ideia do raciocínio empregado nesta ferramenta, vamos trabalhar com um exemplo simplificado.

Estamos estudando óleos de motor para um determinado modelo de carro. No mercado há disponíveis 4 marcas diferentes de óleos. O intuito é verificar se as 4 marcas de óleo permitem que os carros rodem, em média, a mesma quilometragem, antes de ser necessária a próxima troca de óleo.

Obtivemos amostras para cada uma das quatro marcas. Os resultados dos estudos estão na tabela abaixo (valores em mil quilômetros):

observações marca A marca B marca C marca D

1ª 4,9 5,3 4,7 4,4

2ª 4,7 5,2 4,2 5,0

3ª 5,3 4,9 4,3 5,1

4ª 4,7 4,9 4,9 4,8

5ª 4,8 4,6 4,8 4,7

Média 4,88 4,98 4,58 4,8

A média geral, de todas as 20 observações acima, independente de marca, é igual a 4,81.

Page 24: Aula 16 - Correlação linear e análise de variância

Raciocínio Lógico, Estatística,

Matemática e Matemática Financeira p/

AFRFB e AFT

Prof. Vítor Menezes www.estrategiaconcursos.com.br 24

81,4=X

Queremos saber se, para as quatro marcas, a média de quilometragem é a mesma. As hipóteses que vamos testar são:

43210 : µµµµ ===H

HA: pelo menos uma das médias é diferente das demais

Observem que, de acordo com as amostras acima, as médias não são exatamente iguais. A questão é: as diferenças entre as médias são devidas apenas a fatores aleatórios? Ou as diferenças são significativas, de modo que é possível apontar que há pelo menos uma marca diferente das demais?

São estas perguntas que a análise de variância tenta responder.

Bom, como queremos só ter uma primeira ideia, fizemos uma simplificação: todas as amostras têm tamanho 5 (num caso geral, cada amostra pode ter tamanho diferente das demais).

Uma outra suposição é necessária. Vamos supor que todas as populações de onde foram

extraídas as amostras apresentam a mesma variância 2σ . Por fim, vamos supor que todas as populações apresentam distribuição normal.

Vamos calcular a variância dentro de cada grupo.

Cada observação do quadro acima pode ser representada por:

ijX

onde i indica varia de 1 até 4 (indicando as marcas A, B, C, D) e j varia de 1 até 5 (indicando as observações feitas dentro de cada marca).

A variância dentro de uma dada marca é dada por:

( )

15

5

1

2

2

=

∑=j

iij

i

XX

s

Como exemplo, vamos detalhar o cálculo da variância dentro da marca C (ou seja, para o caso de )3=i :

( )

4

)58,48,4()58,49,4()58,43,4()58,42,4()58,47,4(

15

22222

5

1

2

33

2

3

−+−+−+−+−=

=

∑=j

j XX

s

= 0,097

Fazendo cálculos semelhantes para as demais marcas, temos:

Marca A B C D

Variância 0,062 0,077 0,097 0,075

Caso todas as marcas apresentem a mesma média, então temos:

- todas elas têm distribuição normal

Page 25: Aula 16 - Correlação linear e análise de variância

Raciocínio Lógico, Estatística,

Matemática e Matemática Financeira p/

AFRFB e AFT

Prof. Vítor Menezes www.estrategiaconcursos.com.br 25

- todas elas têm mesma variância 2σ

- todas elas têm mesma média µ

Isto equivale a dizer que todas elas apresentam distribuição idêntica. É como se todas as observações tivessem sido extraídas de uma única população, normal, de média µ e

variância 2σ .

Deste modo, temos, na verdade, 4 amostras da mesma população. São 4 amostras de tamanho 5. Vimos na aula de estimadores que a variância da amostra (com 1−n no denominador) é um estimador não-viciado da variância da população. Portanto, se tivermos várias amostras, a média de todas as variâncias amostrais deve ser bem próxima da variância da população.

Assim, uma primeira estimativa da variância da população seria:

=+++

=+++

4

075,0097,0077,0062,0

4

2

4

2

3

2

2

2

1 ssss0,078

Continuando.

Ainda supondo que todas as marcas apresentam a mesma média, podemos achar outra estimativa para a variância da população. Como já estudamos na aula de estimadores, a média amostral tem variância dada por:

2

Xσ =

n

Ou seja, as médias amostrais apresentam dispersão bem pequena, quando comparada com a dispersão da população. Se pegarmos a dispersão da população e dividirmos por n, aí obtemos a dispersão das médias amostrais. As médias amostrais estão bem concentradas.

2

Xn σ× = 2σ

Se multiplicarmos a variância das médias amostrais por n, aí obtemos uma estimativa para a variância populacional.

Assim, podemos usar os diversos valores da média amostral para estimar a variância de X . Feito isso, multiplicamos por “n”, e obtemos outra estimativa da variância populacional.

A média das médias amostrais é:

=+++

=+++

=4

8,458,498,488,4

4

4321 XXXXX 4,81

Temos:

=2

Xs =

−+−+−+−

14

)81,48,4()81,458,4()81,498,4()81,488,4(2222

0,029

Esta é a chamada variância entre as marcas.

Como o tamanho das amostras é 5 ( 5=n ), a nova estimativa da variância da população é:

144,0029,05 =×

Page 26: Aula 16 - Correlação linear e análise de variância

Prof. Vítor Menezes

Obtidas estas duas estimativas da variância da população, nós dividimos uma pela outra.

Razão entre as estimativas: 0

0

E este número acima é que vai nos permitir decidir se as médias são todas iguais entre si ou não.

Caso as médias sejam, efetivamente, todas iguais entre si, a razão entre as duas estimativas deveria ser bem próxima de 1. As duas estimativas deveriam próximas uma da outra).

Caso as estimativas não coincidam (e a razão entre elas seja bem diferente de 1), isto é um sinal de que as médias das marcas de óleo são diferentes entre si (ou seja, há pelo menos uma marca diferente das demais).

Por quê?

Se todas as marcas tiverem a mesma média, suas funções densidade de probabilidade se sobreporão (estão todas representadas pela curva em preto no gráfico abaixo).

No fundo, todas as amostras podem ser consideradas como extraídas da mesm

Com isso, o cálculo 2

2

1 ss +

realmente vai gerar uma boa estimativa da variância da população.

Já a segunda estimativa, ela é derivada da

amostrais são pouco dispersas (ver curva verde do gráfico acima),

Multiplicando 2

Xsn × , obteremos uma boa estimativa para a variância da população. As

duas estimativas serão bem próximas. A razão entre elas se

Agora vamos pensar em outro caso.

Raciocínio Lógico, Estatística,

Matemática e Matemática Financeira

Vítor Menezes www.estrategiaconcursos.com.br

Obtidas estas duas estimativas da variância da população, nós dividimos uma pela outra.

85,1078,0

144,0=

E este número acima é que vai nos permitir decidir se as médias são todas iguais entre si ou

Caso as médias sejam, efetivamente, todas iguais entre si, a razão entre as duas estimativas deveria ser bem próxima de 1. As duas estimativas deveriam coincidir (ou serem muito

Caso as estimativas não coincidam (e a razão entre elas seja bem diferente de 1), isto é um sinal de que as médias das marcas de óleo são diferentes entre si (ou seja, há pelo menos

demais).

Se todas as marcas tiverem a mesma média, suas funções densidade de probabilidade se sobreporão (estão todas representadas pela curva em preto no gráfico abaixo).

No fundo, todas as amostras podem ser consideradas como extraídas da mesm

4

2

4

2

3

2

2 ss ++ (decorrente das variâncias dentro

realmente vai gerar uma boa estimativa da variância da população.

Já a segunda estimativa, ela é derivada da variância entre as marcas. Como as médias

strais são pouco dispersas (ver curva verde do gráfico acima),

, obteremos uma boa estimativa para a variância da população. As

duas estimativas serão bem próximas. A razão entre elas será quase igual a 1.

Agora vamos pensar em outro caso.

Raciocínio Lógico, Estatística,

Matemática e Matemática Financeira p/

AFRFB e AFT

.com.br 26

Obtidas estas duas estimativas da variância da população, nós dividimos uma pela outra.

E este número acima é que vai nos permitir decidir se as médias são todas iguais entre si ou

Caso as médias sejam, efetivamente, todas iguais entre si, a razão entre as duas estimativas coincidir (ou serem muito

Caso as estimativas não coincidam (e a razão entre elas seja bem diferente de 1), isto é um sinal de que as médias das marcas de óleo são diferentes entre si (ou seja, há pelo menos

Se todas as marcas tiverem a mesma média, suas funções densidade de probabilidade se sobreporão (estão todas representadas pela curva em preto no gráfico abaixo).

No fundo, todas as amostras podem ser consideradas como extraídas da mesma população.

dentro das marcas)

as marcas. Como as médias

strais são pouco dispersas (ver curva verde do gráfico acima), 2

Xs é pequeno.

, obteremos uma boa estimativa para a variância da população. As

rá quase igual a 1.

Page 27: Aula 16 - Correlação linear e análise de variância

Raciocínio Lógico, Estatística,

Matemática e Matemática Financeira p/

AFRFB e AFT

Prof. Vítor Menezes www.estrategiaconcursos.com.br 27

Se todas as marcas tiverem a mesma variância, mas tiverem médias diferentes, elas poderiam ser representadas pelo gráfico abaixo:

Como todas elas apresentam a mesma variância, o cálculo 4

2

4

2

3

2

2

2

1 ssss +++ (decorrente

das variâncias dentro das marcas) realmente vai gerar uma boa estimativa da variância da população.

Já a segunda estimativa, baseada na variância entre as médias amostrais, ela será problemática. As médias amostrais estarão mais dispersas do que estariam caso as médias populacionais fossem todas iguais entre si. Isto fará com que a segunda estimativa, derivada da variância entre as marcas, resulte num estimador maior que aquele decorrente da variância dentro das marcas. Com isso, a razão entre as duas estimativas será bem maior que 1.

Agora vamos começar a estudar a análise de variância com os nomes que geralmente aparecem nas questões. Veremos que a “razão entre as estimativas” vai corresponder, na verdade, a uma razão entre os chamados quadrados médios.

2.2. Hipóteses do modelo

Vamos trabalhar com um modelo mais simples (embora a análise de variância possa ser aplicada para modelos mais complexos).

Temos k populações em estudo (no exemplo dado na seção anterior, 4=k , pois eram 4

marcas diferentes). De cada população, são extraídas amostras de tamanho in (no exemplo

anterior, 554321 ===== nnnnn - todas as amostras tinham tamanho 5).

O número total de extrações feitas (incluindo todos os grupos em estudo) é N . No nosso exemplo, 20=N (5 extrações para cada uma das 4 marcas de óleo).

Uma dada observação ijX pode ser representada assim:

Page 28: Aula 16 - Correlação linear e análise de variância

Raciocínio Lógico, Estatística,

Matemática e Matemática Financeira p/

AFRFB e AFT

Prof. Vítor Menezes www.estrategiaconcursos.com.br 28

ijiij uX += µ

Cada observação é igual à média da população de onde ela foi extraída, mais um erro aleatório ( iju ). As hipóteses são:

• os erros são variáveis aleatórias com média zero;

• os erros são independentes entre si;

• os erros têm variância constante, ou seja, 2)( σ=ijuV , para qualquer i e qualquer j.

• os erros têm distribuição normal

Na verdade, vocês não precisam se preocupar em decorar as hipóteses acima. Elas sempre estarão implícitas na questão. O motivo pelo qual eu as mencionei é o seguinte. Pode acontecer de a questão indicar expressamente tais hipóteses. Aí o aluno poderia se assustar, pensando que a questão está pedindo alguma coisa que ele não estudou. Então, se a questão trouxer as hipóteses acima, não precisa entrar em pânico, achando que é uma coisa de outro mundo. É só fazer a análise de variância normalmente, como veremos nos tópicos a seguir.

2.3. Somas de quadrados

Como vimos no exemplo inicial (com as 4 marcas de óleo), o teste se baseia em cálculo da variância (entre e dentro). E a variância é resultado de uma soma de quadrados de desvios. Então, por hora, vamos focar nestas somas de quadrados de desvios.

Há três somas importantes: a soma de quadrados total; a soma de quadrados dentro dos grupos (ou ainda: soma de quadrados dos resíduos); a soma de quadrados entre grupos (ou ainda: soma de quadrados de tratamentos).

Seja ni o número de termos do iésimo grupo. No exemplo das marcas de óleo, para cada grupo nós tínhamos 5 observações. Ou seja:

54321 ==== nnnn

A soma dos quadrados dos resíduos (ou ainda, dentro dos grupos) é definida por:

∑∑= =

−=k

i

ni

j

iij XXsSQ1 1

2)(Re

Ou seja, tomamos todas as observações e subtraímos da média do respectivo grupo. Elevamos ao quadrado. Depois somamos tudo.

Para o exemplo das marcas de óleo, ficaríamos com:

++−+−+−+−+−= ...)88,48,4()88,47,4()88,43,5()88,47,4()88,49,4(Re22222sSQ

22222)8,47,4()8,48,4()8,41,5()8,45()8,44,4( −+−+−+−+−+

Page 29: Aula 16 - Correlação linear e análise de variância

Raciocínio Lógico, Estatística,

Matemática e Matemática Financeira p/

AFRFB e AFT

Prof. Vítor Menezes www.estrategiaconcursos.com.br 29

244,1Re =sSQ

A soma dos quadrados de tratamentos (ou ainda, entre os grupos) é dada por:

i

ni

i

i nXXSQTrat ×−=∑=

2

1

)(

Lembrando que iX é a média de cada uma das 5 amostras (para 1=i , por exemplo, temos

88,41

=X , que é a média para a amostra da marca A).

E X é a média de todos os valores, é a média geral de todas as observações, independente

de marca. No exemplo das marcas de óleo, 81,4=X .

O cálculo da soma de quadrados de tratamentos é dado por:

5)81,48,4(5)81,458,4(5)81,498,4(5)81,488,4(2222 ×−+×−+×−+×−=SQTrat

434,0=SQTrat

A soma de quadrados total é dada por:

∑∑= =

−=k

i

ni

j

ij XXSQTotal1 1

2)(

Tomamos cada observação e subtraímos da média geral. Elevamos ao quadrado e somamos tudo. Para o exemplo que temos trabalhado, ficamos com:

2222)81,47,4()81,48,4(...)81,47,4()81,49,4( −+−++−+−=SQTotal = 1,678

Observem que:

SQTratsSQSQTotal += Re

Isto sempre acontece.

TOME NOTA!!!

Somas de quadrados:

89:!;(< � 89=>? � 89:�(;

89:!;(< � 89@A�BCD � 89A�BCA

2.4. Graus de liberdade

Agora teremos um grande blá, blá, blá. A ideia é facilitar a memorização do quadro resumo lá da página 36.

Se você não estiver muito afim de ler este blá, blá, blá, e preferir só decorar o tal do quadro, sem stress. Neste caso, pode pular direto lá para a página 36.

Page 30: Aula 16 - Correlação linear e análise de variância

Raciocínio Lógico, Estatística,

Matemática e Matemática Financeira p/

AFRFB e AFT

Prof. Vítor Menezes www.estrategiaconcursos.com.br 30

Vamos interromper um pouco a matéria que estamos estudando (análise de variância). Vamos falar um pouco sobre graus de liberdade. Utilizamos esta expressão em aulas anteriores, sem falar exatamente do que se trata.

Bem, o grau de liberdade nada mais é que um parâmetro que entra no cálculo da função gama. É uma função importante. A partir dela é que são construídas as funções densidade de probabilidade para diversas distribuições de probabilidade importantes (como T, qui-quadrado, F).

Só que indicar para vocês qual é a função gama e, dentro dela, qual é o parâmetro que corresponde ao número de graus de liberdade, não vai ajudar em nada a entender melhor o que é esse grau de liberdade.

Creio eu, deve haver alguma explicação “geométrica” para o número de graus de liberdade. Para quem já estudou cálculo, estou pensando em alguma coisa análoga à explicação de derivada e integral por meio de inclinações de reta e áreas abaixo da curva. Explicações utilizando geometria são mais fáceis para assimilarmos.

Esta analogia, se é que existe, eu nunca achei em nenhum livro de estatística (bem é verdade que só consultei livros introdutórios de estatística). Apesar disso, quase todos eles trazem uma “historinha” que é útil para memorizarmos como chegar aos graus de liberdade. Então o que eu vou fazer é repassar a vocês essa “história”.

Em todas as vezes que vimos os graus de liberdade, havia uma soma de quadrados de desvios. A quantidade de graus de liberdade será igual à quantidade de termos independentes que estamos somando.

A primeira vez que vimos o grau de liberdade foi com a distribuição T. Vimos que X tem

média µ e desvio padrão n

σ.

Quando desconhecemos o desvio-padrão da população, substituímos σ por s (desvio padrão da amostra).

Para cálculo de s2, fazemos assim:

( )

1

1

2

2

=

∑=

n

XX

s

n

i

i

No denominador temos um número, uma constante, algo que não varia. No numerador, temos uma soma de n quadrados de desvios, que podem variar de uma amostra para outra. É este fator que é aleatório. Vamos nos concentrar nele.

Numerador: 22

1

2

3

2

2

2

1))(...)()()( XXXXXXXXXX nn −+−++−+−+− −

Qual a referência para o cálculo dos desvios? É a média aritmética.

Pois bem, vamos supor que a gente conhece justamente a média aritmética. Conhecemos a média aritmética da amostra, mas não conhecemos os valores observados. Ou ainda: a média da amostra é dada.

Quanto aos valores de cada uma das observações, este nós não conhecemos.

Page 31: Aula 16 - Correlação linear e análise de variância

Raciocínio Lógico, Estatística,

Matemática e Matemática Financeira p/

AFRFB e AFT

Prof. Vítor Menezes www.estrategiaconcursos.com.br 31

Fixada a média da amostra, vamos considerar que a gente é livre para estabelecer quaisquer valores para as observações e, com isso, calcular o valor do desvio ao quadrado, que entra na fórmula do numerador.

Assim, nós somos livres para escolher o valor de X1 (e, com isso, determinar o valor de 2

1)( XX − ). Nós também somos livres para escolher o valor de X2. E assim por diante.

Neste processo, nós seríamos livres para escolher os valores de 1−n observações. Nós

seríamos livres para escolher os valores de 1X , 2X , ..., 1−nX .

Já o valor de Xn, este nós não temos liberdade para escolher. Escolhidas todas as demais

observações ( 1X , 2X , ..., 1−nX ), só existe um único valor de Xn que faz com que a média da

amostra seja igual ao valor fixado para X .

Ou seja, nossa liberdade se restringiu a 1−n desvios ao quadrado. O último desvio ao quadrado não pode ser livremente escolhido. Portanto, são 1−n graus de liberdade.

A segunda vez que vimos os graus de liberdade foi com a distribuição de qui-quadrado. Ela é dada por:

=2χ2

2)1(

σ

sn −

No denominador, temos a variância da população. Ela é um número, uma constante, algo fixo, que não varia.

No numerador, temos duas parcelas. A primeira é )1( −n , que também é um número fixo (é

o tamanho da amostra menos 1).

O outro fator, ele sim varia. Trata-se da variância amostral. É a variância de uma

determinada amostra. Se pensarmos em todas as amostras possíveis, em cada uma delas 2s

assume um valor diferente. É este fator que torna 2

2)1(

σ

sn − uma variável aleatória, que faz

esta expressão variar. Vamos portanto, nos concentrar neste termo.

Novamente, temos a variância amostral (s2), que advém da soma de n desvios ao quadrado.

Fixada uma determinada média amostral, poderemos escolher livremente o valor de 1−n desvios. O último desvio, este não pode ser livremente escolhido. Só há um valor possível para ele, de tal modo que a média das observações seja igual a uma dada média amostral. Temos, novamente, 1−n graus de liberdade.

A terceira vez que estudamos graus de liberdade foi no teste de qui-quadrado para várias proporções.

A estatística teste era dada pela soma de todos os valores de i

ii

E

EO2

)( −. Agora os desvios

são calculados em relação às freqüências esperadas.

Pergunta: qual a referência para cálculo dos desvios?

Page 32: Aula 16 - Correlação linear e análise de variância

Raciocínio Lógico, Estatística,

Matemática e Matemática Financeira p/

AFRFB e AFT

Prof. Vítor Menezes www.estrategiaconcursos.com.br 32

A referência são as frequências esperadas. Pois então vamos supor que as frequências esperadas são dadas e que nós somos livres para escolher as frequências observadas (determinando, assim, o valor do desvio). Quantas frequências observadas nós podemos escolher livremente?

Para exemplificar, vamos retomar a questão 24 da aula passada. Na verdade, vou adaptar o problema:

No curso A, havia 100 candidatos inscritos em um concurso. No curso B também havia 100 candidatos inscritos neste concurso. Foram aprovados 140 candidatos destes 200 alunos. Os 60 restantes foram reprovados. Calcule a estatística teste para testar a hipótese de que a proporção de aprovados nos dois cursos é a mesma.

Este problema “modificado” não tem resposta. Isto porque não foram fornecidas as freqüências observadas dentro de cada curso. Mas não tem problema. Nosso interesse aqui não será achar exatamente o valor da estatística teste; sim determinar o número de graus de liberdade.

Agora nós só conhecemos os totais da amostra.

Do total de alunos (incluindo tanto o curso A quanto B), 140 foram aprovados e 60 foram reprovados. Sabemos ainda que há 100 alunos em cada curso.

Sabendo apenas os totais (ou seja, o total de aprovados, o total de reprovados, e o total de alunos em cada curso), podemos determinar as freqüências esperadas, caso a hipótese nula seja verdadeira:

curso A curso B

Freqüência esperada

Freqüência esperada

Total

Aprovados 70 70 140

Reprovados 30 30 60

Total 100 100 200

Os números em vermelho indicam os totais. São esses números que a gente conhece.

Se a hipótese nula for verdadeira, esperamos que a proporção de aprovados e reprovados, em cada curso, seja igual à proporção geral, tomando os dois cursos em conjunto.

Ou seja, conhecer os valores totais é o mesmo que conhecer as frequências esperadas. E vice-versa.

Agora vamos para as freqüências observadas.

Page 33: Aula 16 - Correlação linear e análise de variância

Raciocínio Lógico, Estatística,

Matemática e Matemática Financeira p/

AFRFB e AFT

Prof. Vítor Menezes www.estrategiaconcursos.com.br 33

curso A curso B

Freqüência observada

Freqüência observada

Total

Aprovados ? ? 140

Reprovados ? ? 60

Total 100 100 200

As freqüências observadas não foram informadas. Vamos considerar que somos livres para preenchê-las. Ou seja, no fundo estamos considerando que somos livres para determinar os

valores de cada i

ii

E

EO2

)( −.

Vamos preencher a primeira célula com o número 80. Por quê? Porque somos livres para escolher qualquer número, então vamos escolher o número 80.

curso A curso B

Freqüência observada

Freqüência observada

Total

Aprovados 80 ? 140

Reprovados ? ? 60

Total 100 100 200

E esta foi a única célula que poderíamos preencher livremente. As demais não podem mais ser preenchidas livremente.

Para que o total de alunos aprovados seja de 140, a segunda célula deve ser igual a 60.

curso A curso B

Freqüência observada

Freqüência observada

Total

Aprovados 80 60 140

Reprovados ? ? 60

Total 100 100 200

Para que o total de alunos do curso A seja igual a 100, a terceira célula deve ser preenchida com 20.

curso A curso B

Freqüência observada

Freqüência observada

Total

Aprovados 80 60 140

Reprovados 20 ? 60

Total 100 100 200

Para que o total do curso B seja igual a 100 e o total de reprovados seja 60, a quarta célula deve ser igual a 40.

Page 34: Aula 16 - Correlação linear e análise de variância

Raciocínio Lógico, Estatística,

Matemática e Matemática Financeira p/

AFRFB e AFT

Prof. Vítor Menezes www.estrategiaconcursos.com.br 34

curso A curso B

Freqüência observada

Freqüência observada

Total

Aprovados 80 60 140

Reprovados 20 40 60

Total 100 100 200

Nós só fomos livres para preencher 1 célula. Por isso, temos 1 grau de liberdade.

Assim, quando formos calcular a soma dos valores i

ii

E

EO2

)( −, nós podemos escolher

livremente 1 deles. Os demais, estes não serão livremente escolhidos.

Generalizando, para um caso qualquer com várias proporções, o número de graus de liberdade será sempre igual a )1()1( −×− CL .

Resumindo tudo: o que fica da “história” é que os graus de liberdade têm relação com a quantidade de termos que podemos escolher livremente.

2.5. Distribuição de qui-quadrado e soma de quadrados

Ainda estamos na “interrupção” da matéria de hoje. Vamos relembrar um pouco da aula passada.

Seja X uma variável aleatória, com média µ e variância 2σ . Seja 2s o estimador da

variância populacional, baseado em uma amostra aleatória de tamanho n. Na aula passada,

vimos que 2

2)1(

σ

sn − tem distribuição de qui-quadrado com 1−n graus de liberdade.

Vamos analisar com calma esta expressão.

=2χ2

2)1(

σ

sn −

E como é que se calcula uma variância amostral? Bom, o primeiro passo é calcular a soma dos quadrados dos desvios em relação à média da amostra.

Fica assim:

( )

1

1

2

2

=

∑=

n

XX

s

n

i

i

Voltemos à variável de qui-quadrado em estudo. Ela é dada por:

=2χ2

2)1(

σ

sn −

Substituindo o valor de s2:

Page 35: Aula 16 - Correlação linear e análise de variância

Raciocínio Lógico, Estatística,

Matemática e Matemática Financeira p/

AFRFB e AFT

Prof. Vítor Menezes www.estrategiaconcursos.com.br 35

=2χ

( )2

1

2

σ

∑=

−n

i

i XX

No numerador temos uma soma de quadrados dos desvios.

Então é isso que eu queria chamar a atenção, para facilitar a memorização. Somas de quadrados de desvios podem ser usadas para gerar distribuições de qui-quadrado. Basta dividir a soma de quadrado dos desvios pela variância da população.

Finalmente, voltemos para a matéria de hoje (análise de variância). Se a hipótese nula for verdadeira (ou seja, se todas as marcas de óleo tiverem a mesma média), então todas as somas de quadrados de desvios que estudamos nesta aula podem ser usadas para gerar distribuições de qui-quadrado. Assim:

• 2

Re

σ

sSQ tem distribuição de qui-quadrado.

• 2σ

SQTrat tem distribuição de qui-quadrado.

• 2σ

SQTotal tem distribuição de qui-quadrado.

Cada uma destas distribuições tem um certo grau de liberdade. Os graus de liberdade são:

• 2

Re

σ

sSQ : kN −

• 2σ

SQTrat : 1−k

• 2σ

SQTotal : 1−N

Observem que:

1)1()( −=−+− NkkN

Ou seja, se somarmos os graus de liberdade para os resíduos e para os tratamentos, chegamos ao grau de liberdade total.

Vamos tentar memorizar os graus de liberdade. Para tanto, vamos lembrar da “história” que contamos lá na fl. 29.

No cálculo da soma de quadrados total, pegamos cada observação e subtraímos da média geral. Depois elevamos ao quadrado. Como são N observações, são N desvios ao quadrado.

Vamos considerar que X é dado.

Podemos escolher livremente 1−N desvios. O último, este não pode ser livremente escolhido. Só há um valor possível para ele, de tal modo que a média geral da amostra seja

igual ao valor fixado para X

Page 36: Aula 16 - Correlação linear e análise de variância

Raciocínio Lógico, Estatística,

Matemática e Matemática Financeira p/

AFRFB e AFT

Prof. Vítor Menezes www.estrategiaconcursos.com.br 36

No cálculo da soma de quadrados de tratamentos, pegamos a média de cada grupo (no nosso exemplo, seria a média de cada uma das 4 marcas de óleo) e subtraímos da média

geral. Novamente, vamos supor que X é dado.

São k desvios ao quadrado (neste exemplo, 4=k ). Veja:

5)81,48,4(5)81,458,4(5)81,498,4(5)81,488,4(2222 ×−+×−+×−+×−=SQTrat

Em símbolos:

4

2

43

2

32

2

21

2

1)()()()( nXXnXXnXXnXXSQTrat ×−+×−+×−+×−=

Se não conhecêssemos as médias de cada grupo (só soubéssemos a média geral das 4 marcas), poderíamos escolher livremente 3 desvios. O último, este não poderia ser escolhido. Para ele só haveria um valor possível, de tal forma que a média das 4 marcas seja igual à média geral fixada. Temos, portanto, 1−k graus de liberdade.

Por fim, no cálculo da soma de quadrados dos resíduos, tomamos cada observação e subtraímos da média do respectivo grupo. São N desvios ao quadrado.

Se soubéssemos apenas as médias de cada grupo (ou seja, as médias de cada marca), e não conhecêssemos o valor de cada observação, poderíamos escolher livremente diversos desvios.

Para a marca A, teríamos:

+−+− 2

112

2

111 )()( XXXX +−+− 2

114

2

113)()( XXXX 2

115)( XX −

Se não conhecemos as observações, apenas a média da marca A, poderíamos escolher livremente 4 desvios. O quinto não pode escolher livremente. Só há um valor possível para ele, de tal modo que a média da marca A seja igual ao valor estabelecido.

O mesmo ocorre para todas as demais marcas. Em cada uma delas, 1 dos desvios não pode ser livremente escolhido.

Assim, o número de graus de liberdade é igual a kN − . São N desvios ao todo. Para cada grupo, 1 desvio não pode ser livremente escolhido. Como temos k grupos, temos k desvios que não podem ser livremente escolhidos.

Todo esse blá blá blá que temos visto desde a fl. 29 (a historinha dos graus de liberdade e das somas de quadrado sendo relacionadas com distribuições de qui-quadrado), tudo isso era para facilitar na memorização do resumo abaixo.

Se você não gostou de todo esse blá blá blá, pelo menos decore o quadro a seguir:

Page 37: Aula 16 - Correlação linear e análise de variância

Raciocínio Lógico, Estatística,

Matemática e Matemática Financeira p/

AFRFB e AFT

Prof. Vítor Menezes www.estrategiaconcursos.com.br 37

TOME NOTA!!!

Caso a hipótese nula seja verdadeira (ou seja, todos os grupos apresentem a mesma média), então:

2

Re

σ

sSQ tem distribuição de qui-quadrado com kN − graus de liberdade

SQTrat tem distribuição de qui-quadrado com 1−k graus de liberdade

SQTotaltem distribuição de qui-quadrado com 1−N graus de liberdade

2.6. Quadrados médios

Quando dividimos uma soma de quadrados pelo respectivo número de graus de liberdade, obtemos os chamados “quadrados médios”.

O quadrado médio dos resíduos fica:

kN

sSQsQM

−=

ReRe

Analogamente, os quadrados médios de tratamento e total ficam:

1−=

k

SQTratQMTrat

1−=

N

SQTotalQMTotal

2.7. A distribuição F

Seja 2

1χ uma variável aleatória com distribuição de qui-quadrado com g1 graus de

liberdade. Seja 2

2χ uma variável aleatória com distribuição de qui-quadrado com g2 graus

de liberdade.

Vamos criar a seguinte variável:

2

2

2

1

2

1

/

/

g

gW

χ

χ=

No numerador temos uma variável de qui-quadrado dividida pelo seu número de graus de liberdade.

No denominador, temos uma variável de qui-quadrado dividida pelo seu número de graus de liberdade.

Page 38: Aula 16 - Correlação linear e análise de variância

Raciocínio Lógico, Estatística,

Matemática e Matemática Financeira p/

AFRFB e AFT

Prof. Vítor Menezes www.estrategiaconcursos.com.br 38

Essa divisão gera uma terceira variável, com distribuição F (ou ainda: F de Snedecor). Esta variável W possui g1 graus de liberdade associados ao seu numerador e g2 graus de liberdade associados ao seu denominador.

Portanto, a razão:

sQM

QMTratF

Re=

Tem distribuição F de Snedecor, com 1−k graus de liberdade no numerador e kN − graus de liberdade no denominador. Esta razão é utilizada para testar a hipótese nula de que todas as populações têm a mesma média (no nosso exemplo, de que todas as marcas de óleo permitem a mesma quilometragem média).

Caso a hipótese nula seja verdadeira, os dois quadrados médios serão próximos, e a razão será próxima de 1.

Caso a hipótese nula seja falsa, os dois quadrados médios serão bem diferentes entre si, e a razão acima será bem maior que 1.

Então o teste é apenas isso. Basta calcular os valores de QMTrat e sQM Re , específicos

para o experimento feito, o que vai gerar a estatística teste ( testeF _ , ou seja, o valor de F

para o experimento feito).

Depois consultamos a tabela da distribuição F (obtendo críticoF _ ). Depois, basta

comparar a estatística teste com o valor crítico. Se a estatística teste for maior que o valor crítico, rejeitamos a hipótese nula. Se for menor, aceitamos a hipótese nula.

TOME NOTA!!!

Teste F:

sQM

QMTrat

Re tem distribuição F (caso a hipótese nula seja verdadeira).

Fazemos o experimento, obtendo valores específicos para QMTrat e

sQM Re , o que vai gerar a estatística teste ( testeF _ ).

Se criticoFtesteF __ > , rejeitamos a hipótese nula.

Se criticoFtesteF __ < , aceitamos a hipótese nula.

Questão 7 MP RO 2005 [CESGRANRIO]

Se X1, X2, ... Xn, Y1, Y2, ... Yn são variáveis aleatórias independentes e com distribuição normal

reduzida, então a variável aleatória 22

2

2

1

22

2

2

1

...

...

n

n

YYY

XXXW

+++

+++= tem distribuição:

(A) normal.

Page 39: Aula 16 - Correlação linear e análise de variância

Raciocínio Lógico, Estatística,

Matemática e Matemática Financeira p/

AFRFB e AFT

Prof. Vítor Menezes www.estrategiaconcursos.com.br 39

(B) qui-quadrado com n - 1 graus de liberdade.

(C) t de Student com n graus de liberdade.

(D) F com (n -1, n -1) graus de liberdade.

(E) F com (n, n) graus de liberdade.

Resolução.

Podemos reescrever a variável W deste modo:

( )( ) nYYY

nXXXW

n

n

/...

/...22

2

2

1

22

2

2

1

+++

+++=

No numerador temos uma distribuição de qui-quadrado com n graus de liberdade, dividida por n. Idem para o denominador.

Logo, W tem distribuição F com (n, n) graus de liberdade.

Gabarito: E

Questão 8 TCE RO 2007 [CESGRANRIO]

Se X1, X2, ..., Xn, Y1, Y2, ..., Yn são variáveis aleatórias independentes e com distribuição

normal reduzida, então a variável aleatória 22

2

2

1

22

2

2

1

...

...

n

n

YYY

XXXW

+++

+++= tem distribuição:

(A) normal.

(B) qui-quadrado com n - 1 graus de liberdade.

(C) t de Student com n graus de liberdade.

(D) F com (n - 1, n - 1) graus de liberdade.

(E) F com (n, n) graus de liberdade.

Resolução.

Questão idêntica à anterior.

Gabarito: E

Exemplo 2

Para o exemplo das quatro marcas de óleo, trabalhadas durante a aula, teste a hipótese de que as médias são iguais, contra a hipótese alternativa de que há pelo menos uma média diferente das demais. Utilize um nível de significância de 10%.

Resolução.

Page 40: Aula 16 - Correlação linear e análise de variância

Raciocínio Lógico, Estatística,

Matemática e Matemática Financeira p/

AFRFB e AFT

Prof. Vítor Menezes www.estrategiaconcursos.com.br 40

Podemos juntar todos os cálculos já realizados durante a aula em uma tabela, assim:

Fonte da variação Graus de liberdade

Soma de quadrados

Quadrado médio

testeF _

Tratamentos (entre)

3 0,434 0,145 1,858974

Resíduos (dentro) 16 1,244 0,078

Total 19 1,678

Os quadrados médios foram obtidos pela divisão entre a soma de quadrados e o número de graus de liberdade.

Ou seja:

145,03

434,0==QMTrat

Em vez de utilizar a expressão “tratamento”, o exercício pode se referir à variação entre tratamentos. Ou seja, o símbolo seria entreQM _

145,0_ == entreQMQMTrat

Para o quadrado médio de resídulos (dentro), a conta é análoga:

078,016

244,1_Re === dentroQMsQM

Estes dois quadrados médios são utilizados para fazer o teste F.

====078,0

145,0

_

_

Re_

dentroQM

entreQM

sQM

QMTrattesteF 1,8589

A razão entre os quadrados foi de 1,8589. Foi diferente de 1.

Caso a razão seja bem próxima de 1, aceitamos a hipótese nula. Caso a razão seja bem afastada de 1, rejeitamos a hipótese nula.

E agora?

O número 1,8589 é próximo ou afastado de 1?

Bem, o que vai nos responder isso é a tabela da distribuição F. Abaixo segue um trechinho da Tabela F para nível de confiança de 10%.

Page 41: Aula 16 - Correlação linear e análise de variância

Raciocínio Lógico, Estatística,

Matemática e Matemática Financeira p/

AFRFB e AFT

Prof. Vítor Menezes www.estrategiaconcursos.com.br 41

Fornece valores críticos (F0), tal que %10)( 0 => FFP

Número de GL do numerador

Número GL denominador

2 3 4 5

15 2,695172932 2,489787735 2,361433116 2,273022447

16 2,668171457 2,461810755 2,332744869 2,243757603

17 2,644638468 2,437433917 2,307747133 2,218252647

18 2,623946985 2,416005381 2,285771772 2,195827465

19 2,605612364 2,397021508 2,266302568 2,175956494

20 2,589254118 2,380087057 2,248934402 2,158227217

A estatística teste (1,8589) é menor que o valor crítico (2,46). Aceitamos a hipótese nula.

Para melhor visualização, segue desenho da função densidade de probabilidade, para (3, 16) graus de liberdade.

De acordo com a tabela para a distribuição F, temos que a área amarela da figura abaixo é de 10%.

Page 42: Aula 16 - Correlação linear e análise de variância

Raciocínio Lógico, Estatística,

Matemática e Matemática Financeira p/

AFRFB e AFT

Prof. Vítor Menezes www.estrategiaconcursos.com.br 42

Que é a região crítica. A estatística teste não caiu na região crítica. Portanto, aceitamos a hipótese nula.

Questão 9 PETROBRAS 2008/2 [CESGRANRIO]

Dividem-se aleatoriamente 12 lotes de terra em três grupos.

O primeiro é mantido como grupo de controle (C), enquanto os outros dois recebem os fertilizantes A e B. A tabela abaixo apresenta a ANOVA parcial do experimento.

Então, as constantes a, b e c são, respectiva e aproximadamente, iguais a

(A) 1, 11 e 4,5

(B) 1, 11 e 9

(C) 2, 11 e 9

(D) 2, 12 e 2

(E) 3, 12 e 3

Resolução.

O exercício forneceu direto a tabela da análise de variância, já com todas as contas prontas.

SQ indica “soma de quadrados”. GL indica “graus de liberdade”. EQM indica “erro quadrático médio” (que é sinônimo de quadrado médio).

Page 43: Aula 16 - Correlação linear e análise de variância

Raciocínio Lógico, Estatística,

Matemática e Matemática Financeira p/

AFRFB e AFT

Prof. Vítor Menezes www.estrategiaconcursos.com.br 43

Queremos testar se os três tipos de produção (com fertilizantes A e B, mais o grupo de controle, C) apresentam os mesmos resultados. O exercício não indicou exatamente o que se está comparando. Poderia, por exemplo, ser a quantidade de toneladas produzidas por determinada área plantada.

Ao todo, são 12 observações (uma para cada lote de terra). Portanto:

11112 =−⇒= NN

A soma de quadrados total tem 1−N graus de liberdade. Logo, a constante b da tabela é igual a 11.

11=b

O número de graus de liberdade associado à soma de quadrados total é igual à soma dos demais graus de liberdade.

ba =+ 9

119 =+a

2=a

Com isso, já dá para marcar letra C.

Por fim, a estatística teste fica:

===3,17

156_ ctesteF 9,02

Gabarito: C

Considere a descrição abaixo para responder à Questão 10 e Questão 11.

Um estudo pretende comparar as medidas de pressão sanguínea sistólica de três grupos: não fumantes, ex-fumantes e fumantes. Uma amostra é selecionada de cada grupo, sendo os dados relevantes apresentados abaixo. Supõe-se que as variâncias populacionais sejam iguais, e que a pressão sanguínea sistólica seja normalmente distribuída. As médias e os desvios padrões estão expressos em mmHg.

Questão 10 FUNASA 2009 [CESGRANRIO]

As estimativas da variância dentro dos grupos e entre os grupos, são, respectivamente,

�E122410 > 164

3

�G122497 > 164

2

Page 44: Aula 16 - Correlação linear e análise de variância

Raciocínio Lógico, Estatística,

Matemática e Matemática Financeira p/

AFRFB e AFT

Prof. Vítor Menezes www.estrategiaconcursos.com.br 44

�715.760100 > 1203

�J1576099 > 1203

�K1576097 > 1202

Resolução

Temos um total de 100 observações ( 100=N ), referentes a três grupos pesquisados ( 3=k

)

A média geral dos três grupos é dada por:

115100

101183011460115=

×+×+×=X

A soma de quadrados entre os grupos é dada por:

120)115118(10)115114(30)115115(60_222 =−×+−×+−×=entreSQ

Esta soma de quadrados possui 1−k graus de liberdade.

2131 =−=−k

Logo, o quadrado médio fica:

2

120_ =entreQM

Vamos agora calcular a soma de quadrados dentro dos grupos. Para tanto, precisamos, em cada grupo, calcular a soma dos quadrados dos desvios em relação à média do grupo.

Para os não-fumantes, sabemos que a variância é igual a 142. E como foi calculada esta variância? Ela foi calculada somando os quadrados dos desvios e dividindo por 59. Logo, a

soma dos quadrados dos desvios, para o grupo dos não-fumantes, é igual a 59142 × .

Como o mesmo raciocínio, podemos achar as somas dos quadrados dos desvios para os demais grupos. Com isso, temos:

1576091229105914_222 =×+×+×=dentroSQ

Esta soma de quadrados tem kN − graus de liberdade.

973100 =−=− kN

Logo:

97

15760_ =dentroQM

Gabarito: E

Page 45: Aula 16 - Correlação linear e análise de variância

Raciocínio Lógico, Estatística,

Matemática e Matemática Financeira p/

AFRFB e AFT

Prof. Vítor Menezes www.estrategiaconcursos.com.br 45

Questão 11 FUNASA 2009 [CESGRANRIO]

Utilizando um nível de significância de 5%, a Estatística F, as pressões sanguíneas médias nos três grupos e o valor crítico são, respectivamente,

Resolução.

Estatística teste:

===15760

9760

97/15760

2/120

_

__

dentroQM

entreQMtesteF 0,37

Consultando a tabela colocada ao final do arquivo (para um nível de significância de 5%), temos um pequeno problema. Há uma coluna para 2 graus de liberdade no numerador. Mas não há uma linha para 97 graus de liberdade no denominador.

O valor mais próximo é 120 graus de liberdade. Logo, o valor crítico deve estar próximo de 3,07. A própria questão faz esta aproximação, pois traz, em todas as alternativas, o valor 3,07.

Assim, concluímos que a região crítica corresponde ao intervalo de 3,07 até infinito.

A estatística teste cai na região de aceitação. Aceitamos a hipótese de que as médias nos três grupos são iguais entre si.

Gabarito: A

Exercícios de análise de variância não são muito cobrados em prova.

Na verdade, o que cai um pouco mais é a aplicação da análise de variância associada à reta de regressão linear, matéria que veremos na próxima aula.

Encerramos aqui nossa aula.

Bons estudos!

Page 46: Aula 16 - Correlação linear e análise de variância

Raciocínio Lógico, Estatística,

Matemática e Matemática Financeira p/

AFRFB e AFT

Prof. Vítor Menezes www.estrategiaconcursos.com.br 46

3. RESUMÃO

Tópicos Lembretes

Fórmula do coeficiente de correlação linear � � ∑ ���� � � � ��� � � ����

�∑ ��� � ������ � ∑ ��� � ������

� � 0 Sinal de ausência de relação linear

� � 1 Relação linear perfeita e direta

� � �1 Relação linear perfeita e inversa

Propriedades do coeficiente de correlação Se somarmos constantes a X e Y, “r” não se altera.

Se multiplicarmos X e Y por duas constantes, então:

- o coeficiente não se altera, caso as constantes tenham sinais iguais;

- o coeficiente se altera, caso as constantes tenham sinais diferentes

Coeficiente de correlação entre variáveis aleatórias

� � !"��, �#$ � #%

Somas de quadrados 89:!;(< � 89=>? � 89:�(;

Graus de liberdade 89CAL#� : N � O

89BCPB#� : O � 1

89BDBPQ#� : N � 1

Quadrados médios 9RCAL � 89CALN � O

9RBCPB � 89BCPBO � 1

9RBDBPQ � 89BDBPQN � 1

Estatística F S � 9RBCPB9RCAL

Page 47: Aula 16 - Correlação linear e análise de variância

Raciocínio Lógico, Estatística,

Matemática e Matemática Financeira p/

AFRFB e AFT

Prof. Vítor Menezes www.estrategiaconcursos.com.br 47

4. QUESTÕES APRESENTADAS EM AULA

Questão 1 INEP 2008 [CESGRANRIO]

Considere as afirmações a seguir a respeito do Coeficiente de Correlação (r) de Pearson entre duas variáveis.

I - Se r = 1, as observações estão todas sobre uma linha reta no diagrama de dispersão.

II - Se r > 0, a variável independente aumenta quando a variável dependente aumenta.

III - Se r < 0, a variável independente decresce quando a variável dependente decresce.

IV - Se r = 0, não existe relação entre as duas variáveis.

São corretas APENAS as afirmações

(A) I e II

(B) I e III

(C) II e III

(D) II e IV

(E) III e IV

Questão 2 TCU CESPE [2008]

Uma agência de desenvolvimento urbano divulgou os dados apresentados na tabela

a seguir, acerca dos números de imóveis ofertados (X) e vendidos (Y) em determinado município, nos anos de 2005 a 2007.

Ano Número de imóveis

Ofertados (X) Vendidos (Y)

2005 1.500 100

2006 1.750 400

2007 2.000 700

Considerando as informações do texto, julgue o item subsequente.

O coeficiente de correlação linear entre X e Y é inferior a 0,8.

Questão 3 TJ PI 2009 [FCC]

Analisando o diagrama de dispersão entre duas variáveis aleatórias X e Y, um analista optou por utilizar uma forma de relação linear aproximada entre X e Y tal que Y = 3 + 2X, uma vez que nem todos os pontos pertencem a uma mesma reta. Se o coeficiente de correlação linear entre X e Y for r, então

(A) 0 < r < 1

(B) − 1 < r < 0

(C) r = 1

(D) r = 0

(E) r = − 1

Page 48: Aula 16 - Correlação linear e análise de variância

Raciocínio Lógico, Estatística,

Matemática e Matemática Financeira p/

AFRFB e AFT

Prof. Vítor Menezes www.estrategiaconcursos.com.br 48

Questão 4 CAPES 2008 [CESGRANRIO]

Se as variáveis Y e 1

X forem transformadas, respectivamente, para 5,021

+−= YY e

5,0'11

+−= XX , o coeficiente de correlação entre 1

Y e '1

X

(A) 0,382

(B) 0,059

(C) - 0,059

(D) - 0,118

(E) - 0,382

Questão 5 TJ PI 2009 [FCC]

Sejam as variáveis aleatórias X e Y, definidas em um espaço amostral de ocorrências,

assumindo os valores: X = { x1 , x2, . . . ., xn } e Y = { y1, y2, . . ., yn}. O coeficiente de correlação linear entre X e Y é igual a 0,625. Multiplicando por 5 todos os valores de X e por 10 todos os valores de Y, tem-se que o novo coeficiente de correlação linear correspondente aos dois novos conjuntos formados é

(A) 0,8000

(B) 0,6250

(C) 0,5000

(D) 0,4000

(E) 0,3125

Questão 6 BACEN 2009 [CESGRANRIO]

Sejam duas variáveis aleatórias X e Y com variâncias finitas e não zero. O coeficiente de correlação entre essas duas variáveis é

Page 49: Aula 16 - Correlação linear e análise de variância

Raciocínio Lógico, Estatística,

Matemática e Matemática Financeira p/

AFRFB e AFT

Prof. Vítor Menezes www.estrategiaconcursos.com.br 49

� � !"��, �#$#%

Onde:

�: coeficiente de correlação linear entre X e Y:

cov(X,Y) = covariância entre X e Y.

#$ e #% são, respectivamente, desvio padrão de X e desvio padrão de Y.

Considerando essas informações, analise as proposições a seguir.

I - Se a e b são constantes,

!"��, � � 12() *+(��(� � )� � �(� +(��� � )� +(��� ,

II – Se � � �1,

- �#$ � �#% .

torna-se não estocástica

III – Se cov(X,Y) = 0, então � � 0 e X e Y são estocasticamente independentes.

É(São) correta(s) APENAS a(s) proposição(ões)

(A) I.

(B) II

(C) I e II.

(D) I e III.

(E) II e III.

Questão 7 MP RO 2005 [CESGRANRIO]

Se X1, X2, ... Xn, Y1, Y2, ... Yn são variáveis aleatórias independentes e com distribuição normal

reduzida, então a variável aleatória 22

2

2

1

22

2

2

1

...

...

n

n

YYY

XXXW

+++

+++= tem distribuição:

(A) normal.

(B) qui-quadrado com n - 1 graus de liberdade.

(C) t de Student com n graus de liberdade.

(D) F com (n -1, n -1) graus de liberdade.

(E) F com (n, n) graus de liberdade.

Questão 8 TCE RO 2007 [CESGRANRIO]

Se X1, X2, ..., Xn, Y1, Y2, ..., Yn são variáveis aleatórias independentes e com distribuição

normal reduzida, então a variável aleatória 22

2

2

1

22

2

2

1

...

...

n

n

YYY

XXXW

+++

+++= tem distribuição:

Page 50: Aula 16 - Correlação linear e análise de variância

Raciocínio Lógico, Estatística,

Matemática e Matemática Financeira p/

AFRFB e AFT

Prof. Vítor Menezes www.estrategiaconcursos.com.br 50

(A) normal.

(B) qui-quadrado com n - 1 graus de liberdade.

(C) t de Student com n graus de liberdade.

(D) F com (n - 1, n - 1) graus de liberdade.

(E) F com (n, n) graus de liberdade.

Questão 9 PETROBRAS 2008/2 [CESGRANRIO]

Dividem-se aleatoriamente 12 lotes de terra em três grupos.

O primeiro é mantido como grupo de controle (C), enquanto os outros dois recebem os fertilizantes A e B. A tabela abaixo apresenta a ANOVA parcial do experimento.

Então, as constantes a, b e c são, respectiva e aproximadamente, iguais a

(A) 1, 11 e 4,5

(B) 1, 11 e 9

(C) 2, 11 e 9

(D) 2, 12 e 2

(E) 3, 12 e 3

Questão 10 FUNASA 2009 [CESGRANRIO]

As estimativas da variância dentro dos grupos e entre os grupos, são, respectivamente,

�E122410 > 164

3

�G122497 > 164

2

�715.760100 > 1203

�J1576099 > 1203

�K1576097 > 1202

Questão 11 FUNASA 2009 [CESGRANRIO]

Utilizando um nível de significância de 5%, a Estatística F, as pressões sanguíneas médias nos três grupos e o valor crítico são, respectivamente,

Page 51: Aula 16 - Correlação linear e análise de variância

Raciocínio Lógico, Estatística,

Matemática e Matemática Financeira p/

AFRFB e AFT

Prof. Vítor Menezes www.estrategiaconcursos.com.br 51

5. GABARITO

1 a

2 errado

3 a

4 c

5 b

6 c

7 e

8 e

9 c

10 e

11 a