33
Estatística CORRELAÇÃO E REGRESSÃO LINEAR Prof. Walter Sousa

Estatística CORRELAÇÃO E REGRESSÃO LINEAR Prof. Walter … · correlaÇÃo linear – diagrama de dispersÃo É um gráfico formado pela representação dos pontos indicados pelos

  • Upload
    lyngoc

  • View
    272

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Estatística CORRELAÇÃO E REGRESSÃO LINEAR Prof. Walter … · correlaÇÃo linear – diagrama de dispersÃo É um gráfico formado pela representação dos pontos indicados pelos

Estatística

CORRELAÇÃO E REGRESSÃO LINEAR

Prof. Walter Sousa

Page 2: Estatística CORRELAÇÃO E REGRESSÃO LINEAR Prof. Walter … · correlaÇÃo linear – diagrama de dispersÃo É um gráfico formado pela representação dos pontos indicados pelos

CORRELAÇÃO LINEAR A CORRELAÇÃO mede a força, a intensidade ou grau de relacionamento entre duas ou mais variáveis. Exemplo: Os dados a seguir apresentam os investimentos (em milhares de reais) e os lucros (em milhares de reais, no ano seguinte, realizados por cinco empresas escolhidas aleatoriamente: Qual a relação existente entre Lucro e investimento?

Page 3: Estatística CORRELAÇÃO E REGRESSÃO LINEAR Prof. Walter … · correlaÇÃo linear – diagrama de dispersÃo É um gráfico formado pela representação dos pontos indicados pelos

CORRELAÇÃO LINEAR Qual a relação existente entre Lucro e investimento? Exemplo: Os dados a seguir apresentam os investimentos (em milhares de reais) e os lucros (em milhares de reais, no ano seguinte, realizados por cinco empresas escolhidas aleatoriamente:

Page 4: Estatística CORRELAÇÃO E REGRESSÃO LINEAR Prof. Walter … · correlaÇÃo linear – diagrama de dispersÃo É um gráfico formado pela representação dos pontos indicados pelos

CORRELAÇÃO LINEAR A Correlação linear entre duas variáveis X e Y, indicada por 𝑟𝑟xy, é um número real que pertence ao intervalo [-1; +1]. Quanto mais próximo de +1 ou de -1, mais forte é a correção linear. Podendo ser classificada em: a) Direta (positiva): 0 < 𝑟𝑟𝑥𝑥𝑥𝑥 ≤ 1.

Quando para valores altos de uma variável X corresponderão valores altos para outra variável Y e para valores baixos de uma, associaremos também valores baixos para outra. Por exemplo, Lucro e Investimento na tabela acima.

𝑟𝑟𝑥𝑥𝑥𝑥 = 1 ⇒ 𝐶𝐶𝐶𝐶𝑟𝑟𝑟𝑟𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶 𝑝𝑝𝐶𝐶𝑟𝑟𝑝𝑝𝐶𝐶𝑝𝑝𝑝𝑝𝐶𝐶.

Page 5: Estatística CORRELAÇÃO E REGRESSÃO LINEAR Prof. Walter … · correlaÇÃo linear – diagrama de dispersÃo É um gráfico formado pela representação dos pontos indicados pelos

CORRELAÇÃO LINEAR

b) Inversa (negativa): −1 ≤ 𝑟𝑟𝑥𝑥𝑥𝑥 < 0.

Quando as variáveis têm sentidos opostos, ou seja, à medida que X aumenta, o valor de Y diminui. Um exemplo de correlação Inversa: considerando automóveis de mesmo ano, marca e modelo, quanto maior for a quilometragem do veículo, menor será o preço de venda.

𝑟𝑟𝑥𝑥𝑥𝑥 = −1 ⇒ 𝐶𝐶𝐶𝐶𝑟𝑟𝑟𝑟𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶 𝑝𝑝𝐶𝐶𝑟𝑟𝑝𝑝𝐶𝐶𝑝𝑝𝑝𝑝𝐶𝐶

Page 6: Estatística CORRELAÇÃO E REGRESSÃO LINEAR Prof. Walter … · correlaÇÃo linear – diagrama de dispersÃo É um gráfico formado pela representação dos pontos indicados pelos

CORRELAÇÃO LINEAR – DIAGRAMA DE DISPERSÃO É um gráfico formado pela representação dos pontos indicados pelos pares ordenados (x,y) das variáveis, no plano cartesiano. Pode ser bastante útil para analisarmos se há ou não relação linear e até indicarmos se é forte ou fraca.

altura e peso: forte idade e peso: Ausência.

Page 7: Estatística CORRELAÇÃO E REGRESSÃO LINEAR Prof. Walter … · correlaÇÃo linear – diagrama de dispersÃo É um gráfico formado pela representação dos pontos indicados pelos

CORRELAÇÃO LINEAR – CÁLCULO DO ÍNDICE Coeficiente de Correlação (𝑟𝑟𝑥𝑥𝑥𝑥) varia apenas no intervalo [–1; 1], podendo ser calculado pelas formas abaixo: a) Em função dos desvios simples 𝑟𝑟𝑥𝑥𝑥𝑥 = Σ 𝑑𝑑𝑥𝑥∙𝑑𝑑𝑦𝑦

Σ(𝑑𝑑𝑥𝑥)2∙Σ(𝑑𝑑𝑦𝑦)2

dx = 𝑥𝑥 − �̅�𝑥 (desvio) dy = y − 𝑦𝑦� (desvio)

Page 8: Estatística CORRELAÇÃO E REGRESSÃO LINEAR Prof. Walter … · correlaÇÃo linear – diagrama de dispersÃo É um gráfico formado pela representação dos pontos indicados pelos

CORRELAÇÃO LINEAR – CÁLCULO DO ÍNDICE b) Em função da Covariância e dos desvios-padrão

Page 9: Estatística CORRELAÇÃO E REGRESSÃO LINEAR Prof. Walter … · correlaÇÃo linear – diagrama de dispersÃo É um gráfico formado pela representação dos pontos indicados pelos

CORRELAÇÃO LINEAR – CÁLCULO DO ÍNDICE Exemplo

Page 10: Estatística CORRELAÇÃO E REGRESSÃO LINEAR Prof. Walter … · correlaÇÃo linear – diagrama de dispersÃo É um gráfico formado pela representação dos pontos indicados pelos

CORRELAÇÃO LINEAR – CÁLCULO DO ÍNDICE Exemplo Variância de X e de Y 𝑉𝑉 𝑥𝑥 = 𝐸𝐸 𝑥𝑥2 − 𝐸𝐸 𝑥𝑥 2 = 818

5− 12 2 = 19,6

𝑉𝑉 𝑦𝑦 = 𝐸𝐸 𝑦𝑦2 − 𝐸𝐸 𝑦𝑦 2 = 155− 1,6 2 = 0,44

Desvios padrão σ𝑥𝑥 = 19,6 σ𝑥𝑥 = 0,44

Page 11: Estatística CORRELAÇÃO E REGRESSÃO LINEAR Prof. Walter … · correlaÇÃo linear – diagrama de dispersÃo É um gráfico formado pela representação dos pontos indicados pelos

PROPRIEDADES IMPORTANTES Seja r o coeficiente de correlação entre X e Y. Se multiplicarmos cada uma destas variáveis por duas constantes a e b, o

novo coeficiente r' é dado por: r'= r , se ab > 0 r'= -r , se ab < 0

Se somarmos (ou subtrairmos), a cada uma destas variáveis, uma constante, o coeficiente de correlação fica inalterado.

Page 12: Estatística CORRELAÇÃO E REGRESSÃO LINEAR Prof. Walter … · correlaÇÃo linear – diagrama de dispersÃo É um gráfico formado pela representação dos pontos indicados pelos

REGRESSÃO LINEAR A correlação mede a força, ou grau, de relacionamento entre duas variáveis; a regressão dá uma equação que descreve o relacionamento em termos matemáticos. Quando 𝑟𝑟𝑥𝑥𝑥𝑥 ≠ 0 podemos estabelecer a reta de regressão, dada por: 𝑌𝑌 = 𝛽𝛽𝛽𝛽 + 𝛼𝛼. 𝛽𝛽 e 𝛼𝛼 são valores que se determinam com base nos dados amostrais, sendo que 𝛼𝛼 é a cota da reta em x = 0, ponto no qual a reta intercepta o eixo Y (intercepto-Y); 𝛽𝛽 é o seu coeficiente angular, indicando a variação de Y por unidade de variação de x, ou ∆𝑥𝑥

∆𝑥𝑥. A variável Y é a variável que deve ser

predita (variável dependente), e x é a variável independente (preditor).

Page 13: Estatística CORRELAÇÃO E REGRESSÃO LINEAR Prof. Walter … · correlaÇÃo linear – diagrama de dispersÃo É um gráfico formado pela representação dos pontos indicados pelos

REGRESSÃO LINEAR Caso o modelo não seja perfeito, haverá erro (𝜀𝜀𝑖𝑖) que representa a distância da reta ao verdadeiro ponto no diagrama de dispersão. Assim, o modelo de ajuste linear pode, genericamente, ser representado por 𝑌𝑌� = 𝛼𝛼 + 𝛽𝛽𝛽𝛽� + 𝜀𝜀𝑖𝑖 , tal que o valor esperado 𝐸𝐸(𝜀𝜀𝑖𝑖) = 0 e 𝜀𝜀𝑖𝑖 é variável aleatória que segue um distribuição normal.

Page 14: Estatística CORRELAÇÃO E REGRESSÃO LINEAR Prof. Walter … · correlaÇÃo linear – diagrama de dispersÃo É um gráfico formado pela representação dos pontos indicados pelos

REGRESSÃO LINEAR 𝑌𝑌� = 𝛼𝛼 + 𝛽𝛽𝛽𝛽� + 𝜀𝜀𝑖𝑖 , tal que o valor esperado 𝐸𝐸(𝜀𝜀𝑖𝑖) = 0 e 𝜀𝜀𝑖𝑖 é variável aleatória que segue um distribuição normal.

Page 15: Estatística CORRELAÇÃO E REGRESSÃO LINEAR Prof. Walter … · correlaÇÃo linear – diagrama de dispersÃo É um gráfico formado pela representação dos pontos indicados pelos

REGRESSÃO LINEAR – CÁLCULO DOS COEFICIENTES 𝑌𝑌� = 𝛼𝛼 + 𝛽𝛽𝛽𝛽� a) Em função da Covariância O coeficiente angular 𝛽𝛽 pode ser calculado pela razão entre a covariância,Cov(x, y), e a Variância de X, 𝑉𝑉(𝑥𝑥). 𝜷𝜷 = 𝒄𝒄𝒄𝒄𝒄𝒄(𝒙𝒙,𝒚𝒚)

𝒄𝒄(𝒙𝒙)

A reta de regressão passa pelo ponto de coordenada (𝛽𝛽�,𝑌𝑌�), que é o par ordenado da média de X e de Y. Assim o termo independente 𝜶𝜶 pode ser calculado substituindo o par ordenado de valores indicados pelas médias �̅�𝑥 = 𝐸𝐸 𝑥𝑥 𝐶𝐶 𝑦𝑦� = 𝐸𝐸[𝑦𝑦] na equação de regressão: 𝜶𝜶 = 𝒚𝒚� − 𝒂𝒂𝒙𝒙�

Page 16: Estatística CORRELAÇÃO E REGRESSÃO LINEAR Prof. Walter … · correlaÇÃo linear – diagrama de dispersÃo É um gráfico formado pela representação dos pontos indicados pelos

REGRESSÃO LINEAR – CÁLCULO DOS COEFICIENTES 𝑌𝑌� = 𝛼𝛼 + 𝛽𝛽𝛽𝛽� a) Em função da Covariância O coeficiente angular 𝛽𝛽 pode ser calculado pela razão entre a covariância,Cov(x, y), e a Variância de X, 𝑉𝑉(𝑥𝑥). 𝜷𝜷 = 𝒄𝒄𝒄𝒄𝒄𝒄(𝒙𝒙,𝒚𝒚)

𝒄𝒄(𝒙𝒙)

A reta de regressão passa pelo ponto de coordenada (𝛽𝛽�,𝑌𝑌�), que é o par ordenado da média de X e de Y. Assim o termo independente 𝜶𝜶 pode ser calculado substituindo o par ordenado de valores indicados pelas médias �̅�𝑥 = 𝐸𝐸 𝑥𝑥 𝐶𝐶 𝑦𝑦� = 𝐸𝐸[𝑦𝑦] na equação de regressão: 𝜶𝜶 = 𝒚𝒚� − 𝒂𝒂𝒙𝒙�

Page 17: Estatística CORRELAÇÃO E REGRESSÃO LINEAR Prof. Walter … · correlaÇÃo linear – diagrama de dispersÃo É um gráfico formado pela representação dos pontos indicados pelos

REGRESSÃO LINEAR – CÁLCULO DOS COEFICIENTES b) A notação Suv

β = Sxy

Sxx

Sxy = ∑ xy − ∑ x∙∑ yn

Sxx = ∑ x2 − (∑ x)2

n

Syy = ∑ y2 − (∑ y)2

n

𝑌𝑌� = 𝛼𝛼 + 𝛽𝛽�̅�𝑥, 𝑌𝑌� 𝐶𝐶 �̅�𝑥 𝑠𝑠𝐶𝐶𝐶 𝐶𝐶𝑠𝑠 𝑚𝑚é𝑑𝑑𝑝𝑝𝐶𝐶𝑠𝑠 𝐶𝐶𝑟𝑟𝑝𝑝𝑝𝑝𝑚𝑚é𝑝𝑝𝑝𝑝𝑡𝑡𝐶𝐶𝑠𝑠. 𝛼𝛼 = 𝑌𝑌� − 𝛽𝛽�̅�𝑥

Page 18: Estatística CORRELAÇÃO E REGRESSÃO LINEAR Prof. Walter … · correlaÇÃo linear – diagrama de dispersÃo É um gráfico formado pela representação dos pontos indicados pelos

REGRESSÃO LINEAR – CÁLCULO DOS COEFICINTES (CESPE/2018) Ao avaliar o efeito das variações de uma grandeza X sobre outra grandeza Y por meio de uma regressão linear da forma, 𝑌𝑌� = 𝛼𝛼 + 𝛽𝛽𝛽𝛽� um analista, usando o método dos mínimos quadrados, encontrou, a partir de 20 amostras, os seguintes somatórios (calculados sobre os vinte valores de cada variável): (1) �̂�𝛽 < 0 (2) Para X = 10, a estimativa de Y é 𝑌𝑌� = 12.

Page 19: Estatística CORRELAÇÃO E REGRESSÃO LINEAR Prof. Walter … · correlaÇÃo linear – diagrama de dispersÃo É um gráfico formado pela representação dos pontos indicados pelos

Estatística

Correlação e Regressão linear

Exercícios

Prof. Walter Sousa

Page 20: Estatística CORRELAÇÃO E REGRESSÃO LINEAR Prof. Walter … · correlaÇÃo linear – diagrama de dispersÃo É um gráfico formado pela representação dos pontos indicados pelos

Questão 1 (CESGRANRIO) Considere as asserções a seguir.

• O Coeficiente de Correlação Linear de Pearson é necessariamente um número no intervalo (-1,1). PORQUE

• O Coeficiente de Correlação Linear de Pearson só pode ser calculado para variáveis quantitativas. Analisando-se as asserções, conclui-se que

(A) as duas asserções são verdadeiras, e a segunda é uma justificativa correta da primeira. (B) as duas asserções são verdadeiras, e a segunda não é uma justificativa correta da primeira. (C)a primeira asserção é verdadeira, e a segunda é falsa. (D)a primeira asserção é falsa, e a segunda é verdadeira.

(E) a primeira e a segunda asserções são falsas.

Gab. B

Page 21: Estatística CORRELAÇÃO E REGRESSÃO LINEAR Prof. Walter … · correlaÇÃo linear – diagrama de dispersÃo É um gráfico formado pela representação dos pontos indicados pelos

Questão 2 (Funiversa – perito PCDF) Considerando a tabela, referente aos valores das variáveis X e Y, é correto afirmar que a correlação entre as variáveis X e Y (A) é menor que – 1. (B) encontra-se entre + 0,9 e + 1. (C) é zero. (D) encontra-se entre – 0,9 e – 1. (E) é maior do que +1

Gab. B

Page 22: Estatística CORRELAÇÃO E REGRESSÃO LINEAR Prof. Walter … · correlaÇÃo linear – diagrama de dispersÃo É um gráfico formado pela representação dos pontos indicados pelos

Questão 3 (CESGRANRIO) Considere as afirmações a seguir a respeito do Coeficiente de Correlação (r) de Pearson entre duas variáveis. I - Se r = 1, as observações estão todas sobre uma linha reta no diagrama de dispersão. II - Se r > 0, a variável independente aumenta quando a variável dependente aumenta. III - Se r < 0, a variável independente decresce quando a variável dependente decresce. IV - Se r = 0, não existe relação entre as duas variáveis. São corretas APENAS as afirmações (A) I e II (B) I e III (C) II e III (D) II e IV (E) III e IV

Gab. A

Page 23: Estatística CORRELAÇÃO E REGRESSÃO LINEAR Prof. Walter … · correlaÇÃo linear – diagrama de dispersÃo É um gráfico formado pela representação dos pontos indicados pelos

Questão 4 Se as variáveis Y e X1 forem transformadas, respectivamente, para Y1 = - 2Y+0,5 e 𝛽𝛽´= -X1 + 0,5, o coeficiente de correlação entre Y1 e 𝛽𝛽´ (A) 0,382 (B) 0,059 (C) - 0,059 (D) - 0,118 (E) - 0,382

Gab. C

Page 24: Estatística CORRELAÇÃO E REGRESSÃO LINEAR Prof. Walter … · correlaÇÃo linear – diagrama de dispersÃo É um gráfico formado pela representação dos pontos indicados pelos

Questão 5 (ESAF) Se X é uma variável aleatória e Y = 5 – 2X, então o coeficiente de correlação linear entre X e Y é igual a:

(a) 2,5 (b) 1,0 (c) 0 (d) –0,4

(e) –1,0

Gab. E

Page 25: Estatística CORRELAÇÃO E REGRESSÃO LINEAR Prof. Walter … · correlaÇÃo linear – diagrama de dispersÃo É um gráfico formado pela representação dos pontos indicados pelos

Questão 6 CESGRANRIO) Analise as afirmativas a seguir, a respeito do coeficiente de correlação linear de Pearson entre duas variáveis positivas X e Y:

I - é positivo;

II - não se altera quando adicionamos uma constante positiva aos valores de X;

III - não se altera quando multiplicamos por uma constante positiva os valores de X. Está(ão) correta(s) a(s) afirmativa(s):

(A) II somente. (B) I e II somente. (C) I e III somente. (D) II e III somente. (E) I, II e III. Gab. D

Page 26: Estatística CORRELAÇÃO E REGRESSÃO LINEAR Prof. Walter … · correlaÇÃo linear – diagrama de dispersÃo É um gráfico formado pela representação dos pontos indicados pelos

Questão 7 Pelo gráfico correspondente à reta obtida pelo método dos mínimos quadrados com base em 10 pares de observações (X1,Y1), (X2,Y2), . . . ,(X10,Y10), verifica-se que a reta passa pelo ponto (2 , 100). O modelo adotado foi Yi = α + βXi + εi , em que Yi representa o valor da variável dependente na i-ésima observação, Xi é o valor da variável explicativa na i-ésima observação e εi é o erro aleatório com as respectivas hipóteses consideradas para a regressão linear simples. α e β são os parâmetros do modelo, cujas estimativas foram obtidas pelo método dos mínimos quadrados. Dado que as médias das observações de Xi e Yi são iguais a 10 e 75, respectivamente, então a previsão do valor de Y, quando X = 16, é igual a (A) 60,75. (B) 56,25. (C) 50,75. (D) 48,25. (E) 40,75. Gab. B

Page 27: Estatística CORRELAÇÃO E REGRESSÃO LINEAR Prof. Walter … · correlaÇÃo linear – diagrama de dispersÃo É um gráfico formado pela representação dos pontos indicados pelos

Questão 8 (FCC) Uma empresa, com a finalidade de determinar a relação entre os gastos anuais com propaganda (X), em R$ 1 000,00, e o lucro bruto anual (Y), em R$ 1 000,00, optou por utilizar o modelo linear simples Yi = α + βXi + εi , em que Yi é o valor do lucro bruto auferido no ano i, Xi é o valor gasto com propaganda no ano i e εi o erro aleatório com as respectivas hipóteses consideradas para a regressão linear simples (α e β são parâmetros desconhecidos). Considerou, para o estudo, as seguintes informações referentes às observações nos últimos 10 anos da empresa:

Page 28: Estatística CORRELAÇÃO E REGRESSÃO LINEAR Prof. Walter … · correlaÇÃo linear – diagrama de dispersÃo É um gráfico formado pela representação dos pontos indicados pelos

Questão 8 Utilizando a equação da reta obtida pelo método dos mínimos quadrados, tem-se que, caso haja um gasto anual com propaganda de 80 mil reais, a previsão do lucro anual, em mil reais, será de

(A)158. (B)128,4. (C)121. (D)102,5. (E)84. :

Page 29: Estatística CORRELAÇÃO E REGRESSÃO LINEAR Prof. Walter … · correlaÇÃo linear – diagrama de dispersÃo É um gráfico formado pela representação dos pontos indicados pelos

Questão 9 (FCC) Uma empresa, com finalidade de determinar a relação entre gastos anuais em pesquisa e desenvolvimento (X), em milhares de reais, e o acréscimo anual nas vendas (Y), também em milhares de reais, optou por utilizar o modelo linear simples Yi = α + βXi + εi , em que Yi é o acréscimo nas vendas no ano i e εi o erro aleatório com as respectivas hipóteses consideradas para a regressão linear simples (α e β são parâmetros desconhecidos). Considerou, para o estudo, as seguintes informações referentes às observações nos últimos 10 anos da empresa:

Page 30: Estatística CORRELAÇÃO E REGRESSÃO LINEAR Prof. Walter … · correlaÇÃo linear – diagrama de dispersÃo É um gráfico formado pela representação dos pontos indicados pelos

Questão 9 Utilizando a equação da reta obtida pelo método dos mínimos quadrados, obteve-se, para um determinado gasto em pesquisa e desenvolvimento, uma previsão de acréscimo nas vendas no valor de 19 mil reais. O valor que se considerou para o gasto com pesquisa e desenvolvimento, em mil reais, foi:

a) 14

b) 13,75

c) 13,0

d) 12,4

e) 12,0

Page 31: Estatística CORRELAÇÃO E REGRESSÃO LINEAR Prof. Walter … · correlaÇÃo linear – diagrama de dispersÃo É um gráfico formado pela representação dos pontos indicados pelos

Questão 9 Utilizando a equação da reta obtida pelo método dos mínimos quadrados, obteve-se, para um determinado gasto em pesquisa e desenvolvimento, uma previsão de acréscimo nas vendas no valor de 19 mil reais. O valor que se considerou para o gasto com pesquisa e desenvolvimento, em mil reais, foi:

a) 14

b) 13,75

c) 13,0

d) 12,4

e) 12,0

Page 32: Estatística CORRELAÇÃO E REGRESSÃO LINEAR Prof. Walter … · correlaÇÃo linear – diagrama de dispersÃo É um gráfico formado pela representação dos pontos indicados pelos

Questão 10 (CESPE) Um analista avaliou, por meio de um modelo de regressão linear, se a quantidade de professores doutores formados no exterior — X — influenciava na quantidade de artigos publicados — Y. Para isso, ele selecionou 10 universidades que ofertavam determinado curso no ano de 2014, conforme dados apresentados na tabela a seguir.

Page 33: Estatística CORRELAÇÃO E REGRESSÃO LINEAR Prof. Walter … · correlaÇÃo linear – diagrama de dispersÃo É um gráfico formado pela representação dos pontos indicados pelos

Questão 10 (1)O coeficiente angular estimado é positivo. (2) O intercepto do modelo linear é maior que 10. (3) O número de doutores no exterior explicaria mais de 75% da variação em Y.