24
PROBABILIDADE E ESTATÍSTICA Estatística - Aula 8 Regressão Linear SUMÁRIO 1. Covariância e Correlação 2. Regressão Linear Simples 2.1 Modelos de Regressão 2.2 Análise de Resíduos 2.3 IC em Torno da Resposta Média 2.4 IC para uma Observação Futura 2.5 Coeficiente de Determinação 2.6. Exemplo no Excel

Regressão Linear - Exemplo no EXCEL

Embed Size (px)

Citation preview

1

PROBABILIDADE E ESTATÍSTICA

Estatística - Aula 8

Regressão Linear

SUMÁRIO1. Covariância e Correlação

2. Regressão Linear Simples

2.1 Modelos de Regressão

2.2 Análise de Resíduos

2.3 IC em Torno da Resposta Média

2.4 IC para uma Observação Futura

2.5 Coeficiente de Determinação

2.6. Exemplo no Excel

2

• Até o presente momento o trabalho de análise de dados limitou-se a estudar uma variável de cada vez. Agora, seráfeito o estudo de medidas e relações matemáticas entre maisde uma variável.

Exemplo 1: Faturamento e Lucro

Será possível estabelecer algum relacionamento entre o faturamento e o lucro acumulado de uma empresa?

Exemplo 2: Juros e Bolsa

Será possível estabelecer alguma relação entre a taxa básicade juros do Banco Central e os índices associados nas bolsasde valores do Brasil?

Covariância e Correlação

Covariância e Correlação

Dependência entre Variáveis

• Duas variáveis quaisquer X e Y são consideradasindependentes se os resultados obtidos por X nãoinfluenciarem os resultados obtidos por Y, e vice-versa. Se os resultados de X influenciarem os resultados de Y, X e Y serão dependentes.

• Para tratar da dependência entre variáveis, serãoestudados novos conceitos, fundamentais para o estudo do relacionamento entre variáveis. São eles Correlação e a Covariância

3

Duas variáveis X e Y estarão EMPARELHADAS quando, a cada momento que observamos umaocorrência, “anotarmos” dois valores: um para a variável X e outro para a variável Y

Variáveis emparelhadas vêm juntas uma das outras. Quando uma é observada a outratambém é.

Covariância e Correlação

Variáveis Emparelhadas

485001983

353001982

202001981

Lucro Líquido (Y)Faturamento (X)Ano

Supondo dados de uma empresa onde estão emdestaque o faturamento e o lucro da seguinte forma

Covariância e Correlação

Exemplo 6

4

Para o estudo do comportamento de duas variáveisemparelhadas X e Y são largamente utilizados osDiagramas de Dispersão.

Covariância e Correlação

Utilizando Diagramas de Dispersão

• Com esse tipo de gráfico o analista poderá observar se hárelacionamento entre as variáveis, o tipo de relacionamento e o formato do relacionamento.

• Quanto aos tipos de relacionamento eles podem ser positivos (quando X e Y caminham na mesma direção) ounegativos (quando X e Y caminham em direções opostas)

• O formato pode indicar se as variáveis possuemrelacionamento linear, exponencial, quadrático etc.

Covariância e Correlação

Utilizando Diagramas de Dispersão

5

• Para efetuar análises quantitativas sobre dados emparelhados de duas variáveis, uma medida importante éa Covariância. As mesmas análises que podem ser feitasnos Gráficos de Dispersão podem ser feitas utilizando oscálculos de Covariância

Covariância e Correlação

Covariância

N

)Y)((XN

1iYiXi

y,x

∑=

µ−µ−=σ

Onde:

µx = média dos valores de X

µY = média dos valores de Y

N = no de elementosde X e Y

• Equação alternativa para a Covariânciade dados emparelhados.

• σX, Y > 0 : X e Y são dependentes e possuem um relacionamento positivo. Se o valor de X aumenta o de Y também aumenta. Se o valor de X cai o de Y também cai.

• σX, Y < 0 : X e Y são dependentes e possuem um relacionamento negativo. Se o valor de X aumenta o de Y diminui. Se o valor de X cai o de Y aumenta.

• σX, Y = 0 : Duas variáveis independentes possuemcovariância nula. Porém, quando a covariância entre duasvariáveis for nula não implicará, necessariamente que elassejam independentes.

Covariância e Correlação

Interpretações da Covariância

6

.. ... . . ..

.... .... ..

X

Y

X, Y

σX, Y > 0 : X e Y são dependentes e possuem um relacionamento positivo. Se o valor de X aumenta o de Y também aumenta. Se o valor de X cai o de Y também cai.

Covariância e Correlação

Covariância Positiva

. .

.

... . .....

. ... . ..

X

Y

X, Y

σX, Y < 0 : X e Y são dependentes e possuem um relacionamento negativo. Se o valor de X aumenta o de Y diminui. Se o valor de X cai o de Y aumenta.

Covariância e Correlação

Covariância Negativa

7

. .... . . ..... . ... . ..X

Y

X, Y

σX, Y = 0 : Duas variáveis independentes possuemcovariância nula. Porém, quando a covariância entre duasvariáveis for nula não implicará, necessariamente que elassejam independentes.

Covariância e Correlação

Covariância Nula

.. .. .....

.....

.....

...

....

...

.

... .

.

X, YX, Y

Covariância e Correlação

Covariância Nula – Outros Exemplos

8

• É uma unidade de difícil entendimento. Se, porexemplo, as variáveis X e Y representarem dinheiro, a covariância terá como unidade $2. Se X for númerode empregados e Y salário, a unidade da covariânciaserá empregados × salários.

• Pode assumir grandes valores.

Covariância e Correlação

Desvantagens da Utilização da Covariância

YX

Y,XY,X σσ

σ=ρ

Para contornar essas desvantagens o idealizador dessamedida (Karl Pearson) criou a correlação que é dada pelaseguinte equação.

Covariância e Correlação

Correlação

• Quando diferente de zero indicarádependência.

• não possuirá unidades.

• Será limitada, -1< ρ < 1.

Propriedades:

9

• Os valores de correlação podem variar entre -1 e 1. Valores intermediários irão estabelecer níveis de dependência entre elas. Se variáveis X e Y possuem ρ = 0,9 e outras variáveis X’

, Y’ possuem ρ = 0,5. X e Y possuemnível de dependência maior que X’, Y’.

• Para calcular a correlação será necessário calcular a covariância e os desvios padrão de ambas as variáveis.

Covariância e Correlação

Observações:

. .... . .. .... .... . .. ..

.. . . .

.... .. .

....

. .. ... .

. .... . .. .... .... . .. .... . . .

.... .. .

....

. .. ... .ρ= - 0,95

ρ= 0,95 ρ= 0,8

ρ= - 0,8 ρ= - 0,6

ρ= 0,6

Covariância e Correlação

10

• A Análise de Regressão procurará estabelecer uma relação matemática para determinar o comportamento de uma variável Y em função do comportamento de outras variáveis X1, X2, X3, ... , Xn , ou seja:

Y = f(X1, X2, X3, ... , Xn)

Modelos de Regressão

Regressão Linear

• O que se deseja é poder estimar esse valor de Y estabelecendo um intervalo de confiança.

• Esse tipo de modelo somente será válido em condições bem específicas, que serão mostradas mais adiante.

• A variável Y, em modelos de regressão, também poderáser chamada de variável dependente ou explicada, enquanto que as variáveis X1, X2, X3, ... , Xn serão chamadas de variáveis independentes ou explicativas.

Modelos de Regressão

Regressão Linear

• A Regressão Simples irá abordar modelos com somente uma variável explicativa X. Os demais modelos formados com mais de uma variável explicativa serão modelos de Regressão Múltipla.

11

Modelos de Regressão

Regressão Linear

• Aqui, falaremos de modelos de Regressão Simples.

• Quanto à linearidade os modelos de regressão podem ser lineares ou não lineares. Nos lineares as equações dos modelos são do tipo y = b + a1x1 +...+ anxn. Modelos não-lineares possuirão equações do tipo:

1. y = sen x,

2. y = x12 + x2

3,

3. y = log x,

4. y = a1 + a2x + a3x2 + ... + anxn , entre outros.

• O estabelecimento dessas equações matemáticas entre as variáveis proporcionará que sejam realizadas algumas aplicações:

Modelos de Regressão - Aplicações

Regressão Linear

1. Estimarmos a média para a variável dependente a partir do conhecimento de um valor para a variável independente.

2. Explicarmos as oscilações verificadas na variável dependente em função das oscilações verificadas na variável independente.

3. Estimativa de valores futuros para a variável dependente.

12

A tabela que se segue mostra o faturamento de uma empresa hipotética durante um período de

18 meses

Exemplo

Regressão Linear

Faturamento Lucro Líquido25 328 1427 3710 2026 3727 3429 289 1816 2614 2527 3713 2120 2825 3622 3425 3620 317 20

Diagrama de Dispersão

0

10

20

30

40

0 10 20 30 40

Faturamento

Lucr

o Lí

quid

o

Exemplo

Regressão Linear

Ao desenhar o diagrama de

dispersão desses valores encontramos o gráfico ao lado

13

• Este exemplo mostra uma variável Y explicada por uma única variável X, sendo, portanto, um modelo de Regressão Simples.

• O objetivo é encontrar a relação que melhor interprete o comportamento dos pontos do Diagrama de Dispersão.

• Queremos montar um intervalo de confiança para Y em função do valor de X. Assim, vamos determinar uma faixa de valores para Y para um dado valor de X.

Exemplo

Regressão Linear

• Para fazer isso, o primeiro passo será estabelecer a média desse intervalo de confiança em função de X.

• É sabido que as retas, em gráficos (X, Y), são representadas pela equação genérica:

Y = AX + B

Exemplo

Regressão Linear

onde:A = coeficiente angularB = coeficiente linear

• Encontraremos a melhor reta que se adapta ao diagrama de pontos. Isso significa determinar os valores de A e de B, tal que os resíduos ou erros (ei) encontrados sejam os menores possíveis. Essa reta será a média procurada para o Intervalo de Confiança que contém Y.

14

Diagrama de Dispersão

0

10

20

30

40

0 10 20 30 40

Faturamento

Lucr

o Lí

quid

o

Erro ei (resíduo ei)

Ypi = AXi + B

Yi = AXi + B + ei

Xi

• Para determinar os valores de A e B com essas características é utilizado o Método dos Mínimos Quadrados Ordinários. Este método se utiliza de cálculo diferencial para achar os valores ideais de A e B que minimizam a soma dos erros ao quadrado.

• Após encontrados esses valores de A e B, é possível determinar a Linha de Tendência que melhor descreve o comportamento dos ponto do gráfico.

Exemplo

Regressão Linear

15

Diagrama de Dispersão

0

10

20

30

40

0 10 20 30 40

Faturamento

Lucr

o Lí

quid

o

Linha de Tendência

Exemplo

Regressão Linear

Essa linha de tendência será a

média para o intervalo de

confiança que conterá Y em função de X.

• Após encontrar o valor médio do intervalo de confiança de Y em função de X (linha de tendência), é necessário expor outros aspectos importantes para que seja possível construir um modelo de regressão.

Modelos de Regressão – resíduos ~ N(0, σ2 = cte)

Regressão Linear

• Somente será possível construir um modelo de regressão linear simples se os resíduos estiverem distribuídos normalmente com média 0 (zero) e variância σ2 constante.

• Se σ2 não for constante não será possível construir um intervalo de confiança pois ele mudará em função de X.

16

Modelos de Regressão

Regressão Linear

X

Y

Y = AX + BX1

X2X3

Y1

Y2Y3

Média 0(zero) significa que a média da normal está sobre a reta AX + B

Variância σ2 = constante indica que será possível usar

um mesmo valor de σ2 para todo o intervalo considerado

• Com essa idéia é possível avançar para a determinação dos intervalos de confiança.

Modelos de Regressão – resíduos ~ N(0, σ2 = cte)

Regressão Linear

• Os principais intervalos de confiança que iremos trabalhar são:

IC em torno da resposta médiaIC para uma observação futura.

• O valor de σ2 pode ser calculado como:

• O Excel fornece o valor de σ no campo “Erro-Padrão”

∑∑==

+−==−

=n

iii

n

iiE

E BAxyeSQnSQ

11

22 )]([2

onde σ

17

Para calcular o intervalo que representa a resposta em torno da média será usado o seguinte intervalo de confiança.

IC em Torno da Resposta Média

Regressão Linear

( )

−+± −

xx

on xY S

xxn

to

22

2,2|1σµ α

))

oxY BxAo

+=|µ) ( )∑=

−=n

iixx xxS

1

2

Onde:

IC para uma Observação Futura

Regressão Linear

Para calcular o intervalo que representa a resposta em torno da média para uma observação futura será usado o seguinte intervalo de confiança.

( )

−++± −

xx

on o S

xxn

ty2

22,2

11σα)

oo BxAy += ( )∑=

−=n

iixx xxS

1

2Onde:

18

• O Coeficiente de Determinação (R2) medirá a proporção da Variação de Y que poderá ser explicada pela variação de X

• R2 será o quadrado do valor da correlação das variáveis e por isso irá variar entre 0 (zero) e 1 (um)

Coeficiente de Determinação (R2)

Regressão Linear. .... . .. ...

R2 = 0,95

. .... . .. ...R2 = 0,95 . .... . .. ..

.. . . .

R2 = 0,8

. .... . .. .... . . .

R2 = 0,8 .... .. .

....

. .. ... .

R2 = 0,6

.... .. .

....

. .. ... .

R2 = 0,6

Coeficiente de Determinação (R2)

Regressão Linear

19

Vale salientar que mesmo estabelecendo uma equação matemática a regressão não é uma condição necessária e suficiente para determinar relações de causa e efeito entre variáveis envolvidas. A relação deve ser justificada através de teoria econômica, financeira, científica etc.

1.RELACIONAMENTO INDIRETO: Supondo duas ações hipotéticas A (telecomunicações) e B (alimentos), um analista financeiro estabeleceu a seguinte equação: RA = 0,35RB + 0,5. Na prática, alimentos não influenciarão o mercado de telecomunicações e vice-versa. Tal relacionamento poderá ser explicado pelos movimentos próprios do mercado, indicando um relacionamento indireto entre A e B.

Observações Importantes

Regressão Linear

2. PREVISÃO: Apesar das Linhas de Tendência possuírem esse nome, elas não necessariamente irão explicar os pontos posteriores. Esta linha servirá para explicar, com alguma confiança, pontos que estejam dentro do intervalo em estudo. Os valores seguintes somente serão inferidos, caso o fenômeno em estudo seja de conhecimento e se possa fazer tal tipo de previsão.

3. RELACIONAMENTO ESPÚRIO: Podem ocorrer certos tipos de coincidências curiosas. Supondo um exemplo hipotético onde se comparam a rentabilidade mensal de uma ação A e o número de dias de sol ocorridos nesse mês. Dados assim sugerem prever rentabilidade, que é um fenômeno econômico-administrativo, utilizando a meteorologia. Isso é curioso, porém absurdo!

Observações Importantes (Cont.)

Regressão Linear

20

Diagrama de Dispersão

0

5

10

15

20

25

30

35

40

0 5 10 15 20 25 30 35

Faturamento

Lucr

o líq

uido

O conjunto de dados emparelhados gerou o seguinte diagrama de dispersão.

Colocando o Exemplo no Excel

Regressão Linear

1. Apertar o botãodireito sobre os pontos

2. Apertar: “adicionarlinha de tendência”

Colocando o Exemplo no Excel

Regressão Linear

21

Diagrama de Dispersão

y = 0,9014x + 11,028R2 = 0,8331

0

5

10

15

20

25

30

35

40

0 5 10 15 20 25 30 35

Faturamento

Lucr

o líq

uido

Colocando o Exemplo no Excel

Regressão Linear

Colocando o Exemplo no Excel

Regressão Linear

Para fazeranálises maisdetalhadas sigaos passos aolado.

22

Regressão LinearColocando o Exemplo no Excel

√√

1. Selecionar os intervalosx e y na planilha.

2. Selecionar o cálculo dos resíduos.

3. Selecionar a plotagemdos resíduos.

4. Selecionar a plotagem de probabilidade normal

5. Selecione “Nova Planilha”e por fim, aperte “OK”.

Colocando o Exemplo no Excel

Regressão Linear

23

Regressão LinearColocando o Exemplo no Excel

Regressão LinearColocando o Exemplo no Excel

1. Plotagem de resíduos 2. Plotagem de Probabilidade Normal

Plotagem de probabilidade normal

05

10152025303540

0 20 40 60 80 100 120

Percentil da amostra

Y

Variável X 1 Plotagem de resíduos

-10

-8

-6

-4

-2

0

2

4

0 10 20 30 40

Variável X 1

Res

íduo

s

24

Regressão LinearColocando o Exemplo no Excel – Plotagem de resíduos

ei

ei ei

ei

Ideal: σ = cte

média = 0

R Múltiplo – Índice especial para a regressão múltipla. Indica o grau de relacionamento linear entre os valoresreais e estimados para a variável Y. Na regressão simples o seu valor equivale à raiz quadrada de R2.

R-quadrado – Já mencionado

R-quadrado ajustado – quando se trabalha com regressão múltipla, este índice será mais apropriado. Quando a inclusão de outra variável implicar no crescimento do seu valor, indicará que será benéfico parao modelo a inclusão de mais variáveis.

Regressão LinearSignificado das avaliações mostradas no Excel