Upload
pamela-rodrigues
View
4.615
Download
38
Embed Size (px)
Citation preview
1
PROBABILIDADE E ESTATÍSTICA
Estatística - Aula 8
Regressão Linear
SUMÁRIO1. Covariância e Correlação
2. Regressão Linear Simples
2.1 Modelos de Regressão
2.2 Análise de Resíduos
2.3 IC em Torno da Resposta Média
2.4 IC para uma Observação Futura
2.5 Coeficiente de Determinação
2.6. Exemplo no Excel
2
• Até o presente momento o trabalho de análise de dados limitou-se a estudar uma variável de cada vez. Agora, seráfeito o estudo de medidas e relações matemáticas entre maisde uma variável.
Exemplo 1: Faturamento e Lucro
Será possível estabelecer algum relacionamento entre o faturamento e o lucro acumulado de uma empresa?
Exemplo 2: Juros e Bolsa
Será possível estabelecer alguma relação entre a taxa básicade juros do Banco Central e os índices associados nas bolsasde valores do Brasil?
Covariância e Correlação
Covariância e Correlação
Dependência entre Variáveis
• Duas variáveis quaisquer X e Y são consideradasindependentes se os resultados obtidos por X nãoinfluenciarem os resultados obtidos por Y, e vice-versa. Se os resultados de X influenciarem os resultados de Y, X e Y serão dependentes.
• Para tratar da dependência entre variáveis, serãoestudados novos conceitos, fundamentais para o estudo do relacionamento entre variáveis. São eles Correlação e a Covariância
3
Duas variáveis X e Y estarão EMPARELHADAS quando, a cada momento que observamos umaocorrência, “anotarmos” dois valores: um para a variável X e outro para a variável Y
Variáveis emparelhadas vêm juntas uma das outras. Quando uma é observada a outratambém é.
Covariância e Correlação
Variáveis Emparelhadas
485001983
353001982
202001981
Lucro Líquido (Y)Faturamento (X)Ano
Supondo dados de uma empresa onde estão emdestaque o faturamento e o lucro da seguinte forma
Covariância e Correlação
Exemplo 6
4
Para o estudo do comportamento de duas variáveisemparelhadas X e Y são largamente utilizados osDiagramas de Dispersão.
Covariância e Correlação
Utilizando Diagramas de Dispersão
• Com esse tipo de gráfico o analista poderá observar se hárelacionamento entre as variáveis, o tipo de relacionamento e o formato do relacionamento.
• Quanto aos tipos de relacionamento eles podem ser positivos (quando X e Y caminham na mesma direção) ounegativos (quando X e Y caminham em direções opostas)
• O formato pode indicar se as variáveis possuemrelacionamento linear, exponencial, quadrático etc.
Covariância e Correlação
Utilizando Diagramas de Dispersão
5
• Para efetuar análises quantitativas sobre dados emparelhados de duas variáveis, uma medida importante éa Covariância. As mesmas análises que podem ser feitasnos Gráficos de Dispersão podem ser feitas utilizando oscálculos de Covariância
Covariância e Correlação
Covariância
N
)Y)((XN
1iYiXi
y,x
∑=
µ−µ−=σ
Onde:
µx = média dos valores de X
µY = média dos valores de Y
N = no de elementosde X e Y
• Equação alternativa para a Covariânciade dados emparelhados.
• σX, Y > 0 : X e Y são dependentes e possuem um relacionamento positivo. Se o valor de X aumenta o de Y também aumenta. Se o valor de X cai o de Y também cai.
• σX, Y < 0 : X e Y são dependentes e possuem um relacionamento negativo. Se o valor de X aumenta o de Y diminui. Se o valor de X cai o de Y aumenta.
• σX, Y = 0 : Duas variáveis independentes possuemcovariância nula. Porém, quando a covariância entre duasvariáveis for nula não implicará, necessariamente que elassejam independentes.
Covariância e Correlação
Interpretações da Covariância
6
.. ... . . ..
.... .... ..
X
Y
X, Y
σX, Y > 0 : X e Y são dependentes e possuem um relacionamento positivo. Se o valor de X aumenta o de Y também aumenta. Se o valor de X cai o de Y também cai.
Covariância e Correlação
Covariância Positiva
. .
.
... . .....
. ... . ..
X
Y
X, Y
σX, Y < 0 : X e Y são dependentes e possuem um relacionamento negativo. Se o valor de X aumenta o de Y diminui. Se o valor de X cai o de Y aumenta.
Covariância e Correlação
Covariância Negativa
7
. .... . . ..... . ... . ..X
Y
X, Y
σX, Y = 0 : Duas variáveis independentes possuemcovariância nula. Porém, quando a covariância entre duasvariáveis for nula não implicará, necessariamente que elassejam independentes.
Covariância e Correlação
Covariância Nula
.. .. .....
.....
.....
...
....
...
.
... .
.
X, YX, Y
Covariância e Correlação
Covariância Nula – Outros Exemplos
8
• É uma unidade de difícil entendimento. Se, porexemplo, as variáveis X e Y representarem dinheiro, a covariância terá como unidade $2. Se X for númerode empregados e Y salário, a unidade da covariânciaserá empregados × salários.
• Pode assumir grandes valores.
Covariância e Correlação
Desvantagens da Utilização da Covariância
YX
Y,XY,X σσ
σ=ρ
Para contornar essas desvantagens o idealizador dessamedida (Karl Pearson) criou a correlação que é dada pelaseguinte equação.
Covariância e Correlação
Correlação
• Quando diferente de zero indicarádependência.
• não possuirá unidades.
• Será limitada, -1< ρ < 1.
Propriedades:
9
• Os valores de correlação podem variar entre -1 e 1. Valores intermediários irão estabelecer níveis de dependência entre elas. Se variáveis X e Y possuem ρ = 0,9 e outras variáveis X’
, Y’ possuem ρ = 0,5. X e Y possuemnível de dependência maior que X’, Y’.
• Para calcular a correlação será necessário calcular a covariância e os desvios padrão de ambas as variáveis.
Covariância e Correlação
Observações:
. .... . .. .... .... . .. ..
.. . . .
.... .. .
....
. .. ... .
. .... . .. .... .... . .. .... . . .
.... .. .
....
. .. ... .ρ= - 0,95
ρ= 0,95 ρ= 0,8
ρ= - 0,8 ρ= - 0,6
ρ= 0,6
Covariância e Correlação
10
• A Análise de Regressão procurará estabelecer uma relação matemática para determinar o comportamento de uma variável Y em função do comportamento de outras variáveis X1, X2, X3, ... , Xn , ou seja:
Y = f(X1, X2, X3, ... , Xn)
Modelos de Regressão
Regressão Linear
• O que se deseja é poder estimar esse valor de Y estabelecendo um intervalo de confiança.
• Esse tipo de modelo somente será válido em condições bem específicas, que serão mostradas mais adiante.
• A variável Y, em modelos de regressão, também poderáser chamada de variável dependente ou explicada, enquanto que as variáveis X1, X2, X3, ... , Xn serão chamadas de variáveis independentes ou explicativas.
Modelos de Regressão
Regressão Linear
• A Regressão Simples irá abordar modelos com somente uma variável explicativa X. Os demais modelos formados com mais de uma variável explicativa serão modelos de Regressão Múltipla.
11
Modelos de Regressão
Regressão Linear
• Aqui, falaremos de modelos de Regressão Simples.
• Quanto à linearidade os modelos de regressão podem ser lineares ou não lineares. Nos lineares as equações dos modelos são do tipo y = b + a1x1 +...+ anxn. Modelos não-lineares possuirão equações do tipo:
1. y = sen x,
2. y = x12 + x2
3,
3. y = log x,
4. y = a1 + a2x + a3x2 + ... + anxn , entre outros.
• O estabelecimento dessas equações matemáticas entre as variáveis proporcionará que sejam realizadas algumas aplicações:
Modelos de Regressão - Aplicações
Regressão Linear
1. Estimarmos a média para a variável dependente a partir do conhecimento de um valor para a variável independente.
2. Explicarmos as oscilações verificadas na variável dependente em função das oscilações verificadas na variável independente.
3. Estimativa de valores futuros para a variável dependente.
12
A tabela que se segue mostra o faturamento de uma empresa hipotética durante um período de
18 meses
Exemplo
Regressão Linear
Faturamento Lucro Líquido25 328 1427 3710 2026 3727 3429 289 1816 2614 2527 3713 2120 2825 3622 3425 3620 317 20
Diagrama de Dispersão
0
10
20
30
40
0 10 20 30 40
Faturamento
Lucr
o Lí
quid
o
Exemplo
Regressão Linear
Ao desenhar o diagrama de
dispersão desses valores encontramos o gráfico ao lado
13
• Este exemplo mostra uma variável Y explicada por uma única variável X, sendo, portanto, um modelo de Regressão Simples.
• O objetivo é encontrar a relação que melhor interprete o comportamento dos pontos do Diagrama de Dispersão.
• Queremos montar um intervalo de confiança para Y em função do valor de X. Assim, vamos determinar uma faixa de valores para Y para um dado valor de X.
Exemplo
Regressão Linear
• Para fazer isso, o primeiro passo será estabelecer a média desse intervalo de confiança em função de X.
• É sabido que as retas, em gráficos (X, Y), são representadas pela equação genérica:
Y = AX + B
Exemplo
Regressão Linear
onde:A = coeficiente angularB = coeficiente linear
• Encontraremos a melhor reta que se adapta ao diagrama de pontos. Isso significa determinar os valores de A e de B, tal que os resíduos ou erros (ei) encontrados sejam os menores possíveis. Essa reta será a média procurada para o Intervalo de Confiança que contém Y.
14
Diagrama de Dispersão
0
10
20
30
40
0 10 20 30 40
Faturamento
Lucr
o Lí
quid
o
Erro ei (resíduo ei)
Ypi = AXi + B
Yi = AXi + B + ei
Xi
• Para determinar os valores de A e B com essas características é utilizado o Método dos Mínimos Quadrados Ordinários. Este método se utiliza de cálculo diferencial para achar os valores ideais de A e B que minimizam a soma dos erros ao quadrado.
• Após encontrados esses valores de A e B, é possível determinar a Linha de Tendência que melhor descreve o comportamento dos ponto do gráfico.
Exemplo
Regressão Linear
15
Diagrama de Dispersão
0
10
20
30
40
0 10 20 30 40
Faturamento
Lucr
o Lí
quid
o
Linha de Tendência
Exemplo
Regressão Linear
Essa linha de tendência será a
média para o intervalo de
confiança que conterá Y em função de X.
• Após encontrar o valor médio do intervalo de confiança de Y em função de X (linha de tendência), é necessário expor outros aspectos importantes para que seja possível construir um modelo de regressão.
Modelos de Regressão – resíduos ~ N(0, σ2 = cte)
Regressão Linear
• Somente será possível construir um modelo de regressão linear simples se os resíduos estiverem distribuídos normalmente com média 0 (zero) e variância σ2 constante.
• Se σ2 não for constante não será possível construir um intervalo de confiança pois ele mudará em função de X.
16
Modelos de Regressão
Regressão Linear
X
Y
Y = AX + BX1
X2X3
Y1
Y2Y3
Média 0(zero) significa que a média da normal está sobre a reta AX + B
Variância σ2 = constante indica que será possível usar
um mesmo valor de σ2 para todo o intervalo considerado
• Com essa idéia é possível avançar para a determinação dos intervalos de confiança.
Modelos de Regressão – resíduos ~ N(0, σ2 = cte)
Regressão Linear
• Os principais intervalos de confiança que iremos trabalhar são:
IC em torno da resposta médiaIC para uma observação futura.
• O valor de σ2 pode ser calculado como:
• O Excel fornece o valor de σ no campo “Erro-Padrão”
∑∑==
+−==−
=n
iii
n
iiE
E BAxyeSQnSQ
11
22 )]([2
onde σ
17
Para calcular o intervalo que representa a resposta em torno da média será usado o seguinte intervalo de confiança.
IC em Torno da Resposta Média
Regressão Linear
( )
−+± −
xx
on xY S
xxn
to
22
2,2|1σµ α
))
oxY BxAo
+=|µ) ( )∑=
−=n
iixx xxS
1
2
Onde:
IC para uma Observação Futura
Regressão Linear
Para calcular o intervalo que representa a resposta em torno da média para uma observação futura será usado o seguinte intervalo de confiança.
( )
−++± −
xx
on o S
xxn
ty2
22,2
11σα)
oo BxAy += ( )∑=
−=n
iixx xxS
1
2Onde:
18
• O Coeficiente de Determinação (R2) medirá a proporção da Variação de Y que poderá ser explicada pela variação de X
• R2 será o quadrado do valor da correlação das variáveis e por isso irá variar entre 0 (zero) e 1 (um)
Coeficiente de Determinação (R2)
Regressão Linear. .... . .. ...
R2 = 0,95
. .... . .. ...R2 = 0,95 . .... . .. ..
.. . . .
R2 = 0,8
. .... . .. .... . . .
R2 = 0,8 .... .. .
....
. .. ... .
R2 = 0,6
.... .. .
....
. .. ... .
R2 = 0,6
Coeficiente de Determinação (R2)
Regressão Linear
19
Vale salientar que mesmo estabelecendo uma equação matemática a regressão não é uma condição necessária e suficiente para determinar relações de causa e efeito entre variáveis envolvidas. A relação deve ser justificada através de teoria econômica, financeira, científica etc.
1.RELACIONAMENTO INDIRETO: Supondo duas ações hipotéticas A (telecomunicações) e B (alimentos), um analista financeiro estabeleceu a seguinte equação: RA = 0,35RB + 0,5. Na prática, alimentos não influenciarão o mercado de telecomunicações e vice-versa. Tal relacionamento poderá ser explicado pelos movimentos próprios do mercado, indicando um relacionamento indireto entre A e B.
Observações Importantes
Regressão Linear
2. PREVISÃO: Apesar das Linhas de Tendência possuírem esse nome, elas não necessariamente irão explicar os pontos posteriores. Esta linha servirá para explicar, com alguma confiança, pontos que estejam dentro do intervalo em estudo. Os valores seguintes somente serão inferidos, caso o fenômeno em estudo seja de conhecimento e se possa fazer tal tipo de previsão.
3. RELACIONAMENTO ESPÚRIO: Podem ocorrer certos tipos de coincidências curiosas. Supondo um exemplo hipotético onde se comparam a rentabilidade mensal de uma ação A e o número de dias de sol ocorridos nesse mês. Dados assim sugerem prever rentabilidade, que é um fenômeno econômico-administrativo, utilizando a meteorologia. Isso é curioso, porém absurdo!
Observações Importantes (Cont.)
Regressão Linear
20
Diagrama de Dispersão
0
5
10
15
20
25
30
35
40
0 5 10 15 20 25 30 35
Faturamento
Lucr
o líq
uido
O conjunto de dados emparelhados gerou o seguinte diagrama de dispersão.
Colocando o Exemplo no Excel
Regressão Linear
1. Apertar o botãodireito sobre os pontos
2. Apertar: “adicionarlinha de tendência”
Colocando o Exemplo no Excel
Regressão Linear
21
Diagrama de Dispersão
y = 0,9014x + 11,028R2 = 0,8331
0
5
10
15
20
25
30
35
40
0 5 10 15 20 25 30 35
Faturamento
Lucr
o líq
uido
Colocando o Exemplo no Excel
Regressão Linear
Colocando o Exemplo no Excel
Regressão Linear
Para fazeranálises maisdetalhadas sigaos passos aolado.
22
Regressão LinearColocando o Exemplo no Excel
√√
√
√
1. Selecionar os intervalosx e y na planilha.
2. Selecionar o cálculo dos resíduos.
3. Selecionar a plotagemdos resíduos.
4. Selecionar a plotagem de probabilidade normal
5. Selecione “Nova Planilha”e por fim, aperte “OK”.
Colocando o Exemplo no Excel
Regressão Linear
23
Regressão LinearColocando o Exemplo no Excel
Regressão LinearColocando o Exemplo no Excel
1. Plotagem de resíduos 2. Plotagem de Probabilidade Normal
Plotagem de probabilidade normal
05
10152025303540
0 20 40 60 80 100 120
Percentil da amostra
Y
Variável X 1 Plotagem de resíduos
-10
-8
-6
-4
-2
0
2
4
0 10 20 30 40
Variável X 1
Res
íduo
s
24
Regressão LinearColocando o Exemplo no Excel – Plotagem de resíduos
ei
ei ei
ei
Ideal: σ = cte
média = 0
R Múltiplo – Índice especial para a regressão múltipla. Indica o grau de relacionamento linear entre os valoresreais e estimados para a variável Y. Na regressão simples o seu valor equivale à raiz quadrada de R2.
R-quadrado – Já mencionado
R-quadrado ajustado – quando se trabalha com regressão múltipla, este índice será mais apropriado. Quando a inclusão de outra variável implicar no crescimento do seu valor, indicará que será benéfico parao modelo a inclusão de mais variáveis.
Regressão LinearSignificado das avaliações mostradas no Excel