33
MBA em Gestão de Projetos e MBA em Gestão de Projetos e Processos Organizacionais Processos Organizacionais 1 Estatística Estatística Aplicada Aplicada Galo Lopez Noriega Galo Lopez Noriega [email protected] [email protected]

Aula4 Regressao Linear

Embed Size (px)

Citation preview

Page 1: Aula4 Regressao Linear

MBA em Gestão de Projetos e MBA em Gestão de Projetos e Processos OrganizacionaisProcessos Organizacionais

1

EstatísticaEstatística AplicadaAplicada

Galo Lopez NoriegaGalo Lopez [email protected]@trevisan.edu.br

Page 2: Aula4 Regressao Linear

Regressão Linear Simples

2

Simples

Levine: Capítulos Levine: Capítulos 11 11 e e 1212

Anderson: Capítulo Anderson: Capítulo 1212

Page 3: Aula4 Regressao Linear

Alguns Exemplos

� Aumento das vendas de acordo com a incidência de anúncios na TV em horário nobre;

� Receita do Hotel Bellagio em Las Vegas de acordo com o número de shows feitos pelo Cirque du Soleil;

� Coerência das deduções feitas pelos contribuintes em relação à sua receita bruta;

3

relação à sua receita bruta;

� Aumento do consumo de energia elétrica devido ao crescimento do uso de computadores;

� Taxas especiais em hotéis para quem viaja à negócios;

� Taxa de desemprego e taxa de criminalidade.

Page 4: Aula4 Regressao Linear

Previsão de Vendas

Andreia é a Diretora de Novos Negócios da AL&O, umaempresa da área de varejo. A AL&O lançou um nova linhaempresa da área de varejo. A AL&O lançou um nova linhade produtos no mercado. Esta nova linha de produtos foilançado inicialmente em algumas de suas unidades nonordeste norte americano, fazendo uso de campanhaspublicitárias (a tabela a seguir mostra os gastos empublicidade e os valores das vendas).

Page 5: Aula4 Regressao Linear

Região Gastos (milhões) Vendas ( milhões)Mês ano Publicidade Primeiro ano

Janeiro 1994 Maine $1,80 $104,00Fevereiro 1994 New Hampshire $1,20 $68,00Março 1994 Vermont $0,40 $39,00Abril 1994 Massachusetts $0,50 $43,00Maio 1994 Connecticut $2,50 $134,00Junho 1994 Rhode Island $2,50 $127,00

Data da Introdução

5

Julho 1994 New York $1,50 $87,00Agosto 1994 New Jersey $1,20 $77,00Setembro 1994 Pennsylvania $1,60 $102,00Outubro 1994 Delaware $1,00 $65,00Novembro 1994 MaryLand $1,50 $101,00Dezembro 1994 Wet Virginia $0,70 $46,00Janeiro 1995 Virginia $1,00 $52,00Fevereiro 1995 Ohio $0,80 $33,00

Page 6: Aula4 Regressao Linear

Andreia está interessada em analisar estes dados paradeterminar quais serão as vendas em duas novas regiõesnas quais as verbas para Publicidade são de US$ 2,0milhões.

Com base nas informações fornecidas gostaríamosresponder as seguintes questões:

6

1) Qual a relação entre a publicidade e as vendas?

2) Qual o valor estimado para as vendas em regiõesnas quais se pretende investir $2,0 milhões?

3) Quão confiáveis são estes valores estimados?

Page 7: Aula4 Regressao Linear

Publicidade vs. Vendas

$120,00$140,00$160,00

Primeiro vamos desenhar o gráfico scatter plot ...

7

$0,00$20,00$40,00$60,00$80,00

$100,00$120,00

$0,00 $0,50 $1,00 $1,50 $2,00 $2,50 $3,00

Gastos em publicidade

Ven

das

Page 8: Aula4 Regressao Linear

Publicidade vs. Vendas

y = 48,597x + 13,824

$100,00$120,00$140,00$160,00

Ven

das

Agora vamos adicionar a linha de tendência...

8Reta estimada

$0,00$20,00$40,00$60,00$80,00

$100,00

$0,00 $0,50 $1,00 $1,50 $2,00 $2,50 $3,00

Gastos em publicidade

Ven

das

Page 9: Aula4 Regressao Linear

Para estimarmos quais serão as vendas para uminvestimento de $2,0 milhões em publicidade, bastausarmos a equação determinada:

6,4882,13ˆ xy +=

Com isso, temos a Equação de Regressão Estimada...

9

Conclusão: As vendas estimadas serão de $111,02milhões

02,111$)2(6,4882,13ˆ

6,4882,13ˆ

USy

xy

=+=

+=

Page 10: Aula4 Regressao Linear

Regressão Linear Simples

A regressão linear simples ocorre quando desejamosexplicar uma variável y usando uma variável explicativa x.

O Modelo de Regressão Linear Simples:

10

A Equação de Regressão Estimada

εββ ++= xy 10

xbby 10ˆ +=Valores estimados

Não é causa e efeito entre as variáveis

Page 11: Aula4 Regressao Linear

RESUMO DOS RESULTADOS

Estatística de regressãoR múltiplo 0,964136108R-Quadrado 0,929558435R-quadrado ajustado 0,923688304Erro padrão 9,106122272Observações 14

Coeficiente de Correlação (–1<r<1)

Relação Linear

Coeficiente de Determinação (0<r2<1)

Relações lineares e não-lineares

Análise ANOVA no Excel...ANalysis Of VAriance

11

ANOVAgl SQ MQ F F de significação

Regressão 1 13130,94245 13130,94245 158,3539653 2,8433E-08Resíduo 12 995,057554 82,92146283Total 13 14126

Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superioresInterseção 13,82374101 5,579203078 2,477726803 0,029078957 1,667701969 25,97978005Variável X 1 48,5971223 3,861856052 12,5838772 2,8433E-08 40,18286093 57,01138367

Teste t Valor p

Page 12: Aula4 Regressao Linear

Como exemplo, podemos citar a correlação fortementepositiva da relação entre idade e estatura de uma criança;quanto maior a idade maior a estatura.

Um exemplo de forte correlação negativa é a relação entrea temperatura e o consumo de cobertores; quando maior atemperatura, menor o consumo de cobertores.

Coeficiente de Correlação

12

temperatura, menor o consumo de cobertores.

Um exemplo da inexistência de correlação é a relaçãoentre o número do calçado de um adulto e o seu nívelintelectual.

Ou ainda, a paixão pelo Timão em função do número devitórias ou derrotas!

Page 13: Aula4 Regressao Linear

Resumo

R-Múltiplo=0,96 é o coeficiente de correlação amostral (lembre-seque o coeficiente de correlação situa-se entre –1 e 1)

R-quadrado=0,93 é o coeficiente de Determinação da regressão.Explica que 93% das variações nas vendas (y) são “explicadas” pelosgastos em publicidade, ficando 7% sem explicação.

13

gastos em publicidade, ficando 7% sem explicação.

O valor 0,0000000284 é o valor p do teste de hipótese de β1 serzero. Como o p-value é menor que 5% rejeitamos a hipótese nula,

isto é, β1 é diferente de zero. (p ≥ αααα,,,, a hipótese nula não érejeitada; p < αααα,,,, a hipótese nula é rejeitada).

A equação estimada é y = 13,82 + 48,6x

Page 14: Aula4 Regressao Linear

Exercício

O índice Dow Jones Industrial Average (DJIA) e o

Standard & Poor’s (S&P500) são ambos medidas da

movimentação no mercado de ações. O DJIA é

14

baseado na movimentação dos preços dos papéis

das 30 maiores companhias, o S&P500 é um índice

composto de 500 ações. A tabela a seguir mostra os

índices para o DJIA e S&P500 para as últimas 10

semanas de 1997.

Page 15: Aula4 Regressao Linear

Data Dow Jones S&P500out/24 7715 942out/31 7442 915nov/07 7581 928nov/14 7572 928nov/21 7881 963nov/28 7823 955

15

nov/28 7823 955dez/05 8149 984dez/12 7838 953dez/19 7756 947dez/26 7679 936

1) Qual é a relação entre o DJIA e o S&P500 ?

2) Quão confiáveis são os valores estimados?

Page 16: Aula4 Regressao Linear

Análise da Regressão

Dow Jones versus S&P500 y = 0,1006x + 166,08

R2 = 0,9904

960

970

980

990

valo

res

S&

P50

0

16

910

920

930

940

950

960

7400 7500 7600 7700 7800 7900 8000 8100 8200

valores DJ

valo

res

S&

P50

0

Page 17: Aula4 Regressao Linear

Análise ANOVA no Excel

RESUMO DOS RESULTADOS

Estatística de regressão

R múltiplo 0,995205176

R-Quadrado 0,990433342

R-quadrado ajustado 0,98923751

Erro padrão 2,069336983

Observações 10

17

ANOVA

gl SQ MQ F F de significaçãoRegressão 1 3546,64276 3546,642756 828,237722 2,29915E-09Resíduo 8 34,2572444 4,282155549Total 9 3580,9

Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superiores Inferior 95,0% Superior 95,0%Interseção 166,0828321 27,0767411 6,133782172 0,00027891 103,6437551 228,5219092 103,6437551 228,5219092Dow Jones 0,100601422 0,00349564 28,77911954 2,2992E-09 0,092540463 0,10866238 0,092540463 0,10866238

Page 18: Aula4 Regressao Linear

Estudo de caso 1: Gastos e Desempenho Estudantil

Deseja-se descobrir se o progresso educacional dos estudantes está relacionado comquanto um estado em que residem gasta com educação. Em muitas comunidades, essaimportante questão tem sido colocada nas pautas das discussões pelos secretários deeducação, que vêem uma relação positiva entre os gastos e o progresso dos estudantes,para que haja um aumento na taxa de gastos governamentais com o ensino. Neste casovocê é convidado a analisar os dados relativos a gastos e pontuações de progresso para

18

determinar se há alguma relação entre os gastos e o progresso dos estudantes nasescolas públicas.

O Levantamento Nacional de Progresso Educacional (National Assessment EducationalProgress-NAEP) é freqüentemente usado para medir a qualidade da educação nos EUA.O arquivo EC-Reg Linear.xls (planilha EC1-naep) exibe o gasto total corrente poraluno/ano e a pontuação média do teste NAEP para 35 estados participantes doprograma.

A pontuação média é a soma das pontuações em matemática, ciências e leitura no testeNAEP de 1996. A pontuação máxima é de 1300 pontos.

Page 19: Aula4 Regressao Linear

Relatório Gerencial:

a) Desenvolva um resumo numérico e gráfico dos dados (média, desvio padrão ediagrama de dispersão).

b) Verifique – utilizando regressão linear - se há alguma relação entre a quantiagasta por aluno e a pontuação média do teste NAEP. Discuta suas conclusões(teste o gasto como variável independente).

c) Você acredita que a regressão estimada poderia ser usada para estimar aspontuações médias para estados que não participaram do programa NAEP?

19

pontuações médias para estados que não participaram do programa NAEP?Explique.

d) Suponha que você use na regressão somente estados que gastam no mínimoUS$4000 por aluno e não mais que US$6000 por aluno. Para estes estados, arelação entre as duas variáveis parece ser de alguma forma diferente doconjunto completo de dados? Explique.

e) Baseado nas suas análises, você acha que o nível de progresso educacionaldos estudantes está relacionado com o montante que o estado gasta comeducação?

Page 20: Aula4 Regressao Linear

Relatório Gerencial :

Desenvolva um resumo numérico e gráfico dos dados (média, desvio padrão ediagrama de dispersão).

Gasto por aluno (US$)

Média 5068,828571Erro padrão 183,5153486Mediana 4985Modo #N/DDesvio padrão 1085,691444Variância da amostra1178725,911Curtose 1,125309956Assimetria 0,881640123Intervalo 4882Mínimo 3280Máximo 8162Soma 177409Contagem 35

Pontuação Média

Média 631,1714Erro padrão 4,661028Mediana 628Modo 580Desvio padrão 27,57502Variância da amostra 760,3815Curtose -0,75544Assimetria -0,28605Intervalo 95Mínimo 580Máximo 675Soma 22091Contagem 35

20

Contagem 35 Contagem 35

Gastos por Aluno versus Pontuação Média

560

580

600

620

640

660

680

0 1.000 2.000 3.000 4.000 5.000 6.000 7.000 8.000 9.000

gastos com alunos

pont

uaçã

o m

édia

Page 21: Aula4 Regressao Linear

Relatório Gerencial :

Verifique – utilizando regressão linear - se há alguma relação entre a quantia gasta poraluno e a pontuação média do teste NAEP. Discuta suas conclusões (teste o gastocomo variável independente).

Gastos por Aluno versus Pontuação Média

y = 0,0087x + 587,32

R2 = 0,116

620

640

660

680

pont

uaçã

o m

édia

21

560

580

600

620

0 1.000 2.000 3.000 4.000 5.000 6.000 7.000 8.000 9.000

gastos com alunos

pont

uaçã

o m

édia

O que você achaO que você acha

Page 22: Aula4 Regressao Linear

Relatório Gerencial:

Você acredita que a regressão estimada poderia ser usada para estimar as pontuaçõesmédias para estados que não participaram do programa NAEP? Explique.

22

Page 23: Aula4 Regressao Linear

Relatório Gerencial :

Suponha que você use na regressão somente estados que gastam no mínimo US$4000por aluno e não mais que US$6000 por aluno. Para estes estados, a relação entreas duas variáveis parece ser de alguma forma diferente do conjunto completo dedados? Explique.

Gasto por Aluno versus Pontuação Média

620

640

660

680

Pon

tuaç

ão M

édia

23

560

580

600

620

0 1.000 2.000 3.000 4.000 5.000 6.000

Gasto por Aluno

Pon

tuaç

ão M

édia

O que você achaO que você acha

Page 24: Aula4 Regressao Linear

RESUMO DOS RESULTADOS DE US$ 4000,00 à US$ 6000,00

Estatística de regressãoR múltiplo 0,394666329R-Quadrado 0,155761512R-quadrado ajustado 0,117387035Erro padrão 27,102816Observações 24

ANOVAgl SQ MQ F F de significação

Análise ANOVA no Excel

24

gl SQ MQ F F de significaçãoRegressão 1 2981,58 2981,58 4,058987 0,056320226Resíduo 22 16160,38 734,5626Total 23 19141,96

Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superiores Inferior 95,0% Superior 95,0%Interseção 524,2888252 53,35746 9,82597 1,66E-09 413,6322178 634,9454326 413,6322178 634,9454326Gasto por aluno (US$) 0,022119752 0,010979 2,014693 0,05632 -0,000649753 0,044889257 -0,000649753 0,044889257

Page 25: Aula4 Regressao Linear

Relatório Gerencial:

Baseado nas suas análises, você acha que o nível de progresso educacional dosestudantes está relacionado com o montante que o estado gasta com educação?

25

Page 26: Aula4 Regressao Linear

Exercício PropostoA Value Line (February 24, 1995) reportou que o mercado beta para aWoolworth Corporation é 1,25. Mercados beta para ações sãodeterminados por regressão linear simples. Para cada ação, a variáveldependente é a sua porcentagem do retorno trimestral (valorização docapital mais dividendos) menos a porcentagem de retorno que poderia serobtida de um investimento livre de riscos (risk-free). A variávelindependente é a porcentagem de retorno trimestral (valorização do

26

independente é a porcentagem de retorno trimestral (valorização docapital mais dividendos) para o mercado de ações (S&P500) menos aporcentagem de retorno de um investimento livre de riscos. Uma equaçãode regressão estimada é desenvolvida com dados trimestrais; o mercadobeta para a ação é a inclinação da equação de regressão estimada (b1).O valor do mercado beta é freqüentemente interpretado como umamedida do risco associado à ação. Mercados beta maiores que 1 indicamque ação é mais volátil do que a média do mercado; mercados betamenores que 1 indicam que a ação é menos volátil do que a média domercado.

Page 27: Aula4 Regressao Linear

As diferenças entre a porcentagem de retorno e a porcentagem livre deriscos para 10 trimestres da S&P500 e da IBM são mostradas:

S&P 500 IBM1,2 -0,7-2,5 -2,0-3,0 -5,52,0 4,75,0 1,8

a) Desenvolva a equação de regressão linear para determinar o mercado beta para a IBM. Qual é o mercado beta da IBM?

b) Faça o teste t de significância da regressão com 0,05 de nível de significância

27

1,2 4,13,0 2,6-1,0 2,00,5 -1,32,5 5,5

significância

c) A equação de regressão estimada forneceu um bom ajuste? Explique.

d) Use os mercados beta da Woolworth e da IBM para comparar o risco associado às duas ações.

(a) Mercado beta=0,95; (b)relação significante; (c)r2=0,470, não éum ajuste muito bom; (d) Woolworth tem um risco maior

Page 28: Aula4 Regressao Linear

Analisando a não-linearidade

AnosGastos com

propaganda (R$ mil)Volume de vendas

(mil un.)1 7 72 6 53 4,5 3

28

3 4,5 34 3 1,55 2 16 1 0,57 8 78 8 9

Page 29: Aula4 Regressao Linear

2

4

6

8

10

Vol

ume

de v

enda

s

Desenhando o gráfico scatter plot ...

29

0

0 2 4 6 8 10

Gastos com propaganda

Vol

ume

de v

enda

s

Como os dados estão Como os dados estão relacionadosrelacionados

Page 30: Aula4 Regressao Linear

Função linear

y = 1,1418x - 1,3878R2 = 0,9456

-2

3

8

13

0 2 4 6 8 10

Gastos com propaganda

Vol

ume

de

vend

asFunção logarítm ica

y = 3,8457Ln(x) - 1,1303R2 = 0,8085

-2

3

8

13

0 2 4 6 8 10

Gastos com propaganda

Vol

ume

de

vend

as

Função potência

13

Função polinomial (2 o grau)

13

Tipos de regressão

30

y = 0,4133x1,3919

R2 = 0,9786

-2

3

8

13

0 2 4 6 8 10

Gastos com propaganda

Vol

ume

de

vend

as

y = 0,0953x2 + 0,2491x + 0,0757R2 = 0,967

-2

3

8

13

0 2 4 6 8 10

Gastos com propaganda

Vol

ume

de

vend

as

Função exponencial

y = 0,4424e0,3806x

R2 = 0,9708

-2

3

8

13

0 2 4 6 8 10

Gastos com propaganda

Vol

ume

de

vend

as

Page 31: Aula4 Regressao Linear

Principais transformações lineares

Tipo de função

Equação original Equação linearizada x y

Linear y=a+b.x y=a+b.x x yExponencial y=a.eb.x ln y=ln a + b.x x ln y

Potência y=axb ln y=ln a + b.ln x ln x ln yLogarítimica y=a+b.lnx y=a+b.ln x ln x y

31

Logarítimica y=a+b.lnx y=a+b.ln x ln x y

AnosGastos com

propaganda (R$ mil)Volume de vendas

(mil un.) ln x ln y1 7 7 1,946 1,9462 6 5 1,792 1,6093 4,5 3 1,504 1,0994 3 1,5 1,099 0,4055 2 1 0,693 0,0006 1 0,5 0,000 -0,6937 8 7 2,079 1,9468 8 9 2,079 2,197

Page 32: Aula4 Regressao Linear

Estatística de regressãoR múltiplo 0,989257161R-Quadrado 0,978629731R-quadrado ajustado 0,975068019Erro padrão 0,166589309Observações 8

ANOVAgl SQ MQ F F de significação

Regressão 1 7,625247085 7,6252471 274,7639 3,07462E-06

32

Regressão 1 7,625247085 7,6252471 274,7639 3,07462E-06Resíduo 6 0,166511988 0,027752Total 7 7,791759073

Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superioresInterseção -0,883601976 0,131413674 -6,7238207 0,000526 -1,205159887 -0,562044065ln x 1,391859059 0,083968313 16,576004 3,07E-06 1,186395849 1,59732227

Page 33: Aula4 Regressao Linear

Estudo de caso 2: U.S. Department of Transportatio n

Exercício de hoje

Escolha umum dos casos abaixo, faça todas as análises estatísticas e de regressão. O que podemos concluir?

33

Estudo de caso 3: Mudanças leste-oeste

Estudo de caso 4: Springville Herald

Entregar exercício, na próxima aula, em duplas