19
Análise de Análise de Regressão Regressão 1.1 1.1 Introdução Introdução Análise de regressão é uma técnica de modelagem utilizada para analisar a relação entre uma variável dependente (Y) e uma ou mais variáveis independentes X1, X2, X3,..., Xn. O objetivo dessa técnica é identificar (estimar) uma função que descreve, o mais próximo possível, a relação entre essas variáveis e assim podermos predizer o valor que a variável dependente (Y) irá assumir para um determinado valor da variável independente X. Exemplos de relação entre variáveis são o consumo em relação à taxa de inflação; a produção de leite e temperatura ambiente; a resistência de um material e sua composição química; o número de peças com defeitos e a experiência; receita e gasto com publicidade e etc. O modelo de regressão poderá ser escrito genericamente como: , onde o termo representa uma perturbação aleatória na função, ou o erro da aproximação. O número de variáveis independentes varia de uma aplicação para outra, quando se tem apenas uma variável independente chama-se Modelo de Regressão Simples, quando se tem mais de uma variável independente chama-se de Modelo de Regressão Múltipla. A forma da função .) também varia, podendo ser representada por um modelo linear, polinomial ou até mesmo uma função não linear. A figura abaixo mostra um modelo linear para representar a relação entre a produção de leite e o índice pluviométrico de um município. Prof. Cláudio Serra, Esp. 1 Cap Cap. 1 1

Análise de Regressão

Embed Size (px)

Citation preview

Page 1: Análise de Regressão

Análise deAnálise deRegressãoRegressão

1.1 1.1 IntroduçãoIntrodução

Análise de regressão é uma técnica de modelagem utilizada para analisar a relação entre uma variável dependente (Y) e uma ou mais variáveis independentes X1, X2, X3,..., Xn. O objetivo dessa técnica é identificar (estimar) uma função que descreve, o mais próximo possível, a relação entre essas variáveis e assim podermos predizer o valor que a variável dependente (Y) irá assumir para um determinado valor da variável independente X.

Exemplos de relação entre variáveis são o consumo em relação à taxa de inflação; a produção de leite e temperatura ambiente; a resistência de um material e sua composição química; o número de peças com defeitos e a experiência; receita e gasto com publicidade e etc.

O modelo de regressão poderá ser escrito genericamente como:,

onde o termo representa uma perturbação aleatória na função, ou o erro da aproximação. O número de variáveis independentes varia de uma aplicação para outra, quando se tem apenas uma variável independente chama-se Modelo de Regressão Simples, quando se tem mais de uma variável independente chama-se de Modelo de Regressão Múltipla. A forma da função .) também varia, podendo ser representada por um modelo linear, polinomial ou até mesmo uma função não linear.

A figura abaixo mostra um modelo linear para representar a relação entre a produção de leite e o índice pluviométrico de um município.

Prof. Cláudio Serra, Esp. 1

CapCap..

11

Produção de Leite x índice Pluviométrico y = 0.8x + 8.9

R2 = 0.7853

20

25

30

35

20 22 24 26 28 30

Page 2: Análise de Regressão

Por sua vez, os dados somente de exportação de carne de frango poderão ser representados por um modelo polinomial conforme é mostrado na figura abaixo.

1.2 1.2 Regressão Linear SimplesRegressão Linear Simples

Este modelo é utilizado quando existe uma relação linear entre a variável independente e a variável dependente (neste caso apenas uma). A função que expressa esse modelo será dada pela forma abaixo:

,

O gráfico acima é uma representação desse modelo. Verifica-se pelo mesmo que nem todos os pontos tocam a reta, e essa diferença é o erro (), que pode ter sido ocasionado por um erro de leitura dos dados; uma venda abaixo do preço real de mercado; uma produção abaixo do esperado por uma estiagem não comum; retração do consumo por uma subida inesperada na taxa de juros; e assim vai.

Mas supõe-se que em média esses erros tendem a se anular, ou seja:

Uma vez escolhido o modelo de regressão, deve-se estimar seus parâmetros, neste caso os coeficientes da equação da reta, . Isso pode ser feito a partir da aplicação do Método dos Mínimos Quadrados.

Tirando a média sobre a equação acima, temos:

Prof. Cláudio Serra, Esp. 2

Exportações de carne de frango

y = 1.5329x3 - 25.198x2 + 157.04x + 79.16

R2 = 0.9914

-

500

1,000

1,500

2,000

2,500

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

20

22

24

26

28

30

32

34

20 22 24 26 28 30

Page 3: Análise de Regressão

uma vez que a média dos erros é zero.

Subtraindo as duas equações temos:

Chamando de y e x as diferenças centradas nas médias, e respectivamente, temos que:

ou ainda,

Fazendo a soma dos quadrados dos erros,

como b1 é uma constante,

Como o objetivo é estimar uma equação que minimize os erros, devemos então derivar a equação acima em relação a b1 e igualar a zero. E como não se tem os verdadeiros valores e sim uma amostra , ou seja o valor a ser determinado é um estimador do verdadeiro valor populacional, a nova nomenclatura para b1 será . Com isso temos:

Que pode ser reescrita como:

E o estimador , pode ser calculado a partir de:

Sendo que a equação de estimativa será dada por:

Prof. Cláudio Serra, Esp. 3

Page 4: Análise de Regressão

Exemplo 1 – Regressão Linear SimplesExemplo 1 – Regressão Linear Simples

Em uma determinada região do país foram coletados os índices pluviométricos e a produção de leite do tipo c. Sabendo-se que existe uma previsão para o próximo ano de um índice pluviométrico de 24mm determine então a produção de leite dessa região.

Resolução

  Y X y x y2 x2 xy1970 26 23 -2.9 -2 8.41 4 5.8

1971 25 21 -3.9 -4 15.21 16 15.6

1972 31 28 2.1 3 4.41 9 6.3

1973 29 27 0.1 2 0.01 4 0.2

1974 27 23 -1.9 -2 3.61 4 3.8

1975 31 28 2.1 3 4.41 9 6.3

1976 32 27 3.1 2 9.61 4 6.2

1977 28 22 -0.9 -3 0.81 9 2.7

1978 30 26 1.1 1 1.21 1 1.1

1979 30 25 1.1 0 1.21 0 0Soma 289 250 0 0 48.9 60 48Média 28.9 25 0 0 4.89 6 4.8

, assim

e , que

Assim a equação pode ser escrita como:

Prof. Cláudio Serra, Esp. 4

Page 5: Análise de Regressão

Mas será que a equação do exemplo foi bem estimada, ou melhor, será que ela representa bem a relação entre as variáveis? Uma maneira de avaliar é através da diferença entre os valores amostrais reais (Y) e os valores estimados ( ), essa diferença damos o nome de resíduo. Continuando o exemplo,

Continuação do exemplo 1 Continuação do exemplo 1

  Y X y x y2 x2 xy Y- (Y- )2

1970 26 23 -2.9 -2 8.41 4 5.8 27.3 -1.3 1.69

1971 25 21 -3.9 -4 15.21 16 15.6 25.7 -0.7 0.49

1972 31 28 2.1 3 4.41 9 6.3 31.3 -0.3 0.09

1973 29 27 0.1 2 0.01 4 0.2 30.5 -1.5 2.25

1974 27 23 -1.9 -2 3.61 4 3.8 27.3 -0.3 0.09

1975 31 28 2.1 3 4.41 9 6.3 31.3 -0.3 0.09

1976 32 27 3.1 2 9.61 4 6.2 30.5 1.5 2.25

1977 28 22 -0.9 -3 0.81 9 2.7 26.5 1.5 2.25

1978 30 26 1.1 1 1.21 1 1.1 29.7 0.3 0.09

1979 30 25 1.1 0 1.21 0 0 28.9 1.1 1.21Soma 289 250 0 0 48.9 60 48 289 0 11Média 28.9 25 0 0 4.89 6 4.8 28.9 0 1

Podemos perceber que as diferenças (Y- ) são relativamente pequenas. Uma análise mais cuidadosa pode ser feita através da aplicação de testes estatísticos, nesse caso ANOVA (teste de variância) e teste t-Student.

Começaremos pela ANOVA, para tanto vamos precisar montar a tabela abaixo:

Tabela ANOVA Soma dos Quadrados Graus de Liberdade (g.l.) Quadrados Médios (QM) Teste F

SQE=

SQR=

1

n-2

SQE/g.l.

SQR/g.l.

SQEmed/SQRmed

SQT= n-1 SQE/g.l + SQR/g.l.Obs: O grau de liberdade em relação ao SQE é devido a termos apenas uma variável independente; Em relação a SQT, os graus devem ser iguais a variância amostral, ou seja, n-1 (onde n é o número da elementos da amostra); E o grau de liberdade para SQR seria dado pela diferença entre este, ou seja n-2.

Onde,Soma dos quadrados dos totais de y centrado

Soma dos quadrados explicados

Prof. Cláudio Serra, Esp. 5

Page 6: Análise de Regressão

Soma dos quadrados dos resíduos

Um outro parâmetro utilizado constantemente é o coeficiente de determinação, R2,

que explica percentualmente a relação entre as variáveis do problema.

Continuação do exemplo 1 - ANOVAContinuação do exemplo 1 - ANOVA

Tabela ANOVA Soma dos Quadrados Graus de Liberdade (g.l.) Quadrados Médios (QM) Teste F

SQE=38.4

SQR=11.0

1

8

38.4

1.38

27.83

SQT=49.4 7 7.06

Agora que já temos o valor de F, precisamos testar a hipótese nula que as variâncias são diferentes, ou seja,Ho = 12

Adotaremos um nível de significância () de 5%. Com esse valor e os números de graus de liberdade, acha-se na tabela um valor crítico de 5.32.

Como o F calculado é maior que o F crítico então se rejeita a hipótese Ho, o que também quer dizer que as variâncias são iguais, e conseqüentemente o modelo de regressão é válido.

Prof. Cláudio Serra, Esp. 6

Page 7: Análise de Regressão

Exemplo 2 – Resolução do Exemplo 1 via ExcelExemplo 2 – Resolução do Exemplo 1 via Excel

Resolução

A variável dependente (Y) será o índice pluviométrico, sendo a produção de leite tipo c a variável independente (X).

O gráfico dos dados do exemplo 1 pode ser visto ao lado. Pelo gráfico o ajuste linear pode ser possível, mas talvez um ajuste polinomial seria mais indicado, mas de qualquer forma, será testado um ajuste linear.

Será utilizada a ferramenta Regressão do software Excel, que pode ser acionado pelo seguinte caminho: Ferramenta Análise de Dados Regressão.

Em “Intervalo Y de entrada:” devemos selecionar na planilha o conjunto de células da variável dependente. Por sua vez, em “Intervalo X de entrada:” devemos selecionar na planilha o conjunto de células da variável independente. Nesta janela, também podemos selecionar as opções relativas aos resíduos.

Uma vez selecionado as células, basta clicar no botão de “Ok” que serão gerados os dados na planilha.

Para o exemplo em questão, podemos destacar das tabelas geradas, as seguintes informações:

Na estatística padrão: R-quadadro = 0.7852Na Anova: gl total =9 F=29.25

Prof. Cláudio Serra, Esp. 7

Produção de Leite x índice Pluviométrico

20

25

30

35

20 22 24 26 28 30

Page 8: Análise de Regressão

E por fim: Interseção 8.9 Variável X1 0.8Assim a equação do modelo poderá ser escrita como:

O resultado é mostrado graficamente abaixo. Então para um índice de 24mm a produção de leite seria de 28.1 milhões de litros de leite.

É importante ressaltar que o ajuste não foi tão bom, seria importante verificar um novo modelo.

Uma outra maneira de fazer essa análise, porém sem as mesmas informações seria utilizar o recurso de Adicionar Linha de Tendência... No menu Gráfico da barra de menu do Excel.

Selecionado o modelo Linear, clicamos na aba “Opções” e marcamos as opções: Exibir equação no gráfico e Exibir valor do R-quadrado no gráfico.

Prof. Cláudio Serra, Esp. 8

Produção de Leite x índice Pluviométrico y = 0.8x + 8.9

R2 = 0.7853

20

25

30

35

20 22 24 26 28 30

Não se esqueça, para inserir uma Linha de tendência o gráfico deve

estar selecionado previamente.

Page 9: Análise de Regressão

Exemplo 2 – Série Temporal da Produção de Carne de Frango no Exemplo 2 – Série Temporal da Produção de Carne de Frango no Brasil (1989-2003)Brasil (1989-2003)

De acordo com a Associação Brasileira de Exportadora dos Produtores e Exportadores de Frango, ABEF, a produção brasileira de carne de frango (em mil toneladas) para o mercado interno e externo no período de 1989 a 2003 é dada pela tabela abaixo:

ResoluçãoO primeiro passo para avaliar se os dados podem ser ajustados por um modelo linear é plotar suas variáveis em um gráfico.

Pelo gráfico percebe-se uma tendência que a relação entre a produção de carne de frango (variável dependente, Y) e o tempo (variável independente, X) seja

Prof. Cláudio Serra, Esp. 9

Page 10: Análise de Regressão

dado por uma equação linear. Para determinar essa equação será utilizado o software Excel.

No Excel será utilizada a ferramenta Regressão que é um módulo do Suplemento Análise de Dados.

Acionando-se essa ferramenta, o passo seguinte será preencher a caixa de diálogo da Regressão conforme os dados.Onde na opção Intervalo Y de Entrada deverá ser colocado o valor da variável dependente, e na opção Intervalo X de Entrada, deverá ser colocado os valores da variável independente.

Prof. Cláudio Serra, Esp. 10

Page 11: Análise de Regressão

Após o preenchimento das caixas de diálogo basta pressionar o botão de Ok, e o resultado aparecerá em uma nova planilha. A figura abaixo mostra o resultado para o exemplo em questão.

Dessa planilha se destacam os seguintes valores:

Na estatística padrão: R-quadadro = 0.9687Na Anova: gl total =14 F=403.251E por fim: Interseção 1146,99 Variável X 416,30

Assim a equação do modelo poderá ser escrita como:

Pode-se agora plotar os dados dos valores verdadeiros com os valores do modelo.Também se pode fazer prognóstico para valores futuros. Por exemplo, para o ano de 2004 o modelo prevê uma produção de 7.807 toneladas de carne de frango.

Prof. Cláudio Serra, Esp. 11

Page 12: Análise de Regressão

Uma outra maneira de fazer essa análise, porém sem as mesmas informações seria utilizar o recurso de Adicionar Linha de Tendência... no Menu Gráfico da barra de menu do Excel.

Selecionado o modelo Linear, clica-se na aba Opções e marca-se as opções: Exibir equação no gráfico e Exibir valor do R-quadrado no gráfico.

Prof. Cláudio Serra, Esp. 12

Produção brasileira de carne de frango – milhões de toneladas

y = 416.3x + 1147R2 = 0.9688

2

3

4

5

6

7

8

9

1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003

AnoMilh

ões

de ton

elad

as

Fonte: ABEF (www.abef.com.br).

Não se esqueça, para inserir uma Linha de tendência o gráfico deve

estar selecionado previamente.

Page 13: Análise de Regressão

1.3 1.3 Regressão Linear Múltipla Regressão Linear Múltipla

Em algumas situações mais do que uma variável independente (X1,X2,...,Xn) pode ser necessária para predizer o valor da variável independente (Y). O modelo matemático para esse caso é dado abaixo:

Que para as n observações poderá se escrito da forma:

... ... ... ... ... ... ...

Que forma na realidade um sistema linear, que podermos escrever na forma de matriz como:

Que escrevendo ainda em outra em sua forma mais compacta temos:

O estimador para b será dado por:

Pela equação acima, há necessidade que o produto X’X, tenha uma matriz inversa, o que implica na condição obrigatória que nenhuma coluna da matriz X seja combinação linear das outras.

Exemplo 3 – Manutenção do caminhãoExemplo 3 – Manutenção do caminhão

Prof. Cláudio Serra, Esp. 13

Page 14: Análise de Regressão

Uma agroindústria quer saber o custo de manutenção de seus caminhões durante o corrente ano, para tanto foram coletadas informações de quilometragem e tempo do caminhão. A tabela abaixo nos mostra esses valores.

Resolução

Nesse caso será feito diretamente análise sem plotar o gráfico. O procedimento no software Excel é: Ferramenta Análise de Dados Regressão. No campo Intervalo X de Entrada deve ser preenchida com a faixa de valores das variáveis independentes, que nesse caso são a quilometragem e o tempo do caminhão.

Da planilha de resultados se destacam os seguintes valores:

Na estatística padrão: R-quadadro = 0.99Erro padrão: 2.106Na Anova: gl total =8 F=56501.23E por fim: Interseção 17.73 Variável X1 4.06 e X2 98.507Assim a equação do modelo poderá ser escrita como:

Assim para um caminhão com 5 anos com quilometragem de 10.000 milhas, o custo de manutenção será de $550.89.

1.4 1.4 Regressão Não Linear Regressão Não Linear

Prof. Cláudio Serra, Esp. 14

Custo de Manutenção

Quilometragem (x1000)

Tempo do caminhão (em anos)

832 6 873 7 7

647 9 6553 11 5467 13 4373 15 3283 17 2189 18 196 19 0

Page 15: Análise de Regressão

Nem sempre a relação entre a variável independente (X) e a variável dependente (Y) possui uma relação linear, em certos casos essa relação é não-linear.

A figura abaixo mostra algumas dessas formas. Nesses casos, pode-se através de mudanças de variáveis resolver o problema utilizando basicamente as equações já mencionadas nesse material. Para os interessados nesses procedimentos sugere-se a leitura das referências indicadas no final do texto.

Para efeito de demonstração da Regressão-Linear será utilizado o Excel através do seu recurso de Tendência, todavia conforme já mencionado, esse não dá informações estatísticas sobre o ajuste.

Exemplo 4 – Série Temporal da Produção de Carne de Frango no Exemplo 4 – Série Temporal da Produção de Carne de Frango no Brasil (1989-2003)Brasil (1989-2003)

De acordo com a Associação Brasileira de Exportadora dos Produtores e Exportadores de Frango, ABEF, a produção brasileira de carne de frango (em mil toneladas) para o mercado interno e externo no período de 1989 a 2003 é dada pela tabela abaixo:

Resolução

Prof. Cláudio Serra, Esp. 15

Page 16: Análise de Regressão

Nesse exemplo será avaliada somente a produção para o mercado externo, o gráfico que representa essa produção ao longo do ano pode ser visto logo abaixo.

Analisando o gráfico acima, verifica-se que o ajuste linear talvez não seja o melhor modelo para representar esses dados. Assim, escolhe-se dentre os prováveis o modelo polinomial de 3o

grau.Além disso, na aba Opções marca-se as caixas Exibir equação no gráfico e Exibir valor de R-quadrado no gráfico.

Com isso feito o resultado pode ser visto na figura seguinte. Repare na qualidade do ajuste, o valor do coeficiente de determinação foi de 0.99.

Assim, pode-se então estimar a produção para o mercado externo de carne de frango para 2004. O valor previsto por esse modelo é dá ordem de 2419.87, pelo site da ABEF (www.abef.com.br) verificou-se que essa associação previa 2115, e a exportação real em 2004 foi de 2470.

Prof. Cláudio Serra, Esp. 16

Produção para o mercado interno de carne de frango

y = 1.5329x3 - 25.198x2 + 157.04x + 79.16

R2 = 0.9914

-

500

1,000

1,500

2,000

2,500

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Dados reais

Ajuste Polinomial

Produção para o mercado interno de carne de frango

-

500

1,000

1,500

2,000

2,500

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Dados reais

Page 17: Análise de Regressão

Prof. Cláudio Serra, Esp.

Rebanho bovino brasileiro – efetivo por estado(Mil cabeças)

Regiões 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002

Norte 13,317 15,362 15,847 17,067 17,966 19,183 17,983 19,298 21,099 22,431 24,518 27,284 30,429 RO 1,719 2,826 2,774 3,286 3,470 3,928 3,937 4,331 5,104 5,442 5,664 6,605 8,040 AC 400 404 409 445 465 471 853 863 907 930 1,033 1,673 1,817 AM 637 648 640 689 747 806 734 771 809 826 843 864 895 RR - 346 349 - 286 282 400 378 425 481 480 438 423 PA 6,182 6,626 6,990 7,435 7,539 8,058 6,751 7,539 8,337 8,863 10,271 11,047 12,191 AP 70 71 62 73 86 93 64 66 75 77 83 87 84 TO 4,309 4,441 4,624 5,139 5,374 5,544 5,243 5,351 5,442 5,813 6,142 6,571 6,979

Nordeste 26,190 26,669 26,912 22,527 22,825 23,174 23,882 23,831 21,981 21,875 22,567 23,414 23,891 MA 3,900 3,949 3,931 4,020 4,102 4,162 3,936 3,905 3,937 3,966 4,094 4,483 4,776 PI 1,974 2,046 2,029 1,982 2,054 2,135 1,730 1,737 1,751 1,756 1,779 1,792 1,804 CE 2,621 2,625 2,602 2,098 2,186 2,266 2,400 2,411 2,114 2,168 2,206 2,194 2,230 RN 956 966 930 566 646 722 935 941 793 755 804 788 839 PB 1,345 1,315 1,320 859 975 1,054 1,305 1,303 929 886 953 918 952 PE 1,966 1,952 1,923 1,271 1,349 1,362 1,954 1,682 1,470 1,420 1,516 1,673 1,753 AL 891 961 959 802 822 834 839 956 900 815 779 843 816 SE 1,030 1,047 1,058 908 815 797 946 946 918 937 880 866 863 BA 11,505 11,808 12,160 10,022 9,877 9,841 9,838 9,950 9,168 9,171 9,557 9,856 9,856

Sudeste 36,323 36,724 37,231 37,627 37,604 37,168 36,605 36,977 37,074 36,899 36,852 37,119 37,924 MG 20,472 20,764 21,066 21,034 20,707 20,146 20,148 20,378 20,501 20,082 19,975 20,219 20,559 ES 1,665 1,766 1,829 1,935 1,919 1,968 1,816 1,936 1,938 1,882 1,825 1,665 1,683 RJ 1,924 1,932 1,942 1,967 2,004 1,905 1,843 1,837 1,881 1,866 1,959 1,977 1,981 SP 12,263 12,262 12,394 12,690 12,974 13,148 12,798 12,827 12,753 13,069 13,092 13,258 13,701

SUL 25,326 25,272 25,451 25,727 26,429 26,641 26,421 26,683 26,600 26,190 26,298 26,784 27,537 PR 8,617 8,542 8,499 8,607 8,912 9,389 9,880 9,897 9,767 9,473 9,646 9,817 10,048 SC 2,994 3,057 3,047 3,017 2,960 2,993 3,098 3,087 3,090 3,053 3,051 3,096 3,118 RS 13,715 13,673 13,905 14,103 14,556 14,259 13,443 13,700 13,743 13,664 13,601 13,872 14,371

Centro-Oeste 45,946 48,109 48,788 52,186 53,420 55,061 53,398 54,627 56,402 57,227 59,641 61,787 65,567 MS 19,164 19,543 20,395 21,800 22,244 22,292 20,756 20,983 21,422 21,576 22,205 22,620 23,168 MT 9,041 9,891 10,138 11,682 12,654 14,154 15,573 16,338 16,752 17,243 18,925 19,922 22,184 GO 17,635 18,574 18,148 18,581 18,397 18,492 16,955 17,182 18,118 18,297 18,399 19,132 20,102 DF 106 102 107 124 124 123 115 123 110 110 112 113 113

Brasil 147,102 152,136 154,229 155,134 158,243 161,228 158,289 161,416 163,154 164,621 169,876 176,389 185,347

Fonte: IBGE – Pesquisa Pecuária Municipal (www.ibge.gov.br).

17