8
1 ANÁLISE DE REGRESSÃO LINEAR MÚLTIPLA 1 REGRESSÃO LINEAR Verificado, pelo valor de “r”, que ocorre uma significante correlação linear entre duas variáveis há necessidade de quantificar tal relação, o que é feito pela análise de regressão. Cálculo da equação de uma reta que, disposta num sistema de eixos cartesianos, com valores de yi (variável dependente) na ordenada e xi (variável independente) na abcissa, a soma dos quadrados dos desvios verticais dos pontos em relação a ela seja mínima. Y = a +bX, onde Y é o valor estimado para um específico valor xi; “b” revela a inclinação da reta, ou seja o acréscimo ou decréscimo do valor de y em relação à x; “a” localiza o ponto de interseção da reta em relação ao sistema de coordenada retangulares. 2 3 VERIFICAÇÃO DO AJUSTE A UMA RETA PELO COEFICIENTE DE DETERMINAÇÃO (R 2 ) Proporção da variação total da variável dependente “zi” que é explicada pela variação da variável independente “xi” Variação total dos dados: SQT = Z2 (Z)2/n Variação devido à linha calculada: SQP = Z*2(Z*)2/n Variação devido aos resíduos: SQR = SQT - SQP Porcentagem de ajuste da linha: R2 = (SQP/SQT)100 O coeficiente de correlação “r” indica a relação entre variáveis e “r2” indica o quanto uma variável “explica” a outra, ou quanto a linha calculada se ajusta aos dados originais. 4 REGRESSÃO CURVILÍNEA Variáveis independentes: potências crescentes de xi, Cálculo dos coeficientes a i Com potências crescentes de xi, curva mais complexa para ajuste Processo por etapas (stepwise) O modelo para a regressão polinomial de grau k é ... 3 X 3 a 2 X 2 a X 1 a 0 a * Y ε k i X k α ... 2 i X 2 α i X 1 α o α Y 5 FUNÇÃO QUADRÁTICA 6

ANÁLISE DE REGRESSÃO LINEAR MÚLTIPLA - Instituto de Geociências e ...igce.rc.unesp.br/Home/Departamentos47/geologiaaplicada/2.regressao... · 1 ANÁLISE DE REGRESSÃO LINEAR MÚLTIPLA

  • Upload
    lydiep

  • View
    219

  • Download
    0

Embed Size (px)

Citation preview

Page 1: ANÁLISE DE REGRESSÃO LINEAR MÚLTIPLA - Instituto de Geociências e ...igce.rc.unesp.br/Home/Departamentos47/geologiaaplicada/2.regressao... · 1 ANÁLISE DE REGRESSÃO LINEAR MÚLTIPLA

1

ANÁLISE DE REGRESSÃO LINEAR MÚLTIPLA

1

REGRESSÃO LINEAR Verificado, pelo valor de “r”, que ocorre uma significante

correlação linear entre duas variáveis há necessidade de quantificar tal relação, o que é feito pela análise de regressão.

Cálculo da equação de uma reta que, disposta num sistema de eixos cartesianos, com valores de yi (variável dependente) na ordenada e xi (variável independente) na abcissa, a soma dos quadrados dos desvios verticais dos pontos em relação a ela seja mínima.

Y = a +bX, onde Y é o valor estimado para um específico valor xi; “b” revela

a inclinação da reta, ou seja o acréscimo ou decréscimo do valor de y em relação à x; “a” localiza o ponto de interseção da reta em relação ao sistema de coordenada retangulares.

2

3

VERIFICAÇÃO DO AJUSTE A UMA RETA PELO COEFICIENTE DE DETERMINAÇÃO (R2)

Proporção da variação total da variável dependente “zi” que é explicada pela variação da variável independente “xi”

Variação total dos dados: SQT = Z2 – (Z)2/n Variação devido à linha calculada: SQP = Z*2–(Z*)2/n Variação devido aos resíduos: SQR = SQT - SQP

Porcentagem de ajuste da linha: R2 = (SQP/SQT)100

O coeficiente de correlação “r” indica a relação entre variáveis

e “r2” indica o quanto uma variável “explica” a outra, ou quanto a linha calculada se ajusta aos dados originais.

4

REGRESSÃO CURVILÍNEA

• Variáveis independentes: potências crescentes de xi, • Cálculo dos coeficientes ai • Com potências crescentes de xi, curva mais complexa para ajuste • Processo por etapas (stepwise)

• O modelo para a regressão polinomial de grau k é

...3X3

a2X2

aX1

a0

a*Y

εki

Xkα...2

iX

iX

oαY 5

FUNÇÃO QUADRÁTICA

6

Page 2: ANÁLISE DE REGRESSÃO LINEAR MÚLTIPLA - Instituto de Geociências e ...igce.rc.unesp.br/Home/Departamentos47/geologiaaplicada/2.regressao... · 1 ANÁLISE DE REGRESSÃO LINEAR MÚLTIPLA

2

FUNÇÃO CÚBICA

7

REGRESSÃO LINEAR MÚLTIPLA

• Testa dependências cumulativas de uma única variável dependente (Y) em relação à diversas variáveis independentes (Xi)

• Y = a0 + a1X + a2X2 + a3X3 + a4X4 + ......+ e

• A variância total de Y é em parte "explicada" pelas diversas variáveis X's e o restante pela variabilidade devido ao erro (e)

• A proporção da variância dos Y observados "explicada" por uma equação de regressão ajustada é representada pelo coeficiente de determinação R², variando entre 0 e 1

• O termo "explicada" tem apenas um significado numérico não implicando necessariamente em um conhecimento causa-efeito sobre o porque da relação existente

8

• Os coeficiente “ai”, parciais de regressão, fornece a taxa de mudança na variável dependente correspondente à respectiva variável independente, mantendo constantes as demais variáveis independentes.

• Coeficientes de regressão parciais fornecem porcentagens explicadas da soma de quadrados de Y segundo 2k-1 combinações, onde k é o número de variáveis independentes.

• É verificada a contribuição pura de cada variável

independente por comparações sucessivas entre os diversos resultados.

• As relações entre as variáveis devem ser lineares

9

Evitar um número inferior de casos em relação ao número de variáveis consideradas; é recomendado que tal relação seja da ordem de 10 a 20 vezes superior

Evitar variáveis independentes redundantes, isto é, que tenham um alto coeficiente de correlação entre si

Verificar, utilizando resíduos, a presença de valores anomalos

10

• Regressão múltipla é multivariada no sentido de que mais de uma variável é medida simultaneamente em cada observação

• Trata-se, porem de uma técnica univariada, pois o estudo é em relação à variação da variável dependente Y, sem que o comportamento das variáveis independentes, Xs, seja objeto de análise.

11

CÁLCULO DOS COEFICIENTES AI

YX

YX

YX

Y

a

a

a

a

XXXX

XXXXX

XXXX

XXN

m

2

1

m

2

1

0

2mm1m

m2212

m1211

m1

[A] = [X]-1.[Y] 12

Page 3: ANÁLISE DE REGRESSÃO LINEAR MÚLTIPLA - Instituto de Geociências e ...igce.rc.unesp.br/Home/Departamentos47/geologiaaplicada/2.regressao... · 1 ANÁLISE DE REGRESSÃO LINEAR MÚLTIPLA

3

13 14

15 16

PEREIRA BARRETO/RESERVATÓRIO DE TRES IRMÃOS: LOCALIZAÇÃO DOS PONTOS DE AMOSTRAGEM

7714000

49

00

00

48

60

00

7722000

49

40

00

7718000

Cor

rego

Aze

da

Lara

nja

Cor

rego

Ponte

P

ensa

Rio Tiete

Pere

ira B

arr

eto

17

Qual variável condiciona mais o Nivel Hidrostático?

18

Page 4: ANÁLISE DE REGRESSÃO LINEAR MÚLTIPLA - Instituto de Geociências e ...igce.rc.unesp.br/Home/Departamentos47/geologiaaplicada/2.regressao... · 1 ANÁLISE DE REGRESSÃO LINEAR MÚLTIPLA

4

EQUAÇÕES E COEFICIENTES DE DETERMINAÇÃO (R2) H: VARIÁVEL DEPENDENTE

Variável / Equação (R2)

Topografia

H = 91.568 + 0.694*Z (m)

0,842

Topografia / Coordenada Y

H = - 49490.061 + 6.454E-03*Y (m)

0,881

Topografia / Coordenada Y / Coordenada X

H = - 15369.721 + 0.503*Z (m) + 1.941E-03*Y (m) + 1.114E-03*X (m)

0,890

Topografia / Coordenada Y / Coordenada X / Espessura da Formação

H = - 16597.215 + 0.493*Z (m) + 2.098E-03*Y (m) + 1.148E-03*X (m) -

8.751E-03*FM (m)

0,890

Topografia / Coordenada Y / Coordenada X / Espessura da Formação /

Topo Basalto

H = - 16687.963 + 0.588*Z (m) + 2.110E-03*Y (m) + 1.146E-03*X (m) -

9.567E-02*TB (m) - 0.105*FM (m)

0,890

19

CONTRIBUIÇÃO PERCENTUAL DE CADA VARIÁVEL INDEPENDENTE COM RELAÇÃO À VARIAVEL DEPENDENTE H (SUPERFÍCIE POTENCIOMÉTRICA DO AQÜÍFERO LIVRE).

Variável Contribuição

Topografia 84,2% (0,842)

Coord. Y 3,9% (0,881-0,842)

Coord. X 0,9% (0,890-0,881)

Espess. aqüífero 0,0% (0,890-0,890)

Topo basalto 0,0% (0,890-0,890) 20

SUPERFÍCIE POTENCIOMÉTRICA DO AQÜÍFERO LIVRE (NH)

21

MAPA TOPOGRÁFICO

22

ESPESSURA DA FORMAÇÃO AQÜÍFERA

23

CONTORNO DO TOPO DO BASALTO

24

Page 5: ANÁLISE DE REGRESSÃO LINEAR MÚLTIPLA - Instituto de Geociências e ...igce.rc.unesp.br/Home/Departamentos47/geologiaaplicada/2.regressao... · 1 ANÁLISE DE REGRESSÃO LINEAR MÚLTIPLA

5

TOPOGRAFIA E LENÇOL FREÁTICO

25

superfície potenciométrica topografia 26

y = 0.804x + 51.259

R2 = 0.8104

270

290

310

330

350

370

390

270 290 310 330 350 370 390

Cota do Terreno (m)

Co

ta d

o N

ível

d'Á

gu

a (

m)

27

APLICAÇÃO DO MODELO LINEAR MÚLTIPLO À CONFECÇÃO DE MAPAS: ANÁLISE DE SUPERFÍCIES DE TENDÊNCIA.

A análise de superfícies de tendência é simplesmente um tipo de análise de regressão múltipla em que as variáveis independentes são as coordenadas geográficas E-W e N-S.

Com a aplicação dessa análise consegue-se separar dados mapeáveis em duas componentes: uma de natureza regional, representada pela própria superfície, e outra que revela as flutuações locais, representadas pelos valores residuais. 28

)y,x(e]...yayxaxayaxaa[)Y,X(z iii2i5ii4

2i3i2i10i

]Z[]A[]XY[

yz

xz

z

2a

1a

0a

yyxy

yxxix

yxn

ii

ii

i

2

iiii

ii

2

i

ii

]Z[]XY[]A[ 1

29

Dados originais

Dados interpolados

Ajustando uma superfície de tendência de 1º grau

30

Page 6: ANÁLISE DE REGRESSÃO LINEAR MÚLTIPLA - Instituto de Geociências e ...igce.rc.unesp.br/Home/Departamentos47/geologiaaplicada/2.regressao... · 1 ANÁLISE DE REGRESSÃO LINEAR MÚLTIPLA

6

i

2

i

iii

i

2

i

ii

ii

i

1

4

i

3

ii

2

i

2

i

3

i

2

ii

2

i

3

ii

2

i

2

ii

3

i

2

ii

2

iii

2

i

2

ii

3

i

4

i

2

i

3

i

2

i

3

i

2

iii

2

i

2

iiii

2

iii

2

i

3

ii

2

ii

2

iii

2

iii

5

4

3

2

1

0

zy

zyx

zx

zy

zx

z

yyxyxyyxy

yxyxyxyxi

yxyx

yxyxxi

yxxx

yyxyxyyxy

yxyxxi

yxxx

yyxxyxn

b

b

b

b

b

b

Coeficientes para uma superfície de 2º grau

31

Amostragem: Rio Paraiba/plancton

0 500 1000 1500 2000 2500

0

50

100

Entrada de efluente 32

SUPERFÍCIE LINEAR

0 500 1000 1500 2000 25000

50

100

0 500 1000 1500 2000 25000

50

100

Superfície linear ou de 1º grau

33

RESÍDUOS DA SUPERFÍCIE DE TENDÊNCIA

0 500 1000 1500 2000 25000

50

100

Resíduos positivos e negativos da superfície linear

34

35

Bacia hidrográfica do Araquá, localizada na região centro-oeste do estado de São Paulo, distribuída entre os municípios de São Manuel e Botucatu . (SILVA, R. F. B., 2011)

36

64 pontos de amostragem. Variáveis medidas: areia, argila, fósforo (P), potássio (K) e saturação por bases (V%).

Page 7: ANÁLISE DE REGRESSÃO LINEAR MÚLTIPLA - Instituto de Geociências e ...igce.rc.unesp.br/Home/Departamentos47/geologiaaplicada/2.regressao... · 1 ANÁLISE DE REGRESSÃO LINEAR MÚLTIPLA

7

37 38

39

Areia

40

Argila

EXERCÍCIO 01 As matrizes de dados a serem analisadas são

compostas, cada uma, por 36 amostras provenientes de um levantamento de solos de parte do Horto Santa Terezinha, numa área de 1.573,96 ha, pertencente à Chamflora Agricola Ltda, localizado no município de Mogi-Guaçú/SP.

A primeira matriz contem amostras retiradas de uma profundidade de 0-20 cm, tendo sido obtidos valores de areia (%), silte (%), argila (%), pH, Ca2+ (meq 100 g-1), Mg2+ (meq 100 g-1), K+ (meq 100 g-1), Al3+ (meq 100 g-1), H+ (meq 100 g-1), Passimilável (ug cm-3), MO (%).

A segunda contem amostras retiradas de uma profundidade de 60-80 cm, tendo sido obtidos valores de areia (%), silte (%), argila (%), pH, Ca2+ (meq 100 g-1), K+ (meq 100 g-1), Al3+ (meq 100 g-1), H+ (meq 100 g-1), Passimilável (ug cm-3), MO (%).

4

1

XLSTAT:

Distribuição espacial dos pontos de amostragem (Visualização de dados/Scatter plots)

Histogramas e respectivo ajuste a uma distribuição normal (Modelagem de dados/Ajuste de uma distribuição).

Matriz de coeficientes de correlação entre as variáveis (Descrição de dados/Matrizes de similaridades/similaridades)

4

2

Page 8: ANÁLISE DE REGRESSÃO LINEAR MÚLTIPLA - Instituto de Geociências e ...igce.rc.unesp.br/Home/Departamentos47/geologiaaplicada/2.regressao... · 1 ANÁLISE DE REGRESSÃO LINEAR MÚLTIPLA

8

43