7
27/06/2017 1 REGRESSÃO NÃO LINEAR CUIABÁ, MT 2017/1 Os modelos de regressão não linear diferenciam-se dos modelos lineares, tanto simples como múltiplos, pelo fato de suas variáveis independentes não estarem separados por adição ou subtração e os coeficientes não estarem elevados a 1. = 0 1 1 2 2 + = 0 ( 1 1 + 2 2 )+ MÉTODOS ITERATIVOS Os coeficientes dos modelos de Regressão não lineares não são estimados por MMQO e sim por métodos iterativos através de processo de otimização. Esses métodos utilizam um algoritmo para resolver o problema dos mínimos quadrados não lineares; Dentre os vários tipos de algoritmos podemos citar: Gauss-Newton, quasi Newton, Marquardt. ALGORITMO DE GAUSS-NEWTON Ele usa um processo de otimização não linear como a maioria dos algoritmos; Um problema não-linear de mínimos quadrados é um problema de otimização sem restrições da forma em que m é o número de variáveis A função objetivo f(x) é definida por m funções residuais auxiliares {r i (x)}. Vamos supor que m ≥ n. Esse problema é chamado de mínimos quadrados, porque há soma dos quadrados das funções residuais. Um dos maiores problemas das técnicas de otimização é a estimação dos problemas não lineares. A função ri(x) representa a diferença residual entre o valor predito e o valor real. Escrevendo o problema de otimização: E o cálculo do resíduo: E r é a função real do valor: A função residual descreve uma superfície (geralmente n-dimensional) em m.

REGRESSÃO NÃO LINEAR - romulomora.webnode.com · 27/06/2017 1 REGRESSÃO NÃO LINEAR CUIABÁ, MT 2017/1 Os modelos de regressão não linear diferenciam-se dos modelos lineares,

Embed Size (px)

Citation preview

27/06/2017

1

REGRESSÃO NÃO LINEAR

CUIABÁ, MT

2017/1

Os modelos de regressão não linear

diferenciam-se dos modelos lineares,

tanto simples como múltiplos, pelo fato

de suas variáveis independentes não

estarem separados por adição ou

subtração e os coeficientes não estarem

elevados a 1.

𝑌𝑖 = 𝛽0𝑋1𝑖𝛽1𝑋2𝑖

𝛽2 + 𝜀 𝑖

𝑌𝑖 = 𝛽0(𝑋1𝑖𝛽1+𝑋2𝑖

𝛽2) + 𝜀 𝑖

MÉTODOS ITERATIVOS

✓ Os coeficientes dos modelos de Regressão não

lineares não são estimados por MMQO e sim

por métodos iterativos através de processo

de otimização.

✓ Esses métodos utilizam um algoritmo

para resolver o problema dos mínimos

quadrados não lineares;

✓ Dentre os vários tipos de algoritmos

podemos citar: Gauss-Newton, quasi

Newton, Marquardt.

ALGORITMO DE GAUSS-NEWTON

✓ Ele usa um processo de otimização não linear

como a maioria dos algoritmos;

✓ Um problema não-linear de mínimos quadrados

é um problema de otimização sem restrições

da forma

em que m é o número de variáveis

✓ A função objetivo f(x) é definida por m

funções residuais auxiliares {ri(x)}. Vamos

supor que m ≥ n.

✓ Esse problema é chamado de mínimos

quadrados, porque há soma dos quadrados das

funções residuais.

✓ Um dos maiores problemas das técnicas de

otimização é a estimação dos problemas não

lineares.

✓ A função ri(x) representa a diferença

residual entre o valor predito e o valor

real.

Escrevendo o problema de otimização:

E o cálculo do resíduo:

E r é a função real do valor:

A função residual descreve uma superfície

(geralmente n-dimensional) em ℜm.

27/06/2017

2

Como:

Pode ser interpretado como:

Dessa forma, a técnica busca encontrar os

coeficiente x no espaço de parâmetros ℜm.

R(x) = [r1(x) r2(x) r3(x)]T superfície em ℜm

como uma função de

Como:

Pode ser interpretado como:

Dessa forma, a técnica busca encontrar os

coeficiente x no espaço de parâmetros ℜm.

Aplicado regra da cadeia na f(x):

J(x) corresponde a matriz Jacobiana de r(x).

Usando a regra da cadeia novamente, têm-se a

matriz Hessiana

A matriz Hessiana é composta de dois

componentes:

O método que usa a aproximação Q (x) = 0 é

chamado o método de Gauss-Newton e determina a

direção de busca como a solução da equação de

Newton

Com uma matriz Hessiana aproximada

Se J(x) assumir o posto completo, a

aproximação de Hessiana

É uma matriz definida positiva e a direção de

busca de Gauss-Newton pGN é uma direção de

descida.

Caso contrário, torna-se sem inversão.

Essa operação não oferece solução única,

denominando-se problema sub determinado ou

sobre parametrizado.

27/06/2017

3

Se J(x) assumir o posto completo, a

aproximação de Hessiana

É uma matriz definida positiva e a direção de

busca de Gauss-Newton pGN é uma direção de

descida.

Caso contrário, torna-se sem inversão.

Essa operação não oferece solução única,

denominando-se problema sub determinado ou

sobre parametrizado.

Suponha que nós aproximamos a função residual

r(x) com uma função linear de Taylor

Resolvendo o problema dos mínimos quadrados

lineares

Usando sistema de equações normais

ou

Esse procedimento corresponde a direção de

busca de Gauss-Newton

✓ A aproximação linear

corresponde a um

plano tangente à

superfície r(x) em

✓ Rk = r(xk)

✓ Plano mais próximo da

origem é dado pela

projeção de -rk no

espaço de alcance de

Jk, uma vez que

Como ocorre a convergência?

Se r(x*) = 0, então a aproximação Q(x)≈0 é boa

e o método de Gauss-Newton se comportará como

o método de Newton próximo da solução, isto é,

converge quadraticamente se J(x*) tiver o

posto completo.

Considerando:

Se J(x*) = USVT é a decomposição de valor

singular de J(x*) Com

A aproximação de primeira ordem

torna-se:

A direção é calculada da seguinte forma:

27/06/2017

4

Exemplo:

Considere o seguinte conjunto de dados:

em que ti é a idade em anos e yi é o tamanho

da população de antílopes (centenas)

Considere a seguinte função exponencial:

E o cálculo do resíduo:

Considere o modelo derivado:

Espaço dos parâmetros

Modelo no espaço

Valores observados no

espaço

Interpretação estatística

Se considerarmos os resíduos provenientes da

equação:

Com os erros independentes e normalmente

distribuídos e a estimativa dos mínimos quadrados

dos parâmetros será o estimador de máxima

verossimilhança dada a nossa medição yi.

A variância para os parâmetros estimados é

calculada a partir da matriz de covariância

Se for desconhecido, pode ser estimado por

Em que m é o número de observações, e n é o número

de parâmetros.

Uma alta variância significa um alto grau de

incerteza sobre um parâmetro. Neste contexto, a

matriz inversa

Como a matriz de informação é proporcional a

matriz hessiana , a forte curvatura

corresponde a alta informação, isto é, boa

localização do parâmetro.

27/06/2017

5

Assim, (hecto-antílopes) e o desvio padrão

de x1 é (hecto-antilopes) e de x2 é

(Hecto-antílopes / ano). Com estas unidades, a incerteza

máxima é na direção de 0,99x1 - 0,11x2.

TESTE DE SIGNIFICÂNCIA DOS COEFICIENTES

em que: é o valor estimado do parâmetro

(coeficiente); parâmetro – obtido a partir

da hipótese (geralmente utilizamos zero);

variância da estimativa do parâmetro

ˆ

ˆ

2St

Teste utilizado para verificar a

significância das estimativas dos parâmetros.

2S

0:

0:0

ia

i

H

H

Hipótese

Como obter as estimativas das

variâncias dos coeficientes?

✓ Considerando um modelo linear

simples têm-se:

Matriz de Variâncias e Covariâncias

𝐶𝑂𝑉 መ𝛽 = (𝑋′𝑋)−1𝑠2 = (𝑋′𝑋)−1𝑄𝑀𝑅𝑒𝑠

𝐶𝑂𝑉 መ𝛽 =

1

𝑛+

ത𝑋2

σ𝑖=1𝑛 (𝑋𝑖− ത𝑋)2

−ത𝑋

𝑛σ𝑖=1𝑛 (𝑋𝑖−ത𝑋)2

−ത𝑋

𝑛σ𝑖=1𝑛 (𝑋𝑖−ത𝑋)2

1

σ𝑖=1𝑛 (𝑋𝑖−ത𝑋)2

𝑠2

𝐶𝑂𝑉 መ𝛽 =𝑉( መ𝛽0) 𝐶𝑂𝑉( መ𝛽0 መ𝛽1)

𝐶𝑂𝑉( መ𝛽0 መ𝛽1) 𝑉( መ𝛽1)

✓ Intervalo de confiança para

os coeficientes

ˆ)( 2StIC jj

em que: t é o valor da distribuição t de

student a um nível de probabilidade

fixado, com n-p-1 graus de liberdade do

resíduo.

- Coeficiente de correlação linear ao

quadrado (rxy)2:

100)((%) 22

xyrR

CRITÉRIOS DE SELEÇÃO DOS MODELOS Comparando modelos com número de

coeficientes diferentes

Para comparar modelos com número de

coeficientes diferentes pode-se fazer o cálculo

do Coeficientes de Determinado Ajustado(R2adj)

ou Corrigido (R2corrig)

𝑅𝑎𝑑𝑗2 = 1 −

𝑛 − 1

𝑛 − 𝑝 + 1(1 − 𝑅2)

em que: R2 pode ser o próprio R2, IA ou

(rxy)2.

27/06/2017

6

Erro padrão da estimativa (Syx)

Lembre-se que no caso da variável

dependente estar na forma

logarítmica o deve ser

corrigido pelo Fator de Meyer

QMResíduo SY.X

pn

YY

Syx

n

i

1

)ˆ(

1

2

E se o modelo tiver a variável

dependente na forma logarítmica?

)*(5,0 2SyxeFM

em que: Syx2 = QMRes obtido no ajuste da variável dependente

na forma logarítmica.

✓ Erro padrão da média (Syx(%)):

100Y

SyxSyx(%)

ANÁLISE GRÁFICA DE RESÍDUOS

Consiste na análise dos resíduos da variável

resposta analisada em função de uma variável,

que pode ser a resposta (variável resposta) ou

uma variável independente.

Erros ou Resíduos?iY

iii YYE

i

ii

Y

YYsíduo

Re

Os resíduos podem ser plotados em função de

qualquer variável em estudo, geralmente os

resíduos são plotados contra o valor de dap ou

contra os valores de iY

Os erros Ei são definidos como as “n”

diferenças de sendo i = 1, 2, 3, ....,

n. Dessa forma, o erro indica o quanto a

equação de regressão não é capaz de explicar

os valores da variável dependente.

ii YY

Outliers

Um outiler corresponde a um ou mais ponto(s)

(resíduo(s)) muito discrepante em relação a

curva do modelo.

Nem sempre um ponto é um outlier, pode ter

acontecido do modelo não ter ajustado aos

dados. Por isso utilizamos vários modelos.

Exercício de Fixação

Ajustar os seguintes modelos volumétricos e

selecionar o(s) mais acurado(s) através da

análise gráfica de resíduos, Syx(%) e R2

ajustado*.

*Lembre-se que o R2 deve ser o que melhor se

adequa a maioria dos modelos.

27/06/2017

7

ModeloFórmula

Schumacher e Hall (não linear)

Schumacher e Hall (linearizado)

Spurr

Takata

21

0 htdapV

)( 2

10 htdapV

)ln()ln()ln( 210 htdapV

dap

htdapV

10

2