22
Universidade Federal de Minas Gerais Instituto de Ciências Exatas Departamento de Estatística Josué Morais Moura MÉTODO ALTERNATIVO PARA REGRESSÃO TRIVARIADA EM PRESENÇA DE OUTLIERS Belo Horizonte 2013

Josué Morais Moura - repositorio.ufmg.br€¦ · 11 3 1 14 4 3 Com os dados acima são calculados as estimativas dos parâmetros e em seguida estas são armazenadas. As medianas

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Josué Morais Moura - repositorio.ufmg.br€¦ · 11 3 1 14 4 3 Com os dados acima são calculados as estimativas dos parâmetros e em seguida estas são armazenadas. As medianas

Universidade Federal de Minas Gerais

Instituto de Ciências Exatas

Departamento de Estatística

Josué Morais Moura

MÉTODO ALTERNATIVO PARA REGRESSÃO TRIVARIADA EM

PRESENÇA DE OUTLIERS

Belo Horizonte

2013

Page 2: Josué Morais Moura - repositorio.ufmg.br€¦ · 11 3 1 14 4 3 Com os dados acima são calculados as estimativas dos parâmetros e em seguida estas são armazenadas. As medianas

Josué Morais Moura

MÉTODO ALTERNATIVO PARA REGRESSÃO TRIVARIADA EM

PRESENÇA DE OUTLIERS

Trabalho apresentado ao Curso de

Especialização em do Departamento de

Estatística do Instituto de Ciências Exatas da

Universidade Federal de Minas Gerais, para a

obtenção do grau de Especialista em Estatística.

Aluno: Josué Morais Moura

Orientador: Prof. Roberto Quinino

Belo Horizonte

2013

Page 3: Josué Morais Moura - repositorio.ufmg.br€¦ · 11 3 1 14 4 3 Com os dados acima são calculados as estimativas dos parâmetros e em seguida estas são armazenadas. As medianas

MÉTODO ALTERNATIVO PARA REGRESSÃO TRIVARIADA EM

PRESENÇA DE OUTLIERS

Resumo

Este artigo discute a estimação dos coeficientes da equação de regressão trivariada por

um método não-paramétrico e sua comparação com a metodologia clássica de mínimos

quadrados. Foi simulado modelos trivariados com presença de violações dos pressupostos

básicos da análise de regressão pelo método de mínimos quadrados. Para avaliação de

desempenho dos métodos foi utilizado o erro quadrático médio. Concluiu-se que neste cenário

o método não-paramétrico sugerido apresenta menor erro médio quadrático.

Palavras Chave: Regressão, Métodos Não-paramétricos, Mínimos Quadrados e Erro

Quadrático Médio.

Page 4: Josué Morais Moura - repositorio.ufmg.br€¦ · 11 3 1 14 4 3 Com os dados acima são calculados as estimativas dos parâmetros e em seguida estas são armazenadas. As medianas

MÉTODO ALTERNATIVO PARA REGRESSÃO TRIVARIADA EM

PRESENÇA DE OUTLIERS

Abstract

This article discusses the estimation of the coefficients of the regression equation

trivariada by a non-parametric method and its comparison with the classical method of least

squares. Trivariados was simulated models with the presence of violations of the basic

assumptions of regression analysis by the method of least squares. For performance

evaluation of the mean square error methods was used. It was concluded that in this scenario

the non-parametric method suggested has lower mean square error.

Key-words: Regression, non-parametric methods, Least Squares, Mean Square Error.

Page 5: Josué Morais Moura - repositorio.ufmg.br€¦ · 11 3 1 14 4 3 Com os dados acima são calculados as estimativas dos parâmetros e em seguida estas são armazenadas. As medianas

5

MÉTODO ALTERNATIVO PARA REGRESSÃO TRIVARIADA EM

PRESENÇA DE OUTLIERS

1. Introdução

O método dos mínimos quadrados é o procedimento de estimação dos parâmetros de

um modelo de regressão por meio da minimização da soma dos quadrados das diferenças

entre os valores observados da variável resposta em uma amostra e seus valores preditos pelo

modelo.

Possui aplicações em áreas como biologia, engenharia, estatística, física matemática,

entre outras, principalmente aquelas que objetivam relacionar uma variável dependente (Y)

em função de variáveis explicativas (X1,...,Xk). O método foi proposto independentemente

pelos matemáticos Carl Friedrich Gauss por volta de 1795 e Adrien Marie Legendre em torno

de 1805. Apesar de ser um método eficiente ele é muito sensível quando as suposições de

homocedasticidade, normalidade, indenpendência dos erros e não presença de outliers são

violadas.

Para tentar contornar o problema de violação das suposições fundamentais na análise

de regressão pelo método dos mínimos quadrados, avaliaremos o desempenho das estimativas

calculadas com base em um método desenvolvido por Theil (1950) e Sen (1968).

O método desenvolvido por eles é caracterizado como um método não paramétrico, e é

considerado robusto para regressão linear, escolhendo a inclinação mediana entre todas as

retas possíveis encontradas pelas combinações de pares de pontos.

Métodos não paramétricos podem ser uma alternativa para estimação dos coeficientes

da regressão,com características de eficiência e insensibilidade principalmente para dados

com assimetrias, heterocedaticidade e outlires, Hussain (2005).

Page 6: Josué Morais Moura - repositorio.ufmg.br€¦ · 11 3 1 14 4 3 Com os dados acima são calculados as estimativas dos parâmetros e em seguida estas são armazenadas. As medianas

6

Neste artigo avaliaremos o desempenho do modelo trivariado:

1 2Y a bX cX erro . A estrutura subjacente do erro será apresentada na próxima seção.

A abordagem aqui descrita foi baseada em Theil (1950) e Birkes e Dodge (1993) e

demanda apenas noções de combinação, média ponderada e solução de sistemas de três

equações lineares a três incógnitas, conteúdo normalmente pertencente ao ensino médio.

Essencialmente o procedimento resume-se em encontrar todos os modelos que passam

por, pelo menos três pontos e, utilizando-se a mediana dos interceptos e das inclinações, para

calcular, respectivamente, a estimativa do intercepto e das inclinações do modelo final.

Apesar de o método ser de fácil compreensão, e no caso bivariado também de fácil

implementação, para o caso trivariado temos a limitação da complexidade dos cálculos

requeridos para a estimação dos parâmetros e ainda a reduzida quantidade de softwares

disponíveis e adequados para tal objetivo.

Para mitigar as limitações mencionadas a realização dos cálculos foi desenvolvida

através de um código de programação na linguagem do software Matlab. Através de dados de

uma simulação de Monte Carlo encontraremos as estimativas do método não paramétrico e o

compararemos com resultados do método de mínimos quadrados.

Como método de Monte Carlo, consideramos um método estatístico que se baseia em

amostragens aleatórias massivas para obter resultados numéricos, isto é, repetindo sucessivas

simulações um elevado numero de vezes.

O Erro Quadrático Médio (EQM) será a forma de avaliar a diferença entre os

estimadores e o verdadeiro valor da quantidade estimada para os dois métodos que

utilizaremos. O EQM mede a média do quadrado do erro, com o erro sendo o montante pelo

qual o estimador difere da quantidade a ser estimada: EQM=Variância+(vício)2.

O trabalho em si não pretende esgotar o assunto, mas lançar bases para trabalhos

posteriores variando a metodologia adotada para cada vez mais comprovar a eficiência do

Page 7: Josué Morais Moura - repositorio.ufmg.br€¦ · 11 3 1 14 4 3 Com os dados acima são calculados as estimativas dos parâmetros e em seguida estas são armazenadas. As medianas

7

modelo não paramétrico diante das violações de suposições básicas para a análise de

regressão. Ou seja, este trabalho é um exemplo da maneira como gerar violações das

suposições básicas para analisar os resultados e comparar os modelos apresentados.

A seguir apresentaremos detalhes da metodologia e os resultados apresentados na

comparação dos métodos mencionados.

Page 8: Josué Morais Moura - repositorio.ufmg.br€¦ · 11 3 1 14 4 3 Com os dados acima são calculados as estimativas dos parâmetros e em seguida estas são armazenadas. As medianas

8

2. Metodologia

Com a rotina desenvolvida no Matlab, e apresentada no apêndice 1, foram gerados

resultados para comparação dos coeficientes encontrados pelo método de Mínimos Quadrados

e de Theil-Sen. A idéia é observar o que acontece quando saímos de um caso padrão para um

caso com alterações nos pressupostos básicos. A metodologia aqui apresentada foi baseada

em Theil (1950) e Birkes e Dodge (1993).

A equação trivariada trabalhada na simulação foi a seguinte: 1 22 3 4 iY X X .

Em que ~ (0; ).i N k Quando k=1, temos uma situação sem outliers e para k>0 temos a

situação com outliers.

Na simulação foram geradas 36 situações diferentes, decorrentes das seguintes

alterações: correlação entre as variáveis aleatórias x1 e x2, o tamanho da amostra, o percentual

da amostra afetado pela contaminação com variância não constante.

Para a parte não contaminada utilizamos uma distribuição normal com média zero e

desvio padrão um. Já para parte contaminada utilizamos média zero e desvio padrão k.

Neste trabalho discutimos as simulações utilizando o modelo 1 22 3 4 iY X X ,

no entanto, vários outros parâmetros e modelos foram avaliados e não constam no trabalho

uma vez que os resultados e conclusões são equivalentes, como por exemplo, os testes com os

modelos bivariados realizados na fase inicial do trabalho.

As correlações testadas foram 0,3 e 0,6; o tamanho amostral foi 30, 60 e 90; os

percentuais de contaminação em relação à amostra foram 0%, 20% e 40% e por fim os

desvios para geração das contaminações foram 9 e 15 (k).

A rotina para cada modelo foi reproduzido mil vezes, tanto para o método dos

mínimos quadrados, quando para o método não paramétrico. E a métrica de comparação como

já foi exposto será o erro médio quadrático.

Page 9: Josué Morais Moura - repositorio.ufmg.br€¦ · 11 3 1 14 4 3 Com os dados acima são calculados as estimativas dos parâmetros e em seguida estas são armazenadas. As medianas

9

Alguns dos dados selecionados para nossa simulação foram definidos por caráter

computacional. O tamanho da amostra é o caso, pois quando rodamos a rotina para os casos

com tamanho igual a noventa o programa durou mais de 20 horas para finalizar a rotina, dado

nossas condições de recursos tecnológicos.

Para trabalhos futuros temos uma gama de possíveis variações dos dados estabelecidos

aqui para complementar nossa análise muito concentrada e baseadas neles.

2.1- Método dos Mínimos Quadrados

O principio dos mínimos quadrados é uma regra para estimar os coeficientes de uma

regressão. Este principio afirma que devemos minimizar a soma dos quadrados das diferenças

entre os valores observados de iY e seu valor esperado ( )iE Y . Dadas as observações

amostrais iY , a minimização da função soma de quadrados é um exercício rotineiro de

cálculo.

Segundo teorema de Gauss-Markov os estimadores de mínimos quadrados são os

melhores estimadores lineares não-tendenciosos dos parâmetros em um modelo de regressão

múltipla, dado que se respeitem os pressupostos do modelo, Hill (2000).

Os pressupostos são os seguintes: cada erro aleatório tem distribuição de probabilidade

com média zero; erros são homocedásticos; qualquer par de erros é não correlacionado; os

erros aleatórios devem ter distribuição de probabilidade normal, Hill (2000).

A variância do erro afeta diretamente os estimadores de mínimos quadrados, se ela for

grande, então os dados poderão apresentar grande dispersão em relação à função regressão e

certamente conterão menos informação sobre os valores dos parâmetros.

Page 10: Josué Morais Moura - repositorio.ufmg.br€¦ · 11 3 1 14 4 3 Com os dados acima são calculados as estimativas dos parâmetros e em seguida estas são armazenadas. As medianas

10

O tamanho da amostra também afeta os estimadores de mínimos quadrados, quanto

maior a amostra menor será a variância e assim dá uma estimação mais precisa dos

parâmetros.

Então, de acordo com nossa metodologia apresentada alguns dos pressupostos do

método de mínimos quadrados serão afetados. Vamos avaliar o comportamento dos

estimadores frente aos do método de Theil-Sen.

2.2- Método Theil-Sen

A metodologia não-paramétrica baseada na estimativa de Theil (1950) e Sen (1968) e

descrita em Dias (2005) e Hussain (1983) tem como alternativa o cálculo de todos possíveis

coeficientes formados pela combinação de dados amostrais. Em seguida, encontramos a

mediana destes coeficientes para termos uma estimativa do verdadeiro valor.

No nosso caso temos que combinar os trios de pontos para encontrar os coeficientes de

todos os possíveis planos, e armazená-los para tirarmos a mediana e chegar à estimativa do

verdadeiro valor.

Por exemplo, com um conjunto de dados de quatro observações para as variáveis y, x1

e x2 seriam possíveis a montagem de quatro sistemas com três incógnitas e três equações, que

é a combinação de quatro tomados três a três. Tomados três a três porque existem três

parâmetros para serem estimados.

Veja o exemplo hipotético para entendimento da lógica da montagem dos sistemas.

Considere o conjunto de dados abaixo:

Page 11: Josué Morais Moura - repositorio.ufmg.br€¦ · 11 3 1 14 4 3 Com os dados acima são calculados as estimativas dos parâmetros e em seguida estas são armazenadas. As medianas

11

Quadro 1 – Conjuntos de Trios de Pontos

Trios y x1 x2

1º 12 1 4

2º 10 2 2

3º 11 3 1

4º 14 4 3

Com a combinação 𝐶34, é possível a elaboração de quatro sistemas, alternando a

ordenação das observações, como demonstrado no Quadro 2:

Quadro 2 – Conjuntos de Sistemas

Sistema 1 1º 2º 3º

Sistema 2 1º 2º 4º

Sistema 3 1º 3º 4º

Sistema 4 2º 3º 4º

Seguindo a ordenação demonstrada acima é possível montar os sistemas, veja os

quadros abaixo com os resultados:

Quadro 3 – Sistema 1

12 1 4

10 2 2

11 3 1

Quadro 4 – Sistema 2

12 1 4

10 2 2

14 4 3

Quadro 5 – Sistema 3

12 1 4

11 3 1

14 4 3

Page 12: Josué Morais Moura - repositorio.ufmg.br€¦ · 11 3 1 14 4 3 Com os dados acima são calculados as estimativas dos parâmetros e em seguida estas são armazenadas. As medianas

12

Quadro 6 – Sistema 4

10 2 2

11 3 1

14 4 3

Com os dados acima são calculados as estimativas dos parâmetros e em seguida estas

são armazenadas. As medianas dos coeficientes constituem nas estimativas de Theil-Sen.

Na Tabela 1 ilustramos o procedimento completo para este exemplo e clarificação do

procedimento. Observe que os estimadores de mínimos quadrados e Theil-Sen podem ser

consideravelmente diferentes.

Tabela 1 - Descrição do Estimador de Theil-Sem e Minimos Quadrados.

Sistemas Pontos

(Y,X1,X2) Reta

Intercepto

ai

Inclinação

bi

Inclinação

ci

Sistema 1

(12,1,4)

(10,2,2)

(11,3,1)

Y=a1+b1X1+c1X2 -4 4 3

Sistema 2

(12,1,4)

(10,2,2)

(14,4,3)

Y=a1+b1X1+c1X2 4,4 1,2

1,6

Sistema 3

(12,1,4)

(11,3,1)

(14,4,3)

Y=a1+b1X1+c1X2 7 1 1

Sistema 4

(10,2,2)

(11,3,1)

(14,4,3)

Y=a1+b1X1+c1X2 5,33 1,66 0,66

Mediana 4,87 1,43 1,30

Mínimos

Quadrados 5,92 1,17 1,17

Assim como neste exemplo hipotético a rotina desenvolvida gerará as combinações

dos pontos e cálculos dos coeficientes, porém para uma quantidade muito maior de dados. Por

isso, mencionamos a questão da escolha do tamanho da amostra como fator limitador do

trabalho, devido às condições computacionais e de tempo.

Page 13: Josué Morais Moura - repositorio.ufmg.br€¦ · 11 3 1 14 4 3 Com os dados acima são calculados as estimativas dos parâmetros e em seguida estas são armazenadas. As medianas

13

3. Resultados

Com a rotina desenvolvida no software Matlab, e apresentada no apêndice 1, os

cálculos foram reproduzidos mil vezes, para cada alteração dos modelos, tanto para o método

dos mínimos quadrados, quando para o método Theil-Sen.

Ou seja, para cada alteração na correlação (0,3 e 0,6), no tamanho amostral (30,60 e

90), no desvio padrão (9 e 15) e nos percentuais de contaminação de alteração da variância

(0%, 20% e 40%) a rotina rodou mil vezes, desta forma a rotina foi executada trinta e seis mil

vezes. Gerando assim uma massa de dados para cálculo dos coeficientes para cada cenário.

Depois, calculou-se a média e variância dos coeficientes para compararmos o

desempenho de cada método de estimação. Estamos avaliando o caso específico

1 22 3 4 iY X X , do modelo geral 1 2Y a bX cX erro . Então vamos estimar os

coeficientes b e c.

Na comparação entre os métodos foi utilizado o erro quadrático médio avaliando

assim o viés e vício simultaneamente, Bussab (2003).

Gráfico 1 – Erro Quadrático Médio dos coeficientes estimados pelos dois métodos

Legenda: EQM: Erro Quadrático; MMQ: Método de Mínimos Quadrados;

MTS: Método de Theil-Sen; bi e ci: coeficientes estimados.

0,60

0,45

0,30

0,15

0,00

0,60

0,45

0,30

0,15

0,00

EQM bi MMQ EQM bi MTS

EQM ci MMQ EQM ci MTS

Page 14: Josué Morais Moura - repositorio.ufmg.br€¦ · 11 3 1 14 4 3 Com os dados acima são calculados as estimativas dos parâmetros e em seguida estas são armazenadas. As medianas

14

O gráfico 1 de boxplot apresenta os valores do erro quadrático médio dos dois

métodos utilizados. Com este gráfico conseguimos perceber a maior dispersão dos dados no

Método de Mínimos Quadrados em comparação ao do Método de Theil-Sen.

Mas, este resultado geral foi influenciado pelas alterações sugeridas no modelo.

Vamos procurar analisar os efeitos destas alterações e seus reflexos no erro quadrático médio

dos métodos analisados.

Gráfico 2: Erro Quadrático Médio do coeficiente bi por nível de contaminação

Legenda: EQM: Erro Quadrático; MMQ: Método de Mínimos Quadrados;

MTS: Método de Theil-Sen; bi e ci: coeficientes estimados.

No gráfico 2 fica evidente a influencia do percentual de contaminação do erro com a

alteração do desvio, este resultado foi para o coeficiente b. O efeito foi ampliado para o

método dos Mínimos Quadrados, resultado já era esperado devido as os pressupostos deste

modelo. Agora vamos ver que o mesmo resultado acontece para o coeficiente c, quando

observamos os erros quadráticos médios.

0,40,20,0

0,6

0,5

0,4

0,3

0,2

0,1

0,0

0,40,20,0

EQM bi MMQ EQM bi MTS

Page 15: Josué Morais Moura - repositorio.ufmg.br€¦ · 11 3 1 14 4 3 Com os dados acima são calculados as estimativas dos parâmetros e em seguida estas são armazenadas. As medianas

15

Gráfico 3: Erro Quadrático Médio do coeficiente ci por nível de contaminação

Legenda: EQM: Erro Quadrático; MMQ: Método de Mínimos Quadrados;

MTS: Método de Theil-Sen; bi e ci: coeficientes estimados.

Vamos analisar no detalhe o comportamento dos coeficientes quando afetados por esta

contaminação. Começando pelo método de Mínimos Quadrados observaremos abaixo os

dados dos coeficientes b, sem a influência de dados contaminados.

Gráfico 4: Estatísticas Básicas para os coeficientes bi do Método de Mínimos Quadrados

0,40,20,0

0,6

0,5

0,4

0,3

0,2

0,1

0,0

0,40,20,0

EQM ci MMQ EQM ci MTS

1o. Quartil 2,9991

Mediana 3,0010

3o Quartil 3,0014

Máximo 3,0025

2,9991 3,0013

2,9991 3,0014

0,0012 0,0029

A-Quadrado 0,60

Valor-p 0,091

Média 3,0002

DesvPad 0,0017

Variância 0,0000

Assimetria -1,21999

Curtose 1,96441

N 12

Mínimo 2,9961

Teste de normalidade de Anderson-Darling

Intervalo de 95% de Confiança para Média

Intervalo de 95% de Confiança para Mediana

Intervalo de 95% de Confiança para DesvPad

3,023,013,002,99

Mediana

Média

3,00153,00103,00053,00002,99952,9990

Intervalos de 95% de Confiança

Page 16: Josué Morais Moura - repositorio.ufmg.br€¦ · 11 3 1 14 4 3 Com os dados acima são calculados as estimativas dos parâmetros e em seguida estas são armazenadas. As medianas

16

Lembrando que o verdadeiro valor do coeficiente b é 3, podemos verificar que a média

dos coeficientes foi 3,002, praticamente o valor verdadeiro. Mas, este dado é sem levar em

consideração o efeito de contaminação. No próximo gráfico é possível verificar o

comportamento após a contaminação de 40% dos erros.

Gráfico 5: Estatísticas Básicas para os coeficientes bi do Método de Mínimos Quadrados com

40% dos erros contaminados

Apesar da média ainda está próxima do valor verdadeiro a dispersão dos dados foi

muito maior. E como veremos abaixo a influencia da contaminação foi menor para o método

de Theil-Sen.

1o. Quartil 2,9970

Mediana 3,0052

3o Quartil 3,0126

Máximo 3,0242

2,9990 3,0114

2,9971 3,0126

0,0069 0,0166

A-Quadrado 0,13

Valor-p 0,971

Média 3,0052

DesvPad 0,0098

Variância 0,0001

Assimetria 0,219145

Curtose 0,015849

N 12

Mínimo 2,9891

Teste de normalidade de Anderson-Darling

Intervalo de 95% de Confiança para Média

Intervalo de 95% de Confiança para Mediana

Intervalo de 95% de Confiança para DesvPad

3,023,013,002,99

Mediana

Média

3,0103,0053,0002,995

Intervalos de 95% de Confiança

Page 17: Josué Morais Moura - repositorio.ufmg.br€¦ · 11 3 1 14 4 3 Com os dados acima são calculados as estimativas dos parâmetros e em seguida estas são armazenadas. As medianas

17

Gráfico 6: Estatísticas Básicas para os coeficientes bi do Método de Theil-Sen com 40% dos

erros contaminados

Tomando como base a tabela constante no apêndice 2, podemos observar que doze dos

trinta e seis modelos tiveram o EQM menor para estimação por Mínimos Quadrados. Estes

modelos foram exatamente os que não sofreram efeito da parte contaminada.

Todos os demais modelos tiveram o EQM menor para estimação pelo método de

Theil-Sen. Mas de um modo geral os valores do EQM foram menores quando a correlação

entre as variáveis foi menor.

1o. Quartil 2,9962

Mediana 3,0038

3o Quartil 3,0061

Máximo 3,0121

2,9981 3,0063

2,9962 3,0061

0,0046 0,0109

A-Quadrado 0,34

Valor-p 0,442

Média 3,0022

DesvPad 0,0064

Variância 0,0000

Assimetria -0,574293

Curtose 0,014837

N 12

Mínimo 2,9895

Teste de normalidade de Anderson-Darling

Intervalo de 95% de Confiança para Média

Intervalo de 95% de Confiança para Mediana

Intervalo de 95% de Confiança para DesvPad

3,0103,0053,0002,9952,990

Mediana

Média

3,00753,00503,00253,00002,99752,9950

Intervalos de 95% de Confiança

Page 18: Josué Morais Moura - repositorio.ufmg.br€¦ · 11 3 1 14 4 3 Com os dados acima são calculados as estimativas dos parâmetros e em seguida estas são armazenadas. As medianas

18

4. Considerações Finais

Pretendeu-se neste trabalho demonstrar que o método de Theil-Sen é uma alternativa

para estimação dos coeficientes da regressão, e apresenta características de eficiência e

insensibilidade principalmente para dados com assimetrias, heterocedaticidade e outlires. Isso

quando comparado ao método de mínimos quadrados, nas mesmas condições de violação de

alguns pressupostos básicos deste último.

E este resultado pretendido foi exatamente o alcançado, quando os modelos sofreram

alguma alteração do pressuposto básico, o método de Theil-Sen teve um erro quadrático

médio menor. Ou seja, a relação do coeficiente estimado pelo método de Theil-Sen com o

verdadeiro valor do coeficiente foi melhor avaliado do que o coeficiente estimado pelo

método de mínimos quadrados.

Como já mencionado, este trabalho em si não pretendeu esgotar o assunto, mas lançar

bases para trabalhos posteriores, pois variando a metodologia adotada, pode-se corroborar

para demonstrar cada vez mais a robustez do modelo não paramétrico, diante das violações de

suposições básicas para a análise de regressão.

Page 19: Josué Morais Moura - repositorio.ufmg.br€¦ · 11 3 1 14 4 3 Com os dados acima são calculados as estimativas dos parâmetros e em seguida estas são armazenadas. As medianas

19

5. Referências Bibliográficas

BIRKES, D. , DODGE, Y. (1993): Alternative Methods of Regression. Wiley, New

York.

BUSSAB, W. O. e MORETTIN, P. A. (2003): Estatística Básica. Saraiva.

DIAS, A. B. et alii. (2005): Estimação dos parâmetros angular e linear da equação de

regressão linear simples pelo método não-paramétrico. Ciência e Natura, UFSM.

FERNANDES, R. e LEBLANC, S. G. (2005): Parametric and non-parametric linear

regressions for predicting biophysical parameters in the presence of measurement errors.

Canadá.

HILL, C. et alii. (2000); Econometria. Editora Saraiva.

HUSSAIN, S. S. e SPRENT, P. (1983): Non-Paramétric Regression. JSTOR’s.

SEN, K. P. (1968): Estimates of Regression Coefficient Based on Kendall's Tau. Journal of

the American Statistical Association, v. 63, p.1379-1389.

THEIL, H. (1950): A rank-invariant method of linear and polynomial regression analysis. I, II

and III. Koninklijke Nederlandse. Akademie van Wetenschappen, Proceedings, ser. A, vol.

53, pp. 386–392, 521–525, 1397–1412.

Page 20: Josué Morais Moura - repositorio.ufmg.br€¦ · 11 3 1 14 4 3 Com os dados acima são calculados as estimativas dos parâmetros e em seguida estas são armazenadas. As medianas

20

6. Apêndice 1 – Rotina de Simulação

clear all

tic

corridas=1000;

tamanho=90;%VARIAVEL DE ALTERAÇÂO

tamanho1=90;%VARIAVEL DE ALTERAÇÂO

tamanho2=tamanho-tamanho1;

k=15;%VARIAVEL DE ALTERAÇÂO

b0=2;

b1=3;

b2=4;

mu(1,1)=2;

mu(1,2)=4;

v1=10.5;

v2=10.5;

corr=0.6;%VARIAVEL DE ALTERAÇÂO

sigma(1,1)=v1;

sigma(2,2)=v2;

sigma(1,2)=corr*(v1^0.5)*(v2^0.5);

sigma(2,1)=sigma(1,2);

sigma;

for i=1:corridas

n=mvnrnd(mu,sigma,tamanho);

r1=random('normal',0,1,tamanho1,1);

r2=random('normal',0,k,tamanho2,1);

r=[r1;r2];

y=b0+b1.*n(:,1)+b2.*n(:,2)+r;

x=[ones(tamanho,1),n];

B=regress(y,x);

c=nchoosek(1:tamanho,3);

c1=c(:,1);

c2=c(:,2);

c3=c(:,3);

k1=size(c);

k2=k1(1,1);

for j=1:k2

j1=c1(j);

j2=c2(j);

j3=c3(j);

Page 21: Josué Morais Moura - repositorio.ufmg.br€¦ · 11 3 1 14 4 3 Com os dados acima são calculados as estimativas dos parâmetros e em seguida estas são armazenadas. As medianas

21

y11=y(j1);

x11=n(j1,1);

x21=n(j1,2);

y12=y(j2);

x12=n(j2,1);

x22=n(j2,2);

y13=y(j3);

x13=n(j3,1);

x23=n(j3,2);

x1=[x11 x12 x13];

x2=[x21 x22 x23];

yy=[y11 y12 y13];

yy=yy';

xx=[ones(3,1),x1',x2'];

B1=regress(yy,xx);

m0(j)=B1(1,1);

m1(j)=B1(2,1);

m2(j)=B1(3,1);

end

saida1(i)=B(2,1);

saida2(i)=B(3,1);

saida3(i)=median(m1);

saida4(i)=median(m2);

end

s=[saida1',saida3',saida2',saida4'];

medmqinc1=(mean(saida1));

medtsinc1=(mean(saida3));

medmqinc2=(mean(saida2));

medtsinc2=(mean(saida4));

emqmqinc1=var(saida1)+(mean(saida1)-b1)^2;

emqtsinc1=var(saida3)+(mean(saida3)-b1)^2;

emqmqinc2=var(saida2)+(mean(saida2)-b2)^2;

emqtsinc2=var(saida4)+(mean(saida4)-b2)^2;

W=[medmqinc1,medtsinc1,medmqinc2,medtsinc2,emqmqinc1,emqtsinc1,emqmqinc2,emqtsinc2]

Toc

Page 22: Josué Morais Moura - repositorio.ufmg.br€¦ · 11 3 1 14 4 3 Com os dados acima são calculados as estimativas dos parâmetros e em seguida estas são armazenadas. As medianas

22

7. Apêndice 2 – Resultados Geral dos 36 modelos

# kTamanho da

AmostraContaminação Correlação

Inclinação bi

MMQ

Inclinação bi

MTS

Inclinação ci

MMQ

Inclinação ci

MTS

EQM bi

MMQ EQM bi MTS

EQM ci

MMQ EQM ci MTS

1 9 30 0% 0,3 3,0009 3,0005 4,0029 4,0017 0,0040 0,0049 0,0040 0,0049

2 9 30 20% 0,3 3,0044 3,0020 4,0033 3,9988 0,0739 0,0143 0,0681 0,0134

3 9 30 40% 0,3 2,9891 2,9895 3,9880 4,0010 0,1184 0,0410 0,1314 0,0420

4 9 60 0% 0,3 2,9995 3,0004 3,9983 3,9983 0,0018 0,0022 0,0019 0,0024

5 9 60 20% 0,3 3,0009 3,0030 3,9979 3,9982 0,0334 0,0056 0,0300 0,0050

6 9 60 40% 0,3 3,0022 3,0039 3,9942 3,9952 0,0609 0,0157 0,0623 0,0162

7 9 90 0% 0,3 3,0010 3,0013 3,9989 3,9994 0,0012 0,0015 0,0012 0,0015

8 9 90 20% 0,3 2,9989 2,9980 4,0005 4,0007 0,0206 0,0038 0,0222 0,0034

9 9 90 40% 0,3 3,0068 3,0037 4,0031 4,0005 0,0401 0,0106 0,0390 0,0095

10 15 30 0% 0,3 3,0014 3,0024 4,0008 4,0029 0,0040 0,0051 0,0041 0,0053

11 15 30 20% 0,3 2,9941 3,0014 3,9937 3,9964 0,1867 0,0148 0,1630 0,0144

12 15 30 40% 0,3 3,0242 3,0064 3,9764 3,9934 0,3758 0,0735 0,3778 0,0762

13 15 60 0% 0,3 2,9990 2,9982 4,0000 4,0017 0,0018 0,0022 0,0019 0,0023

14 15 60 20% 0,3 3,0004 3,0030 3,9981 3,9984 0,0905 0,0064 0,0806 0,0057

15 15 60 40% 0,3 3,0042 3,0051 3,9911 3,9945 0,1680 0,0236 0,1713 0,0242

16 15 90 0% 0,3 3,0013 3,0012 3,9995 3,9990 0,0013 0,0016 0,0011 0,0014

17 15 90 20% 0,3 3,0052 3,0021 4,0030 3,9999 0,0550 0,0041 0,0566 0,0038

18 15 90 40% 0,3 3,0110 3,0044 4,0057 4,0008 0,1097 0,0151 0,1077 0,0139

19 9 30 0% 0,6 2,9994 2,9999 3,9986 3,9991 0,0057 0,0070 0,0055 0,0072

20 9 30 20% 0,6 3,0094 3,0016 3,9895 3,9978 0,0911 0,0177 0,1001 0,0191

21 9 30 40% 0,6 3,0062 2,9999 3,9982 3,9993 0,1794 0,0600 0,1874 0,0619

22 9 60 0% 0,6 2,9990 2,9973 4,0000 4,0020 0,0026 0,0032 0,0027 0,0032

23 9 60 20% 0,6 3,0076 3,0021 4,0001 3,9990 0,0435 0,0074 0,0479 0,0083

24 9 60 40% 0,6 2,9956 2,9949 3,9925 4,0011 0,0865 0,0225 0,0822 0,0212

25 9 90 0% 0,6 3,0025 3,0026 3,9983 3,9979 0,0019 0,0022 0,0018 0,0021

26 9 90 20% 0,6 3,0032 3,0018 3,9984 3,9970 0,0297 0,0049 0,0308 0,0047

27 9 90 40% 0,6 3,0013 3,0023 3,9974 3,9950 0,0608 0,0146 0,0581 0,0137

28 15 30 0% 0,6 2,9961 2,9954 4,0032 4,0032 0,0060 0,0077 0,0056 0,0071

29 15 30 20% 0,6 3,0133 3,0087 3,9781 3,9908 0,2586 0,0219 0,2519 0,0224

30 15 30 40% 0,6 3,0147 3,0121 4,0021 3,9997 0,5335 0,1156 0,5325 0,1022

31 15 60 0% 0,6 3,0010 3,0010 3,9981 3,9988 0,0025 0,0031 0,0025 0,0031

32 15 60 20% 0,6 2,9935 2,9945 4,0131 4,0054 0,1182 0,0081 0,1164 0,0090

33 15 60 40% 0,6 2,9942 2,9949 3,9873 4,0016 0,2375 0,0339 0,2258 0,0313

34 15 90 0% 0,6 3,0015 3,0014 3,9994 3,9988 0,0018 0,0022 0,0016 0,0020

35 15 90 20% 0,6 3,0184 3,0041 3,9904 3,9981 0,0854 0,0058 0,0827 0,0058

36 15 90 40% 0,6 3,0132 3,0091 3,9983 3,9979 0,1578 0,0216 0,1625 0,0217

RESULTADOS PARA OS DOIS MODELOSMODELOS