37
Uma introdução aos modelos uni e multivariados de classificação e regressão por árvores Cesar Augusto Taconeli Departamento de Estatística - UFPR

Uma introdução aos modelos uni e multivariados de ...apresentacao-cesar01.pdf · 1.4 Exemplo 2. Árvores de Regressão multivariadas 3. Conclusão 4. Referências. ... Validação

  • Upload
    lehanh

  • View
    220

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Uma introdução aos modelos uni e multivariados de ...apresentacao-cesar01.pdf · 1.4 Exemplo 2. Árvores de Regressão multivariadas 3. Conclusão 4. Referências. ... Validação

Uma introdução aos modelos uni e multivariados de classificação e regressão por árvores

Cesar Augusto Taconeli Departamento de Estatística - UFPR

Page 2: Uma introdução aos modelos uni e multivariados de ...apresentacao-cesar01.pdf · 1.4 Exemplo 2. Árvores de Regressão multivariadas 3. Conclusão 4. Referências. ... Validação

Sumário

1. Árvores de Classificação e Regressão 1.1 Atrativos1.2 Terminologia1.3 Construção do modelo

1.3.1 Definição e execução de um critério de partição1.3.2 Procedimento de poda1.3.3 Seleção do modelo1.3.4 Caracterização dos nós finais

1.4 Exemplo2. Árvores de Regressão multivariadas3. Conclusão4. Referências

Page 3: Uma introdução aos modelos uni e multivariados de ...apresentacao-cesar01.pdf · 1.4 Exemplo 2. Árvores de Regressão multivariadas 3. Conclusão 4. Referências. ... Validação

1. Árvores de Classificação e Regressão - CART)

� Principal referência: Breiman et al (1984);

� Modelagem não paramétrica;

� Execução de sucessivas partições binárias de uma amostra, buscando a constituição de sub-amostras menos heterogêneas.

� Variável dependente:� Numérica – Árvore de Regressão� Categórica – Árvore de Classificação

Page 4: Uma introdução aos modelos uni e multivariados de ...apresentacao-cesar01.pdf · 1.4 Exemplo 2. Árvores de Regressão multivariadas 3. Conclusão 4. Referências. ... Validação

1. Árvores de Classificação e Regressão - CART)

� Alternativa ou complemento a procedimentos estatísticos de classificação e regressão como:

� Regressão linear múltipla;

� Regressão logística;

� Análise de sobrevivência;

� Análise discriminante;

� Análise de agrupamentos, dentre outros.

Page 5: Uma introdução aos modelos uni e multivariados de ...apresentacao-cesar01.pdf · 1.4 Exemplo 2. Árvores de Regressão multivariadas 3. Conclusão 4. Referências. ... Validação

1.1 Atrativos

� Procedimento de simples aplicação;

� Possibilidade de modelar dados com estruturas complexas:

� Dados desbalanceados;� Dados faltantes;� Grande número de variáveis independentes.

� Detecção de interações de ordens elevadas;

� Ausência de pressuposições paramétricas;

� Produção de resultados facilmente interpretáveis.

Page 6: Uma introdução aos modelos uni e multivariados de ...apresentacao-cesar01.pdf · 1.4 Exemplo 2. Árvores de Regressão multivariadas 3. Conclusão 4. Referências. ... Validação

1.2 Representação

inicial

Ramo

Ramo

Interm.

Nó final

Nó final

Nó final

Figura 1 – Ilustração de uma árvore de regressão/classificação

Page 7: Uma introdução aos modelos uni e multivariados de ...apresentacao-cesar01.pdf · 1.4 Exemplo 2. Árvores de Regressão multivariadas 3. Conclusão 4. Referências. ... Validação

1.3 Construção das árvores

� Definição e execução de um critério de partição;

� Poda;

� Seleção do modelo;

� Caracterização dos nós finais.

Page 8: Uma introdução aos modelos uni e multivariados de ...apresentacao-cesar01.pdf · 1.4 Exemplo 2. Árvores de Regressão multivariadas 3. Conclusão 4. Referências. ... Validação

1.3.1 Definição e execução de um critério de partição

As partições devem ser realizadas com base nos resultados das

co-variáveis.

� Seja { }, , 1,2,...,j j

Y j n=X observações de uma variável dependente Y

e de um vetor p-dimensional de variáveis independentes X .

Deve-se partir a amostra original em duas, agrupando

observações de acordo com respostas a questões do tipo:

Page 9: Uma introdução aos modelos uni e multivariados de ...apresentacao-cesar01.pdf · 1.4 Exemplo 2. Árvores de Regressão multivariadas 3. Conclusão 4. Referências. ... Validação

1.3.1 Definição e execução de um critério de partição

� Para covariáveis numéricas: “ τ≤ijX ?"

� ijX : valor da ésimai − variável no elemento j ; � τ : qualquer valor amostrado ésimai − variável.

� Para covariáveis categorizadas: “ Axij ∈ ?"

� A : qualquer categoria (ou subconjunto de categorias) de iX .

Page 10: Uma introdução aos modelos uni e multivariados de ...apresentacao-cesar01.pdf · 1.4 Exemplo 2. Árvores de Regressão multivariadas 3. Conclusão 4. Referências. ... Validação

1.3.1 Definição e execução de um critério de partição

� Questão: Qual das possíveis partições deve ser executada?

� Aquela que melhor explicar a variação da resposta, constituindo sub-amostras pouco heterogêneas.

� Quantifica-se a heterogeneidade das sub-amostras constituídas por meio de alguma medida de impureza.

Page 11: Uma introdução aos modelos uni e multivariados de ...apresentacao-cesar01.pdf · 1.4 Exemplo 2. Árvores de Regressão multivariadas 3. Conclusão 4. Referências. ... Validação

1.3.1 Definição e execução de um critério de partição

� Medidas de impureza

� Para árvores de classificação: índice de entropia.

Considere um nó t qualquer. Dispõe-se, por exemplo,

da seguinte medida de impureza:

( ) ( )( )( ) | log |k

t p k t p k tφ = −∑

( )tkp | : proporção de observações pertencentes ao nó t e

à classe k.

Page 12: Uma introdução aos modelos uni e multivariados de ...apresentacao-cesar01.pdf · 1.4 Exemplo 2. Árvores de Regressão multivariadas 3. Conclusão 4. Referências. ... Validação

1.3.1 Definição e execução de um critério de partição

� Medidas de impureza

� Para árvores de regressão: índice ANOVA.

( ) ( ){ }∑ −=i

tytjyt2

|)(φ

( )tjy | : observação j em t ;

( )ty : média das observações no nó t .

Page 13: Uma introdução aos modelos uni e multivariados de ...apresentacao-cesar01.pdf · 1.4 Exemplo 2. Árvores de Regressão multivariadas 3. Conclusão 4. Referências. ... Validação

1.3.1 Definição e execução de um critério de partição

� Variação da impureza

Considere um nó t dividido em dois novos nós, Lt e Rt

baseado em uma partição s . A redução da impureza

produzida pela partição é calculada como:

( ) ( ) ( ) ( )R

RL

L tn

nt

n

ntts φφφφ −−=∆ ,

� Executa-se s que maxim iza ( )ts,φ∆ . � Procede-se igualmente em relação às sub-

amostras até a constituição de uma árvore com reduzido número de observações em cada nó final

Page 14: Uma introdução aos modelos uni e multivariados de ...apresentacao-cesar01.pdf · 1.4 Exemplo 2. Árvores de Regressão multivariadas 3. Conclusão 4. Referências. ... Validação

1.3.2 Poda

� Objetivo: Eliminar da árvore partições que pouco contribuem para a explicação da variável resposta.

� Método: Baseado nos valores de uma função de custo-complexidade:

Page 15: Uma introdução aos modelos uni e multivariados de ...apresentacao-cesar01.pdf · 1.4 Exemplo 2. Árvores de Regressão multivariadas 3. Conclusão 4. Referências. ... Validação

1.3.2 Poda

� Baseada na seguinte função de custo-complexidade:

( ) ( ) TTRTR~

αα +=

( ) ( )t T

R T tφ∈

= ∑�

: custo associado à taxa de má-classificação da árvore;

T~: número de nós finais da árvore;

0≥α : parâmetro de complexidade.

� Aumentando o valor de α a partir de zero obtém-se uma seqüência aninhada de árvores de tamanho decrescente, cada uma ótima para seu tamanho.

Page 16: Uma introdução aos modelos uni e multivariados de ...apresentacao-cesar01.pdf · 1.4 Exemplo 2. Árvores de Regressão multivariadas 3. Conclusão 4. Referências. ... Validação

1.3.3 Seleção do modelo

� Construção de um gráfico de custo-complexidade, representando as árvores da seqüência aninhada com custos estimados por validação cruzada;

� Seleção da árvore pela regra do desvio padrão (1-se rule – Breiman et al, 1984).

Page 17: Uma introdução aos modelos uni e multivariados de ...apresentacao-cesar01.pdf · 1.4 Exemplo 2. Árvores de Regressão multivariadas 3. Conclusão 4. Referências. ... Validação

1.3.3 Seleção do modelo

T am anho d a árvo re

Cu

sto

de

-cla

ssifi

ca

çã

o

1 S E

V alid aç ão c ruzad aR e -s ub s tituiç ão

Figura 2 - Curva de custo complexidade.

Page 18: Uma introdução aos modelos uni e multivariados de ...apresentacao-cesar01.pdf · 1.4 Exemplo 2. Árvores de Regressão multivariadas 3. Conclusão 4. Referências. ... Validação

1.3.4 Caracterização dos nós finais

� Árvores de classificação: por meio das proporções de ocorrências de cada uma das classes;

� Árvores de regressão: com a média das observações que formam o nó.

� Predição: Realizada conduzindo cada nova observação pela árvore e inferindo o valor da resposta de acordo com o valor característico do nó final ao qual foi alocada.

Page 19: Uma introdução aos modelos uni e multivariados de ...apresentacao-cesar01.pdf · 1.4 Exemplo 2. Árvores de Regressão multivariadas 3. Conclusão 4. Referências. ... Validação

1.4 Exemplo

� Dados: Distribuição de 12 espécies de aranhas caçadoras capturadas em armadilhas em dunas holandesas (Van de Art e Smeeck Enserinck, 1975). Foram amostradas 28 locações.

� Variáveis respostas:

� Abundâncias – tomadas as raízes quadrada

Page 20: Uma introdução aos modelos uni e multivariados de ...apresentacao-cesar01.pdf · 1.4 Exemplo 2. Árvores de Regressão multivariadas 3. Conclusão 4. Referências. ... Validação

1.4 Exemplo

� Variáveis ambientais:

� Mseca: logaritmo da porcentagem de matéria seca no solo;

� Areia: logaritmo da porcentagem de cobertura com areia;

� Galhos: logaritmo da porcentagem de cobertura com galhos e folhas;

� Musgos: logaritmo da porcentagem de cobertura com musgos;

� Capim: logaritmo da porcentagem de cobertura com capim;

� Ref: reflexão da superfície do solo com o céu encoberto.

� Nota: Amplitude das variáveis ambientais divididas em 10 classes, correspondentes aos valores inteiros entre zero e nove.

Page 21: Uma introdução aos modelos uni e multivariados de ...apresentacao-cesar01.pdf · 1.4 Exemplo 2. Árvores de Regressão multivariadas 3. Conclusão 4. Referências. ... Validação

1.4 Exemplo

Arcttosa lutetiana Pardosa lugubris Zora spinimana Pardosa nigriceps

Pardosa pullata Aulonia albimana Trochosa terricola Alopecosa cuneata

Pardosa monticola Alopecosa accentuata Alopecosa fabrilis Arctosa perita

Figura 2 – Aranhas caçadoras

Page 22: Uma introdução aos modelos uni e multivariados de ...apresentacao-cesar01.pdf · 1.4 Exemplo 2. Árvores de Regressão multivariadas 3. Conclusão 4. Referências. ... Validação

1.4 Exemplo

Espécie: A lopecosa accentuata

c p

X-v

al R

ela

tive

Err

or

0.2

0.4

0.6

0.8

1.0

1.2

1.4

In f 0 .3 0 .1 2 0 .0 4 0 .0 1 3

1 2 3 4 5

S i z e o f tre e

M i n + 1 S E

Figura 3 – G ráfico de custo-com plexidade

Page 23: Uma introdução aos modelos uni e multivariados de ...apresentacao-cesar01.pdf · 1.4 Exemplo 2. Árvores de Regressão multivariadas 3. Conclusão 4. Referências. ... Validação

1.4 Exemplo

ref< 7.5

ref< 4 capim< 5.5

ref>=7.5

ref>=4 capim>=5.5

0n=11

1.3333n=6 1.75

n=43.8571

n=7

Figura 4 – Árvore de regressão para Alopecosa accentuata

Page 24: Uma introdução aos modelos uni e multivariados de ...apresentacao-cesar01.pdf · 1.4 Exemplo 2. Árvores de Regressão multivariadas 3. Conclusão 4. Referências. ... Validação

1.4 Exemplo

Figura 5 – Partições

Page 25: Uma introdução aos modelos uni e multivariados de ...apresentacao-cesar01.pdf · 1.4 Exemplo 2. Árvores de Regressão multivariadas 3. Conclusão 4. Referências. ... Validação

1.4 Exemplo

capim< 6.5

musgos< 4.5 musgos< 6

capim>=6.5

musgos>=4.5 musgos>=6

0.21602n=9

2.2891n=8

3.0834n=8

8.403n=3

Figura 6 – Árvore de regressão para Pardosa monticola

Page 26: Uma introdução aos modelos uni e multivariados de ...apresentacao-cesar01.pdf · 1.4 Exemplo 2. Árvores de Regressão multivariadas 3. Conclusão 4. Referências. ... Validação

1.4 Exemplo

capim< 8.5

ref>=6

capim>=8.5

ref< 6

1.0789n=10

4.7329n=10

8.5003n=8

Figura 7 – Árvore de regressão para Trochosa terricola

Page 27: Uma introdução aos modelos uni e multivariados de ...apresentacao-cesar01.pdf · 1.4 Exemplo 2. Árvores de Regressão multivariadas 3. Conclusão 4. Referências. ... Validação

1.4 Exemplo

galhos< 8

mseca>=7.5

galhos>=8

mseca< 7.50.44418

n=20

2.0075n=5

4.6915n=3

Figura 8 – Árvore de regressão para Pardosa lugubris

Page 28: Uma introdução aos modelos uni e multivariados de ...apresentacao-cesar01.pdf · 1.4 Exemplo 2. Árvores de Regressão multivariadas 3. Conclusão 4. Referências. ... Validação

1.4 Exemplo

arct.lute

0 2 4 6 0 2 4 6 8 0 1 2 3 4 5

0.0

2.0

04 pard.lugu

zora.spin

02

4

04

8

pard.nigr

pard.pull

04

8

0.0 1.0 2.0 3.0

02

4

0 1 2 3 4 5 0 2 4 6 8

aulo.albi

Figura 9 – Gráficos de dispersão

Page 29: Uma introdução aos modelos uni e multivariados de ...apresentacao-cesar01.pdf · 1.4 Exemplo 2. Árvores de Regressão multivariadas 3. Conclusão 4. Referências. ... Validação

1.4 Exemplo

� Problemas:

� Elevado número de espécies;

� Correlação entre abundâncias das diferentes espécies.

� Solução:

� Análise multivariada

Page 30: Uma introdução aos modelos uni e multivariados de ...apresentacao-cesar01.pdf · 1.4 Exemplo 2. Árvores de Regressão multivariadas 3. Conclusão 4. Referências. ... Validação

2. Árvores de Regressão multivariadas (De Ath, 2002)

� Estudo da relação espécies/ambiente através da construção de árvores de regressão multivariadas.

� Objetivos :� Detectar quais fatores ambientais (ou combinações

dos mesmos) são responsáveis pela distribuição espacial das 12 espécies de aranhas caçadoras.

� Identificar e analisar a co-existência ou predominância de determinadas espécies em locações com diferentes características.

Page 31: Uma introdução aos modelos uni e multivariados de ...apresentacao-cesar01.pdf · 1.4 Exemplo 2. Árvores de Regressão multivariadas 3. Conclusão 4. Referências. ... Validação

2. Árvores de Regressão multivariadas

Tabela 2 - Alternativas de medidas de impureza (construção da árvore) e

de erro de predição (poda):

Descrição Impureza Erro de predição

Soma multivariada dos

quadrados dos desvios

em relação à média.

( )∑ −ji

jij yy,

2

( )∑ −∗

j

jyy2

Soma multivariada dos

desvios absolutos em

relação à mediana.

∑ −ji

jij yy,

~ ∑ −∗

j

jyy ~

Medidas de distância ∑> kki

ikd,

2

∑∑>

−kki

ik

i

i

n

d

n

d

,2

22

Page 32: Uma introdução aos modelos uni e multivariados de ...apresentacao-cesar01.pdf · 1.4 Exemplo 2. Árvores de Regressão multivariadas 3. Conclusão 4. Referências. ... Validação

2. Árvores de Regressão multivariadas

cp

X-v

al

Re

lati

ve

Err

or

0.2

0.4

0.6

0.8

1.0

1.2

Inf 0.27 0.1 0.059 0.041 0.035 0.026 0.014

1 2 3 4 5 6 7 8

Size of tree

M in + 1 SE

Figura 10 – Gráfico de complexidade para a árvore de regressão multivariada

Page 33: Uma introdução aos modelos uni e multivariados de ...apresentacao-cesar01.pdf · 1.4 Exemplo 2. Árvores de Regressão multivariadas 3. Conclusão 4. Referências. ... Validação

2. Árvores de Regressão multivariadasherbs< 8.5

twigs< 3.5

herbs>=8.5

twigs>=3.5

195 : n=11 116 : n=9

167 : n=8

arct.lute

pard.lugu

zora.spin

pard.nigr

pard.pull

aulo.albi

troc.terr

alop.cune

pard.mont

alop.acce

alop.fabr

arct.peri

Error : 0.336 CV Error : 0.425 SE : 0.0717

Figura 11 – Árvore de regressão multivariada

Page 34: Uma introdução aos modelos uni e multivariados de ...apresentacao-cesar01.pdf · 1.4 Exemplo 2. Árvores de Regressão multivariadas 3. Conclusão 4. Referências. ... Validação

2. Árvores de Regressão multivariadas

� Biplots (Gabriel, 1971)

� Gráfico bi-dimensional representando uma matriz de dados, com um ponto para cada uma das nobservações e um vetor para cada uma das pvariáveis

� A disposição dos pontos e vetores nos diferentes quadrantes do gráfico representa as correlações entre as variáveis e as observações.

Page 35: Uma introdução aos modelos uni e multivariados de ...apresentacao-cesar01.pdf · 1.4 Exemplo 2. Árvores de Regressão multivariadas 3. Conclusão 4. Referências. ... Validação

2. Árvores de Regressão multivariadas

Dim 1 82.07 % : [ 0.927 ]

D

im

2

17

.93

% :

[ 0

.85

4 ] arct.lute

pard.lugu

zora.spin

pard.nigr

pard.pull

aulo.albi

troc.terr

alop.cune

pard.mont

alop.acce

alop.fabr

arct.peri

Figura 12 – Tree biplot

Page 36: Uma introdução aos modelos uni e multivariados de ...apresentacao-cesar01.pdf · 1.4 Exemplo 2. Árvores de Regressão multivariadas 3. Conclusão 4. Referências. ... Validação

3. Conclusão

� CART

� Alternativa não paramétrica a diversos procedimentos estatísticos;

� Flexibilidade e simplicidade da técnica;

� Extensão multivariada: análise conjunta de duas ou mais variáveis respostas;

� Identificação de fatores ambientais associados à abundância de espécies de aranhas caçadoras.

Page 37: Uma introdução aos modelos uni e multivariados de ...apresentacao-cesar01.pdf · 1.4 Exemplo 2. Árvores de Regressão multivariadas 3. Conclusão 4. Referências. ... Validação

4. Referências� BREIMAN, L., J.H. FRIEDMAN, R.A. OLSHEN, AND C.G.

STONE. (1984), Classification and regression trees. Wadsworth International Group, California, 358p, 1984.

� DE’ATH, G. Multivariate Regression Trees: A New Technique for Modeling Species-Environment Relationships. Ecology, 83, 4, 1105–1117, 2002.

� GABRIEL, K. R. The biplot graphical display of matrices withapplication to principal component analysis. Biometrika,58, 453–467,1971.

� VAN DE ART, P.J., N. SMEECK ENSERINCK. Correlations between distributions of hunting spiders (Lycosidae, Ctenidae) and environmental characteristics in a dune área. Netherlands Journal of Zoology, 25,1-45, 1975.