10
12/05/15 1 知識処理論 井元清哉 東京大学医科学研究所 ヒトゲノム解析センター DNA情報解析分野 h&p://bonsai.hgc.jp/~imoto [email protected] 平成24年度 東京大学理学部情報科学科 理7-214 月曜2限10:30~12:00 2011年5月14日(月) 線形重回帰モデルの変数選択 AIC(M k ) = nlogσ 2 + 2|M k | 赤池情報量規準(AIC; Akaike, 1973) β = (β 1 , β 2 , β 3 , β 4 ,..., β p ) Τ β = (β 1 , 0, 0, 0,..., 0) Τ β = (β 1 , β 2 , 0, 0,..., 0) Τ ... M 1 M 2 M k : Model M 1 : Model M 2 Note: 定数項は除いています ^ i ip p i i x x x y ε β β β β + + + + + = 22 2 1 1 0 β M k の非ゼロ成分の数 ˆ M = arg min k AIC( M k )

知識処理論 - HGCbonsai.hgc.jp/~imoto/TSR120514.pdf · 12/05/15 2 線形重回帰モデル データ: (x i1,x i2,...,x ip,y i) 線形重回帰モデル: y i = β 0 + β 1

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 知識処理論 - HGCbonsai.hgc.jp/~imoto/TSR120514.pdf · 12/05/15 2 線形重回帰モデル データ: (x i1,x i2,...,x ip,y i) 線形重回帰モデル: y i = β 0 + β 1

12/05/15

1

知識処理論

井元清哉  東京大学医科学研究所  ヒトゲノム解析センター  DNA情報解析分野  

h&p://bonsai.hgc.jp/~imoto  [email protected]­‐tokyo.ac.jp

平成24年度 東京大学理学部情報科学科

理7-214

月曜2限10:30~12:00

2011年5月14日(月)

線形重回帰モデルの変数選択

AIC(Mk) = nlogσ2 + 2|Mk|

赤池情報量規準(AIC;  Akaike,  1973)

β = (β1, β2, β3, β4,..., βp)Τ

β = (β1, 0, 0, 0,..., 0)Τ

β = (β1, β2, 0, 0,..., 0)Τ

...

M1

M2

Mk

:  Model  M1

:  Model  M2

Note:  定数項は除いています

^

iippii xxxy εββββ +++++= 222110

β Mk の非ゼロ成分の数 M̂ = argmink AIC(Mk )

Page 2: 知識処理論 - HGCbonsai.hgc.jp/~imoto/TSR120514.pdf · 12/05/15 2 線形重回帰モデル データ: (x i1,x i2,...,x ip,y i) 線形重回帰モデル: y i = β 0 + β 1

12/05/15

2

線形重回帰モデル

データ: (xi1, xi2,..., xip, yi )線形重回帰モデル:

iippii xxxy εββββ +++++= 222110

y  を説明(予測)するための変数が p  個ある。  

統計的モデル選択

どれが必要なものであろうか?

線形重回帰モデルの変数選択

AIC(Mk) = nlogσ2 + 2|Mk|

赤池情報量規準(AIC;  Akaike,  1973)

β = (β1, β2, β3, β4,..., βp)Τ

β = (β1, 0, 0, 0,..., 0)Τ

β = (β1, β2, 0, 0,..., 0)Τ

...

M1

M2

Mk

:  Model  M1

:  Model  M2

Note:  定数項は除いています

^

iippii xxxy εββββ +++++= 222110

β Mk の非ゼロ成分の数 M̂ = argmink AIC(Mk )

Page 3: 知識処理論 - HGCbonsai.hgc.jp/~imoto/TSR120514.pdf · 12/05/15 2 線形重回帰モデル データ: (x i1,x i2,...,x ip,y i) 線形重回帰モデル: y i = β 0 + β 1

12/05/15

3

候補モデルの数

β = (β1, β2, β3, β4,..., βp)Τ

それぞれのパラメータが  0  か否か 2p

10  程度の  p  なら完全探索が出来るが、100  だと?

変数増加法

β = (β1, 0, 0, 0,..., 0)Τ

β = (0, β2, 0, 0,..., 0)Τ

β = (0, 0, β3, 0,..., 0)Τ

β = (0, 0, 0, 0,..., βp)Τ

A  Greedy  Search

...

β = (β1, β2, 0, 0,..., 0)Τ

β = (0, β2, β3, 0,..., 0)Τ

β = (0, β2, 0, 0,..., βp)Τ

変数が1つのモデル 変数が2つのモデル

Score Score 112

101

141

135

√ 92

111

97

Page 4: 知識処理論 - HGCbonsai.hgc.jp/~imoto/TSR120514.pdf · 12/05/15 2 線形重回帰モデル データ: (x i1,x i2,...,x ip,y i) 線形重回帰モデル: y i = β 0 + β 1

12/05/15

4

Lasso  (Tibshirani,  JRSS  B,  1996)

x x

最小二乗推定量 Lasso  推定量

β1 はゼロ。

SL (! ) = (y! X! )T (y! X! )+" ! j

j=1

p

# を最小にする  β  を求める  

! jj=1

p

! < t の下で (y! X! )T (y! X! ) の最小化

ラグランジュの未定係数法

β1

β2

簡単な数値実験

X1, X2,..., X300 ~ N(0,1)

Y = x1 - x2 + x3 ‒ x4 + ε, ε ~ N(0,4)

{(xi1, xi2,..., xip, yi );i =1,..., 400}データ:

Page 5: 知識処理論 - HGCbonsai.hgc.jp/~imoto/TSR120514.pdf · 12/05/15 2 線形重回帰モデル データ: (x i1,x i2,...,x ip,y i) 線形重回帰モデル: y i = β 0 + β 1

12/05/15

5

最小2乗法で推定された300個のパラメータ値

0 50 100 150 200 250 300

-1.0

-0.5

0.0

0.5

1.0

Variable

Est

imat

ed C

oeffi

cien

t

Lasso  パラメータの選択

5e-04 5e-03 5e-02 5e-01

2400

2600

2800

3000

3200

3400

3600

log(lambda)

BIC

Page 6: 知識処理論 - HGCbonsai.hgc.jp/~imoto/TSR120514.pdf · 12/05/15 2 線形重回帰モデル データ: (x i1,x i2,...,x ip,y i) 線形重回帰モデル: y i = β 0 + β 1

12/05/15

6

各 λ  におけるパラメータの推定値

-8 -6 -4 -2 0

-1.0

-0.5

0.0

0.5

1.0

Log Lambda

Coefficients

300 294 258 111 3

X1 X3

X2

X4

X224

ベイズ型モデル評価基準  BIC  Bayesian  Informa1on  Criterion

データ: },...,{ 1 nn xx=xモデル: jp

jjjjj RxfM ⊂Θ∈θθ ),|(:

∫= jjjjnjjn dfMp θθθxx )()|()|( π

)|()Pr()|Pr( jnjnj MpMM xx ∝モデル Mj  の事後確率:

周辺尤度:

npfMp jjnjjn log2)ˆ|(log2)|(log2 +−≈− θxx

npfM jjnjj log2)ˆ|(log2)(BIC +−= θx

近似:

)}|({logmaxargˆjnjj f

jθxθ θ=

Page 7: 知識処理論 - HGCbonsai.hgc.jp/~imoto/TSR120514.pdf · 12/05/15 2 線形重回帰モデル データ: (x i1,x i2,...,x ip,y i) 線形重回帰モデル: y i = β 0 + β 1

12/05/15

7

Ridge  推定量 と      Lasso  推定量 SL (! ) = (y! X! )

T (y! X! )+" ! jj=1

p

#S! (! ) = (y! X! )T (y! X! )+!! T!

x x

最小二乗推定量

Lasso  推定量

β1 はゼロ。

β1

β2

x

x

最小二乗推定量

Ridge  推定量

β1

β2

Ridge  推定量再考

!̂P = (XTX +!I )!1XT y

!̂P =min!S! (! ) は次式で与えられる:  

今、X = (x(1),...,x(p))  において、各 x(i) = (x1i,...,xni)T  が平均  0  にシフトされている  

このとき、XTX  は

(i, i) 成分 xki2

k=1

n

! = (xki " xi )2

k=1

n

! = n #Var(Xi )

(i, j) 成分 xkixkjk=1

n

! = (xki " xi )(xkj " x j )k=1

n

! = n #Cov(Xi,Xj )

Page 8: 知識処理論 - HGCbonsai.hgc.jp/~imoto/TSR120514.pdf · 12/05/15 2 線形重回帰モデル データ: (x i1,x i2,...,x ip,y i) 線形重回帰モデル: y i = β 0 + β 1

12/05/15

8

最小2乗推定量 Ridge  推定量

(i, i) 成分

(i, j) 成分 Cov(Xi,Xj )Var(Xi )

Cov(Xi,Xj )Var(Xi )+ n ! "

>

Xi (Xj) の分散を大きく見せることで、相対的に  

Xi  と Xj  の共分散を小さく見せている

行列 X の列ベクトルが張る空間 x(1)

x( p)

y

X(XTX)!1XT y

X = (x(0),..., x( p) )

x(i) x( j )Xi  と Xj  は同じような情報を持っている  

どちらかで良いんじゃない?

Page 9: 知識処理論 - HGCbonsai.hgc.jp/~imoto/TSR120514.pdf · 12/05/15 2 線形重回帰モデル データ: (x i1,x i2,...,x ip,y i) 線形重回帰モデル: y i = β 0 + β 1

12/05/15

9

ケチの原理 Parsimonious  Principle

AIC(Mk) = nlogσ2 + 2|Mk| Mk

^

尤度の項  =  モデルのデータへの当てはまりの程度を表す

もし、Xi  と Xj  は同じような情報を持っているならば、Xi  と Xj の両方を入れた  モデル M  と片方だけのモデル M’ はデータへの当てはまりはあまり変わらない          ならば、第2項のパラメータ数が少ないモデルが良いモデル  

データ数とパラメータ数の関係にも注意

M ^ σ2 σ2 M’

^ !

モデルと解釈

データから構築された統計モデルは、データを取得した分野における  専門的な観点から評価・解釈される。

Xi  と Xj  は同じような変数なのに、なんで Xi  だけ採用されて Xj  は採用  されないのか?

もし、Xi  と Xj  が本当は同じ情報を持っていたとしても、データ数は有限  であるため、たまたまの計測ノイズの乗り方でどちらが選ばれるかが  決まってしまう。

推定されたモデルの解釈が困難になる。

Ridge  推定量は、変数間の共分散(相関)を相対的に小さく見せることによって  それらの変数を積極的にモデルに取り込む方法とも見なすことが出来る。

Page 10: 知識処理論 - HGCbonsai.hgc.jp/~imoto/TSR120514.pdf · 12/05/15 2 線形重回帰モデル データ: (x i1,x i2,...,x ip,y i) 線形重回帰モデル: y i = β 0 + β 1

12/05/15

10

Lasso  で選ばれる変数 Lasso  には、Ridge  推定量のように変数間の共分散を小さく見せるといった  トリックは入っていない。

つまり、Lasso  で選ばれる変数は、最小2乗推定量+情報量規準による  モデル選択と同じ性質を持つ。

類似性の高い(グループを形成するような)変数から1つの変数を選ぶのではなく  それらの変数の多くをモデルに残し、かつ、変数選択が  Lasso  のように自動的に  出来るような方法。    Elas\c  net  という方法がある。

Elas1c  net  (Zou  and  Has\e,  JRSS  B,  2005)  

SE (! ) = (y! X! )T (y! X! )+" ! j

j=1

p

# +$2

! j2

j=1

p

# を最小にする  β  を求める  

Lasso Ridge

変数選択 X  の共分散構造を考慮