Upload
others
View
12
Download
0
Embed Size (px)
Citation preview
Example 1: Données sur maladie coronarienne
Giorgio Russolillo – Régression Logistique 2
• ID: variable identifiante
• AGE: age
• CHD: diagnostic de maladie coronarienne
ID Age CHD
1 20 1
2 23 1
3 24 1
4 25 1
5 25 0
. . .
. . .
. . .
97 64 0
98 64 1
99 65 1
100 69 1
Tracé des variables CHD et age
• Le modèle linéaire n'est pas bien adapté et il n'est pas facile à interpréter
Giorgio Russolillo – Régression Logistique 3
AGE
70605040302010
CHD
1.2
1.0
.8
.6
.4
.2
0.0
-.2
f (xi ) = β0 + β1xi + ε i
Rappel: le modèle linéaire
Giorgio Russolillo – Régression Logistique 4
Modèle:yi = β0 + β1xi +εi
1. ε i ∼ N 0,σ 2( )2. ε i et ε i ' indépendants ∀ i ≠ i ' ⇒ cov(ε i ,ε i ' ) = 0
Hypothèses :
y ∼ N µ,σ 2( )E y | x( ) = µ = β0 + β1x
Modèles linéaires généralisés
• La variable dépendante est supposée être générée à partir d'une distribution spécifique de la famille exponentielle, une large gamme de distributions de probabilités comprenant les distributions normale, binomiale et de Poisson, entre autres.
• La moyenne, μ, de la distribution dépend d'une combinaison linéaire des variables indépendantes, X, par le biais d’une fonction non linéaire
• Cette fonction est l'inverse de la fonction dite de lien (link function), qui exprime le prédicteur linéaire en fonction de μ
Giorgio Russolillo – Régression Logistique 5
µ = g−1 β0 + β1x( )
β0 + β1x = g µ( )
Le modèle logistique : assomptions
La variable dépendante Y est modélisée comme une variable aléatoire de Bernoulli de paramètre π (probabilité que y = 1)
Giorgio Russolillo – Régression Logistique 6
f (Y ;π ) =π si Y = 11−π si Y = 0⎧⎨⎩
or f (Y ;π ) = π Y 1−π( )1−Y
E(Y ) = π var Y( ) = π 1−π( )
Fonction de masse (p.m.f.)
Espérance Variance
Le modèle logistique : assomptions • L'espérance π est modélisée en fonction de X: π (x).• En particulier, π dépend d’une combinaison linéaire (prédicteur linéaire) des
variables indépendantes par le biais de la fonction logistique
Giorgio Russolillo – Régression Logistique 7
(NB: la fonction logistique est bornée entre 0 et 1).
π x( ) = E Y | x( ) = g−1(β0 + β1x) =eβ0+β1x
eβ0+β1x +1= 1e− β0+β1x( ) +1
• Toute fonction de répartition de lois aléatoires continues avec la droite réelle comme support ont la même propriété. mais la fonction logistique a l’avantage de fournir de coefficients interprétables en tant que (log de) odds ratios
Autres fonctions de lien
Toute fonction de répartition de lois aléatoires continues avec la droite réelle comme support ont la même propriété (La même fonction logistique est la cpf de la v.a. logistique)
Giorgio Russolillo – Régression Logistique 8
Toutefois la fonction logistique a l’avantage de fournir de coefficients interprétables en tant que (log de) odds ratios
Autres fonctions de repartition utilisé:– Loi Normal (modèle probit)– Loi de Gumbel (modèle log-
log complémentaire)
Source: https://data.princeton.edu/wws509/notes/c3s7
De la fonction logistique à la fonction Logit
Dans la régression logistique, la fonction de lien est la fonction logit
Giorgio Russolillo – Régression Logistique 9
La logit fonction logit est le log des odds (chances, cotes) que Y soit 1 plutôt que 0
π = eβ0+β1x
eβ0+β1x +1eβ0+β1x +1( )π = eβ0+β1x
πeβ0+β1x +π = eβ0+β1x
eβ0+β1x π −1( ) = −π
eβ0+β1x = π1−π
β0 + β1x = logπ1−π⎛⎝⎜
⎞⎠⎟
Les odds (chances, cotes) pour un événement sont le rapport parmi la probabilité que l'événement se produise et la probabilité que cela n'arrivera pas
La fonction de lien implique que ..
• 𝛽1 = 0 (i.e. 𝑒𝛽1 = 1 and 𝑒𝛽0+𝛽1x = 𝑒𝛽0): Les odds (et la probabilité) que Y=1 est la même pour chaque niveau de 𝑥
• 𝛽1 > 0 (i.e. 𝑒𝛽1 > 1): Les odds (et la probabilité) que Y=1 augmentent lorque 𝑥 augmente
• 𝛽1 < 0 (i.e. 𝑒𝛽1 < 1): Les odds (et la probabilité) que Y = 1 diminuent avec l'augmentation de 𝑥
Giorgio Russolillo – Régression Logistique 10
eβ0+β1x = eβ0eβ1x = eβ0 eβ1( )x = π1−π
-2 -1 0 1 2
01
23
45
67
beta
exp(beta)
Interprétation du coefficient
Giorgio Russolillo – Régression Logistique 11
• Si x augmente d’une unité le log des odds augmente de β1
logπ x0+1
1−π x0+1
⎛
⎝⎜⎞
⎠⎟= β0 + β1 x0 +1( ) = β0 + β1x0 + β1 = ln
π x0
1−π x0
⎛
⎝⎜⎞
⎠⎟+ β1
Ex : Si β1 = 2, l’augmentation d’une unité de X multiplie les chances par e2 = 7.389.
π x0+1
1−π x0+1
= eβ0+β1 x0+1( ) = eβ0+β1x0 × eβ1 =π x0
1−π x0
× eβ1
• Si x augmente d’une unité les odds sont multipliés par eβ1
π x0= Pr Y =1| x = x0( )
eβ1 can be interpreted as an odds ratio (OR):π x0+1
1−π x0+1
=π x0
1−π x0
× eβ1 ⇒ eβ1 =π x0+1 /1−π x0+1
π x0/1−π x0
Variable indépendante dichotomique
XY x = 1 x = 0
y = 1
y = 0
Total 1 1
Giorgio Russolillo – Régression Logistique 12
π1 =eβ0+β1
eβ0+β1 +1
1−π1 =1
eβ0+β1 +11−π 0 =
1eβ0 +1
π 0 =eβ0
eβ0 +1
Valeurs de πk dans un modèle logistique avec une variable indépendante dichotomique
πk = Prob.(y = 1 | x = k) => 1-πk = Prob.(y = 0 | x = k)
π x( ) = eβ0+β1x
eβ0+β1x +1
Odds Ratio (Rapport des cotes)
Giorgio Russolillo – Régression Logistique 13
OR =π1 / 1−π1[ ]π 0 / 1−π 0[ ] =
eβ0+β1
eβ0+β1 +11
eβ0+β1 +1eβ0
eβ0 +11
eβ0 +1
= eβ0+β1
eβ0= eβ1 ⇒ ln OR( ) = β1
πk = Prob.(y = 1 | x = k)
Dans une régression logistique avec une seule variable indépendante dichotomique (codée 1 et 0), le rapport de cotes, défini comme le rapport entre les odds de x = 1 et de x = 0 est égal à l'exponentielle de β1
Log de l’Odds Ratio
Giorgio Russolillo – Régression Logistique 14
X (AGE)Y (CHD)
x = 1 (Age ≥ 55)
x = 0 (Age < 55) Total
y = 1 (Yes) 21 22 43
y = 0 (No) 6 51 57
Total 27 73 100
OR =π1 / 1− π1[ ]π 0 / 1− π 0[ ] =
21/ 27( )6 / 27( )
22 / 73( )51/ 73( )
= 21/ 622 / 51
= 8.11= eβ1
ln OR( ) = β1 = ln 8.11( ) = 2.09
πk = Prob.(y = 1 | x = k)
Variable indépendante polychotomique
Giorgio Russolillo – Régression Logistique 15
X (Nat)
Y (CHD)
x = 1 (U.S.)
x = 2 (Fr.)
x = 3 (Sp.)
x = 4 (It.) Total
y = 1 (Yes) 5 20 15 3 43
y = 0 (No) 20 10 10 17 57
Total 25 30 25 20 100
OR(1, 4) =π1 / 1− π1[ ]π 4 / 1− π 4[ ] =
5 / 25( ) 20 / 25( )3 / 20( ) 17 / 20( ) =
5 / 203 /17
=1.417 = eβ1
OR(2, 4) =π 2 / 1− π 2[ ]π 4 / 1− π 4[ ] =
20 /103 /17
=11.333 = eβ2
OR(3, 4) =π3 / 1− π3[ ]π 4 / 1− π 4[ ] =
15 /103 /17
= 8.5 = eβ3
OR(4, 4) =1= eβ4
β1 = ln 1.417( )β2 = ln(11.333)β3 = ln 8.5( )β4 = ln(1)
Groupe de référence :Italiens (x = 4)
Ajuster un modèle logistique binaire simple
On cherche les parametres β0 et β1 qui maximizent la fonction de vraisemblance L, c.à d. la probabilité d’observer les données
Giorgio Russolillo – Régression Logistique 16
maxβ0 ,β1
L β0,β1( )
L β0,β1( ) = Prob(Y = yi | X = xi )i=1
n
∏
= π iyi 1−π i( )1−yi
i=1
n
∏
∂ logL∂β01
= yi −π i[ ] = 0i=1
n
∑ ∂ logL∂β1
= xi yi −π i[ ] = 0i=1
n
∑
logL = yi lni=1
n
∑ π i( )+ 1− yi( ) ln 1−π i( )
∂ logL∂β01
= yi −eβ0+β1xi
1+ eβ0+β1xi
⎛⎝⎜
⎞⎠⎟
⎡
⎣⎢
⎤
⎦⎥ = 0
i=1
n
∑ ∂ logL∂β11
= xi yi −eβ0+β1xi
1+ eβ0+β1xi
⎛⎝⎜
⎞⎠⎟
⎡
⎣⎢
⎤
⎦⎥ = 0
i=1
n
∑
• Ces expressions ne sont pas linéaires dans les paramètres.
• Des méthodes itératives sont utilisées pour calculer leurs solutions
Estimation de la variabilité des parametres
La matrice
Giorgio Russolillo – Régression Logistique 17
V (β) =V (β0 ) Cov(β0 , β1)
Cov(β0 , β1) V (β1)
⎡
⎣
⎢⎢
⎤
⎦
⎥⎥
E ∂Log L(β )∂β
⎛⎝⎜
⎞⎠⎟
2⎡
⎣⎢⎢
⎤
⎦⎥⎥β=β
−1
= −E ∂2Log L(β )∂β 2
⎛⎝⎜
⎞⎠⎟
⎡
⎣⎢
⎤
⎦⎥β=β
−1
est estimée par la matrice (inverse de l’information de Fisher)
Estimation des probabilités
Giorgio Russolillo – Régression Logistique 18
estimation⎯ →⎯⎯⎯ β prédicteur linéaire β0+β1x
⎯ →⎯⎯⎯⎯ lnπ x( )
1− π x( )⎛⎝⎜
⎞⎠⎟ fonction logistique
eβ0+β1x
eβ0+β1x+1
⎯ →⎯⎯⎯⎯⎯ π
g(AGE) = ln π (AGE)1− π (AGE)⎛⎝⎜
⎞⎠⎟= −5.309 + 0.111× AGE
Fonction logit estimée
π (AGE)1− π (AGE)
= e−5.309+0.111×AGE
Odds
π (AGE) = eβ0+β1AGE
eβ0+β1AGE +1= e−5.309+0.111×AGE
1+ e−5.309+0.111×AGE
Probabilités estimées
Mesurer la qualité de l'ajustement
Giorgio Russolillo – Régression Logistique 19
• R2 de Cox & Snell:
• R2 ajusté de Nagelkerke:
• Mc Fadden:
• -2LogLikelihood (Deviance) of the fitted model
R2 = 1− L(β0 )L(β0, β1)
⎡
⎣⎢⎢
⎤
⎦⎥⎥
2n
Radj2 = R2
Rmax2
Max R2 =1− L(β0 )⎡⎣
⎤⎦
2n <1
Borné entre 0 et 1
RMF2 = 1−
Log L β0,β1( )Log L β0( )
Cette statistique a tendance à être faible et des valeurs de 0,2 à 0,4 sont à considérer satisfaisantes.
0.0 0.2 0.4 0.6 0.8 1.0
-4-3
-2-1
0
x
log(x)
Déviance
• Il joue le même rôle que la somme des carrés résiduels dans la régression linéaire
• Des valeurs élevées suggèrent que la ou les variables indépendantes ne sont pas utiles pour prédire la réponse.
• Le TRV se base sur la déviance pour évaluer l’importance de l’ensemble du modèle et des sous-modèles
Giorgio Russolillo – Régression Logistique 20
D = −2 ln (vraisemblance du modèle)(vraisemblance du modèle saturé)⎡⎣⎢
⎤⎦⎥
= −2 lnπ xi
yi 1− π xiyi( )1−yi
i=1
n
∏yiyi 1− yi( )1−yi
i=1
n
∏
⎡
⎣
⎢⎢⎢⎢
⎤
⎦
⎥⎥⎥⎥
= −2 yi lnπ xi
yi
⎛⎝⎜
⎞⎠⎟+ 1− yi( ) ln 1− π xi
1− yi
⎛⎝⎜
⎞⎠⎟
⎡
⎣⎢
⎤
⎦⎥
i=1
n
∑
= −2 ln π xiyi 1− π xi( )1−yi
i=1
n
∏⎡⎣⎢
⎤⎦⎥
= −2 yi ln π xi( )+ 1− yi( ) ln 1− π xi( )⎡⎣ ⎤⎦i=1
n
∑-2*(-53.67) = 107.35
1 if Y is binary
N.B.:In the saturatedmodel π xi
= yi
Evaluer la qualité du classement (pouvoir discriminant)
• Sensibilité: capacité de détecter les personnes malades parmi celles qui sont malades (Taux de vrais positifs)
• Spécificité: capacité de détecter les personnes en bonne santé parmi celles qui sont en bonne santé (Taux de vrais négatifs)
• 1 – Spécificité (antispécificité): risque d'assigner une personne en bonne santé au groupe de personnes malades (taux de faux positifs)
Giorgio Russolillo – Régression Logistique 21
Comment la sensibilité et la spécificité varient-elles tant que c change?Trouvons un compromis acceptable entre forte sensibilité et forte spécificité
ObservéPredite
CHDYes
CHDNo Total
CHD = Yes 29 (VP) 12 (FP) 41
CHD = No 14 (FN) 45 (VN) 59
Total 43 57 100
π i > cUne observation i est assignée au groupe {y = 1} si
If c = 0.5:
Sensibilité (Taux de v. p.) = 29/43Spécificité (Taux de v. n.) = 45/57Taux de faux positifs = 12/57Taux de faux négatifs = 14/43
Évaluer le pouvoir discriminant : La courbe ROC (Receiver Operating Characteristic)
Giorgio Russolillo – Régression Logistique 22
Seuil Sensibilité 1 - Specificité0.0000 1.000 1.0000.0515 1.000 0.9820.0629 1.000 0.9650.0697 1.000 0.9470.0773 0.977 0.9300.0903 0.977 0.8950.1046 0.977 0.860
. . .
. . .
. . .0.8912 0.023 .0001.0000 0.000 0.000
L’aire sous la courbe ROC est une mesure du pouvoir discriminant du modèle. Elle est égale à la probabilité de donner à un évènement (+) choisi au hasard avec un score plus élevé qu'un non-évènement choisi au hasard, à savoir P(score (x +) > score (x−))
= ta
ux d
e vr
ais
posi
tifs
= taux de faux positifs
Évaluer la calibration du modèle : Test de Hosmer et Lemeshow • Il évalue la qualité de l'ajustement du modèle• Les données sont triées selon l’ordre décroissante des probabilités estimées,
puis partitionnées en 10 groupes au maximum.
• Le test du chi deux est utilisé pour comparer les effectifs observés ( )
aux effectifs théoriques (attendus) ( ) pour Y = 1, ainsi que pour Y = 0.• Nombre de degrés de liberté = Nombre de groupes - 2
Giorgio Russolillo – Régression Logistique 23
yii∈Class∑
π ii∈Class∑
On ne veut pas rejeter H0 (pas de différence significative entre les distributions observées et théoriques)
O1g − E1g( )2E1g
+O0g − E0g( )2
E0gg=1
G
∑ ~ χG−22
O1g : Effectifs observés pour Y = 1 dans le groupe gE1g : Effectifs théoriques pour Y = 1 dans le groupe gO0g : Effectifs observés pour Y = 1 dans le groupe gE0g : Effectifs théoriques pour Y = 0 dans le groupe g
Evaluer la significativité d’un coefficient: le test de Wald
Giorgio Russolillo – Régression Logistique 24
Le modèle π(x) = P(Y =1 | X = x) = eβ0 +β1x
1+ eβ0 +β1x
Décision de rejeter H0 au niveau de risque : On rejete H0 si:
Wald ≥ χ1−α2 (1)
Test d’hypothese
β j
sβ j
∼ N(0.1)⇒β j2
sβ j
2 ∼ χ2 (1)Statistique de test de Wald
β12
sβ1
2 =0.111...( )2
0.024...( )2= 21.254Application à β1
H0 :β j = 0H1 :β j ≠ 0
α
p-value ≤α , i.e. Prob χ1−α2 (1) ≥ Wald( ) ≤α
Le test de Wald teste l'hypothèse nulle selon laquelle un paramètre est égal à une valeur (par exemple zéro).
Intervalles de confiance pour les coefficients
• Les intervalles de confiance pour β0 et β1 sont basés sur la statistique de Wald correspondante:
Giorgio Russolillo – Régression Logistique 25
β1 ± z1−α /2sβ1 β0 ± z1−α /2sβ0
Où z1-α/2 est le quantile d’ordre 1-α/2 d’une lois normale standard
Dans notre cas, pour 1-α = 0.95 ICβ1: 0.111±1.96 × 0.0241[ ] = [0.064;0.158]
ICeβ1:[e0.064;e0.158 ]
Intervalles de confiance pour les log des odds
Giorgio Russolillo – Régression Logistique 26
g x( ) = β0 + β1x = lnπ1− π⎛⎝⎜
⎞⎠⎟
Var(β0 + β1x) =Var(β0 )+ x2Var(β1)+ 2x ×Cov(β0 , β1)
ICg 50( ) 0.240 ±1.96 × 0.0650⎡⎣
⎤⎦= −0.260,0.740[ ]
ICg x( ) g x( ) ± z1−α /2 × Var g x( )( )⎡⎣
⎤⎦
g 50( ) = −5.31+ 0.111× 50 = 0.240
Var g 50( )( ) =1.28517+ 502 × 0.000576 + 2 ⋅50 ⋅ −0.026677( ) = 0.0650
1.1342
Voir la slide précedente
0.0242
Voir la slide précedente
706050403020
1.0
.8
.6
.4
.2
0.0
SUP95
INF95
PROBABILITE
Intervalles de confiance pour les probabilites
Giorgio Russolillo – Régression Logistique 27
ICπ (x ) :eg x( )−z1−α /2 Var g x( )( )
1+ eg x( )−z1−α /2 Var g x( )( ); eg x( )+z1−α /2 Var g x( )( )
1+ eg x( )+z1−α /2 Var g x( )( )
⎡
⎣⎢⎢
⎤
⎦⎥⎥
π(x) = eβ0 +β1x
1+ eβ0 +β1x= eg x( )
1+ eg x( )
π(50) = e−5.31+0.111×50
1+ e−5.31+0.111×50
ICπ (50)e−0.260
1+ e−0.260; e0.740
1+ e0.740⎡
⎣⎢
⎤
⎦⎥= 0.435,0.677[ ]
Estimation de la probabilité d’avoir la maladie pour quelqu'un de 50 ans
G = D(model without the variable)−D(model with the variable) ~ χ df1−df2( )2
= −2 ln (likelihood without the variable)(likelihood with the variable)
⎡⎣⎢
⎤⎦⎥
= −2 lnn1 / n( )n1 n0 / n( )n0
π iyi 1− π i( )1−yi∏
⎡
⎣⎢⎢
⎤
⎦⎥⎥
= −2 n1 ln n1( )+ n0 ln n0( )− n ln n( )⎡⎣ ⎤⎦ − yi lni=1
n
∑ π i( )+ 1− yi( ) ln 1− π i( )⎡⎣⎢
⎤⎦⎥
⎧⎨⎩
⎫⎬⎭
= −2 43ln 43( )+ 57ln 57( )−100 ln 100( )⎡⎣ ⎤⎦ − −53.677[ ]{ } = −2 −68.331[ ]− −53.677[ ]{ } = = 2 × 68.331[ ]− 2 × 53.677[ ] =136.66 - 107.35 = 29.31
Evaluer la significativité du modèle: Test du rapport des vraisemblances (TRV)
Giorgio Russolillo – Régression Logistique 28
n1: Nb y=1n0: Nb y=0
LogVrais. du modèle nulle
LogVrais. du modèle
Deviance du modèle nulleDéviance du modèle
(-2LogLik )
Valeur observée de Statistique du TRV
Evaluer la significativité des coefficients: le test du Score de Rao • Il est basé sur la pente de la fonction de vraisemblance au point
correspondant aux valeurs observées dans le modèle
• Cette pente estimée, ou "score", est ensuite utilisée pour estimer l'amélioration de l'ajustement du modèle si des variables supplémentaires étaient incluses dans le modèle.
• La statistique de test est le changement attendu de la statistique du chi-deux pour le modèle si une variable ou un ensemble de variables est ajouté au modèle (c'est-à-dire si un ou plusieurs paramètres actuellement soumis à des contraintes peuvent être estimés librement.
Giorgio Russolillo – Régression Logistique 29
Statistique du TRVStatistique du test du scoreDéviance du modèle nulle
Déviance du modèle
Test du rapport de vraisemblances, de Wald et du Score
Giorgio Russolillo – Régression Logistique 30
Source: http://www.ats.ucla.edu/stat/mult_pkg/faq/general/nested_tests.htm
Régression logistique Multiple
Giorgio Russolillo – Régression Logistique 31
π x( ) = E Y | x( ) = g−1 β0 + β j x jj=1
J
∑⎛
⎝⎜⎞
⎠⎟= e
β0+ β j x jj=1
J
∑
eβ0+ β j x j
j=1
J
∑+1
= 1
e− β0+ β j x j
j=1
J
∑⎛
⎝⎜⎜
⎞
⎠⎟⎟+1
FonctionLogistique :
β0 + β j x jj∑ = g π( ) = ln π x( )1− π x( )⎛
⎝⎜⎜
⎞
⎠⎟⎟Fonction Logit:
Odds:
π x( )1− π x( )
= eβ0 + β j x jj∑ = eβ0 × eβ1( )x1 × eβ2( )x2 ×…× eβJ( )xJ
Evaluer la significativité de groupes de coefficients
Giorgio Russolillo – Régression Logistique 32
Le modéle π(x) = P(Y =1 / X = x) = eβ0 +β1x1+...+βJ xJ
1+ eβ0 +β1x1+...+βJ xJ
Hypothèses du Test
Statistiques de test
1. LRT = [-2Log L(Modèle Reduit)] - [-2Log L(Modèle Complet)]
2. Wald = βr+1,..., βJ⎡⎣
⎤⎦ Var
βr+1
!
βJ
⎛
⎝
⎜⎜⎜
⎞
⎠
⎟⎟⎟
⎡
⎣
⎢⎢⎢⎢
⎤
⎦
⎥⎥⎥⎥
−1
βr+1
!
βJ
⎡
⎣
⎢⎢⎢⎢
⎤
⎦
⎥⎥⎥⎥
H0 :βr+1 = ...= βJ = 0H1 : au moins un β j ≠ 0
3. Score test
Règle de décision
Giorgio Russolillo – Régression Logistique 33
On rejet au niveau de risque α de se tromper
si
Ou bien si
H0 :βr+1 = ...= βJ = 0
Statistique obs.≥ χ1−α2 J − r[ ] (P-value)
Prob χ 2 J − r[ ]≥ statistique obs.( ) ≤α
Exemple 2: prediction de faillite
Les rapports suivants ont été observés sur 46 entreprises :
• X1 = Flux de trésorerie (Cash Flow) / Dette totale• X2 = Revenu net /Total de l'actif• X3 = Actif à court terme / Passif à court terme• X4 = Actif à court terme / Ventes nettes
Deux ans plus tard, 21 entreprises ont fait faillite et 25 ont conservé leur bonne santé financière:
• Y = Oui en cas de faillite, Non si non
Giorgio Russolillo – Régression Logistique 34
Evaluation de la significativité des coefficients
Giorgio Russolillo – Régression Logistique 35
X1 X2 X3 X4
X1 = Cash Flow /Total Debt (Flux de trésorerie / Dette totale)X2 = Net Income / Total assets (Revenu net /Total de l'actif)X3 = Current assets / Current Liabilities (Actif à court terme / Passif à court terme)X4 = Current assets / Net Sales (Actif à court terme / Ventes nettes)
Correlations
Giorgio Russolillo – Régression Logistique 36
X2
X1
X3
X4
ACP des entreprises
Giorgio Russolillo – Régression Logistique 37
ACP des entreprises (sans x4)
Giorgio Russolillo – Régression Logistique 38
Procedure de selection pas à pas : Backward stepwise
• Nous partons du modèle complet.
• A chaque étape, on enlève la variable avec la plus petite valeur statistique pour une statistique (ici AIC)
Giorgio Russolillo – Régression Logistique 39
Régression pas à pas: modéle final
Giorgio Russolillo – Régression Logistique 40
Carte des entreprises dans le plan(X1, X3)
Giorgio Russolillo – Régression Logistique 41
cash flow / total debt
.6.4.2-.0-.2-.4-.6
curr
ent a
sset
s / c
urre
nt li
abilit
ies
6
5
4
3
2
1
0
FAILLITE
F
NF
46
45
44
43
42
41
40
39
38
3736
35
34
33
32
31
30
29
28
2726
25
24
23
22
2120
19
1817
1615
14
13
12
11
10 987
6
54
3
2
1 FailliteF
NF
Act
if à
cour
t ter
me
/ Pas
sif à
cou
rt te
rme
Flux de trésorerie (Cash Flow) / Dette totale
cash flow / total debt
.6.4.2-.0-.2-.4-.6
curr
ent a
sset
s / c
urre
nt li
abilit
ies
6
5
4
3
2
1
0
46
42
3922
41
44
24
16
2627
38
30
4325
31
45373632
15
34
35
20
28
23
912
3
187
19
1329
8417
33
510
6
11
1421
40
1
2
Carte des entreprises dans le plan(X1, X3) avec la fonction discriminante de la régr. logistique
Giorgio Russolillo – Régression Logistique 42
Prob(Y = Yes | X) = e5.940−6.556×X1−3.019×X3
1+ e5.940−6.556×X1−3.019×X3= 0.5 ⇒ e5.940−6.556×X1−3.019×X3 = 1
⇒ 5.940 − 6.556 × X1 − 3.019 × X3 = 0 ⇒ X3 =5.940 − 6.556 × X1
3.019
Curre
nt A
sset
s / C
urre
nt L
iabi
litie
s A
ctif
à co
urt t
erm
e / P
assif
à c
ourt
term
e
Flux de trésorerie (Cash Flow) / Dette totale
NB : Linéaire!
Régression Logistique vs AD de Fisher
Giorgio Russolillo – Régression Logistique 43
• Les deux sont des classificateurs linéaires• Apprentissage génératif (estimation de P (X | Y = k)) vs discriminant
(estimation de (P (Y | x = xi))• L’AD est plus affectée par les valeurs (très) aberrantes• Si les données d'un modèle de régression logistique à deux classes peuvent
être parfaitement séparées par un hyperplan, les estimations des paramètres issues du maximum de vraisemblance ne sont pas définies.
• Le modéle de l’AD suppose que les observations sont tirées d'une distribution gaussienne avec une matrice de covariance commune dans chaque classe. Lorsque cette hypothèse est approximativement vérifiée l’AD marche mieux de la régression logistique. Inversement, la régression logistique peut surperformer l’AD si ces hypothèses ne sont pas satisfaites.
• Dans les deux cas, en pratique on ne observe pas des différences importantes: Résultats très similaires surtout si la taille de l'échantillon est grand
44Giorgio Russolillo – Régression Logistique
This presentation is made available through a Creative Commons Attribution-Noncommercial license. Details of the license and permitted uses are available at
http://creativecommons.org/licenses/by-nc/3.0/
© 2018 G. Russolillo – Régression Logistique Title: Régression logistique – STA201 Attribution: . G. Russolillo, CNAM