Régression Logistiquemaths.cnam.fr/IMG/pdf/logistic_regr_fr_cle479dfe.pdf · • L'espérance π est modélisée en fonction de X: π (x). • En particulier, π dépend d’une

Giorgio [email protected]

STA201 - Analyse Mutivariée Approfondie

Régression Logistique

Example 1: Données sur maladie coronarienne

Giorgio Russolillo – Régression Logistique 2

•  ID: variable identifiante

•  AGE: age

•  CHD: diagnostic de maladie coronarienne

ID Age CHD

1 20 1

2 23 1

3 24 1

4 25 1

5 25 0

. . .

. . .

. . .

97 64 0

98 64 1

99 65 1

100 69 1

Tracé des variables CHD et age

•  Le modèle linéaire n'est pas bien adapté et il n'est pas facile à interpréter


AGE

70605040302010

CHD

1.2

1.0

.8

.6

.4

.2

0.0

-.2

f (xi ) = β0 + β1xi + ε i

Rappel: le modèle linéaire


Modèle:yi = β0 + β1xi +εi

1. ε i ∼ N 0,σ 2( )2. ε i et ε i ' indépendants ∀ i ≠ i ' ⇒ cov(ε i ,ε i ' ) = 0

Hypothèses :

y ∼ N µ,σ 2( )E y | x( ) = µ = β0 + β1x

Modèles linéaires généralisés

•  La variable dépendante est supposée être générée à partir d'une distribution spécifique de la famille exponentielle, une large gamme de distributions de probabilités comprenant les distributions normale, binomiale et de Poisson, entre autres.

•  La moyenne, μ, de la distribution dépend d'une combinaison linéaire des variables indépendantes, X, par le biais d’une fonction non linéaire

•  Cette fonction est l'inverse de la fonction dite de lien (link function), qui exprime le prédicteur linéaire en fonction de μ


µ = g−1 β0 + β1x( )

β0 + β1x = g µ( )

Le modèle logistique : assomptions

La variable dépendante Y est modélisée comme une variable aléatoire de Bernoulli de paramètre π (probabilité que y = 1)


f (Y ;π ) =π si Y = 11−π si Y = 0⎧⎨⎩

or f (Y ;π ) = π Y 1−π( )1−Y

E(Y ) = π var Y( ) = π 1−π( )

Fonction de masse (p.m.f.)

Espérance Variance

Le modèle logistique : assomptions •  L'espérance π est modélisée en fonction de X: π (x).•  En particulier, π dépend d’une combinaison linéaire (prédicteur linéaire) des

variables indépendantes par le biais de la fonction logistique


(NB: la fonction logistique est bornée entre 0 et 1).

π x( ) = E Y | x( ) = g−1(β0 + β1x) =eβ0+β1x

eβ0+β1x +1= 1e− β0+β1x( ) +1

•  Toute fonction de répartition de lois aléatoires continues avec la droite réelle comme support ont la même propriété. mais la fonction logistique a l’avantage de fournir de coefficients interprétables en tant que (log de) odds ratios

Autres fonctions de lien

Toute fonction de répartition de lois aléatoires continues avec la droite réelle comme support ont la même propriété (La même fonction logistique est la cpf de la v.a. logistique)


Toutefois la fonction logistique a l’avantage de fournir de coefficients interprétables en tant que (log de) odds ratios

Autres fonctions de repartition utilisé:–  Loi Normal (modèle probit)–  Loi de Gumbel (modèle log-

log complémentaire)

Source: https://data.princeton.edu/wws509/notes/c3s7

De la fonction logistique à la fonction Logit

Dans la régression logistique, la fonction de lien est la fonction logit


La logit fonction logit est le log des odds (chances, cotes) que Y soit 1 plutôt que 0

π = eβ0+β1x

eβ0+β1x +1eβ0+β1x +1( )π = eβ0+β1x

πeβ0+β1x +π = eβ0+β1x

eβ0+β1x π −1( ) = −π

eβ0+β1x = π1−π

β0 + β1x = logπ1−π⎛⎝⎜

⎞⎠⎟

Les odds (chances, cotes) pour un événement sont le rapport parmi la probabilité que l'événement se produise et la probabilité que cela n'arrivera pas

La fonction de lien implique que ..

•  𝛽1 = 0 (i.e. 𝑒𝛽1 = 1 and 𝑒𝛽0+𝛽1x = 𝑒𝛽0): Les odds (et la probabilité) que Y=1 est la même pour chaque niveau de 𝑥

•  𝛽1 > 0 (i.e. 𝑒𝛽1 > 1): Les odds (et la probabilité) que Y=1 augmentent lorque 𝑥 augmente

•  𝛽1 < 0 (i.e. 𝑒𝛽1 < 1): Les odds (et la probabilité) que Y = 1 diminuent avec l'augmentation de 𝑥


eβ0+β1x = eβ0eβ1x = eβ0 eβ1( )x = π1−π

-2 -1 0 1 2

01

23

45

67

beta

exp(beta)

Interprétation du coefficient


•  Si x augmente d’une unité le log des odds augmente de β1

logπ x0+1

1−π x0+1

⎛

⎝⎜⎞

⎠⎟= β0 + β1 x0 +1( ) = β0 + β1x0 + β1 = ln

π x0

1−π x0

⎛

⎝⎜⎞

⎠⎟+ β1

Ex : Si β1 = 2, l’augmentation d’une unité de X multiplie les chances par e2 = 7.389.

π x0+1

1−π x0+1

= eβ0+β1 x0+1( ) = eβ0+β1x0 × eβ1 =π x0

1−π x0

× eβ1

•  Si x augmente d’une unité les odds sont multipliés par eβ1

π x0= Pr Y =1| x = x0( )

eβ1 can be interpreted as an odds ratio (OR):π x0+1

1−π x0+1

=π x0

1−π x0

× eβ1 ⇒ eβ1 =π x0+1 /1−π x0+1

π x0/1−π x0

Variable indépendante dichotomique

XY x = 1 x = 0

y = 1

y = 0

Total 1 1


π1 =eβ0+β1

eβ0+β1 +1

1−π1 =1

eβ0+β1 +11−π 0 =

1eβ0 +1

π 0 =eβ0

eβ0 +1

Valeurs de πk dans un modèle logistique avec une variable indépendante dichotomique

πk = Prob.(y = 1 | x = k) => 1-πk = Prob.(y = 0 | x = k)

π x( ) = eβ0+β1x

eβ0+β1x +1

Odds Ratio (Rapport des cotes)


OR =π1 / 1−π1[ ]π 0 / 1−π 0[ ] =

eβ0+β1

eβ0+β1 +11

eβ0+β1 +1eβ0

eβ0 +11

eβ0 +1

= eβ0+β1

eβ0= eβ1 ⇒ ln OR( ) = β1

πk = Prob.(y = 1 | x = k)

Dans une régression logistique avec une seule variable indépendante dichotomique (codée 1 et 0), le rapport de cotes, défini comme le rapport entre les odds de x = 1 et de x = 0 est égal à l'exponentielle de β1

Log de l’Odds Ratio


X (AGE)Y (CHD)

x = 1 (Age ≥ 55)

x = 0 (Age < 55) Total

y = 1 (Yes) 21 22 43

y = 0 (No) 6 51 57

Total 27 73 100

OR =π1 / 1− π1[ ]π 0 / 1− π 0[ ] =

21/ 27( )6 / 27( )

22 / 73( )51/ 73( )

= 21/ 622 / 51

= 8.11= eβ1

ln OR( ) = β1 = ln 8.11( ) = 2.09

πk = Prob.(y = 1 | x = k)

Variable indépendante polychotomique


X (Nat)

Y (CHD)

x = 1 (U.S.)

x = 2 (Fr.)

x = 3 (Sp.)

x = 4 (It.) Total

y = 1 (Yes) 5 20 15 3 43

y = 0 (No) 20 10 10 17 57

Total 25 30 25 20 100

OR(1, 4) =π1 / 1− π1[ ]π 4 / 1− π 4[ ] =

5 / 25( ) 20 / 25( )3 / 20( ) 17 / 20( ) =

5 / 203 /17

=1.417 = eβ1

OR(2, 4) =π 2 / 1− π 2[ ]π 4 / 1− π 4[ ] =

20 /103 /17

=11.333 = eβ2

OR(3, 4) =π3 / 1− π3[ ]π 4 / 1− π 4[ ] =

15 /103 /17

= 8.5 = eβ3

OR(4, 4) =1= eβ4

β1 = ln 1.417( )β2 = ln(11.333)β3 = ln 8.5( )β4 = ln(1)

Groupe de référence :Italiens (x = 4)

Ajuster un modèle logistique binaire simple

On cherche les parametres β0 et β1 qui maximizent la fonction de vraisemblance L, c.à d. la probabilité d’observer les données


maxβ0 ,β1

L β0,β1( )

L β0,β1( ) = Prob(Y = yi | X = xi )i=1

n

∏

= π iyi 1−π i( )1−yi

i=1

n

∏

∂ logL∂β01

= yi −π i[ ] = 0i=1

n

∑ ∂ logL∂β1

= xi yi −π i[ ] = 0i=1

n

∑

logL = yi lni=1

n

∑ π i( )+ 1− yi( ) ln 1−π i( )

∂ logL∂β01

= yi −eβ0+β1xi

1+ eβ0+β1xi

⎛⎝⎜

⎞⎠⎟

⎡

⎣⎢

⎤

⎦⎥ = 0

i=1

n

∑ ∂ logL∂β11

= xi yi −eβ0+β1xi

1+ eβ0+β1xi

⎛⎝⎜

⎞⎠⎟

⎡

⎣⎢

⎤

⎦⎥ = 0

i=1

n

∑

•  Ces expressions ne sont pas linéaires dans les paramètres.

•  Des méthodes itératives sont utilisées pour calculer leurs solutions

Estimation de la variabilité des parametres

La matrice


V (β) =V (β0 ) Cov(β0 , β1)

Cov(β0 , β1) V (β1)

⎡

⎣

⎢⎢

⎤

⎦

⎥⎥

E ∂Log L(β )∂β

⎛⎝⎜

⎞⎠⎟

2⎡

⎣⎢⎢

⎤

⎦⎥⎥β=β

−1

= −E ∂2Log L(β )∂β 2

⎛⎝⎜

⎞⎠⎟

⎡

⎣⎢

⎤

⎦⎥β=β

−1

est estimée par la matrice (inverse de l’information de Fisher)

Estimation des probabilités


estimation⎯ →⎯⎯⎯ β prédicteur linéaire β0+β1x

⎯ →⎯⎯⎯⎯ lnπ x( )

1− π x( )⎛⎝⎜

⎞⎠⎟ fonction logistique

eβ0+β1x

eβ0+β1x+1

⎯ →⎯⎯⎯⎯⎯ π

g(AGE) = ln π (AGE)1− π (AGE)⎛⎝⎜

⎞⎠⎟= −5.309 + 0.111× AGE

Fonction logit estimée

π (AGE)1− π (AGE)

= e−5.309+0.111×AGE

Odds

π (AGE) = eβ0+β1AGE

eβ0+β1AGE +1= e−5.309+0.111×AGE

1+ e−5.309+0.111×AGE

Probabilités estimées

Mesurer la qualité de l'ajustement


•  R2 de Cox & Snell:

•  R2 ajusté de Nagelkerke:

•  Mc Fadden:

•  -2LogLikelihood (Deviance) of the fitted model

R2 = 1− L(β0 )L(β0, β1)

⎡

⎣⎢⎢

⎤

⎦⎥⎥

2n

Radj2 = R2

Rmax2

Max R2 =1− L(β0 )⎡⎣

⎤⎦

2n <1

Borné entre 0 et 1

RMF2 = 1−

Log L β0,β1( )Log L β0( )

Cette statistique a tendance à être faible et des valeurs de 0,2 à 0,4 sont à considérer satisfaisantes.

0.0 0.2 0.4 0.6 0.8 1.0

-4-3

-2-1

0

x

log(x)

Déviance

•  Il joue le même rôle que la somme des carrés résiduels dans la régression linéaire

•  Des valeurs élevées suggèrent que la ou les variables indépendantes ne sont pas utiles pour prédire la réponse.

•  Le TRV se base sur la déviance pour évaluer l’importance de l’ensemble du modèle et des sous-modèles


D = −2 ln (vraisemblance du modèle)(vraisemblance du modèle saturé)⎡⎣⎢

⎤⎦⎥

= −2 lnπ xi

yi 1− π xiyi( )1−yi

i=1

n

∏yiyi 1− yi( )1−yi

i=1

n

∏

⎡

⎣

⎢⎢⎢⎢

⎤

⎦

⎥⎥⎥⎥

= −2 yi lnπ xi

yi

⎛⎝⎜

⎞⎠⎟+ 1− yi( ) ln 1− π xi

1− yi

⎛⎝⎜

⎞⎠⎟

⎡

⎣⎢

⎤

⎦⎥

i=1

n

∑

= −2 ln π xiyi 1− π xi( )1−yi

i=1

n

∏⎡⎣⎢

⎤⎦⎥

= −2 yi ln π xi( )+ 1− yi( ) ln 1− π xi( )⎡⎣ ⎤⎦i=1

n

∑-2*(-53.67) = 107.35

1 if Y is binary

N.B.:In the saturatedmodel π xi

= yi

Evaluer la qualité du classement (pouvoir discriminant)

•  Sensibilité: capacité de détecter les personnes malades parmi celles qui sont malades (Taux de vrais positifs)

•  Spécificité: capacité de détecter les personnes en bonne santé parmi celles qui sont en bonne santé (Taux de vrais négatifs)

•  1 – Spécificité (antispécificité): risque d'assigner une personne en bonne santé au groupe de personnes malades (taux de faux positifs)


Comment la sensibilité et la spécificité varient-elles tant que c change?Trouvons un compromis acceptable entre forte sensibilité et forte spécificité

ObservéPredite

CHDYes

CHDNo Total

CHD = Yes 29 (VP) 12 (FP) 41

CHD = No 14 (FN) 45 (VN) 59

Total 43 57 100

π i > cUne observation i est assignée au groupe {y = 1} si

If c = 0.5:

Sensibilité (Taux de v. p.) = 29/43Spécificité (Taux de v. n.) = 45/57Taux de faux positifs = 12/57Taux de faux négatifs = 14/43

Évaluer le pouvoir discriminant : La courbe ROC (Receiver Operating Characteristic)


Seuil Sensibilité 1 - Specificité0.0000 1.000 1.0000.0515 1.000 0.9820.0629 1.000 0.9650.0697 1.000 0.9470.0773 0.977 0.9300.0903 0.977 0.8950.1046 0.977 0.860

. . .

. . .

. . .0.8912 0.023 .0001.0000 0.000 0.000

L’aire sous la courbe ROC est une mesure du pouvoir discriminant du modèle. Elle est égale à la probabilité de donner à un évènement (+) choisi au hasard avec un score plus élevé qu'un non-évènement choisi au hasard, à savoir P(score (x +) > score (x−))

= ta

ux d

e vr

ais

posi

tifs

= taux de faux positifs

Évaluer la calibration du modèle : Test de Hosmer et Lemeshow •  Il évalue la qualité de l'ajustement du modèle•  Les données sont triées selon l’ordre décroissante des probabilités estimées,

puis partitionnées en 10 groupes au maximum.

•  Le test du chi deux est utilisé pour comparer les effectifs observés ( )

aux effectifs théoriques (attendus) ( ) pour Y = 1, ainsi que pour Y = 0.•  Nombre de degrés de liberté = Nombre de groupes - 2


yii∈Class∑

π ii∈Class∑

On ne veut pas rejeter H0 (pas de différence significative entre les distributions observées et théoriques)

O1g − E1g( )2E1g

+O0g − E0g( )2

E0gg=1

G

∑ ~ χG−22

O1g : Effectifs observés pour Y = 1 dans le groupe gE1g : Effectifs théoriques pour Y = 1 dans le groupe gO0g : Effectifs observés pour Y = 1 dans le groupe gE0g : Effectifs théoriques pour Y = 0 dans le groupe g

Evaluer la significativité d’un coefficient: le test de Wald


Le modèle π(x) = P(Y =1 | X = x) = eβ0 +β1x

1+ eβ0 +β1x

Décision de rejeter H0 au niveau de risque : On rejete H0 si:

Wald ≥ χ1−α2 (1)

Test d’hypothese

β j

sβ j

∼ N(0.1)⇒β j2

sβ j

2 ∼ χ2 (1)Statistique de test de Wald

β12

sβ1

2 =0.111...( )2

0.024...( )2= 21.254Application à β1

H0 :β j = 0H1 :β j ≠ 0

α

p-value ≤α , i.e. Prob χ1−α2 (1) ≥ Wald( ) ≤α

Le test de Wald teste l'hypothèse nulle selon laquelle un paramètre est égal à une valeur (par exemple zéro).

Intervalles de confiance pour les coefficients

•  Les intervalles de confiance pour β0 et β1 sont basés sur la statistique de Wald correspondante:


β1 ± z1−α /2sβ1 β0 ± z1−α /2sβ0

Où z1-α/2 est le quantile d’ordre 1-α/2 d’une lois normale standard

Dans notre cas, pour 1-α = 0.95 ICβ1: 0.111±1.96 × 0.0241[ ] = [0.064;0.158]

ICeβ1:[e0.064;e0.158 ]

Intervalles de confiance pour les log des odds


g x( ) = β0 + β1x = lnπ1− π⎛⎝⎜

⎞⎠⎟

Var(β0 + β1x) =Var(β0 )+ x2Var(β1)+ 2x ×Cov(β0 , β1)

ICg 50( ) 0.240 ±1.96 × 0.0650⎡⎣

⎤⎦= −0.260,0.740[ ]

ICg x( ) g x( ) ± z1−α /2 × Var g x( )( )⎡⎣

⎤⎦

g 50( ) = −5.31+ 0.111× 50 = 0.240

Var g 50( )( ) =1.28517+ 502 × 0.000576 + 2 ⋅50 ⋅ −0.026677( ) = 0.0650

1.1342

Voir la slide précedente

0.0242

Voir la slide précedente

706050403020

1.0

.8

.6

.4

.2

0.0

SUP95

INF95

PROBABILITE

Intervalles de confiance pour les probabilites


ICπ (x ) :eg x( )−z1−α /2 Var g x( )( )

1+ eg x( )−z1−α /2 Var g x( )( ); eg x( )+z1−α /2 Var g x( )( )

1+ eg x( )+z1−α /2 Var g x( )( )

⎡

⎣⎢⎢

⎤

⎦⎥⎥

π(x) = eβ0 +β1x

1+ eβ0 +β1x= eg x( )

1+ eg x( )

π(50) = e−5.31+0.111×50

1+ e−5.31+0.111×50

ICπ (50)e−0.260

1+ e−0.260; e0.740

1+ e0.740⎡

⎣⎢

⎤

⎦⎥= 0.435,0.677[ ]

Estimation de la probabilité d’avoir la maladie pour quelqu'un de 50 ans

G = D(model without the variable)−D(model with the variable) ~ χ df1−df2( )2

= −2 ln (likelihood without the variable)(likelihood with the variable)

⎡⎣⎢

⎤⎦⎥

= −2 lnn1 / n( )n1 n0 / n( )n0

π iyi 1− π i( )1−yi∏

⎡

⎣⎢⎢

⎤

⎦⎥⎥

= −2 n1 ln n1( )+ n0 ln n0( )− n ln n( )⎡⎣ ⎤⎦ − yi lni=1

n

∑ π i( )+ 1− yi( ) ln 1− π i( )⎡⎣⎢

⎤⎦⎥

⎧⎨⎩

⎫⎬⎭

= −2 43ln 43( )+ 57ln 57( )−100 ln 100( )⎡⎣ ⎤⎦ − −53.677[ ]{ } = −2 −68.331[ ]− −53.677[ ]{ } = = 2 × 68.331[ ]− 2 × 53.677[ ] =136.66 - 107.35 = 29.31

Evaluer la significativité du modèle: Test du rapport des vraisemblances (TRV)


n1: Nb y=1n0: Nb y=0

LogVrais. du modèle nulle

LogVrais. du modèle

Deviance du modèle nulleDéviance du modèle

(-2LogLik )

Valeur observée de Statistique du TRV

Evaluer la significativité des coefficients: le test du Score de Rao •  Il est basé sur la pente de la fonction de vraisemblance au point

correspondant aux valeurs observées dans le modèle

•  Cette pente estimée, ou "score", est ensuite utilisée pour estimer l'amélioration de l'ajustement du modèle si des variables supplémentaires étaient incluses dans le modèle.

•  La statistique de test est le changement attendu de la statistique du chi-deux pour le modèle si une variable ou un ensemble de variables est ajouté au modèle (c'est-à-dire si un ou plusieurs paramètres actuellement soumis à des contraintes peuvent être estimés librement.


Statistique du TRVStatistique du test du scoreDéviance du modèle nulle

Déviance du modèle

Test du rapport de vraisemblances, de Wald et du Score


Source: http://www.ats.ucla.edu/stat/mult_pkg/faq/general/nested_tests.htm

Régression logistique Multiple


π x( ) = E Y | x( ) = g−1 β0 + β j x jj=1

J

∑⎛

⎝⎜⎞

⎠⎟= e

β0+ β j x jj=1

J

∑

eβ0+ β j x j

j=1

J

∑+1

= 1

e− β0+ β j x j

j=1

J

∑⎛

⎝⎜⎜

⎞

⎠⎟⎟+1

FonctionLogistique :

β0 + β j x jj∑ = g π( ) = ln π x( )1− π x( )⎛

⎝⎜⎜

⎞

⎠⎟⎟Fonction Logit:

Odds:

π x( )1− π x( )

= eβ0 + β j x jj∑ = eβ0 × eβ1( )x1 × eβ2( )x2 ×…× eβJ( )xJ

Evaluer la significativité de groupes de coefficients


Le modéle π(x) = P(Y =1 / X = x) = eβ0 +β1x1+...+βJ xJ

1+ eβ0 +β1x1+...+βJ xJ

Hypothèses du Test

Statistiques de test

1. LRT = [-2Log L(Modèle Reduit)] - [-2Log L(Modèle Complet)]

2. Wald = βr+1,..., βJ⎡⎣

⎤⎦ Var

βr+1

!

βJ

⎛

⎝

⎜⎜⎜

⎞

⎠

⎟⎟⎟

⎡

⎣

⎢⎢⎢⎢

⎤

⎦

⎥⎥⎥⎥

−1

βr+1

!

βJ

⎡

⎣

⎢⎢⎢⎢

⎤

⎦

⎥⎥⎥⎥

H0 :βr+1 = ...= βJ = 0H1 : au moins un β j ≠ 0

3. Score test

Règle de décision


On rejet au niveau de risque α de se tromper

si

Ou bien si

H0 :βr+1 = ...= βJ = 0

Statistique obs.≥ χ1−α2 J − r[ ] (P-value)

Prob χ 2 J − r[ ]≥ statistique obs.( ) ≤α

Exemple 2: prediction de faillite

Les rapports suivants ont été observés sur 46 entreprises :

•  X1 = Flux de trésorerie (Cash Flow) / Dette totale•  X2 = Revenu net /Total de l'actif•  X3 = Actif à court terme / Passif à court terme•  X4 = Actif à court terme / Ventes nettes

Deux ans plus tard, 21 entreprises ont fait faillite et 25 ont conservé leur bonne santé financière:

•  Y = Oui en cas de faillite, Non si non


Evaluation de la significativité des coefficients


X1 X2 X3 X4

X1 = Cash Flow /Total Debt (Flux de trésorerie / Dette totale)X2 = Net Income / Total assets (Revenu net /Total de l'actif)X3 = Current assets / Current Liabilities (Actif à court terme / Passif à court terme)X4 = Current assets / Net Sales (Actif à court terme / Ventes nettes)

Correlations


X2

X1

X3

X4

ACP des entreprises


ACP des entreprises (sans x4)


Procedure de selection pas à pas : Backward stepwise

•  Nous partons du modèle complet.

•  A chaque étape, on enlève la variable avec la plus petite valeur statistique pour une statistique (ici AIC)


Régression pas à pas: modéle final


Carte des entreprises dans le plan(X1, X3)


cash flow / total debt

.6.4.2-.0-.2-.4-.6

curr

ent a

sset

s / c

urre

nt li

abilit

ies

6

5

4

3

2

1

0

FAILLITE

F

NF

46

45

44

43

42

41

40

39

38

3736

35

34

33

32

31

30

29

28

2726

25

24

23

22

2120

19

1817

1615

14

13

12

11

10 987

6

54

3

2

1 FailliteF

NF

Act

if à

cour

t ter

me

/ Pas

sif à

cou

rt te

rme

Flux de trésorerie (Cash Flow) / Dette totale

cash flow / total debt

.6.4.2-.0-.2-.4-.6

curr

ent a

sset

s / c

urre

nt li

abilit

ies

6

5

4

3

2

1

0

46

42

3922

41

44

24

16

2627

38

30

4325

31

45373632

15

34

35

20

28

23

912

3

187

19

1329

8417

33

510

6

11

1421

40

1

2

Carte des entreprises dans le plan(X1, X3) avec la fonction discriminante de la régr. logistique


Prob(Y = Yes | X) = e5.940−6.556×X1−3.019×X3

1+ e5.940−6.556×X1−3.019×X3= 0.5 ⇒ e5.940−6.556×X1−3.019×X3 = 1

⇒ 5.940 − 6.556 × X1 − 3.019 × X3 = 0 ⇒ X3 =5.940 − 6.556 × X1

3.019

Curre

nt A

sset

s / C

urre

nt L

iabi

litie

s A

ctif

à co

urt t

erm

e / P

assif

à c

ourt

term

e

Flux de trésorerie (Cash Flow) / Dette totale

NB : Linéaire!

Régression Logistique vs AD de Fisher


•  Les deux sont des classificateurs linéaires•  Apprentissage génératif (estimation de P (X | Y = k)) vs discriminant

(estimation de (P (Y | x = xi))•  L’AD est plus affectée par les valeurs (très) aberrantes•  Si les données d'un modèle de régression logistique à deux classes peuvent

être parfaitement séparées par un hyperplan, les estimations des paramètres issues du maximum de vraisemblance ne sont pas définies.

•  Le modéle de l’AD suppose que les observations sont tirées d'une distribution gaussienne avec une matrice de covariance commune dans chaque classe. Lorsque cette hypothèse est approximativement vérifiée l’AD marche mieux de la régression logistique. Inversement, la régression logistique peut surperformer l’AD si ces hypothèses ne sont pas satisfaites.

•  Dans les deux cas, en pratique on ne observe pas des différences importantes: Résultats très similaires surtout si la taille de l'échantillon est grand

44Giorgio Russolillo – Régression Logistique

This presentation is made available through a Creative Commons Attribution-Noncommercial license. Details of the license and permitted uses are available at

http://creativecommons.org/licenses/by-nc/3.0/

© 2018 G. Russolillo – Régression Logistique Title: Régression logistique – STA201 Attribution: . G. Russolillo, CNAM

Documents

Régression Logistiquemaths.cnam.fr/IMG/pdf/logistic_regr_fr_cle479dfe.pdf · • L'espérance π est modélisée en fonction de X: π (x). • En particulier, π dépend d’une