38
1 Tavola a doppia entrata Carattere x Carattere y x 1 x 2 x i x k Totali Valori medi varian ze y 1 n 11 n 12 n 1i n 1k n x1 m x1 σ 2 x1 y 2 n 21 n 22 n 2i n 2k n x2 m x2 σ 2 x2 y j n j1 n j2 n ji n jk n xj m xj σ 2 xj y s n s1 n s2 n si n sk n xs m xs σ 2 xs Totali n y1 n y2 n yi n kt N M x σ 2 x Valori medi m y1 m y2 m yi m yk M y varianze σ 2 y1 σ 2 y2 σ 2 yi σ 2 yk σ 2 y Scomposizione delle varianze marginali xj s j xj mx x yi k i yi my y n N n N = = + = + = 1 2 2 2 1 2 2 2 1 1 σ σ σ σ σ σ

Tavola a doppia entrata - TiscaliNews

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Tavola a doppia entrata - TiscaliNews

1

Tavola a doppia entrata

Cara t t e re x Cara t t e re y x 1 x 2 … x i … x k T o t a l i V a l o r i

m e d i v a r i a n

z e y 1 n 1 1 n 1 2 … n 1 i … n 1 k n x 1 m x 1 σ 2

x 1

y 2 n 2 1 n 2 2 … n 2 i … n 2 k n x 2 m x 2 σ 2x 2

… … … … … … … … … …

y j n j 1 n j 2 … n j i … n j k n x j m x j σ 2x j

… … … … … … … … … …

y s n s 1 n s 2 … n s i … n s k n x s m x s σ 2x s

T o t a l i n y 1 n y 2 … n y i … n k t N M x σ 2x

V a l o r i m e d i

m y 1 m y 2 … m y i … m y k M y

v a r i a n z e σ 2y 1 σ 2

y 2 … σ 2y i … σ 2

y k σ 2y

Scompos i z ione de l l e var ianze marg ina l i

xj

s

j

xjmxx

yi

k

i

yimyy

nN

nN

∑∑

=

=

+=

+=

1

222

1

222

1

1

σσσ

σσσ

Page 2: Tavola a doppia entrata - TiscaliNews

2

Calco lo de l l e med ie marg ina l i

∑=

=

s

j

xjjy nyN

M1

1

1 )

∑=

=

k

i

yiix nxN

M1

1

∑∑= =

=

s

j

k

i

ijjy nyN

M1 1

1

2 )

∑∑= =

=

s

j

k

i

ijix nxN

M1 1

1

∑=

=

k

i

yiyiy nmN

M1

1

3 )

∑=

=

s

j

xjxjx nmN

M1

1

Page 3: Tavola a doppia entrata - TiscaliNews

3

Rappor to d i co r re la z ione

yi

k

i

yiyy

myyx n

N ∑=

−==1

22

2 11 σσσ

ση

Esempio rappor to d i co r re la z ione

Sesso x Salario

y Operai Operaie Totale 25-35 3.145 2.664 5.809 35-40 2.465 2.640 5.105 40-45 4.675 2.196 6.871 45-55 11.220 2.808 14.028 55-65 9.180 996 10.176 65-85 8.160 516 8.676 65-105 3.655 180 3.835 Totale 42.500 12.000 54.500

media operai (my1) 57,8 varianza medie (σ2my) 32,616

media operaie (my2) 44,0175 media varianze (σ2y -σ2

my) 269,698 varianza operai (σ2

y1) 299,76 varianza operaie (σ2

y2) 163,2284438 media totale (My) 54,7653211 varianza totale (σ2

y) 302,3141919

328,031,302

616,32===

y

myyx σ

ση

765,54][][ 212211 / =++= yyyyyyy nnnmnmM

31,302616,32698,269)( 22

2 =+=−

+=∑

∑∑

iyi

iyiyyi

yii

yii

yi

y n

nMm

n

nσσ

Page 4: Tavola a doppia entrata - TiscaliNews

4

1° distribuzione parziale Y Operai 25-35 3.145 35-40 2.465 40-45 4.675 45-55 11.220 55-65 9.180 65-85 8.160

65-105 3.655 Totale 42.500

media operai (my1) = 57,8 Varianza operai (σ2

y1)= 299,76

2° distribuzione parziale Y Operaie

25-35 2.664 35-40 2.640 40-45 2.196 45-55 2.808 55-65 996 65-85 516

65-105 180 Totale 12.000

media operaie (my2)= 44,0175 varianza operaie (σ2

y1) = 163,2284

Distribuzione marginale Y Totale

25-35 5.809 35-40 5.105 40-45 6.871 45-55 14.028 55-65 10.176 65-85 8.676

65-105 3.835 Totale 54.500

media marginale(My) = 54,77 varianza marginale (σ2

y) = 302,31

Distribuzione delle medie parziali myi nyi 57,8 42.500 44,02 12.000 Totale 54.500

Varianza delle medie = 32,62

Distribuzione delle varianze parziali

σ2yi nyi

299,76 42.500 163,23 12.000 Totale 54.500

Media delle varianze = 269,70

Page 5: Tavola a doppia entrata - TiscaliNews

5

Covar ianza

Da ta l a s e r i e a due var iab i l i : x 1 x 2 … x i … x n

y 1 y 2 … y i … y n l a c o v a r i a n z a s i c a l c o l a f a c e n d o l a m e d i a a r i t m e t i c a d e i

p r o d o t t i d e g l i s c a r t i d e i v a l o r i x i e d e i v a l o r i y i d a l l e

c o r r i s p e t t i v e m e d i e yx,

covar ianza ))((1

1

yyxxn ii

n

ixy −−= ∑

=

σ

codev ianza ))((1

yyxxn ii

n

ixy −−= ∑

=

σ

l a c o v a r i a n z a s i p u ò c a l c o l a r e a n c h e :

yxyxn i

n

iixy −= ∑

=1

yxxy σσ =

Page 6: Tavola a doppia entrata - TiscaliNews

6

Matr i ce de l l e var ianze e de l l e covar ianze

=

=

2

2

yyx

xyx

yyyx

xyxxCσσ

σσ

σσ

σσ

0222 ≥−= xyyxC σσσ

22yxxy σσσ ≤

L ’ u g u a g l i a n z a s i r e a l i z z a s e e s o l t a n t o s e : )(1)(

yyb

xx

xxbyy

ii

ii

−=−

−=−

( b ≠ 0 ) , c i o è , s e e s o l t a n t o s e g l i s c a r t i d e l l e v a r i a b i l i d a l l e r i s p e t t i v e m e d i e s o n o l i n e a r m e n t e d i p e n d e n t i :

22yxxy σσσ =

I n t a l c a s o l a c o v a r i a n z a a s s u m e v a l o r e p o s i t i v o o n e g a t i v o a s e c o n d a d e l s e g n o d e l f a t t o r e d i p r o p o r z i o n a l i t à b e l a c o v a r i a n z a , i n v a l o r e a s s o l u t o , r a g g i u n g e i l s u o v a l o r e p i ù a l t o . N . B . L a p r o p o r z i o n a l i t à t r a g l i s c a r t i d e i v a l o r i x i e y i d a l l e r i s p e t t i v e m e d i e s i r e a l i z z a q u a n d o l e c o p p i e d i p u n t i x i e y i

g i a c c i o n o s u u n a r e t t a d ’ e q u a z i o n e y i = a + bx i c o n xbya −= e 0≠b

Page 7: Tavola a doppia entrata - TiscaliNews

7

Coef f i c i en te d i corre laz ione l ineare s empl i ce

11 ≤=≤−yx

xyrσσ

σ

m a s s i m a d i p e n d e n z a o d i p e n d e n z a m a t e m a t i c a

( p e r f e t t a r e l a z i o n e l i n e a r e )

r = 0

v a r i a b i l i n o n c o r r e l a t e

Covar ianza in una t avo la a dopp ia en t ra ta

ijyjx

k

i

s

j

ixy nMyMxN

))((1

1 1

−−= ∑∑= =

σ

yi

k

i

yyixixy nMmMxN ∑

=

−−=1

))((1σ

N

ny

N

nx

nyxN

s

j

xjj

k

i

yiik

i

s

j

ijjixy

∑∑∑∑ ==

= =

−= 11

1 1

Covar ianza pe r una d i s t r i buz ione t eo r i ca dopp ia

∫ ∫+∞

∞−

+∞

∞−

−−= dxdyyxfyx yxxy ),())(( µµσ

Page 8: Tavola a doppia entrata - TiscaliNews

8

Metodo dei minimi quadrati Siano date n coppie (xi, yi) di valori osservati :di due variabili X e Y e sia data l’equazione generale di una curva che si ritiene possa rappresentare adeguatamente la regressione di Y su X:

y= f(x; θ1,θ2,....,θk)

I parametri θ1,θ2,....,θk della funzione sono stimati mediante il metodo dei minimi quadrati.

Condizione dei minimi quadrati: la somma dei quadrati degli scarti fra valori osservati e valori calcolati deve essere un minimo

[ ]∑∑==

−=n

ikii

n

ixfy

1

221

1

2 )...,;( θθθε = minimo

spezzata di regressione

96

98

100

102

104

106

108

37 40,5 45,5 51,5 57,5

x

my spezzata di

regressione

Page 9: Tavola a doppia entrata - TiscaliNews

9

Per determinare i valori delle costanti θ1,θ2,....,θk, che soddisfino la condizione precedente si eguagliano a zero le derivate parziali rispetto a θ1,θ2,....,θk in modo da

ottenere un sistema di k equazioni del tipo:

[ ] 0),...,,;(

),...,,;(2 21

1

21 =∂

∂−− ∑

=j

ki

n

i

kiixf

xfyθ

θθθθθθ

per j=1,2,…,k

Se f(x) =a+bx , la condizione dei minimi quadrati si scrive:

minimo)( 2

11

2 =−−=∑∑==

i

n

i

i

n

i

i bxayε

ed è soddisfatta per

0=ε σxε=0

xbaybxayn

n

i

ii −−=−−= ∑=1

)(1ε

[ ] 2

11)()()(1))((1

xxyii

n

iii

n

iix bxxbyyxx

nxx

nσσεεσ ε −=−−−−=−−= ∑∑

==

xbya −=

∑∑

=

=

−−

== n

i

i

n

i

ii

x

xy

xx

yyxx

b

1

2

12

)(

))((

σσ

Page 10: Tavola a doppia entrata - TiscaliNews

10

Proprietà della retta di regressione

- la retta di regressione passa per il punto ( ),yx ed è quindi rappresentata

dall’equazione: )( xxbyy −=−

- la media aritmetica dei valori osservati è uguale a quella dei valori

calcolati: yxxn

byxfn

n

i

i

n

i

i =−+= ∑∑==

)(1)(1

11

- la varianza dei valori calcolati è:

[ ] 2

2222

1

2

1

2)(

2 )(1)(1

x

xyx

n

i

i

n

i

ixf bxxn

byxfn σ

σσσ ==−=−= ∑∑

==

- la varianza di ε è:

2

222

x

xyy σ

σσσ ε −=

- la varianza dei valori osservati y è:

[ ])(2

)(22

)(22

xfyxfxfy −+=+= σσσσσ ε

N.B. la varianza dei valori calcolati rappresenta la parte della varianza dei valori osservati della variabile Y spiegata dalla regressione sulla variabile X, mentre la varianza degli scarti tra valori osservati e calcolati, la parte non spiegata.

Page 11: Tavola a doppia entrata - TiscaliNews

11

Osservando che:

2

222

)(2

x

xyxxf b

σσσσ ==

Coefficiente di determinazione 10 2

222

2

2)(

2

≤≤

==

r

rxy

xy

y

xf

σσσ

σσ

esprime la frazione della varianza dei valori osservati della variabile Y spiegata dalla regressione sulla variabile X

yy

xfy

y

xfr 2

2

2)(

22

2)(

22 11

σσ

σσσ

σσ ε=

−=−=−

Coefficiente di alienazione esprime la frazione di varianza di Y non spiegata da X.

Page 12: Tavola a doppia entrata - TiscaliNews

12

xbay 11 += retta di regressione di Y su X

21

11

x

xyb

xbya

σ

σ=

−=

ybax 22 += retta di regressione di X su Y

2

22

2

21 rbbyx

xy ==σσ

σ coefficiente di determinazione

21bb+ se 0, 21 ≥bb

==yx

xyrσσ

σ

21bb− se 0, 21 ≤bb

22

22

y

xyb

ybxa

σσ

=

−=

Page 13: Tavola a doppia entrata - TiscaliNews

13

relazioni fra coefficienti di regressione e di correlazione

x

yrbσσ

=1 y

xrbσσ

=2 x

y

y

x bbrσσ

σσ

21 ==

Regressione con dati raggruppati

Data una tavola a doppia entrata, la condizione dei minimi quadrati può essere posta nelle due forme alternative:

1) [ ]∑

=

=−=

k

i

yiiyim nxfmS1

2 minimo)(

2) [ ] minimo)(1 1

2 =−=∑∑= =

ij

k

i

s

j

ij nxfyS

Page 14: Tavola a doppia entrata - TiscaliNews

14

Scomposizione di my2σ

εσσσ 2)(

22 += xfmy

[ ]∑=

−=

k

i

yiiinxfm

N y

1

2 2

)(1εσ

Divergenza della regressione dalla linearità

22

22

2

2

2

2

2)(

2

2

2

0r

r

yx

yx

y

yy

xf

y

my

≥+=

=

+=

η

ζζη

ζσσ

σσ

σσ

σσ

ε

ε

indice di divergenza dalla linearità 10

22

≤≤−=

ζηζ ryx

Page 15: Tavola a doppia entrata - TiscaliNews

15

Esempio su indici di dipendenza in media (schemi di calcolo)

Distribuzione delle imprese per addetti e per classi di fatturato X Addetti

Y Fatturato(in milioni) 0-10 10-20 20-30 Totali

50-100 1.485 500 300 2.285 100-150 4.270 1.200 600 6.070 150-200 1.500 1.600 2.000 5.100 200-250 1.232 2.100 3.213 6.545 Totali 8.487 5.400 6.113 20.000

Medie parziali 139,6 174,07 191,46 164,76 Varianze parziali 2117,62 2452,85 1779,05 2614,57

Calcolo codevianza 556875 562500 562500 1681875

2668750 2250000 1875000 6793750 1312500 4200000 8750000 14262500 1386000 7087500 18073125 26546625 5924125 14100000 29260625 49284750

codevianza = 3767461,75 σ2my 509,922

σyx 188,37 σ2y 2614,568

σ2x 71,59 η2

yx 0,195 Mx 13,81 by= 2,631 My 164,76 bx= 0,072

ay =My - byMx 128,42 r = 0,435 ax =Mx - bxMy 1,94 r 2 = 0,189

ζ 0,006

f(xi) f(xi) -My f(xi) -My)2*nyi

(myi - My)

(x-Mx)(myi - My)nyi

141,5734 1,968704 32893,8854 -25,16 1881701,86 167,8858 -6,18829 206792,893 9,31 59685,33 194,1982 2,733256 45668,3143 26,70 1826074,57

Nσ2ε = 285355,093 codevianza 3767461,75

σ2ε = 14,27

σ2f(x) = 495,65

σ2[y-f(x)] = 2118,91

Calcolo σ2[y-f(x)]

6.581.545 1.172.872 1.676.007 8.574.718 Totali 4.313.884 2.207.028 80.979 6.850.272 4.262.461 2.873.032 737.139 3.048.343

Totali 42.378.281

Page 16: Tavola a doppia entrata - TiscaliNews

16

Regressione multipla

),...,,;,...,( 2121 hkxxxfy θθθ= funzione di regressione multipla

Condizione dei minimi quadrati

minimo)],...,,;,...,([ 22121

1

=−∑=

hkiii

n

i

i xxxfy θθθ

Se la funzione di regressione è del tipo:

kkkk xbxbxbabbbaxxxf ++++= .....),...,,,;,...,,( 22112121

la condizione si riscrive:

minimo)],...,[ 22211

1

=−−−∑=

kk

n

i

i xbxbxbay

Eguagliando a zero le derivate parziali rispetto ai parametri a, b1,…,bk, si ottiene per k=2

[ ] 01

22211 =−−−

∂∂ ∑

=

n

i

iii xbxbaya

[ ] 01

22211

1

=−−−∂∂ ∑

=

n

i

iii xbxbayb

[ ] 01

22211

2

=−−−∂∂ ∑

=

n

i

iii xbxbayb

Page 17: Tavola a doppia entrata - TiscaliNews

17

[ ] 021

2211 =−−−− ∑=

n

i

iii xbxbay

[ ] 021

12211 =−−−− ∑=

n

i

iiii xxbxbay

[ ] 021

22211 =−−−− ∑=

n

i

iiii xxbxbay

2211 xnbxnbnayn ++=

∑∑∑===

++=n

iii

n

ii

n

iii xxbxbxnaxy

1212

1

211

11 1 (1)

∑ ∑∑= ==

++=n

i

n

iiii

n

iii xbxxbxnaxy

1 1

222211

12 2

Sottraendo dalle ultime due equazioni la prima moltiplicata rispettivamente per 1x e

per 2x si ottiene il sistema:

)()( 11

221211

2111

11

2 xxnxxbxbxyn

iii

n

ii

n

iii xnxyn ∑∑∑

===

−+= −−

)()(1

22

22211

21121

22∑∑∑

===

−+= −−n

ii

n

iii

n

iii xnxxnxyn xbxxbxy

Page 18: Tavola a doppia entrata - TiscaliNews

18

e, dividendo entrambe le equazioni per n, si perviene al sistema:

2111 22

1 xxxyx bb σσσ += (2)

221 2212 xxxyx bb σσσ +=

la cui soluzione fornisce le stime di b1 e b2 La stima di a si ottiene invece dalla prima equazione del sistema (1):

2211 xbxbya −−=

Il sistema (2) si può risolvere con la regola di Cramer, cioè, posto:

221

211

2

2

0xxx

xxxD

σσ

σσ=

22

211

21xyx

xxyxD

σσ

σσ=

yxxx

yxxD

221

112

2 σσ

σσ=

0

22

0

11

DDb

DDb

=

=

Page 19: Tavola a doppia entrata - TiscaliNews

19

Nel caso generale

kk xbxbxbya −−−−= ...2211

e il sistema (2) si trasforma nel sistema a k equazioni lineari:

srr xx

k

s

syx b ,

1

σσ ∑=

= (3)

r=1,2,…,k

in cui la matrice dei coefficienti delle incognite b1,b2,…bk è la matrice delle covarianze delle variabili X1, X2,…Xk mentre i termini noti sono le covarianze della variabile Y con ciascuna delle variabili X1, X2,…Xk

Coefficiente di correlazione lineare multipla

y

yR 2

222

σσσ ε−

=

Page 20: Tavola a doppia entrata - TiscaliNews

20

Correlazione lineare multipla

Dato un insieme di k variabili X1, X2,…Xk, la funzione di regressione della variabile X1 sulle rimanenti X2,…Xk si può riscrivere:

kkk xbxbxbaxxf 1313212121 .....),...,( ++++= e il sistema di equazioni che scaturisce dalla condizione di minimo diventa:

1

2

1 iij

k

j

jb σσ =∑=

(4)

i=2,3,…,k

con riferimento al quale:

kj

jjb

,...2,1

11

11

=

Λ

Λ−=

dove Λij rappresenta il complemento algebrico dell’elemento σij

nel determinante Λ della matrice delle varianze e delle covarianze:

2

21

22

221

1122

1

...

....................

...

kkk

k

k

σσσ

σσσ

σσσ

matrice di varianze e covarianze

Page 21: Tavola a doppia entrata - TiscaliNews

21

Infatti, per j,i=3 il sistema (4) si riscrive:

2123132

212 σσσ =+ bb

312

3133212 σσσ =+ bb Applicando la regola di Cramer per stimare b12 si ha:

2332

232

20

σσ

σσ=D

complemento algebrico Λ11 dell’elemento σ12

nel determinante Λ della matrice delle varianze e delle covarianze

2331

23211 σσ

σσ=D

complemento algebrico Λ12 dell’elemento σ12

nel determinante Λ della matrice delle varianze e delle covarianze

32232

32

2

32232

321

11

1212 σσσσ

σσσσ−−

−=ΛΛ

−=b

Page 22: Tavola a doppia entrata - TiscaliNews

22

Posto σij=rijσiσj e b1j = b’1jσ1/σj, il sistema si può esprimere in funzione dei coefficienti di correlazione:

1

2

1' iij

k

j

j rrb =∑=

i = 2,3,…, k

e fornisce la soluzione:

kj

PP

bb j

jj

j

jj

,...,3,2

11

111

1

11

11 '

=

−==ΛΛ

−=σσ

σσ

dove P1j rappresenta il complemento algebrico del determinante P della matrice di

correlazione :

1................

...1...1

21

221

112

kk

k

k

rr

rrrr

matrice di correlazione

Il valore di a1 si ottiene da:

∑=

−=

k

j

jj xbxa2

111 dove jx è la media aritmetica della variabile Xj

11

2 1PPR −=

Page 23: Tavola a doppia entrata - TiscaliNews

23

Scomposizione della varianza σ12

kf ...2,1222

1 1 σσσ +=

la varianza dei valori osservati della variabile X1è eguale alla somma della varianza dei valori calcolati mediante la funzione di regressione di X1 su X2,…Xk ( 1

2fσ ) e

della varianza degli scarti fra valori osservati e valori calcolati ( k...2,12σ )

[ ] ∑ ∑∑ ∑∑= == ==

=

=−=

k

i

k

jijji

n

s

k

iisi

n

skssf bbxb

nxxxf

n 2 211

11

2

21

1

2121

2 '1),..,(11 σσ

i

k

iif b 1

21

21 σσ ∑

=

=

e, ricordando che le covarianze fra le variabili X2,…,Xk ed i residui sono nulle:

[ ]∑ ∑= =

−=−=s k

iiiksssk bxxfx

n 11 211

21

2211...,2,1

2 ,...,(1 σσσ

11

111

111

....2,12 1

ΛΛ

=ΛΛ

= ∑=

i

k

ik σσ 11

12

1

11

111

12

....2,12

PPrP

P i

k

ik σσσ == ∑=

su una matrice di varianze e covarianze su una matrice di correlazione

1112

...2,12

12

12

2

...2,12 11

PPR kf

k −=−

==σ

σσσσ

Page 24: Tavola a doppia entrata - TiscaliNews

24

Coefficiente di correlazione lineare multipla

0≤ R1,2…k ≤ 1

sono nulle le correlazioni della è nulla la varianza degli scarti fra valori variabile X1 con tutte le altre osservati e valori calcolati della variabili (dipendenza matematica)

Correlazione parziale La correlazione parziale fra due variabili in un gruppo di più variabili consiste nel calcolare la funzione di regressione lineare multipla di ciascuna delle due variabili sulle altre e nel calcolare successivamente il coefficiente di correlazione lineare fra i residui delle due regressioni non più correlati con le altre variabili che entrano nella funzione di regressione Date k variabili X1, X2,…Xk per misurare, ad esempio, la correlazione parziale fra le variabili X1 e X2, si determinano i residui ε1,3...κ della regressione di X1 sulle rimanenti k-2 variabili X3,…Xk e i residui ε2,3...κ di X2 sulle stesse variabili X3,…Xk . Per calcolare i coefficienti di correlazione parziale r12,3…k si opera su tali residui ε1,3...κ , ε2,3...κ con riferimento ai quali è innanzitutto necessario calcolare le varianze e la covarianza. Le varianze sono date da espressioni simili a quelle già trovate per k....2,1

2σ , con la differenza che i determinanti Λ sono sostituiti dai complementi algebrici Λ11 se manca la variabile X1 ο Λ22 se manca la variabile X2.

11.22

2221

11.22

22...3,1

2

PP

k σσ =ΛΛ

=

22.11

1122

22.11

11...3,2

2

PP

k σσ =ΛΛ

=

N B. Λii.hj.rappresenta il complemento algebrico dell'elemento σhj nel determinante Λii

Page 25: Tavola a doppia entrata - TiscaliNews

25

La covarianza è data da:

1) 22.11

211

21.22

22.111

32.1112...3,12

2 1ΛΛ

−=ΛΛ

=−= ∑∑==

i

k

iii

k

iik b σσσσ

se calcolata su una matrice di varianze e covarianze

2) 22.11

12211

2

1.2222.11

211

3

2.1112...3,122

PPrP

Pb i

k

i

ii

k

i

ik σσσσσσσ −==−= ∑∑==

se calcolata su una matrice di correlazione per cui il coefficiente di correlazione parziale di ordine k-2 tra le variabili X1 e X2 è pari a:

2211

12

2211

12

...3,22

...3,12

...3,12...3,12 PP

Prkk

kk −=

ΛΛ

Λ−==

σσ

σ

Coefficienti di correlazione di ordine 1

)1)(1( 232

132

2313123,12

rr

rrrr

−−

−=

)1)(1( 132

122

1312231,23

rrrrrr−−

−=

)1)(1( 232

122

2312132,13

rrrrrr−−

−=

Page 26: Tavola a doppia entrata - TiscaliNews

26

Relazione fra il coefficiente di alienazione ed il coefficiente di

correlazione parziale

)1( ...34.122

...34.12

...23,12

kkk r−= σσ

)1)(1(1 ...3.122

...34.12

...23.12

kkk rRR −−=− Scambiando la variabile X2 con Xk

)1)(1(1 1...23.12

1...23.12

...23.12

−− −−=− kkkk rRR

)1)...(1)(1)(1(1 1...23.12

23.142

2.132

122

...23.12

−−−−−=− kkk rrrrR

)1()1()1(

1...2.12

...2,12

1...2.12

1...23.12

−−

−−−−

=k

kkkk

RRRr

Il quadrato del coefficiente di correlazione parziale fra le variabili X1 e Xk indica di quanto si riduce, in termini relativi, la frazione di varianza non spiegata dalla variabile X1 introducendo la variabile Xk

Page 27: Tavola a doppia entrata - TiscaliNews

27

Esempio:

Regressione multipla

Anni x1i x2i x3i f(xi2,xi3) [xi1 - f(xi2,xi3)]2

1980 86,4 21,4 6,5 85,22 1,391981 88,9 22,7 7,0 86,59 5,351982 84,0 20,4 6,8 84,77 0,591983 87,3 24,5 6,9 87,78 0,231984 88,8 23,1 6,4 86,34 6,041985 84,2 25,5 6,2 87,88 13,531986 89,6 22,7 6,2 85,88 13,831987 80,0 20,6 6,6 84,74 22,44

Medie 86,2 22,6 6,6 σε2 = 7,9

Calcolo varianze e covarianze

(x'1i)2 (x'2i)2 (x'3i)2 x1i * x2i x2i * x3i x1i * x3i 0,06 1,47 0,01 1848,96 139,10 561,60 7,56 0,01 0,18 2018,03 158,90 622,30 4,62 4,90 0,05 1713,60 138,72 571,20 1,32 3,56 0,11 2138,85 169,05 602,37 7,02 0,24 0,03 2051,28 147,84 568,32 3,80 8,34 0,14 2147,10 158,10 522,04 11,90 0,01 0,14 2033,92 140,74 555,52 37,82 4,05 0,00 1648,00 135,96 528,00Varianze 9,26 2,82 0,08Covarianze 1,90 -0,13 -0,02Devianze 74,12 22,56875 0,655Codevianze 15,21 -1,01 -0,14

Matrice devianze e codevianze Sistema con variabile x1 dipendente74,12 15,21 -0,14

15,21 22,57 -1,01 22,57b1 -1,01b2 =15,21

-0,14 -1,01 0,66 -1,01b1+ 0,66b2 = -0,14

D0 = 22,57 -1,01 D1 = 15,21 -1,01 D2 = 22,57 15,21 -1,01 0,66 -0,14 0,66 -1,01 -0,14

b1 = D1/Do= 0,71 b2 = D2/Do= 0,88 a=64,216948

R2=(σy2−σε

2)/σy2= 0,14

Page 28: Tavola a doppia entrata - TiscaliNews

28

Matrice devianze e codevianze Matrice correlazione

74,12 15,21 -0,14 1,00 0,37 -0,0215,21 22,57 -1,01 0,37 1,00 -0,26-0,14 -1,01 0,66 -0,02 -0,26 1,00

b12 = - Λ12/Λ11 = 9,82 = 0,71 b12 = - (σ1/σ2) P12/P11 = 1,81 0,37 = 0,71 13,77 0,93

b13 = - Λ13/Λ11 = 12,16 = 0,88 b13 = - (σ1/σ3) P13/P11 = 10,64 0,08 = 0,88 13,77 0,93

R2=1 - (P / P11) = 0,14

N.B: Regola di Sarrus P = r11r22r33 + r12r23r31+ r21r32r13 - r31r22r13-r32r23r11 - r22r12r33 P =1-r2

12-r213-r2

23+2r12r13r23 = 0,797 P11 = 0,931

[ ][ ] 38,0)26,0(1)02,0(1

)26,0)(02,0(37,0)1)(1( 22

2211

122

232

13

2313123.12 =

−−−−

−−−=−=

−−

−=

PPP

rrrrrr

[ ][ ] 09,0)26,0(1)37,0(1)26,0)(37,0(02,0

)1)(1( 223311

132

232

12

2312132.13 =

−−−

−−−=−=

−−

−=

PPP

rrrrrr

[ ][ ] 29,0)02,0(1)37,0(1)02,0)(37,0(26,0

)1)(1( 223322

232

132

12

1312231.23 −=

−−−

−−−=−=

−−

−=

PPP

rrrrrr

Page 29: Tavola a doppia entrata - TiscaliNews

29

Cograduazione

Quando si considerano due graduatorie delle stesse unità statistiche secondo due differenti caratteri, il loro grado di concordanza o discordanza si può misurare mediante indici detti di cograduazione 1) Coefficiente di Spearman

11

)1(

)(6

1 21

2

≤≤−

−=∑

=

ρ

ρnn

ban

i

ii

ai

Ranghi delle due graduatorie bi

Il coefficiente di Spearman coincide con il coefficiente di correlazione lineare semplice.

Nelle graduatorie con molti ex aequo è preferibile calcolare tale indice secondo la formula:

ba

ab

σσσ

ρ =

dove la varianza di ciascuna graduatoria è data da:

])1(1)1[(121

1

222j

n

j

j nnn

n −−−= ∑=

σ

(nj = numerosità del j-esimo gruppo di ex-aequo)

e la covarianza da:

∑=

−−+=

n

i

iibaab ban

1

222 )(21)(

21 σσσ

Page 30: Tavola a doppia entrata - TiscaliNews

30

2) coefficiente di Kendall

)1(2

−=

nnsτ

s= somma algebrica dei punti assegnati secondo il seguente criterio:

- se il rango della seconda unità della coppia è maggiore o minore di quello della prima in entrambe le graduatorie, si assegna alla coppia il valore 1 - se il rango della seconda unità della coppia è maggiore della prima in una graduatoria e minore nell’altra si assegna il valore -1

n(n-1)/2 =numero di coppie che si possono formare con le n unità.

se la 1° graduatoria è posta in ordine crescente si indichi con q il numero di inversioni della 2° graduatoria

Poiché 2/)1(2 −=+ nnqs

)1(41

−−=

nnqτ

°°°

Per il calcolo dell’indice si può procedere anche effettuando tutte le n2 possibili differenze tra i valori osservati ed assegnando loro un punteggio pari a –1, 0 ,1 secondo che la differenza sia negativa, nulla o positiva. La serie dei punteggi ottenuta assume media nulla, devianza T1=T2 =(n2-n ) e codevianza 2s. τ è calcolato:

221

2TTs

Nel caso in cui k gruppi contengono valori eguali, la devianza va calcolata

secondo la:

∑=

−−−=

n

i

ii nnnnT1

22 )()(

(ni= numero di valori eguali del gruppo i-esimo) e l’ultima formula è da preferire alle precedenti

Page 31: Tavola a doppia entrata - TiscaliNews

31

Esempio su indici di cograduazione

Con riferimento alla vendita di due prodotti A e B sono state costruite le due seguenti graduatorie di un gruppo di 10 imprese . Misurare la concordanza o discordanza di tali graduatorie utilizzando l’indice ρ di Spearman

A B Prodotti Imprese Graduatorie

ai bi ai - bi (ai - bi)2 I 1 3 -2 4 II 2 5 -3 9 III 3 7 -4 16 IV 4,5 7 -2,5 6,25 V 4,5 7 -2,5 6,25 VI 6 1 5 25 VII 8 2 6 36 VIII 8 4 4 16 IX 8 9 -1 1 X 10 10 0 0

Totale 119,5

Utilizzare la 28,09907171

)1(

)(6

1 21

2

=−=−

−=∑

=

nn

ban

i

ii

ρ non è corretto poiché

sono presenti dei pareggi. Si calcolano:

[ ] 83)13(2)12(101)110(

121 2222 =−+−−−=aσ

[ ] 05,83)13(101)110(

121 222 =−−−=bσ

05,2)5,119()10(2

1)05,88(21

=−+=abσ

e si utilizza la formula alternativa:

26,0)05,8(8

05,2===

ba

ab

σσσ

ρ

Page 32: Tavola a doppia entrata - TiscaliNews

32

Misurare la concordanza o discordanza di tali graduatorie utilizzando l’indice τ di Kendall

A B Prodotti Imprese Graduatorie

ai bi

Punti algebrici

+ 0 - I 1 3 7 - 2 II 2 5 5 - 3 III 3 7 2 2 3 IV 4,5 7 2 1 3 V 4,5 7 2 - 3 VI 6 1 4 - - VII 8 2 3 - - VIII 8 4 2 - - IX 8 9 1 - - X 10 10 - - -

Totale 28 3 14

Si utilizza la formula :

34,0)84(82

)14(222

21

===TTsτ

[ ] 82)22()33()1010( 2221 =−+−−−=T

[ ] 84)33()1010( 222 =−−−=T

Page 33: Tavola a doppia entrata - TiscaliNews

33

Indipendenza stocastica - Due caratteri si considerano stocasticamente indipendenti se , divise le unità statistiche in gruppi secondo le modalità di un carattere, le distribuzioni corrispondenti ai vari gruppi, espresse in termini di frequenze relative, risultano identiche

- La dipendenza in media implica la dipendenza stocastica ( se più distribuzioni non hanno la stessa media non possono essere identiche)

- La dipendenza stocastica non implica la dipendenza in media

( distribuzioni differenti possono avere la stessa media)

- L’indipendenza stocastica implica l’indipendenza in media

( distribuzioni eguali hanno la stessa media)

- L’indipendenza in media non implica l’indipendenza stocastica

(distribuzioni aventi la stessa media possono essere differenti)

Page 34: Tavola a doppia entrata - TiscaliNews

34

Associazione e contingenza Per valutare la correlazione fra due caratteri qualitativi, misurati entrambi su scale nominali o su scala nominale l’uno ed ordinale l’altro, si utilizzano gli indici detti di associazione e di contingenza.

Il termine associazione si utilizza quando si fa riferimento a due caratteri ciascuno dei quali presenta due sole modalità alternative:

Modalità del carattere V

Modalità del

carattereU V1 V2

Somma delle frequenze

U1 A b a + b U2 C d c + d

a + c b + d N

Secondo le nozioni di dipendenza e indipendenza stocastica i caratteri U e V si considerano indipendenti se:

db

ca

dc

ba

== ;

0=− bcad

Ncabaa ))(( ++

=

se

Ncabaa ))(( ++

> associazione positiva

Ncabaa ))(( ++

< associazione negativa

Poiché bcadbcad +≤− il rapporto :

Page 35: Tavola a doppia entrata - TiscaliNews

35

bcadbcadY

+−

= indice di Youle

fornisce un indice di associazione che varia nell’intervallo (-1,+1) Assume valore -1 se se una o entrambe le frequenze della diagonale principale sono nulle(massima associazione negativa); valore +1 se una o entrambe le frequenze sulla diagonale secondaria sono nulle(massima associazione positiva). Altri indici di associazione sono:

1) ))()()(( dbcadcbabcadV

++++−

= 11 ≤≤− V

assume il valore 1 quando entrambe le frequenze poste sulla diagonale secondaria sono nulle; -1 quando sono nulle entrambe le frequenze poste sulla diagonale principale.

2) ∑=

−=

n

ii

ii

xfxfy

1

22

)()]([

χ

22 NV=χ

NB: f(xi) rappresentano in questo caso le frequenze teoriche che si avrebbero se i due caratteri fossero indipendenti

Page 36: Tavola a doppia entrata - TiscaliNews

36

Contingenza Se i caratteri U e V assumono, rispettivamente, r modalità U1, U2,…, Ur ed s modalità V1, V2,…, Vs, ponendo nella casella all’incrocio dell’ì-esima riga e della j-esima colonna il numero dei casi nij in cui è stata osservata la coppia di modalità Ui e Vj,,si ottiene una tavola di contingenza r x s.

Tavola di contingenza

Cara t t e re V Cara t t e re U V 1 V 2 … V j … V s T o t a l iU 1 n 1 1 n 1 2 … n 1 j … n 1 s n 1 0

U 2 n 2 1 n 2 2 … n 2 j … n 2 s n 2 0

… … … … … … … …

U i n i 1 n i 2 … n i j … n i s n i 0

… … … … … … … …

U r n r 1 n r 2 … n r j … n r s n r 0

T o t a l i n 0 1 N 0 2 … n 0 j … n 0 s N

Gli indici di contingenza sono costruiti considerando U e V indipendenti se

Nnn

n jiij

00= per i=1,2,…r e j=1,2,…,s,:

∑∑= =

−=

r

i

s

joji

ojiij

NnnNnn

n

1 10

20

2][

χ

Page 37: Tavola a doppia entrata - TiscaliNews

37

)( 11 1

00

22 −= ∑∑

= =

r

i

s

jji

ij

nnn

nel caso di completa associazione e per r=s

)1(2 −= rNχ

N

22 χ

=Φ contingenza quadratica media

nel caso di completa associazione e per r = s )1(2 −=Φ r

Contingenza di Pearson 10

1 2

2

<≤

Φ+Φ

=

P

P

nel caso di completa associazione e per r = s rrP 1−

=

Page 38: Tavola a doppia entrata - TiscaliNews

38

Indice di Tschuprow

)1)(1(

2

−−=

=

srg

NgT χ

assume il valore 1 solamente se s = r

2χ valoremassimo=Nm

m= min(r-1, s-1)

Indice di Cramer C assume il valore 1 anche per r ≠ s

NmC

2χ=