STATISTICĂ DESCRIPTIVĂsorana.academicdirect.ro/pages/doc/RO2015/2015Ro_PC05.pdfVARTILE 6-Nov-15 28...

Preview:

Citation preview

STATISTICĂ DESCRIPTIVĂ II Sorana D. Bolboacă

6-Nov-15 1

2

2

OBIECTIVE: MĂSURI DE ...

Centralitate

Media aritmetică

Mediana

Modulul

Valoarea centrală

Media ponderată ...

Dispersie

Amplitudinea

Varianția

Deviația standard

Coeficientul de variație

Eroarea standard

Simetrie

Asimetria

Boltires

Localizare

Cvartile

Percentile

6-Nov-15

• Statistica eșantionului = estimator punctual al parametrului populației

CENTRALITATE • Media aritmetică

• Mediana: punctul de mijloc la seriei (percentile 50)

• Modulul: cea mai frecventă observație a seriei

6-Nov-15 3

n 1

2

Me X

n n1

2 2

X X

Me2

Impar (3, 5, 7 …)

Par (2, 4, …)

n

i

i 1

X

n

n

ii 1

X

Xn

Populație → parametru

Eșantion → statistica

Modulul / Valoarea modală

6-Nov-15 4

Unimodal

CENTRALITATE

Multimodal

CENTRALITATE: Exemplu

Scorurile obținute la examenul practic de o grupă de 11

studenți:

4, 9, 5, 8, 6, 7, 9, 10, 8, 6, 5

• Media aritmetică = (4+9+5+8+6+7+9+10+8+6+5)/11 = 7

• Modulul: 5, 6, 8, 9 serie multimodală

• Mediana: 4, 5, 5, 6, 6, 7, 8, 8, 9, 9, 10

• n (volumul eșantionului) = 11

• Me = X(n+1)/2 = X6 = 7

6-Nov-15 5

Scorurile obținute la examenul practic de o grupă de 11

studenți:

4, 9, 5, 8, 6, 4, 9, 10, 8, 6, 5, 4

• Media = (4+9+5+8+6+4+9+10+8+6+5+4)/12 = 6.5

• Modulul: 4 serie unimodală

• Mediana: 4, 4, 4, 5, 5, 6, 6, 8, 8, 9, 9, 10,

• n (volumul eșantionului) = 12

• Me = (Xn/2+ Xn/2+1)/2 = (X6 +X7)/2= (6+6)/2 = 6

6-Nov-15 6

CENTRALITATE: Exemplu

Media aritmetică: http://spark.rstudio.com/minebocek/CLT_mean/

6-Nov-15 7

CENTRALITATE: Exemplu

6-Nov-15 8

CENTRALITATE: Exemplu

• Media ponderată

6-Nov-15 9

n

i ii 1

X n

ii 1

W X

m

W

n

ii 1

X

Xn

Media aritmetică

Media artimetică este un caz special al mediei

ponderate (Wi , ponderi egale).

CENTRALITATE

AVANTAJE ȘI DEZAVANTAJE

6-Nov-15

Estimator Avantaj Dezavantaj

Media Utilizează toate datele

Ușor de aplicat (formulă

ușoară)

Influențată de outlieri

Nereprezentativă dacă

datele nu au o distribuție

simetrică

Mediana Nu e influențată de outlieri

Neinfluențată de asimetria

datelor

Ignoră majoritatea datelor

din serie

Modulul Aplicabil și variabilelor calitative Ignoră majoritatea datelor

din serie

Media

geometrică

Aplicabilă datelor asimetrice

spre dreapta

Appropriate if the log

transformation produce a

symmetrical distribution

Media

ponderată

Cuantifică importanța relativă a

fiecărei observații

Ponderile trebuie să fie

cunoscute sau estimate

10

DISPERSIE

• Dispersie relativ la parametrul de centralitate

• Datele sunt cu atât mai dispersate cu cât valorile

seriei sunt mai diferite unele față de altele

6-Nov-15 11

12

12

A = Xmax – Xmin

0

2

4

6

8

10

12

14

16

0 10 20 30 40 50 60 70 80 90 100

Fre

cvența

ab

solu

Scor

M F

12

6-Nov-15

AM = 90-10 = 80

AF = 90-10 = 80

DISPERSIE: AMPLITUDINEA

6-Nov-15 13

Variația populației:

Variația eșantionului (the sample variance tend

to sub estimate the population variance):

Parametrul

statistica

n

XX

s

n

i

i

1

2

2)(

2 2

1nS s

n

• Deviaţia standard (StDev sau SD = standard deviation) =

radical di varianţă

• Descrie variabilitatea

• Statistică utilă pentru a evalua cât de apropiate sunt

datele de valoarea medie

• Populaţia

• Eşantionul

6-Nov-15 14

DISPERSIE: DEVIAŢIA STANDARD

Variabilitate vs. Diversitate

Care din grupurile de mai jos prezintă o compozie a culorilor mai diversă?

6-Nov-15 15

Grup 1 Grup 2

DISPERSIE: DEVIAŢIA STANDARD

Variabilitate vs. DiversitateCare din grupurile de mai jos prezintă o variabilitate mai mare a orelor de utilizare?

6-Nov-15 16

Grup 1 Grup 2

10 20 30

504010

20 30 40

10

10 10

10

10

10

50

50 50

DISPERSIE

6-Nov-15 17

Grup 1⟶ s = 15.81 Grup 2 ⟶ s = 21.91

10 20 30

504010

20 30 40

10

10 10

10

10

10

50

50 50

10 20 30 40 50 10 20 30 40 50

Variabilitate vs. DiversitateCare din grupurile de mai jos prezintă o variabilitate mai mare a orelor de utilizare?

DISPERSIE

Variație, Varianță, Abateri, Devieri… și EXCEL

• Statistică descriptivă (eșantion

sau întreaga populație)

• Variația

• Ecartul tip

• Abaterea (deviația) standard a

populației

• Coeficientul de variație al

populației

• Statistică inferențială

(aproximare pentru întreaga

populație pe baza eșantionului)

• Varianţa

• Variaţia de eşantionare

• Abaterea (deviația) standard

• Coeficientul de variație

n

XX

s

n

i

i

1

2

2)(VariațiaVariația

𝑠 = 𝑠2

populației

𝐶𝑉 =𝑠

𝑋 (%)

2 2

1nS s

n

• Variaţia Variaţia V dede eşantionareeşantionarede eşantionareeşantionare

𝑆 = 𝑆2

• Coeficientul de variațieCoeficientul de variație

𝑆 =𝑆 =

𝐶𝑉 =𝑆

𝑋 (%)

6-Nov-15 18

• ↓ s ⟶ datele seriei au valori apropiate de ale mediei

• ↑ s ⟶ datele seriei sunt împrăştiate faţă de valoarea

medie

6-Nov-15 19

DISPERSIE: DEVIAŢIE STANDATD

Variabilitate

mare

Variabilitate

medie

Variabilitate

scăzută

http://onlinestatbook.com/2/summarizing_distributions/spread_sim.html

6-Nov-15 20

DISPERSIE

21

21

• Statistică fără unitate de măsură

• Raportul dintre deviaţia standard şi media aritmetică

a seriei

• Se calculează doar pentru variabilele cantitative de

tip raţie care iau doar valori pozitive

21

6-Nov-15

Valoarea Populaţia se consideră

CV < 0.10 Omogenă

0.10 ≤ CV < 0.20 Relativ omogenă

0.20 ≤ CV < 0.30 Relativ heterogrană

≥ 0.30 Heterogenă

DISPERSIE: COEFICIENTUL DE VARIAŢIE

22

22

SEM = standard error o the mean

• Indicator al acurateţii mediei: SEM = s/√n

• Relaţie invers proporţională dintre volumul eşantionului şi

SEM

22

6-Nov-15

DISPERSIE: EROAREA STANDARD

ASIMETRIA http://chubbyrevision.weebly.com/representation-of-data.html

6-Nov-15 23

Asimetrie < 0 Asimetrie > 0

Asiemtrie = 0

ASIMETRIA

6-Nov-15 24

Asimetrie negativă

Modulul > Mediana > Media

SHAPE MEASURES

6-Nov-15 25

Asimetrie pozitivă:

Modulul = 7000 Ron

Mediana = 8870 Ron

Media = 9360 Ron

Modulul < Mediana < Media

0

5

10

15

20

25

30

35

40

020

040

060

080

010

0012

0014

0016

0018

0020

0022

0024

00

Income (lei)

Ab

solu

te F

req

uen

cy

mediana

modulul media

26

ASIMETRIA 26

26

6-Nov-15

Intepretarea [Bulmer MG, Principles of Statistics, Dover, 1979,] – aplicată populației

Asiemtria <−1 sau > +1 înalt asimetrică

Asimetria cu valoare între −1 și −½ sau +½ și +1 moderat asimetrică

Asimetria cu valoare între −½ și +½ aproximativ simetrică

BOLTIREA

• = KURT(array)

Distribuția normală are boltirea în jurul valorii 3.

Excesul de boltire (ceea ce calculează Excel-ul cu funcția KURT) = Boltire – 3

Distribuția normală: boltirea ≅ 3 (excesul de boltire ≅ 0) mezocurtic

Distribuția cu boltirea <3 (excesul de boltire < 0) se numește platocurtică

Distribuția cu boltirea >3 (excesul de boltire >0) se numește leptocurtică

6-Nov-15 27

LOCALIZARE: CVARTILE

6-Nov-15 28

IC = Q3 – Q1

unde Q3 = cvartila 3 (percentila 75%), Q1 = cvartila 1 (percentila 25%)

Măsură a dispersiei pentru 50% din datele de mijloc.

INTERVALUL DINTRE Q1 și Q3

6-Nov-15 29

Variabila: note la examenul practic

Me=[X12/2+X(12/2+1)]/2 = (X6+X7)/2 = (8+8)/2 = 8

Me=8

Ord

on

are

Q3 –

Q1 =

9 –

5.5

= 3

.5

A =

10

– 4

= 6

Formule Excel:

(Mediana) Me:

=MEDIAN(B1:B12)

(Intervalul dintre cvartila 3 şi 1) IC:

=QUARTILE(B1:B12,3)-QUARTILE(B1:B12,1)

(Amplitudinea) A:

=MAX(B1:B12)-

MIN(B1:B12)

INTERVALUL DINTRE Q1 și Q3 6-Nov-15 30

Variabila: note la examenul practic

Me=8

Q3 –

Q1 =

9 –

5.5

= 3

.5

A =

10

– 4

= 6

A: Diferenţa dintre nota maximă şi nota minimă a

fost de 6 puncte

Q1: 25% din studenţi au note ≤ 5.5 Q3: 75% din studenţi au note ≤ 9 IC: 50% din studenţi au note care nu diferă una faţă de alta cu mai

mult de 3.5 puncte

6-Nov-15

Coeficientul de variație

• Măsură a variabilităţii relative utilizată pentru:

• Măsurarea modificărilor care au apărut în populaţie în timp

• Compararea variabilităţii a două populaţii când unităţile de măsură

sunt diferite (mg/dL vs mmol/L – colesterol)

• Frecvent exprimat procental

31

Greutate (kg) Înălţime (cm)

Media aritmetică 72,6 168

Deviaţia standard 13,6 10,2

» Care din variabilele de mai sus are împrăştierea mai mare?

˃ Nu se poate răspunde la întrebare

» Care din variabilele de mai sus are împrăştierea relativă la medie mai mare ?

Greutate: CV = 13,6/72,6*100 = 19%

Înălţime: CV = 10,2/168*100 = 6,1%

31

• Aplicabilitate: dispersia în două seturi de date

• A: 12, 13, 16, 18, 18, 20

• B: 120, 130, 160, 180, 180, 200

6-Nov-15 32

Grup A Grup B

Media 16 162

Deviaţia standard 3 29

CV (%) 18 18

» Aplicabilitate: dispersia în două seturi de date ˃ A: 12, 13, 16, 18, 18, 20

˃ B: 2, 3, 160, 18, 200, 300

Grup A Grup B

Media 16 114

Deviaţia standard 3 114

CV (%) 18 100

6-Nov-15

• Care din seria de mai jos are deviaţia standard cea mai mică A. 10, 11, 13, 13, 13, 15, 16

B. 10, 10, 10, 10, 10, 10, 12

C. 10, 11, 12, 13, 14, 15, 16

D. 20, 22, 25, 210, 212, 215, 2100

E. 5, 50, 51, 52, 500, 510, 520

33

33

http://www.sagepub.com/upm-data/43350_4.pdf

6-Nov-15 34

6-Nov-15 35

Recommended