Estatística Descritiva e Inferencial CE081 - people.ufpr.brpeople.ufpr.br/~jomarc/ce081.pdf ·...

Preview:

Citation preview

EstatísticaDescritiva e Inferencial

CE081

Prof. Dr. Jomar Camarinha

CONTEÚDO

• Estatística Descritiva e Exploratória

• Teoria dos Conjuntos

• Análise Combinatória

• Noções de Probabilidade

• Noções de Amostragem

• Noções de Estimação de Parâmetros

• Introdução aos Testes de Hipóteses

• Introdução à Regressão e Correlação

EstatísticaDescritiva e Inferencial

Introdução

Alguns Conceitos

Distribuição Amostral

Função de Probabilidade

P-valor

Tomada de Decisões

Exemplos

Processo Científico

1. Introdução

ConhecimentoSuposiçãoHipótese

IdeiaIdeia PlanejamentoExperimental

Delineamentos

ExperimentosAnAnáálise de Dadoslise de DadosEstatística Descritiva eInferencial

Conclusões

Alguns Conceitos

– Experimento Aleatório (“provocar”↔ Condições)

– População e Amostra– Variável– Variável (Resposta) = Var. Independente + Var. Residual– Tipos de Variável:1. Qualitativa: Nominal (N) e Ordinal (O)

2. Quantitativa: Discreta (D) e Contínua (C)– Exemplos:• Raça (N); Produtividade de Leite (?); Dose Medicamento• Grau de Infestação (?); Escolaridade (?); Cor Olhos (?);• Número de Indivíduos Infectados (?); Quantidade de ...

– Fator (Variável Independente)

– Níveis do Fator– Tratamento

– ParcelaExemplo: Colesterol; Medicamento; Dose

– Testemunha (Grupo Controle, Placebo)– Bordadura

– Delineamento

Alguns Conceitos

ExperimentaExperimentaExperimentaExperimentaçççção ão ão ão • Distribuição Amostral

• Função de Probabilidade

(Parâmetros de um Modelo)

• P-valor

• Tomada de Decisões

Distribuição de Frequências

ESTATURAS DE 40 ALUNOS DA FACULDADE A

166 160 161 150 162 160 165 167 164 160

162 168 161 163 156 173 160 155 164 168

155 152 163 160 155 155 169 151 170 164

154 161 156 172 153 157 156 158 158 161

Tabela 1 - Primitiva:

Classe Estaturas

(cm) �� ��� �� ���

1 150|—154 4 0,1 4 0,1

2 154 |—158 9 0,225 13 0,325

3 158 |—162 11 0,275 24 0,6

4 162 |—166 8 0,2 32 0,8

5 166 |—170 5 0,125 37 0,925

6 170 |—174 3 0,075 40 1

∑ = 40 ∑ = 1,00

Tabela 5 – Distribuição de Frequências dos dados de Estatura:

Aspectos da mortalidade atribuível ao tabaco: revisão

sistemática

186 artigos:⇒⇒⇒⇒ 30 selecionados:

Risco atribuível na população (SAM).

Amostra final: 41 artigos

Comparações de medidas de qualidade de vida

entre mulheres e homens em hemodiálise

Escores:

- PCS: entre 14,6 e 60,7 (média=39,7±10,3; mediana=40,8)

- MCS entre 14,2 e 75,0 (média=47,7±12,4; mediana=48,6)

- Sintomas/problemas entre 12,5 e 100(média=76,4±17,8; mediana=81,2).

Conclusões:- Significantemente menores em mulheres

- As diferenças entre mulheres e homens foram:de 2,4 pontos para PCS (P=0,005); de 3,0 pontos para MCS (P=0,005);de 6,6 pontos para sintomas/problemas (P<0,001).

Exemplo 1

175 > 173?(DEPENDE!!!)

• n • Variabilidade• Comportamento dos Dados

(Função de Probabilidade)

Exemplo 2

• Experimento: 16 bolas

n = 2 (s/ rep.)

45

40

20

6

8

1

120

Função de Probabilidade

0,00

0,05

0,10

0,15

0,20

0,25

0,30

0,35

0,40

AA VV VA BA BV BB

Tomada de Decisões

Situações Ocorrência Implicação Decisão

A Afirmação Falsa Mentiu

B Afirmação Possível

C Afirmação Possível

Exemplo 1

180 > 173?

Depende!!!

X

Θ

N

n

n

n

n

. . . . . .

1θ̂

2θ̂

3θ̂

Kθ̂

3210-1-2-3 θ̂

2 1 02 0 01 9 01 8 01 7 01 6 01 5 01 4 01 3 0

0 ,0 3 5

0 ,0 3 0

0 ,0 2 5

0 ,0 2 0

0 ,0 1 5

0 ,0 1 0

0 ,0 0 5

0 ,0 0 0

X

Density

D is tr i bu t io n P lo tNo rm a l; M e a n= 1 7 3 ; S tDe v= 1 2

0 ,4

0 ,3

0 ,2

0 ,1

0 ,0

X

Density

1 7 5 ,4

0 ,0 0 8

1 7 3

N o rm a l; M e a n = 1 7 3 ; S tD e v= 1

D is t r ib u t io n P lo t n = 1 4 4

Intervalo de ConfiançaTeste de Hipóteses

• Interpretação

• Regra de Decisão

• P-Valor

X

Θ

N

n

n

n

n

. . . . . .

1θ̂

2θ̂

3θ̂

Kθ̂

3210-1-2-3 θ̂

ANOVA

Definição

• Decomposição da Variabilidade Total

Var. Total = Var. Tratamentos + Var. Residual

ANOVA

• Delineamentos: Inteiramente casualizado, blocos ao acaso, quadrado latino, parcelas subdivididas, delineamentos em faixas.

• Princípios Básicos da Experimentação

Repetição

Casualização

Controle Local

Princípios Básicos da Experimentação

EB Repetições

A A A A A A

B B B B B B

EB Repetições com Casualização

A A B A B A B B A

B B B A A B A A B

EB Repetições com casualização e controle local

A A B B A B A B B

B B A A B A B A A

Princípios Básicos da Experimentação

Pressupostos para Realização da ANOVA

• Normalidade (Histograma Res.; qqplot) (Shapiro-Wilk)

• Independência (Res. x Valores ajustados)

• Homocedasticidade (ResxTrat) (Bartlett)

Experimentos no Delineamento Inteiramente Casualizado

Características

• Homogeneidade: Material Experimental Condições Ambientais

• Alocação dos Tratamentos

• Vantagens e Desvantagens

ANOVA - DIC

• Modelo Probabilístico

ijiij ety ++= µ

);(~ 2σµNeij

iid

ii t+= µµ

Variabilidades EnvolvidasVariabilidades Envolvidas

.1y

..y

.2y

.Iy

Repetições

Tratamentos 1 2 ... J Média

1 y11 y12 ... y1J

2 y21 y22 ... y2J

... ... ... ... ... ...

I yI1 yI2 ... yIJ

Ho: µ1 = µ2 = µ3 = … = µT

Decomposição da Variabilidade

( ) ( ) ( )[ ]

( ) ( ) ( )( )..

2

..

2

2

..

2

..

..2..

..

yyyyyyyy

yyyyyy

iiijiiij

iiijij

−−+−+−

−+−=−

( ) ( ) ( )[ ].... .. yyyyyy iiijij −+−=−

( ) ( ) ( )∑ ∑∑∑∑= === =

−+−=−I

i

I

i

i

J

j

iij

I

i

J

j

ij yyJyyyy1

2

1

..

1

2

1 1

2

.. ..

Decomposição da Variabilidade

Distribuições

Funções de Densidade

( )2

1 1

2

..

σ

∑∑= =

−I

i

J

j

ij yy

( )2

1 1

2.

σ

∑ ∑= =

−I

i

J

j

iij yy

( )2

1

2

...

σ

∑=

−I

i

i yyJ

∑∑ −I

i

J

j

ij Cy 2

Fontes de Variação

Graus de Liberdade

Soma de Quadrados

Quadrado Médio

F

Tratamentos I - 1 SQtrat/(I-1) QMtrat/QMres

Resíduo I.(J – 1) Por diferença

SQres/I(J-1)

Total I.J - 1

∑ −I

i

i CyJ

2

.

1

SQHo Ho: µ1 = µ2 = µ3 = … = µT

Ha: pelo menos um par difere

Testes de Comparações Múltiplas e

Análise de Regressão

• Contrastes de Médias

– Tukey– Duncan– Dunnett

• Regressão Polinomial

TUKEY

r

QMq sRe.=∆

EXEMPLO

• Comparação:

• 88t/ha e 93t/ha

• ∆ = 7,6 t/ha

Variabilidades EnvolvidasObtenção das Variabilidades Envolvidas

Repetições

Tratamentos 1 2 ... J Total

1 y11 y12 ... y1J y1.

2 y21 y22 ... y2J y2.... ... ... ... ... ...I yI1 yI2 ... yIJ y3.

y..

Ho: µ1 = µ2 = µ3 = … = µT

Exemplo Linhagens Repetições Total I II III IV V VI

L1 385 323 417 370 437 340 2272 L2 406 385 444 443 474 437 2589 L3 354 292 389 312 432 299 2078 L4 271 208 347 302 370 264 1762 L5 344 292 354 354 401 306 2051 L6 354 354 410 453 448 417 2436 L7 167 115 194 130 240 139 985 L8 344 385 410 437 437 410 2423 L9 385 385 396 453 458 417 2494

Total 19090

Somas de Quadrados

• SQTotal =

• SQTrat =

1,918.3326.9

19090)2494...25892272(

6

1 2

222 =−+++=

∑ −I

i

i CyJ

2

.

1

∑∑ −I

i

J

j

ij Cy2

5,119.4206.9

19090417...323385

2

222 =−+++=

Fontes de Variação

Graus de Liberdade

Soma de Quadrados

Quadrado Médio

F

Tratamentos 9 - 1 332.918,1 332.918,1/8 21,48**

Resíduo 9.(6 – 1) Por diferença

87.201,4/45

Total 9.6 - 1 420.119,5

SQTrat Ho: µ1 = µ2 = µ3 = … = µT

Ha: pelo menos um par difere

ANOVA

TUKEY

• q = amplitude total estudentizada• I e g.l. do Resíduo.

r

QMq sRe.=∆

• ∆=4,64.√1938/6 = 83,39 micras /h;

• Diferença Significativa > ∆;

• Exemplo:

L6 x L4: 406,00 - 293,67 = 112,33

TUKEY

Tabela Resumo

Tratamento Média Diferenças

L2 431,50 A

L9 415,67 AB

L6 406,00 AB

L8 403,83 AB

L1 378,67 AB

L3 346,33 BC

L5 341,83 BC

L4 293,67 C

L7 164,17 D

Contrastes

• Contraste: Y= a1µ1 + a2 µ2 + ... + akµk

• Teste:

0=∑k

ii

a

)ˆ(

ˆ

YS

DYt

−=

k

k

k

kk

r

Sa

r

Sa

r

SaYV

VaVaYYVOCYV

2

2

2

2

22

2

1

2

12

1

2

1

2

1

...)ˆ(ˆ

)ˆ(ˆ...)ˆ(ˆ)ˆ;ˆ(ˆ)ˆ(ˆ

+++=

++== µµ

Contrastes

r

QMaaa

r

Sa

r

Sa

r

SaYV

s

k

k

k

k

Re22

2

2

1

2

2

2

2

22

2

1

2

12

1

)...(

...)ˆ(ˆ

+++=

=+++=

Tukey Aproximado

• Dados Desbalanceados

2

)ˆ(ˆ.'

YVq=∆

Contrastes

• Ortogonais: Covariância Nula

• I – 1 contrastes.

02 =∑ i

k

ii

ii Sr

ba

Exemplo• 4 Tratamentos:1- Abacaxi (0,9x0,3 m) -2 - Abacaxi (0,8x0,3 m) -3 - Abacaxi + Amendoim -4 - Abacaxi + Feijão -

1 (1 e 2) x (3 e 4) = - 13t/ha 2 (1) x (2) = - 3t/ha3 (3) x (4) = 2t/ha4

hat

hat

hat

hat

/5,60ˆ

/5,62ˆ

/5,56ˆ

/5,53ˆ

4

3

2

1

=

=

=

=

µ

µ

µ

µ

TESTE “t”

)ˆ(

ˆ

YS

DYt

−=

Teste

• Para o Contraste:

(1 e 2) x (3 e 4) = - 13t/há

)ˆ(

013

YSt

−−=

4,08

8,0])1()1(11[

)...()ˆ(ˆ

2222

Re22

2

2

1

=−+−++=

=+++=r

QMaaaYV s

k

Teste “t”

55,204,0

013−=

−−=t

Blocos Casualizados

BLOCOS TRAT. 1 2 3 4

TOTAIS

1 142,36 144,78 145,19 138,88 271,21 2 139,28 137,77 144,44 130,61 552,10 3 140,73 134,06 136,07 144,11 554,97 4 150,88 135,83 136,97 136,36 560,04 5 153,49 165,02 151,75 150,22 620,48

TOTAIS 726,74 717,46 714,42 700,18 2858,80

Somas de Quadrados

• SQTotal =

SQTrat =

SQBlocos =

95,12734.5

8,285822,150...36,142

222 =−++=

∑∑ −I

i

J

j

ij Cy2

CCyJ

I

ii

−++=−∑ )48,620...21,271(5

11 222

.

CCyI

J

jj

−++=−∑ )18,700...74,726(5

11 222

.

ANOVA

Source DF Seq SS Adj SS Adj MS F P Tratamentos 4 794,93 794,93 198,73 5,87 0,007 BLOCOS 3 72,70 72,70 24,23 0,72 0,561 Error 12 406,32 406,32 33,86 Total 19 1273,95

Ensaios Fatoriais – Ex.17

85,321,322,821,419,86

80,219,218,819,422,85

78,318,619,021,119,64

103,526,425,126,325,73

101,325,226,724,624,82 =

102,625,425,026,026,21 = R1E1

4321

TOTAISREPETIÇÕESTRAT.

Variabilidades

23,659.1246

2,551 22

==IJ

GC

79,1984.6

2,5513,21...0,262,26

2222 =−+++=

∑∑ −=I

i

J

j

ijTotal CySQ 2

70,175)3,85...6,102(4

11 222

. =−++=−= ∑ CCyJ

SQI

i

iTrat

Desdobramento do g.l.

× ..2

..1)(

..2)(Re

..5

lgERInteração

lgEEspécies

lgRcepientes

lgsTratamento

551,2165,5181,8203,9TOTAIS

264,985,378,3101,3E2

286,380,2103,5102,6E1

TOTAISR3R2R1(4)

86,92)5,1658,1819,203(8

1 222

Re =−++= CSQ cipientes

08,19)9,2643,286(12

1 22 =−+= CSQEspécies

70,175)3,85...6,102(4

1 22 =−++= CSQRE

76,6308,1986,9270,175

Re

=−−=

−−=× EspcERInteração SQSQSQRESQ

Quadro da ANOVA

Analysis of Variance for Altura Eucaliptos, using Adjusted SS for Tests Source DF Seq SS Adj SS Adj MS F P RECIPIENTE 2 92,861 92,861 46,430 36,20 0,000 ESPÉCIE 1 19,082 19,082 19,082 14,88 0,001 RECIPIENTE*ESPÉCIE 2 63,761 63,761 31,880 24,85 0,000 Error 18 23,090 23,090 1,283 Total 23 198,793

Split-PlotExemplo

aCaracterísticas:Divisão em subparcelas;Tratamentos principais: níveis de fator

colocado;Tratamentos secundários: níveis de fator

casualizado;

Experimento: Calcário e Fertilizante;

Modelo: yijk = µ + ci + fk + (cf)ik + bj + (cb)ij + eijk

onde:

(cb)ij = Resíduo (A)

eijk = Resíduo (B)

Croqui

A2B1

A2B3

A2B2

A1B2

A1B1

A1B3

A1B2

A1B1

A1B3

A2B1

A2B2

A2B3

A2B1

A2B3

A2B2

A1B1

A1B3

A1B2

A1B2

A1B3

A1B1

A2B3

A2B2

A2B1

1°BLOCO 2°BLOCO 3°BLOCO 4°BLOCO

Exemplo 18VARIEDADES (A)

TRATAMENTOS DE SEMENTES

(B)

BLOCOSTOTAIS1 2 3 4

A1

B1 42,9 41,6 28,9 30,8 144,2B2 53,8 58,5 43,9 46,3 202,5B3 49,5 53,8 40,7 39,4 183,4B4 44,4 41,8 28,3 34,7 149,2

A2

B1 53,3 69,6 45,4 35,1 203,4B2 57,6 69,6 42,4 51,9 221,5B3 59,8 65,8 41,4 45,4 212,4B4 64,1 57,4 44,1 51,6 217,2

A3

B1 62,3 58,5 44,6 50,3 215,7B2 63,4 50,4 45,0 46,7 205,5B3 64,5 46,1 62,6 50,3 223,5B4 63,6 56,1 52,7 51,8 224,2

A4

B1 75,4 65,6 54,0 52,7 247,7B2 70,3 67,3 57,6 58,5 253,7B3 68,8 65,3 45,6 51,0 230,7B4 71,6 69,4 56,6 47,4 245,0

TOTAIS 965,3 936,8 733,8 743,9 3379,8

Variabilidades (SQs)

• C = 3.379,8²/64 = 178.485,13

• SQT = 42,9² + 41,6² + ... + 47,4² - C =

7.797,39

• SQBlocos = (965,3+ ... + 743,9²)/16 - C

(4) BLOCO 1 BLOCO 2 BLOCO 3 BLOCO 4 TOTAIS

A1 190,6 195,7 141,8 151,2 679,3

A2 234,8 262,4 173,3 184,0 854,5

A3 253,8 211,1 204,9 199,1 868,9

A4 286,1 267,6 213,8 209,6 977,1

TOTAIS 965,3 936,8 733,8 743,9 3.379,8

• SQVar(A) = (679,3² + ... + 977,1²)/16 – C

• SQParc = (190,6² + ... + 209,6²)/4 – C

• SQRes(A) = SQParc – SQBlocos – SQA

= 6.309,19 – 2.842,87 – 2.848,02 = 618,19

(4) B1 B2 B3 B4 TOTAIS

A1 144,2 202,5 183,4 149,2 679,3

A2 203,4 221,5 212,4 217,2 854,5

A3 215,7 205,5 223,5 224,2 868,9

A4 247,7 253,7 230,7 245,0 977,1

TOTAIS 811,0 883,2 850,0 835,6 3.379,8

• SQTrat de sem(B) = (811,0² + ... + 835,6²)/16 – C

• SQA,B = (144,2² + ... + 245,0²)/4 – C

• SQAxB = SQA,B – SQA – SQB

= 3.605,02 – 2.848,02 – 170,53

• SQRes(B) = SQTotal – SQParc – SQB – SQAxB

= 7.797,39 – 6.309,19 - 170,53 – 586,47

= 731,20

Quadro da ANOVA

Analysis of Variance for Aveia, using Adjusted SS for Tests Source DF Seq SS Adj SS Adj MS F P Blocks 3 2842,87 2842,87 947,62 31,60 0,000 A 3 2848,02 2848,02 949,34 31,66 0,000 B 3 170,54 170,54 56,85 1,90 0,144 A*B 9 586,47 586,47 65,16 2,17 0,042 Error 45 1349,50 1349,50 29,99 Total 63 7797,39

Análise Combinatória

• Objetivo: resolver problemas de contagem

• Estabelecer métodos

(contagem → Agrupamentos)• Princípio Fundamental da Contagem (PFC)

Evento (fato) → composto etapas → cada uma por certas quantidades;

Evento (fato) = produto dessas etapas

Exemplos

1. Refeição;

2. Vestir;

3. Carro;

4. Obter nº naturais:

a) 3 algarismos (com rep.); {1a5}

b) 3 algarismos distintos; {1a5}

c) 4 alg. Distintos; {0a4}

d) Múltiplos de 5 c/4alg. dist.; {0a5}

Exemplos

5. Nº naturais maiores que 64.000; {0;1;2;4;5;6;7;9} com 5 alg. distintos;

6. Placas;

7. Ordem crescente os N com 4 alg. dist.; {1;3;5;7}. Que lugar (ordem) ocupa o nº5731?

8. Turista (viagem): A→B (3R e 2F); B→C (2R e 2F). Percursos distintos?

Recommended