94
Bioestatística Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Embed Size (px)

Citation preview

Page 1: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

BioestatísticaBioestatística

Maurício Cagy

Depto. de Epidemiologia e Bioestatística

Instituto de Saúde da Comunidade

Page 2: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Bibliografia RecomendadaBibliografia RecomendadaDíaz, F. R., López, F. J. B., Bioestatística, São Paulo:

Thomson Learning, 2007.Morettin, P. A., Bussab, W. O., Estatística Básica, 5a.

Ed., São Paulo: Editora Saraiva, 2006.Medronho R.A. et al. (eds.), Epidemiologia, São Paulo:

Editora Atheneu, 2002.Soares J.F., Siqueira A.L., Introdução à Estatística

Médica,– 1a. Ed., Belo Horizonte: Departamento de Estatística –

UFMG, 1999;– 2a. Ed., Belo Horizonte: Coppemed, 2002.

Page 3: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

EpidemiologiaEpidemiologia

“… o que os epidemiologistas estudam são os determinantes e as condições de ocorrência de doenças e agravos à saúde em populações humanas. E o fazem empregando os mais diversos métodos e técnicas, de acordo com suas próprias visões de mundo, posicionamentos teóricos, e propósitos, imediatos ou não, de seus estudos.” (Carvalho, D.M., “Epidemiologia - História e Fundamentos” in: [2], p.6)

Page 4: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

BioestatísticaBioestatística

“…o conjunto de métodos estatísticos usados no tratamento da variabilidade nas ciências médicas e biológicas. A Bioestatística fornece métodos para se tomarem decisões ótimas na presença de incerteza, estabelecendo faixas de confiança para a eficácia dos tratamentos e verificando a influência de fatores de risco no aparecimento de doenças.” ([3], p.11)

Page 5: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

VariávelVariável“…a quantificação ou a categorização da

característica de interesse do estudo.” ([3], p.33)

Tipos:– Categóricas:

Ordinal (Ex.: nível de gravidade de uma doença;

grau de satisfação com atendimento); Nominal (Ex.: gênero, etnia);

– Quantitativas: Contínua (Ex.: grandezas físicas, e.g. altura,

massa, pressão, temperatura); Discreta (Ex.: contagens, proporções).

Codificação

Decodificação

Discretização

(Quantização)

Page 6: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Variável CategóricaVariável CategóricaCodificação:

– Representação dos valores desta variáveis por meio de símbolos em vez de palavras por extenso, visando à simplificação do preenchimento dos dados.

– Deve permitir a decodificação, ou corre-se o risco de se perder completamente esta informação.

Exemplo: gênero– M e F ou ♂ e ♀, no lugar de masculino e feminino;– 0 e 1 nesse caso, uma tabela deve informar a que

valor cada símbolo se refere para permitir a decodificação.

Page 7: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Variável QuantitativaVariável QuantitativaDiscretização Quantização:

– Arredondamento: busca-se o valor quantizado mais próximo, seja abaixo ou acima:Erro máximo: metade da resolução da escala

– Truncamento: busca-se o valor quantizado mais próximo em direção ao zero:Erro máximo: resolução da escala

– Valor verdadeiro: 36,98764953...

– Valor arredondado: 37,0;

– Valor truncado: 36,9.

Page 8: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Tabelas, Gráficos e Medidas Tabelas, Gráficos e Medidas Descritivas - Var. CategóricaDescritivas - Var. Categórica

Medidas Freqüências:– Absoluta (contagem);– Relativa (proporção).

Exemplo: em um grupo de 20 pacientes cardiopatas, 6 são diabéticos.– Freqüência absoluta de diabéticos: 6;– Freqüência relativa de diabéticos: 6/20 = 0,3 = 30%;

Page 9: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Tabelas, Gráficos e Medidas Tabelas, Gráficos e Medidas Descritivas - Var. CategóricaDescritivas - Var. Categórica

Tabelas de Contingência:Simples

Tabela 22

Diabetes Fr. Abs. Fr. Rel.

Sim 6 0,3

Não 14 0,7

Cardiopata

Diabético

Sim Não Total

Sim 6 2 8

Não 14 17 31

Total 20 19 39

Page 10: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Tabelas, Gráficos e Medidas Tabelas, Gráficos e Medidas Descritivas - Var. CategóricaDescritivas - Var. Categórica

Gráficos:– Gráficos de Setores (ou de pizza ou de torta - pie

chart):

– Histogramas:

Page 11: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Tabelas, Gráficos e Medidas Tabelas, Gráficos e Medidas Descritivas - Var. QuantitativaDescritivas - Var. Quantitativa

Medidas de Tendência Central ou Centralidade:– Em torno de que valor se encontram nossas

observações?

Medidas de Dispersão ou Variabilidade:– Estes valores são parecidos uns com os outros ou

apresentam grande variabilidade?

Medidas de Simetria...Medidas de Curtose......

Page 12: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Tabelas, Gráficos e Medidas Tabelas, Gráficos e Medidas Descritivas - Var. QuantitativaDescritivas - Var. Quantitativa

Medidas de Tendência Central:– Média: somam-se os N valores e divide-se por N;– Mediana: valor abaixo do qual se encontra metade das

observações;– Moda: valor (ou intervalo de valores) mais freqüente.– Exemplo: altura de indivíduos do gênero masculino (cm)

173 163 177 178 167 186 186 176 179 177 175 182 171 193 175 177 185 176 175 169

Média: cm

Mediana: 163 167 169 171 173 175 175 175 176 176 177 177 177 178 179 182 185 186 186 193

xm= (176+177)/2 = 176,5 cm

Modas: 175 e 177 cm

17720/35401

1

N

iiN

xx

Page 13: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Tabelas, Gráficos e Medidas Tabelas, Gráficos e Medidas Descritivas - Var. QuantitativaDescritivas - Var. Quantitativa

O que a média equilibra?– A soma de todos os desvios (diferença) em relação à

média ( ) é sempre nula!– Demonstração:

– Ou seja, a média equilibra os desvios...Exemplo:

173 163 177 178 167 186 186 176 179 177 175 182 171 193 175 177 185 176 175 169

-4 -14 0 1 -10 9 9 -1 2 0 -2 5 -6 16 -2 0 8 -1 -2 -8

Somatório acumulado:

-4 -18 -18 -17 -27 -18 -9 -10 -8 -8 -10 -5 -11 5 3 3 11 10 8 0

N

ii xx

1

0

)(

111

1

1

1 1

1

11 1

1

1

N

ii

N

ii

N

iiN

N

ii

N

i

N

iiN

N

ii

N

i

N

iiNi

N

ii

xxxNx

xxxxxx

Page 14: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Tabelas, Gráficos e Medidas Tabelas, Gráficos e Medidas Descritivas - Var. QuantitativaDescritivas - Var. Quantitativa

Além de a soma dos desvios em relação à média ser sempre nula, a média é a referência que minimiza a soma dos desvios quadráticos (S.D.Q.).– Demonstração - busca do parâmetro a que minimiza o S.D.Q.:

Exemplo:173 163 177 178 167 186 186 176 179 177 175 182 171 193 175 177 185 176 175 169

– Soma dos desvios quadráticos com relação à média (177): 938– Soma dos desvios quadráticos com relação a 176: 958– Soma dos desvios quadráticos com relação a 178: 958

xxaxNa

xaaxaxda

aaxxd

da

axd

da

axd

NiN

Ni

Ni

NNi

Ni

iiii

1

2222

0)(0)22(

0)2()(

0)(

Page 15: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Tabelas, Gráficos e Medidas Tabelas, Gráficos e Medidas Descritivas - Var. QuantitativaDescritivas - Var. Quantitativa

Medidas de Dispersão ou Variabilidade:– Desvio Absoluto Médio: valor médio da distância dos

indivíduos com relação à média;– Variância e desvio padrão;

173 163 177 178 167 186 186 176 179 177 175 182 171 193 175 177 185 176 175 169

-4 -14 0 1 -10 9 9 -1 2 0 -2 5 -6 16 -2 0 8 -1 -2 -8

Desvio Absoluto Médio

Variância

Desvio-Padrão

cm520/1001

1

N

iiN

xxDAM

cm026,7

cm368,4919/938

2

22

1

21

1

1

2

112

xx

N

iiN

N

iiNx

ss

xNxxxs

Page 16: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Tabelas, Gráficos e Medidas Tabelas, Gráficos e Medidas Descritivas - Var. QuantitativaDescritivas - Var. Quantitativa

Estimador não-tendencioso da Variância:Por que N-1???

– Resposta: para que a esperança matemática deste estimador seja a variância real 2.

– Como minimiza o S.D.Q., se dividíssemos por N, o estimador tenderia a subestimar a variância.

2

1

21

1

1

2

112 xNxxxs

N

iiN

N

iiNx

22122122

2222

22222

1

2

)1(

)()(Var)()(Var)()(

)()()()(

NNN

xxxxNxxN

xNxNxNxxNx

NN

N

i

ii

N

ii

x

Page 17: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Tabelas, Gráficos e Medidas Tabelas, Gráficos e Medidas Descritivas - Var. QuantitativaDescritivas - Var. Quantitativa

Medidas de Dispersão ou Variabilidade (cont.):– Percentis: o percentil de P% é o valor abaixo do qual

se encontram P% dos indivíduos:– 10% - 90%

– 25% - 75% Primeiro e Terceiro Quartis (Q1 e Q3)

– Distância Interquartil = Q3-Q1

163 167 169 171 173 175 175 175 176 176 177 177 177 178 179 182 185 186 186 193

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

4,75 9,5 14,25

Q1=174,5 cm xm=176,5 cm Q3=179,75 cm

DI = 179,75-174,5 = 5,25 cm

Page 18: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Tabelas, Gráficos e Medidas Tabelas, Gráficos e Medidas Descritivas - Var. QuantitativaDescritivas - Var. Quantitativa

Tabelas e Gráficos:163 167 169 171 173 175 175 175 176 176 177 177 177 178 179 182 185 186 186 193

– Ogiva

– Histograma

Intervalo (cm) Freq. Abs.

163,0 | 170,5 3

170,5 | 178,0 10

178,0 | 185,5 4

185,5 || 193,0 3

Page 19: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Tabelas, Gráficos e Medidas Tabelas, Gráficos e Medidas Descritivas - Var. QuantitativaDescritivas - Var. Quantitativa

Mais Gráficos:163 167 169 171 173 175 175 175 176 176 177 177 177 178 179 182 185 186 186 193 (cm)

(Q1 = 174,5; xm = 176,5; Q3 = 179,75 cm) ( = 177,0; sx = 7,026 cm)

Box-plot Média e DP

1,5.DI = 7,875 cm

3,0.DI = 15,75 cm

Q3+1,5.DI

Q1-1,5.DI

166,625 cm

187,625 cmQ3+3,0.DI

Q1-3,0.DI

158,75 cm

195,5 cm

x

Page 20: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Box-Plot com Variáveis Box-Plot com Variáveis GaussianasGaussianas

Page 21: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Introdução à ProbabilidadeIntrodução à ProbabilidadeConceitos Fundamentais:

– Espaço Amostral (E): é o conjunto de todos valores possíveis que uma variável aleatória pode assumir.Ex.:

– Lançamento de um dado E = {1;2;3;4;5;6}

– Pressão sistólica E = [60;320] mmHg

– Evento Probabilístico ou Aleatório: é qualquer sub-conjunto de E, e que traga um significado conceitual dentro do fenômeno estudado.Ex.:

– Lançamento de um dado A = {1;2} (números em que eu apostei...)

– Pressão sistólica A = [110;130] mmHg (pressão normal...)

Page 22: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Introdução à ProbabilidadeIntrodução à ProbabilidadeConceitos Fundamentais:

– Relação entre Probabilidade e Proporção:Qual a probabilidade de sair o número 3 no lançamento de um

dado de 6 faces?– Dado honesto: p(3) = 1/6;

– Nada se sabe sobre a estrutura do dado:

• Lançamos um número muito grande de vezes e estimamos a probabilidade pela proporção de vezes que saiu o número 3

onde N3 é o número de vezes que resultou o número 3 e NT é o número total de lançamentos.

– Definição:

TN

Np 3)3(ˆ

TN N

Np

T

3lim)3(

Page 23: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Introdução à ProbabilidadeIntrodução à Probabilidade Propriedades:

– Seja A um evento probabilístico:

1. 0 p(A) 1p(A) = 0 A é impossível

0 < p(A) < 1

p(A) = 1 A é certo de acontecer

Ex.: p(A) = 2/6 = 1/3

2.

Conjunto complemento Lógica “Não”

3. p(E) = 1 p({ }) = 0, onde {} = (conjunto vazio)

E

1 2

A

3 4

5 6)(1)( AA pp

3/113/26/4)( Ap

Page 24: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

E1 2

A 3 4

B 5 6

Sejam A e B dois eventos...

Excludência Probabilística: dois eventos são excludentes entre si (ou mutuamente excludentes) se a ocorrência de um EXCLUI a possibilidade de o outro ocorrer.

4. p(A B) = p(A) + p(B) se A e B são excludentes;

p(A B) = p(A) + p(B) – p(A ∩ B) caso contrário (caso geral);

Conjunto União Lógica “Ou”Conjunto Interseção Lógica “&”

E1 2

A 3 4

B 5 6

Introdução à ProbabilidadeIntrodução à Probabilidade

Page 25: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Introdução à ProbabilidadeIntrodução à ProbabilidadeIndependência Probabilística: dois eventos são independentes

entre si se o conhecimento sobre a ocorrência de um deles não traz qualquer informação sobre a probabilidade de o outro ocorrer, ou seja, a ocorrência de um não depende da ocorrência do outro.

5. p(A ∩ B) = p(A) · p(B) se A e B são independentes;

p(A ∩ B) = p(A) · p(B | A) caso contrário (caso geral);

p(B | A) é a probabilidade condicional: lê-se “probabilidade de B dado A”.

Page 26: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Introdução à ProbabilidadeIntrodução à Probabilidade Se A e B são independentes: p(A ∩ B) = p(A) · p(B), uma vez que

p(B) = p(B | A) Exemplo: Lançamento de dois dados; qual a probabilidade de

resultar 3 no 1o. dado (A) e 5 no 2o. dado (B)?

1-1 2-1 3-1 4-1 5-1 6-1

1-2 2-2 3-2 4-2 5-2 6-2

1-3 2-3 3-3 4-3 5-3 6-3

1-4 2-4 3-4 4-4 5-4 6-4

1-5 2-5 3-5 4-5 5-5 6-5

1-6 2-6 3-6 4-6 5-6 6-6

p(A) = 6/36 =1/6 p(B | A) = 1/6

p(B) = 6/36 = 1/6 p(A ∩ B) = 1/36

EA

B

Page 27: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Introdução à ProbabilidadeIntrodução à Probabilidade Se A e B são dependentes: p(A ∩ B) = p(A) · p(B | A), Exemplo: Sorteio de duas bolas de um globo com 6 bolas sem

reposição; qual a probabilidade de resultar 3 na 1a. bola (A) e 5 na 2a. bola (B)?

2-1 3-1 4-1 5-1 6-1

1-2 3-2 4-2 5-2 6-2

1-3 2-3 4-3 5-3 6-3

1-4 2-4 3-4 5-4 6-4

1-5 2-5 3-5 4-5 6-5

1-6 2-6 3-6 4-6 5-6 .

p(A) = 5/30 = 1/6 p(B | A) = 1/5

p(B) = 5/30 = 1/6 p(A ∩ B) = 1/30

EA

B

Page 28: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Introdução à ProbabilidadeIntrodução à ProbabilidadeExemplo: O = ser obeso; C = ter cardiopatia.

p(O) = 0,1; p(C) = 0,2.

Teorema de Bayesp(O ∩ C) = p(O) · p(C | O) = p(C) · p(O | C) = p(C ∩ O)p(A ∩ B) = p(A) · p(B | A) = p(B) · p(A | B) = p(B ∩ A)

p(B | A) = p(B) · p(A | B) p(A)

NC e NO730.000

p(C|O)

População1.000.000

Obesos100.000

Não Obesos900.000

O e C30.000

O e NC70.000

NO e C170.000

NO e NC730.000

Cardio.200.000

Não Cardio.800.000

C e O30.000

C e NO170.000

NC e O70.000

p(O

)p(C)

p(O|C)

Page 29: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Distribuições de ProbabilidadeDistribuições de Probabilidade São modelos probabilísticos que descrevem alguns

comportamentos “padrões” de fenômenos aleatórios. Costuma-se “eleger” o modelo que seja mais adequado ao fenômeno analisado.

A. Variáveis Discretas:1. Distribuição Uniforme (Valores equiprováveis)

Ex.: Lançamento de um dado de 6 faces– p(1) = 1/6;

– p(2) = 1/6;

– p(3) = 1/6;

– p(4) = 1/6;

– p(5) = 1/6;

– p(6) = 1/6.

Page 30: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Distribuições de ProbabilidadeDistribuições de Probabilidade2. Distribuição Triangular

Ex.: Lançamento de dois dado de 6 faces Resultado = soma das facesE Resultados p _2 1+1 1/363 1+2, 2+1 2/364 1+3, 2+2, 3+1 3/365 1+4, 2+3, 3+2, 4+1 4/366 1+5, 2+4, 3+3, 4+2, 5+1 5/367 1+6, 2+5, 3+4, 4+3, 5+2, 6+1 6/36 = 1/68 2+6, 3+5, 4+4, 5+3, 6+2 5/369 3+6, 4+5, 5+4, 6+3 4/3610 4+6, 5+5, 6+4 3/3611 5+6, 6+5 2/3612 6+6 1/36

Page 31: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Distribuições de ProbabilidadeDistribuições de Probabilidade3. Distribuição Binomial

Seja uma população de tamanho “infinitamente” grande, na qual a proporção de indivíduos com uma dada característica vale P. Qual a probabilidade de, em uma amostra de N indivíduos selecionados aleatoriamente desta população, k terem a tal característica?– Ex.: P(C) = 0,1 ; N = 3 (C = canhotos; D = não canhotos ) P(D) = 0,9

E Indivíduos X, Y e Z p _0 DDD 0,9 3 = 0,7291 CDD, DCD, DDC 3 0,1

0,9 2 = 0,2432 DCC, CDC, CCD 3 0,1 2

0,9 = 0,0273 CCC 0,1 3 = 0,001

kNkNk PPkp )1()(

Page 32: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Distribuições de ProbabilidadeDistribuições de Probabilidade4. Distribuição de Poisson

Seja um evento que se repete a uma taxa média de vezes por unidade de tempo (UT). Qual a probabilidade de, em um determinado período de 1 UT, este evento ocorrer k vezes?– Ex.: = 1 e = 4

!)(

k

ekp

k

Page 33: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Distribuições de ProbabilidadeDistribuições de ProbabilidadeB. Variáveis Contínuas:

1. Distribuição Uniforme Ex.: Ângulo de parada de um disco: E = [0, 360)

– Qual a probabilidade do ângulo 200? É a altura do gráfico? NÃO.– Qual a probabilidade de o ângulo estar entre 0 e 360? 100%.– A área abaixo do gráfico vale 100% por definição.– Só tem sentido falar de probabilidade para intervalos!– Logo, o eixo vertical refere-se à Função Densidade de Probabilidade (pdf).

Page 34: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

95,45%

Distribuições de ProbabilidadeDistribuições de Probabilidade2. Distribuição Gaussiana

Teorema do Limite Central (TLC) [quem é central é o limite, e não o teorema!]

Ex.: Altura da população masculina adulta ( = 175,7 cm e = 7,3 cm)

68,27%

2

2

2

2

1)(

x

expdf

Page 35: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Distribuições de ProbabilidadeDistribuições de Probabilidade3. Distribuição Qui-Quadrada

Resultante da soma de K variáveis gaussianas e independentes elevadas ao quadrado: K é o número de graus de liberdade;

Ex.: Grandezas quadráticas por natureza, p.ex. Potência.

Page 36: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Ilustração do TLCIlustração do TLC1. Soma de dados de 6 faces:

2. Binomial aumentando-se o N:

Page 37: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Ilustração do TLCIlustração do TLC3. Poisson aumentando-se :

4. Qui-quadrada aumentando-se o número de graus de liberdade:

Page 38: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Inferência EstatísticaInferência Estatística A partir de informações imprecisas, procura-se ter o melhor

conhecimento possível sobre a medida exata; ou... A partir de uma amostra, procura-se atingir conclusões sobre a

população.

1. Como é a população de ondea amostra analisada se origina?

2. A amostra analisada origina-sede uma determinada populaçãoconhecida?

3. Duas ou mais amostras podem serconsideradas originárias de umamesma população?

Estimadores Estatísticos

Testes de Hipótese

Page 39: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Estimadores EstatísticosEstimadores Estatísticos Muitas vezes, desejamos estimar uma dada característica de

uma população de interesse com base em uma amostra da mesma, composta por N indivíduos. Seja uma característica populacional (“verdadeira”) denotada por um

parâmetro Q. Esta mesma característica, se extraída com base na amostra, representa

tão somente uma estimativa de Q, denotada por . Qual a confiabilidade / utilidade deste valor isolado? Como se estabelecer uma forma de inferência (i.e. entendimento sobre a

população) a partir deste valor?– Em torno deste valor estimado, estabelece-se um intervalo que possua

elevada probabilidade de englobar o verdadeiro Q Intervalo de Confiança.

Intervalo de confiança de 95% (IC95%): intervalo que possui 95% de probabilidade de incluir o verdadeiro valor do parâmetro estudado.

Q̂Q̂

95,0ˆˆ PosNeg QQQp

Page 40: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Exemplo: Estimador da MédiaExemplo: Estimador da Média Média populacional (valor “verdadeiro”): Média amostral (estimativa de ): Para se obter o IC95%, primeiro, precisamos entender qual seria

a distribuição de todas possíveis estimativas de média caso conhecêssemos a população: desta população, poder-se-iam selecionar muitas amostras de N

indivíduos cada; cada amostra terá a sua média, sendo que cada uma destas médias é uma

estimativa de ; qual a média de todas estas estimativas de (qual o valor esperado das

estimativas de média)? mas algumas amostras terão sua média amostral abaixo de , enquanto

outras terão acima de . as estimativas possuem variabilidade; medida de variabilidade desvio padrão... desvio padrão da estimativa de média Erro-Padrão da média:

x

)(xEP

população da padrão desvio o é onde ,)( xx

NxEP

Page 41: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Exemplo: Estimador da MédiaExemplo: Estimador da Média Com base nesse conhecimento, se considerarmos que a variável

analisada é gaussiana, as estimativas de média também serão gaussianas; mesmo se a variável não for gaussiana, caso N seja suficientemente

grande (N 30), a distribuição das estimativas de média se aproxima de uma gaussiana (TLC).

Assim sendo, pode-se dizer que 95% de todas as amostras possíveis desta população terão média dentro do intervalo seguinte: , ou seja um intervalo para com base em .

Mas queremos justamente o contrário: um intervalo para o valor de com base em !

Caso conhecêssemos o verdadeiro Erro-Padrão da média, o caminho inverso seria análogo:

)(96,1)(96,1 xEPxxEP x

x

)(96,1)(96,1 xEPxxEPx

Page 42: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Exemplo: Estimador da MédiaExemplo: Estimador da Média Contudo, não conhecemos o verdadeiro Erro-Padrão, uma vez

que ele depende do desvio-padrão da variável analisada na população (x)! Mas podemos estimar também este desvio padrão com base na amostra: Amostra : estimativa da média populacional ;

sx : estimativa do desvio padrão populacional x.

Usando-se sx, podemos estimar o Erro-Padrão:

mas isto acarreta um aumento na incerteza sobre o . Aumento de incerteza alargamento do intervalo de confiança.

Distribuição t de Student: incorpora a incerteza sobre o desvio-padrão (parece com a gaussiana, mas é mais larga)

onde t* é o valor crítico e gl é o número de graus de liberdade (N-1).

x

)()(^

*%95;

^*

%95; xEPtxxEPtx glgl

N

sxEP x)(

^

Page 43: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Exemplo: Estimador da MédiaExemplo: Estimador da Média Altura de mulheres adultas (cm).

N = 38 gl = 37 = 161,84 cm sx = 7,25 cm

= 1,177 cm

Intervalo de Confiança de 95%:

177,10262,284,161177,10262,284,161

158 162 158

164 154 160

153 155 173

162 163 157

154 165 162

168 165 164

173 168 169

156 154 175

160 156 179

162 167 155

165 172 154

151 172 151

158 156  

x

)(^

xEP

cm 23,164cm 46,159

Page 44: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Distribuição Distribuição tt de Student de Studentp(tgl≤T)

gl 0,600 0,750 0,900 0,950 0,975 0,990 0,995 0,9995

1 0,325 1,000 3,078 6,314 12,706 31,821 63,657 636,619

2 0,289 0,816 1,886 2,920 4,303 6,965 9,925 31,598

3 0,277 0,765 1,638 2,353 3,182 4,541 5,841 12,924

4 0,271 0,741 1,533 2,132 2,776 3,747 4,604 8,610

5 0,267 0,727 1,476 2,015 2,571 3,365 4,032 6,869

6 0,265 0,718 1,440 1,943 2,447 3,143 3,707 5,959

7 0,263 0,711 1,415 1,895 2,365 2,998 3,499 5,408

8 0,262 0,706 1,397 1,860 2,306 2,896 3,355 5,041

9 0,261 0,703 1,383 1,833 2,262 2,821 3,250 4,781

10 0,260 0,700 1,372 1,812 2,228 2,764 3,169 4,587

11 0,260 0,697 1,363 1,796 2,201 2,718 3,106 4,437

12 0,259 0,695 1,356 1,782 2,179 2,681 3,055 4,318

13 0,259 0,694 1,350 1,771 2,160 2,650 3,012 4,221

14 0,258 0,692 1,345 1,761 2,145 2,624 2,977 4,140

15 0,258 0,691 1,341 1,753 2,131 2,602 2,947 4,073

16 0,258 0,690 1,337 1,746 2,120 2,583 2,921 4,015

17 0,257 0,689 1,333 1,740 2,110 2,567 2,898 3,965

18 0,257 0,688 1,330 1,734 2,101 2,552 2,878 3,922

19 0,257 0,688 1,328 1,729 2,093 2,539 2,861 3,883

20 0,257 0,687 1,325 1,725 2,086 2,528 2,845 3,850

21 0,257 0,686 1,323 1,721 2,080 2,518 2,831 3,819

22 0,256 0,686 1,321 1,717 2,074 2,508 2,819 3,792

23 0,256 0,685 1,319 1,714 2,069 2,500 2,807 3,768

24 0,256 0,685 1,318 1,711 2,064 2,492 2,797 3,745

25 0,256 0,684 1,316 1,708 2,060 2,485 2,787 3,725

26 0,256 0,684 1,315 1,706 2,056 2,479 2,779 3,707

27 0,256 0,684 1,314 1,703 2,052 2,473 2,771 3,689

28 0,256 0,683 1,313 1,701 2,048 2,467 2,763 3,674

29 0,256 0,683 1,311 1,699 2,045 2,462 2,756 3,660

30 0,256 0,683 1,310 1,697 2,042 2,457 2,750 3,646

40 0,255 0,681 1,303 1,684 2,021 2,423 2,704 3,551

60 0,254 0,679 1,296 1,671 2,000 2,390 2,660 3,460

120 0,254 0,677 1,289 1,658 1,980 2,358 2,617 3,373

∞ 0,253 0,674 1,282 1,645 1,960 2,326 2,576 3,291

Page 45: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Testes de HipóteseTestes de Hipótese Comparação entre uma amostra e uma população conhecida ou

entre duas ou mais amostras. Hipótese Nula (H0): é a hipótese estatisticamente mais simples,

envolvendo igualdade estatística, sendo presumida como verdadeira pelo tratamento matemático.

Igualdade estatística:

1. A amostra analisada pode ser considerada originária de uma população conhecida (A= 0);

2. As amostras analisadas podem ser consideradas originárias de uma mesma população (A= B= ).

Não confundir H0 com a hipótese teórica do estudo!!!

Ex.: comparação entre médias de 2 amostras H0 implica que a diferença esperada entre as médias é 0, portanto é fácil de ser modelado.

Hipótese Alternativa (HA): é a hipótese contrária a H0, ou seja, desigualdade estatística.

Ex.: comparação entre médias de 2 amostras

0 BA xx

??? BA xx

Page 46: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Testes de HipóteseTestes de Hipótese

Nível de significância: maior probabilidade que se permite de cometer o Erro Tipo 1 (arbitrário – valores comuns: 5%, 1%).

β: maior probabilidade que se permite de cometer o Erro Tipo 2 (arbitrário – valores comuns: 20%, 30%).

Verdade

Indicação do Teste

H0 HA

H0 Acerto Erro Tipo 2

β

HA Erro Tipo 1

Nível de significância (α)

Acerto

Poder de Teste(1- β)

Page 47: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Testes de HipóteseTestes de Hipótese Meta: conseguir que tanto α quanto β sejam suficientemente pequenos

Valores comuns: α: 5%, 1% (quanto menor, mais estringente é o teste); β: 20%, 30% (quanto menor, mais poderoso é o teste).

Maior permissividade com β: é mais difícil lidar com o Erro Tipo 2 que com o Erro Tipo 1– A distribuição de HA é estipulada pelo que teoricamente seria o pior caso possível

explicável (menor diferença entre duas populações distintas que faria sentido pela teoria).

Exemplo: diferença entre médias:

β

Aceita-se H 0

α/2/2 /2

Page 48: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Testes de HipóteseTestes de Hipótese Compromisso entre α e β:

Sem se alterarem as curvas de H0 e HA (mesmos dados):

Redução de α: aumenta-se k (alarga-se o intervalo de aceitação de H0);

Neste caso, facilita-se a aceitação de H0 (mesmo se ela for falsa);

Isto equivale a aumentar a área verde (β). Vice-versa, caso se reduza β...

Para se ter α e β arbitrariamente pequenos: Deve-se estreitar as curvas N deve ser suficientemente grande!

β

Aceita-se H 0

α/2/2 /2

Page 49: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Testes de HipóteseTestes de Hipótese Lateralidade do Teste:

Alguns testes permitem a escolha entre várias opções de HA; Por exemplo: comparação entre médias

Teste Bilateral ou Bicaudal; ; .

Utiliza-se um teste unilateral quando, pela teoria, não se espera ou não é justificável que haja diferença verdadeira em um dos “lados da desigualdade”.

α/2α/2

0ou 0 BABABA xxxx 0 BABA xx 0 BABA xx

Teste Unilateral ou Unicaudal

Page 50: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Testes de HipóteseTestes de Hipótese Comparações com base em variáveis categóricas:

Usualmente, usam-se testes que comparam proporções, tais como o Teste Qui-Quadrado e o Exato de Fisher.

Comparações com base em variáveis quantitativas: Mais comuns: testes que comparam médias, tais como o

teste-t e ANOVA (Análise de Variância); Em alguns casos, é mais adequado o uso de testes que

comparam medianas, tais como Testes de Mann-Witney, Wilcoxon e Kruskal-Wallis (testes não-paramétricos);

Outros parâmetros descritivos podem ser também comparados, tais como a variância (Testes de Fisher e de Bartlett).

Page 51: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Teste Teste tt de Student para Amostras de Student para Amostras IndependentesIndependentes

Comparação entre médias de 2 grupos. H0: igualdade entre médias (ambos grupos são amostras de uma

mesma população gaussiana). Condições para poder ser usado:

Os indivíduos que compõem cada grupo devem ser independentes entre si (independência intragrupo);

Os indivíduos de um grupo devem ser independentes dos indivíduos do outro grupo (independência intergrupo);

Os dados dos dois grupos devem ter distribuição gaussiana testes de aderência;

Os dados dos dois grupos devem ter mesma variabilidade (desvios-padrões / variâncias estatisticamente iguais) testes de homocedasticidade.

Grupo A: Grupo B: , onde sA sB

A

A

A

s

x

N

B

B

B

s

x

N

Page 52: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Teste Teste tt de Student para Amostras Independentes de Student para Amostras Independentes Parâmetro T: reflete o quão diferentes são as duas médias

onde

Sob a hipótese nula, o parâmetro T segue uma distribuição t de Student com NA+NB-2 graus de liberdade:

Rejeita-se H0 se a diferença for significativamente grande, i.e.

Teste bilateral:

Teste unilateral positivo:

Teste unilateral negativo:

BAP

BA

BA

BA

NNs

xx

xxEP

xxT

112

^

2

)1()1( 222

BA

BBAAP NN

sNsNs

2~ BA NNtT

*2;2/1

*2;2/ ou

BABA NNNN tTtT *

2;1 BA NNtT

*2;

BA NNtT

Page 53: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Teste Teste tt de Student para Amostras Independentes de Student para Amostras Independentes Exemplo: Comparação de alturas entre homens e mulheres

Homens (cm):174 170 175 177 172 182 166 178 189 185 174 185 190

173 164 185 174 173 170 182 170 179 170 184 175

Mulheres (cm):169 157 161 168 159 179 178 168 152 162 170 170 163 169

160 163 163 155 165 159 162 167 161 160 180 168 175 163

ou

92,5

281

251

15,49

21,16554,176

T

22 cm 49,15Ps

cm 7,02

cm 176,54

25

H

H

H

s

x

N

cm 7,00

cm 165,21

28

M

M

M

s

x

N

t*0,95; 51 = 1,6753

T > t* Rejeita-se H0

valor-p = 0,000000135

valor-p << Rejeita-se H0

Page 54: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Teste Teste tt de Student para Amostras Independentes de Student para Amostras Independentes Por exemplo, para teste bilateral...

Caso 1: T fora do intervalo de H0 (rejeita-se H0)

valor-p <

Caso 2: T dentro do intervalo de H0 (aceita-se H0)

valor-p >

Valor-p: probabilidade de ocorrer uma diferença entre médias tão grande quanto ou maior que T mesmo H0 sendo verdadeiro probabilidade de se errar caso se rejeite H0 probabilidade de se cometer o Erro Tipo 1.

Page 55: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Teste Teste tt de Student para de Student para Amostras PareadasAmostras Pareadas

Comparação entre médias de 2 grupos em que há vinculação biunívoca entre indivíduos dos dois grupos.

H0: igualdade entre médias (ambos grupos são amostras de uma mesma população gaussiana).

Condições para poder ser usado: Os indivíduos que compõem cada grupo devem ser independentes entre

si (independência intragrupo); Cada indivíduo de um grupo deve ser vinculado a um indivíduo do outro

grupo, formando um par (pareamento): NA = NB = N; Os grupos devem apresentar distribuição gaussiana (matematicamente,

basta que as diferenças por pares tenham distribuição gaussiana); Os dados dos dois grupos devem ter mesma variabilidade (desvios-

padrões estatisticamente iguais).

Page 56: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Teste Teste tt de Student para Amostras Pareadas de Student para Amostras Pareadas Como resolver a questão do pareamento, que torna os grupos

interdependentes? P. ex., efeitos aditivos com autopareamento:

xA1 = K1 + eA1

xB1 = K1 + eB1

xA1 – xB1 = eA1 – eB1, e a parcela comum desaparece

Grupo A Grupo B Diferença

xA1 xB1 D1 = xA1 – xB1

xA2 xB2 D2 = xA2 – xB2

xAN xBN DN = xAN – xBN

Ds

D

N

Page 57: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Teste Teste tt de Student para Amostras Pareadas de Student para Amostras Pareadas Parâmetro T: reflete, em média, o quão diferentes são os pares

Sob a hipótese nula, o parâmetro T segue uma distribuição t de Student com N - 1 graus de liberdade:

Rejeita-se H0 se a diferença for significativamente grande, i.e.

Teste bilateral:

Teste unilateral positivo:

Teste unilateral negativo:

ou se valor-p <

Ns

D

DEP

D

xxEP

xx

xxEP

xxT

DBA

BA

BA

BA

2^^^

1~ NtT

*1;2/1

*1;2/ ou NN tTtT

*1;1 NtT

*1; NtT

Page 58: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

ANOVA: Análise de VariânciaANOVA: Análise de Variância Comparação entre médias de mais de 2 grupos. H0: igualdade entre médias (todos grupos são amostras

de uma mesma população gaussiana). Condições para poder ser usado:

Os indivíduos que compõem cada grupo devem ser independentes entre si (independência intragrupo);

Os indivíduos de cada grupo devem ser independentes dos indivíduos dos outros grupo (independência intergrupo);

Os dados de todos grupos devem ter distribuição gaussiana; Os dados de todos grupos devem ter mesma variabilidade

homocedasticidade.

Page 59: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

ANOVAANOVA Baseia-se na comparação (razão) entre variâncias “entre grupos” e

“intragrupos”: Ng = número de grupos; Ni = número de indivíduos no i-ésimo grupo;

N = número total de indivíduos. glE = Ng – 1; glI = N – Ng;

H0: a razão entre estas variâncias (f) é 1 (variâncias são iguais, uma vez que as médias são iguais e todos grupos são amostra de uma mesma população) f ~ F glE, glI; rejeita-se H0 se f > Fcrit.

Parâmetros calculados: Grande média:

Variação total:

Variação entre grupos:

Variação intragrupos:

N

xX GM

2

GMT XxSS

i

GMiiE XxNSS2

i

iiI sNSS 2)1(

Page 60: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

ANOVAANOVA

Caso haja diferença significativa (f > Fcrit), faz-se uso de testes post hoc (p.ex. Tukey e Scheffé) para identificar entre quais grupos há diferença.

SS gl MS f

Entre SSE Ng-1 SSE

Ng-1

MSE

MSI

Intra SSI N-Ng SSI

N-Ng

Total SSE+ SSI N-1

Page 61: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Testes Não-ParamétricosTestes Não-ParamétricosOs testes vistos até agora baseavam-se em pressuposições

acerca da distribuição de probabilidade dos dados Testes Paramétricos.

Quando tais pressuposições não são atendidas, pode-se lançar mão de Testes Não-Paramétricos, que não requerem uma distribuição específica.

Grande parte dos Testes Não-Paramétricos baseiam-se na ordenação (ranqueamento) dos dados (estatística ordinal), podendo também ser usados em dados categóricos ordinais.

Desvantagem: em casos onde um teste paramétrico fosse adequado, o uso de um teste não-paramétrico traria um menos poder de teste.

Page 62: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Testes Não-ParamétricosTestes Não-Paramétricos Exemplos de testes não paramétricos análogos aos vistos até

agora:

– Paramétricos: médias– Não-Paramétricos: medianas

Embora não requeiram uma distribuição específica, estes testes não-paramétricos, sob a hipótese nula, pressupõem que as amostras possuam mesma distribuição.

Paramétrico Não-Paramétrico

Teste t para amostras independentes

Mann-Witney

Teste t para amostras pareadas

Wilcoxon

ANOVA Kruskal-Wallis

Page 63: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Teste Qui-QuadradoTeste Qui-Quadrado Comparação entre proporções de indivíduos classificados de

acordo uma variável categórica em dois ou mais grupos. H0: igualdade entre proporções (todos grupos são amostras de

uma mesma população). Exemplo: comparação entre dois grupos considerando-se uma

variável categórica dicotômica Tabela de Contingência 22Variável

Grupo

Sim Não Total

1 a b N1 = a + b

2 c d N2 = c + d

Total NS = a + c NN = b + d N = a + b + c + d

Page 64: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Teste Qui-QuadradoTeste Qui-Quadrado

Sob H0, as proporções seria iguais entre os grupos; logo, seriam iguais à proporção no total. Portanto, os valores esperados seriam:

e uma medida de o quanto os valores observados diferem dos esperados seria:

2211

~,~,

~,~ N

N

NdN

N

NcN

N

NbN

N

Na NSNS

Variável

Grupo

Sim Não Total

1 a b N1

2 c d N2

Total NS NN N

d

dd

c

cc

b

bb

a

aaX ~

~

~

~~

~

~

~ 22222

Page 65: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Teste Qui-QuadradoTeste Qui-Quadrado Simplificando, temos:

Sob H0, X2 segue aproximadamente uma distribuição qui-quadrada com 1 grau de liberdade: X2 ~ 2

1. Assim, rejeita-se H0 caso X2 > 2crit.

Yates propôs uma modificação para que o parâmetro X2 se aproxime mais de uma distribuição qui-quadrada (correção de continuidade):

Caso o N seja menor que 20 ou se alguma das células da tabela de contingência tiver valor menor que 5, o Teste Qui-quadrado não deve ser utilizado, devendo-se optar pelo Teste Exato de Fisher.

NS NNNN

bcadNX

21

22

NS

N

NNNN

bcadNX

21

222

Page 66: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Teste Qui-QuadradoTeste Qui-Quadrado Exemplo: comparação da proporção de óbitos em dois grupos que

receberam dois tratamentos diferentes:

Sem correção de Yates: X2 = 7,979 Com correção de Yates: X2 = 7,371 Valor crítico para distribuição qui-quadrada com 1 grau de liberdade e =

5%: 3,8415 rejeita-se H0 e infere-se que o tratamento 1 é mais eficiente que o 2.

Óbito

Tratamento

Sim Não Total

1 41 216 257

2 64 180 244

Total 105 396 501

Page 67: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Teste Qui-Quadrado de McNemarTeste Qui-Quadrado de McNemar Comparação entre proporções de indivíduos classificados de

acordo uma variável categórica em dois grupos pareados. H0: igualdade entre proporções (os grupos são amostras de uma

mesma população). Exemplo: comparação entre dois tratamentos aplicados a mesmos

indivíduos (cada indivíduo responde por um par de resultados)

k e l representam os pares em que houve concordância de resultados com os dois tratamentos; r e s, os pares em que houve discordância.

Tratamento B

Tratamento A

Sucesso Fracasso

Sucesso k r

Fracasso s l

Page 68: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Teste Qui-Quadrado de McNemarTeste Qui-Quadrado de McNemar

Sob H0: r e s são fruto do acaso, esperando-se que sejam semelhantes (metade de todas discordâncias em cada). Assim, usando-se a correção de continuidade, temos:

sendo que X2McN segue aproximadamente uma distribuição qui-quadrada com 1

grau de liberdade: X2McN ~ 2

1. Assim, rejeita-se H0 caso X2 > 2crit.

sr

srsrX

sr

sr

sr

sr

McN

2

2

2

21

2

2

2

21

22 1

Tratamento B

Tratamento A

Sucesso Fracasso

Sucesso k r

Fracasso s l

Page 69: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Regressão Linear e CorrelaçãoRegressão Linear e Correlação Em vários fenômenos, parte da variação de uma das variáveis (dependente)

pode ser explicada pela variação de outra(s) variável(is) (independentes). Deste modo, busca-se obter uma função matemática que melhor associe a variação entre estas variáveis: a mais comum é a função linear.

Sejam duas variáveis, uma tida como independente (x) e outra como dependente (y), tal como ilustrado no exemplo abaixo:

Podemos enxergar que, além de uma componente aleatória, uma parte da variação de y pode ser explicada linearmente pela variação em x:

Procuram-se os valores de a e b que melhor explicam y a partir de x, ou seja, que minimizam o desvio quadrático entre y e : método dos mínimos quadrados.

bxaeyey iiiii ~

y~

Page 70: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Regressão Linear e CorrelaçãoRegressão Linear e Correlação Aplicando-se o método dos mínimos quadrados, obtém-se:

b é o coeficiente linear (ponto em que a reta cruza o eixo vertical); a é o coeficiente angular: se a > 0, a reta tende a subir (quanto maior x,

maior y); se a < 0, a reta tende a descer (quanto maior x, menor y); se a é próximo de 0, indica que y e x não são relacionados entre si.

Contudo, o valor de a só apenas indica a angulação da reta, mas não especifica o quanto da variação total de y depende da variação de x Coeficiente de Correlação (Linear) de Pearson (entre -1 e 1):

2

1

2

1

1

2

1

xNx

yxNyx

xx

yyxxa N

ii

N

iii

N

ii

N

iii

xayb

2

1

22

1

2

1

1

2

1

2

1

yNyxNx

yxNyx

yyxx

yyxxr

N

ii

N

ii

N

iii

N

ii

N

ii

N

iii

Page 71: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Regressão Linear e CorrelaçãoRegressão Linear e Correlação Exemplo: relação entre idade e nível de colesterol...

a = 4,75 mg/dl/ano (coeficiente angular) b = 132,5 mg/dl (coeficiente linear) r = 0,7914 (coeficiente de correlação de Pearson) r2 = 0,6263 (coeficiente de determinação – percentual da variância de y

explicada pela regressão)

Page 72: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Regressão Linear e CorrelaçãoRegressão Linear e Correlação Considerações:

Em geral, estima-se o intervalo de confiança para os verdadeiros coeficientes angular, linear e de correlação com base nos valores estimados a, b e r.

Alternativamente, pode-se obter o valor-p para a hipótese nula de que = 0 (a verdadeira correlação populacional seja nula), ou seja, de que não há correlação linear entre x e y.

Se x e y são independentes entre si, necessariamente não há correlação entre eles. Contudo, se não há correlação entre x e y, não necessariamente eles são independentes. Ou seja, o fato de não haver correlação linear não implica que não

haja outro tipo de correlação (não-linear), a não ser se x e y forem gaussianos!!!

Isto significa que, se x e y apresentam distribuição gaussiana, caso haja correlação entre eles, esta correlação só pode ser linear.

Page 73: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Regressão Linear e CorrelaçãoRegressão Linear e Correlação Considerações (cont.):

Caso a relação entre x e y seja melhor descrita por uma função matemática não-linear, nem sempre o coeficiente de correlação de Pearson será capaz de indicar esta relação.

a = -0,125 mg/dl/ano b = 304,5 mg/dl r = -0,04 r2 = 0,0016

Page 74: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Conceitos Básicos de Testes Conceitos Básicos de Testes DiagnósticosDiagnósticos

A qualidade de um teste diagnóstico refere-se à sua capacidade de refletir o verdadeiro status da doença em um indivíduo (doente [D] ou não-doente [ND]).

Portanto, para se avaliar um teste diagnóstico, deve-se conhecer o verdadeiro status de um número suficientemente grande de indivíduos (tanto doentes quanto não doentes) por meio de outro método diagnóstico altamente confiável (padrão-ouro) e aplicar o teste nestes indivíduos:

VP = Número de Verdadeiros Positivos; VN = Número de Verdadeiros Negativos; FP = Número de Falsos Positivos; FN = Número de Falsos Negativos; TD = Número Total de Doentes; TND = Número Total de Não Doentes;

T+ = Número Total de Diagnósticos Positivos; T- = Número Total de Diagnósticos Negativos.

Padrão-Ouro

Teste

D ND Total

+ VP FP T+

- FN VN T-

Total TD TND N

Page 75: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Testes DiagnósticosTestes Diagnósticos

Um bom teste diagnóstico deve apresentar pequeno número de FP e FN! Sensibilidade e Especificidade:

Sensibilidade: é a probabilidade de um teste dar positivo quando o indivíduo é realmente doente...

s = p(+ | D)

Especificidade: é a probabilidade de um teste dar negativo quando o indivíduo é realmente não doente...

e = p(- | ND)

Ou seja, ambos são medidas de probabilidade de o teste realmente acusar um determinado status conhecido.

Padrão-Ouro

Teste

D ND Total

+ VP FP T+

- FN VN T-

Total TD TND N

FNVP

VP

T

VPs

D ˆ

FPVN

VN

T

VNe

ND ˆ

Page 76: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Testes DiagnósticosTestes Diagnósticos

Mais interessante seria se conhecêssemos a probabilidade de o teste estar certo ao acusar algum diagnóstico Valor Preditivo: Valor Preditivo Positivo: é a probabilidade de um teste estar correto ao dar

positivo VPP = p(D | +); Valor Preditivo Negativo: é a probabilidade de um teste estar correto ao dar

negativo VPN = p(ND | -); Caso a prevalência da doença possa ser estimada por , então os valores

preditivos podem ser estimados diretamente da tabela:

Caso contrário, estes valores saem a partir dos valores de sensibilidade, especificidade e prevalência da doença.

Acurácia probabilidade de o teste acertar em geral:

Padrão-Ouro

Teste

D ND Total

+ VP FP T+

- FN VN T-

Total TD TND N

FPVP

VP

T

VPPPV

ˆFNVN

VN

T

VNNPV

ˆ

N

TP Dˆ

N

VNVPA

ˆ

Page 77: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Testes DiagnósticosTestes Diagnósticos Fórmulas para se obter VPP e VPN a partir dos valores de sensibilidade,

especificidade e prevalência (i.e., quando a proporção TD / N não reflete a verdadeira prevalência da doença):

)1)(1(ˆ

PePs

PsPPV

)1()1(

)1(ˆPePs

PeNPV

Page 78: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Medidas de AssociaçãoMedidas de Associação Um determinado desfecho (p.ex.: uma doença) é

associado à exposição a um determinado fator (de risco ou de proteção)?

Exemplos de medidas de associação: Risco Relativo: o risco (probabilidade) de apresentar o

desfecho é maior (ou menor) entre os indivíduos expostos que entre os não expostos?

Razão de Chances (Odds Ratio - OR) de Desfecho: a chance de apresentar o desfecho entre os expostos é diferente da chance entre os não expostos?

Razão de Chances de Exposição: a chance de ter sido exposto entre os indivíduos que apresentam o desfecho é diferente da chance entre os que não apresentam o desfecho?

Page 79: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Probabilidade Probabilidade vsvs. Chance. Chance

Probabilidade de alguém apresentar o desfecho entre os indivíduos expostos e não expostos:

A chance é a razão entre as probabilidades de um evento acontecer e não acontecer. Logo, as chances de alguém apresentar o desfecho entre os indivíduos expostos e não expostos é dado por:

Desfecho

Exposição

Sim Não Total

Sim a b TE

Não c d TNE

Total TD TND N

ba

aEDp

)|(ˆ

dc

cEDp

)|(ˆ

b

aEDdsdo

bab

baa

)|(ˆd

cEDdsdo

dcd

dcc

)|(ˆ

Page 80: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Risco RelativoRisco Relativo Razão entre o risco (probabilidade) de apresentar o desfecho entre os

indivíduos expostos e o risco entre os não expostos:

Valores de risco relativo em torno de 1 sugerem não haver associação entre exposição e desfecho (H0): Como estimador: aceita-se H0 se IC95% engloba a unidade;

Como teste de hipótese: aceita-se H0 se valor-p > 5% (=0,05)

Desfecho

Exposição

Sim Não Total

Sim a b TE

Não c d TNE

Total TD TND N

)(

)(

)|(

)|( ^

bac

dcaRR

EDp

EDpRR

dcc

baa

Page 81: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Razão de Chances (OR)Razão de Chances (OR)

OR de desfecho: razão entre a chance de apresentar o desfecho entre os indivíduos expostos e a chance entre os não expostos:

OR de exposição: razão entre a chance de ter sido exposto entre os indivíduos que apresentam o desfecho e a chance entre os sem desfecho:

Valores de OR em torno de 1 sugerem não haver associação entre exposição e desfecho (H0): Como estimador: aceita-se H0 se IC95% engloba a unidade;

Como teste de hipótese: aceita-se H0 se valor-p > 5% (=0,05)

Desfecho

Exposição

Sim Não Total

Sim a b TE

Não c d TNE

Total TD TND N

cb

daOR

EDodds

EDoddsOR

dc

ba

DD

^

)|(

)|(

cb

daOR

DEodds

DEoddsOR

db

ca

EE

^

)|(

)|(

Page 82: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Relação entre OR e RRRelação entre OR e RR

Risco Relativo:

Razão de Chances:

No caso de uma doença ter uma prevalência (P) muito baixa:

a << b a + b b

c << d c + d d

ou seja, a Razão de Chances pode ser vista como uma estimativa do Risco Relativo.

Desfecho

Exposição

Sim Não Total

Sim a b TE

Não c d TNE

Total TD TND N

cb

daOR

ORcb

daRR

cba

dcaRR

)(

)(

Page 83: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Visão Geral sobre Desenhos Visão Geral sobre Desenhos de Estudos Epidemiológicosde Estudos Epidemiológicos

Page 84: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Tipos de Estudos Mais ComunsTipos de Estudos Mais Comuns

Seccionais ou Transversais

Observacionais: Coorte

Caso-Controle

Intervenção: Ensaios Clínicos Aleatorizados

Page 85: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Estudos SeccionaisEstudos Seccionais Duração do estudo consideravelmente mais

curta que a dinâmica das características estudadas (consiste em um “retrato” da população).

Amostragem suficientemente grande e representativa da população-alvo: Tipos comuns de amostragem:

Amostragem aleatória simples; Amostragem por conglomerados;

Visa, usualmente, análises descritivas (p.ex.: prevalências e incidências).

Page 86: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Estudos SeccionaisEstudos Seccionais Instrumentos de avaliação:

Questionários: Perguntas abertas; Perguntas fechadas; Mistos. Perdas.

Exames Clínicos: Sensibilidade vs. especificidade.

Medidas fisiológicas: Precisão; Calibração.

Treinamento dos avaliadores: uniformização da coleta de informações

Page 87: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Estudos SeccionaisEstudos Seccionais Medidas de associação comuns:

Razão de Prevalências (RP - análoga ao Risco Relativo) e Razão de Chances Prevalentes (tipo de razão de chances).

Por ser um estudo eminentemente descritivo, com base em amostras representativas da população, as proporções de desfecho são estimativas de prevalências na população, viabilizando-se o cálculo do RR, particularmente da RP.

Limitação: mesmo detectando-se associação entre exposição e desfecho, nem sempre é possível estabelecer relações de causalidade, pois as informações de temporalidade podem não ser disponíveis.

Page 88: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Estudos de CoorteEstudos de Coorte Coorte: grupo de indivíduos que apresentam

uma característica em comum. No estudo de coorte, os indivíduos são

selecionados quanto ao status de exposição. No início do estudo, nenhum indivíduo analisado

apresenta o desfecho estudado. Ao longo de um período suficientemente longo

(dependendo da dinâmica do desfecho estudado), os indivíduos são acompanhados e contabilizam-se as ocorrências de desfecho nas duas coortes.

A associação entre a exposição e o desfecho é, normalmente, analisada pelo Risco Relativo.

Page 89: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Estudos de CoorteEstudos de Coorte Outros nomes:

Longitudinal; Prospectivo; Seguimento (follow-up).

A pertinência dos indivíduos em cada coorte se dá por motivos alheios ao estudo (não há interferência sobre o status dos indivíduos).

Potenciais: Investigar a relação exposição-desfecho sob a óptica da causalidade; Abordar hipóteses etiológicas; Calcular medidas de Incidência; Examinar associações entre variáveis, usando medidas diretas de

risco: Risco Relativo; Comparar a incidência da doença em uma ou mais coortes.

Page 90: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Estudos de CoorteEstudos de Coorte Vantagens:

Produz medidas diretas de riscos Fornece evidências mais fortes de que uma associação

possa ser causal; Resultados mais facilmente generalizáveis a populações

maiores; Muitos desfechos podem ser investigados

simultaneamente.

Desvantagens: Demorado e de alto custo relativo; Perdas de acompanhamento; Inadequado para doenças raras.

Page 91: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Estudos Caso-ControleEstudos Caso-Controle No estudo de coorte, os indivíduos são

selecionados quanto ao status de desfecho. Comparam-se um grupo de pessoas indivíduos

(casos) com outro de indivíduos não-doentes (controles) com características parecidas com os casos, usualmente vizinhos:– Pode ser interessante realizar pareamento (por gênero,

idade, etnia, etc.). O estudo é retrospectivo, avaliando-se se os

indivíduos haviam sido ou não expostos ao fator estudado.

A associação entre a exposição e o desfecho é, normalmente, analisada pela Razão de Chances.

Page 92: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Estudos Caso-ControleEstudos Caso-Controle Vantagens:

Eficiente para doenças raras; Útil para gerar hipóteses sobre novas doenças ou surtos não

usuais (pois é útil para examinar um grande número de variáveis preditoras);

Usualmente de baixo custo.

Desvantagens: Não permite obter medidas de riscos ou incidência; Permite a investigação de apenas um desfecho; Grande susceptibilidade a vieses:

– Viés de seleção: amostragem diferencial entre casos e controles;

– Viés de informação (memória) ou medida retrospectiva das variáveis preditoras.

Page 93: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Ensaios Clínicos AleatorizadosEnsaios Clínicos Aleatorizados Os indivíduos são alocados aleatoriamente em

dois grupos diferentes quanto ao status de exposição. No início do estudo, nenhum indivíduo analisado

apresenta o desfecho estudado, como no estudo de coortes;– A diferença está na alocação dos grupos, que é feita

pelo pesquisador. Ao longo do estudo, os indivíduos são

acompanhados e contabilizam-se as ocorrências de desfecho nos dois grupos.

A associação entre a exposição e o desfecho é, normalmente, analisada pelo Risco Relativo.

Page 94: Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

Ensaios Clínicos AleatorizadosEnsaios Clínicos Aleatorizados Critérios de Inclusão:

Minimizar a heterogeneidade dos indivíduos.

Critérios de Exclusão comuns: Existência de outras doenças; Mal prognóstico; Indivíduos não-colaborativos.

Questões Éticas: Termo de Consentimento Livre e Esclarecido; Comitês Locais; Conselho Nacional de Ética em Pesquisa (CONEPE).

Mascaramento (ou Cegamento): Tenta minimizar qualquer comportamento tendencioso devido ao

conhecimento de qual tratamento está sendo usado; Cego vs. Duplo Cego.