Upload
lamnga
View
216
Download
0
Embed Size (px)
Citation preview
1
Porto Alegre, RS
Fundamentos de Bioestatística
MinistranteDaniela Benzano
Assistente de ConsultoriasServiço de Epidemiologia e Bioestatística/HCPA
Curso de Extensão em Economia da Saúde
Conceitos Básicos em Bioestatística
Objetivos
• Entender os princípios fundamentais da Bioestatística freqüentemente utilizados na área das ciências biológicas e da saúde.
• Conhecer as principais medidas descritivas, gráficos e testes estatísticos utilizados.
2
Livro texto: Callegari-Jacques, SM. Bioestatística. Princípios e aplicações. ArtMed, 2003.
Bioestatística
Estatística: Ramo do conhecimento que consta de processos que tem por objeto a observação, a classificação e a análise de fenômenos coletivos com a finalidade de obter inferências indutivas a partir dos dados.
Bioestatística: Aplicação da Estatística nas ciências biológicas e da saúde.
Artigos científicos publicados nas áreas das ciências biológicas
e da saúde freqüentemente apresentam termos do domínio da
Epidemiologia e da Bioestatística.
O papel da Bioestatística
3
Para entender adequadamente artigos
científicos desta área o leitor deve
estar familiarizado com os princípios
fundamentais da Epidemiologia e da
Bioestatística.
Na grande maioria dos casos este
conhecimento não é de nível profundo e
nem envolve cálculos complicados.
Para o usuário comum é mais importante conhecer as indicações e as
limitações dos procedimentos utilizados em Epidemiologia e Bioestatística do
que saber exatamente como executá-los.
• Treinamento sugerido
- Importante conhecer indicações e limitações dos procedimentos estatísticos.
- Futura análise de dados reais: geralmente cálculos feitos por programas de computador.
4
Bioestatística: Princípios Fundamentais
• Resumir a informação (p.e., média, %)
• Resumir as relações (p.e., TEP, RR)
• Estimar a magnitude das relações
Abordagem EPR em Bioestatística
• Entidades
• Propriedades
• Relações
Entidades (Objetos de Estudo)
• O paciente • O dia• A palestra
No seu sentido mais amplo, as entidades podem ser consideradas como sendo os “objetos de estudo”, ou
seja, todas as coisas que nos cercam, incluindo as animadas(indivíduos) ou inanimadas(coisas). São
também conhecidas como unidades de observação/experimentação.
Exemplos:
5
Propriedades (Variáveis)
São as características apresentadas pelas entidades (objetos: coisas/indivíduos).
Estas características podem variar entre as entidades (e em uma mesma entidade de
um momento para o outro). Por este motivo são também conhecidas como variáveis.
O resultado da mensuração de uma variável é conhecido como dado.
Entidade Propriedade
(variável)
Medida
(dado obtido)
Dia condição do tempo? ensolarado
Paciente peso? 75 kg
Palestra como foi? chata
Entidades e Propriedades
(objeto)
Relações
Dentro da abordagem EPR pode-se dizer que tanto a Epidemiologia como a Bioestatística
tem como objetivo final o estudo das relações entre as variáveis.
6
Conceitos básicos
• Variáveis e seus níveis de medida
• População e Amostra
• Parâmetros e Estimativas
Variáveis e seusníveis de medida
Tipo deVariável(1)
Característicasda variável
Exemplos
Nominal(2) Categorias não ordenadas sexo, grupo sangüíneo
Ordinal Categorias ordenadas grau de dor, escores em geral
Intervalar/razão(3) Espectro ordenado comintervalos quantificáveis
temperatura, peso,nº de livros em casa
(2)Duas categorias: dicotômica ou binária; Três ou mais categorias: polinomial.
(1)Variáveis qualitativas: nominal + ordinal; Variáveis quantitativas: Intervalar/razão.
(3)Podem ser contínuas ou discretas. Diferença entre intervalar e razão está na presença do zero absoluto (razão), mas o tratamento estatístico é o mesmo.
Vantagens da variável quantitativa
• Nível de informação é superior
• Pode ser transformada em qualquer outro tipo de variável
• Aceita transformações matemáticas (log, raiz quadrada, inversão, etc.)
• Estudos com este tipo de variável necessitam tamanhos amostrais menores
7
População e Amostra
População: Refere-se ao grupo total, ou seja, todos os indivíduos com uma mesma condição, sem “fronteiras”. Um conceito teórico, estatístico e abstrato, diferente do conceito geográfico de população.
Amostra: É toda fração (independente de seu tamanho) obtida de uma população.
n2
n3
n1
n4
N
População e Amostra
Considera-se que o resultado de qualquer cálculo estatístico realizado em um grupo de indivíduos (população ou amostra) gera uma
estatística.
Quando a estatística é obtida em uma população denomina-se parâmetro.
Quando a estatística é obtida em uma amostradenomina-se estimativa (de parâmetro).
8
Duas variáveis importantes
• Desfecho: Aquilo que vai acontecer durante uma investigação na mensuração da condição de saúde-doença. Sinônimo: variável dependente.
• Exposição: O fator que precede o desfecho. Sinônimos: fator em estudo, v. preditora, v. independente.
Nas investigações das relações entre as variáveis podemos identificar pelo menos duas variáveis nos estudos epidemiológicos
Medidas Descritivas
• Distribuição de freqüências
• Medidas de tendência centralmédia, mediana e moda
• Medidas de dispersãoamplitude, variância/desvio padrão
• Medidas de freqüênciaprevalência e incidência
Distribuição de freqüências
• Toda variável (seja ela qualitativa ou quantitativa) quando avaliada em um grupo de indivíduos apresenta uma distribuição de freqüências.
• Sempre que possível os dados devem ser examinados graficamente para que possamos identificar valores extremos e a forma da distribuição.
9
Distribuição de freqüências:Histograma
Gráfico de uma distribuição de freqüências
10 30 50 70 90
0
100
200
300
Gráfico de uma distribuição de freqüências
Distribuição de freqüências:Histograma
10 30 50 70 90
0
100
200
300
Características da distribuição de freqüências
• Geralmente a distribuição de freqüências possuitendência centraldispersão (variação)
• A forma da distribuição determina qual o tipo de medida descritiva mais adequada a ser usada
10
Medidas de Tendência Central
• Média: Indicação de uso em distribuições simétricas. Possui o maior poder matemático e é a medida descritiva mais utilizada (e preferida). No entanto, é afetada por valores extremos e em distribuições
altura
nº
de
indiv
ídu
os
dispersão de pontos
com n=200
média
DP
Curva de distribuição de freqüênciascom representação pictórica da nuvem
de dispersão de pontos.
n
xx∑
=
assimétricas pode apresentar uma informação distorcida.
• Mediana: Medida de posicionamento repre-sentando o valor que ocupa o meio da série, ou seja, em tese 50% dos valores estão abaixo e 50% acima da mediana. Não é afetada por valo-res extremos, daí ser preferida em séries com distribuição assimétrica.
nº
de
indiv
ídu
os
prega tricipital
quartil inferior (Percentil 25)
mediana(Percentil 50)
quartil superior(Percentil 75)
Distribuição de freqüências com assimetria positiva
• Moda (mo): Valor de X mais freqüente.
- Facilmente identificada em um gráfico de freqüências
- Pode haver mais de uma moda (mais de uma população?)
Peso em 256 universitárias Estatura em 213 estudantes (ambos os sexos) da UFRGS
11
Medidas de Dispersão
• Amplitude (a)• Variância (s2)• Desvio padrão (s; DP)• Amplitude interquartil
• Amplitude: Valor máximo - valor mínimo Simples mas pouco informativa (apenas dois
valores). É muito sensível a valores extremos. Ex: 1; 1; 2; 3; 6 a = 6 - 1 = 5.
Medidas de Dispersão
• Variância: Média dos desvios quadrados em relação à média (todos os valores).
A unidade é expressa ao quadrado
É comum utilizar-se o desvio padrão (DP), que é a raiz quadrada positiva da variância (volta à unidade original).
• Desvio padrão (DP ou s): Representa o padrão de oscilações dos valores da série em relação à média.
- Fundamental na inferência estatística
- Freqüentemente usado em conjunto com a média, na forma média ± DP
1n
)xx(sDP
2
−
−==
Σ
12
altura
nº
de
indiv
íduos
dispersão de pontos
com n=200
média
DP
Representação gráfica do desvio padrão:1. na nuvem de dispersão de valores de x;2. em uma distribuição de freqüências gaussiana
(média ± DP reúne ~2/3 dos valores centrais)
- Quartis: valores de X que dividem uma série ordenada em 4 grupos de igual tamanho. Ex. Q1 separa 25% valores menores
- Percentis: dividem a série em 100 partes iguais. Q1 = P25
•Amplitude interquartil:
Q3 – Q1= P75 – P25 (reúne 50% da amostra)
Usada com a mediana em séries assimétricas.
nº
de
indiv
ídu
os
prega tricipital
quartil inferior (Percentil 25)
mediana(Percentil 50)
quartil superior(Percentil 75)
Medidas de Tendência Central e Distribuições de Freqüências
Distribuição Simétrica
Média, mediana e moda
Distribuição comAssimetria Negativa
moda
mediana
média
Distribuição comAssimetria Positiva
média
mediana
moda
13
Escolhendo a medida descritiva
• Nominal: usar freqüências e proporções (P/I).
• Ordinal: freqüências e proporções ou mediana e amplitude interquartil. No entanto, a média e o desvio padrão também podem ser utilizados*.
• Intervalar/razão: Depende da distribuição de freqüências.
D. simétrica: média e desvio padrãoD. assimétrica: mediana e amplitude interquartil.
Tipo de variável
Apresentação de resultados• Tabela descritiva
• Gráficos para var. quantitativas: - Histograma - Gráfico de média e barra de erro - Box plot - Gráficos de linha - Gráfico dispersão de pontos• Gráficos para var. categóricas : - Gráfico de setores - Gráfico de colunas
Tabela descritiva
±dp e
Características dos grupos em estudo
Variável Grupo Exposton = 97
Grupo Não-Exposton = 152
Idade, anos 35,2±7,2 30,2±12,0Sexo feminino, nº (%) 12 (12,4) 81 (53,3)Escolaridade
Primário incompleto 5 (5,2) 15 (9,9)Primário completo 67 (69,1) 29 (19,1)Secundário 20 (20,6) 77 (50,7)Superior 5 (5,2) 31 (20,4)
BDI 10,2±3,3 11,9±5,2GAIL 23,3 (1,0 a 67,0) 16,0 (2,0 a 98,0)Os dados são apresentados como nº (percentual), médiamediana (amplitude interquartil: P25 a P75). BDI=Escore deDepressão Beck Depresssion Inventory ; GAIL=Escala Great
Achievements in your Life
Tabagismo, nº (%) 50 (51,5) 51 (33,6)
14
Var. Quantitativas: gráfico de média e barra de erro
• Variável quantitativa em dois ou mais grupos.
• Usar, sempre que possível, média ± DP.
• Dar preferência à apresentação da direita.
HDL HDL
Grupo 1 Grupo 2 Grupo 1 Grupo 2
1 2 3
0
50
100
150
200
Var. quantitativas: Box plot
• Variável quantitativa em dois ou mais grupos, principalmente para variáveis assimétricas.
• Representa mediana, amplitude interquartil, mínimo e máximo.
Gr1 Gr2 Gr3
Variável
Var. quantitativas: gráfico de linha
• Variável quantitativa ao longo do tempo.
• Usar, sempre que possível, média ± DP.
• Só a média: não representa variações grandes entre indivíduos.
tempo tempo
15
0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 1500.0
0.2
0.4
0.6
0.8
1.0
1.2
Var. quantitativas: gráfico de dispersão de pontos
• Duas variáveis quantitativas
• Objetivo: observar que tipo de relação possuem entre si
Variável X
Variável Y
Variáveis qualitativas
• Usados para dados categóricos.• Evitar uso em variáveis dicotômicas. • Gráfico de pizza: raro em publicações científicas.• Gráfico de colunas: não é histograma.
A B C
%
Gráfico de setores(pizza ou torta)
Gráfico de colunas
Resumo
• Epidemiologia e Bioestatística auxiliam a compreender a literatura científica nas áreas das ciências biológicas e da saúde.
• A abordagem EPR (entidades, propriedades e relações) apresenta uma interessante visão dos princípios fundamentais da Epidemiologia e da Bioestatística.
16
• Partindo dos conceitos de entidade(objeto) e propriedade(variável) a Epidemiologia e a Bioestatística passam pela descrição dos dados para chegar à relação entre as variáveis e a conseqüente estimativa da magnitude destas relações.
• Variável pode ser considerada uma característica mensurável que pode apresentar valores diferentes nos sujeitos do estudo.
• As variáveis são classificada de acordo com seu nível de mensuração em qualitativas (nominal e ordinal) e quantitativas (intervalar/razão).
• Em Epidemiologia é importante distinguir entre variável preditora (exposição) e desfecho.
• As medidas descritivas clássicas usadas em Epidemiologia e Bioestatística são:
média e desvio padrãomediana e amplitude interquartilprevalência/incidência
• Apresentações gráficas são importantes, mas devem ser usadas com adequação e seguindo suas indicações específicas.
17
Cuidados para implementação do estudoBanco de dados
– Numerar as fichas/questionários
– Digitar os dados (se possível digitação dupla)
– Cada ficha/questionário deve possuir identificador único
Cuidados para implementação do estudoBanco de dados
• Identificador
• Uma info por coluna
• Dados de mesmo tipo por coluna
• Nome curto de variável
• Sem comentário ou texto
Tamanho da amostra
• Nem sempre é tão preciso quanto se imagina
• Depende das informações dadas pelo pesquisador
• Um tamanho de amostra adequado ou suficiente não garante a aleatoriedade (representatividade)
• Muitas vezes revela que um estudo não é factível ou que seria necessário modificar os fatores preditores ou desfechos
18
Tamanho da amostra
Por isso, o tamanho da amostra deve ser calculado ainda no projeto, quando
maiores mudanças ainda são possíveis
Tamanho da amostra
• Em estudos comparativos, a hipótese é fundamental para o cálculo do n
• Esta deve ser baseada na questão de pesquisa, ser simples, específica e pré-estabelecida
Tamanho da amostra: Hipótese
� Muitas vezes é óbvio numa hipótese de pesquisa se a preditora e o desfecho são dicotômicas, contínuas ou categóricas. Se não estiver claro, o tipo de variável necessita ser especificado. � Ex: consumo de álcool (mg/dia) está
associado com um aumentado risco de proteinúria (> 30 mg/dl) em pacientes com diabetes.
19
Tamanho da amostra: Hipótese• Simples vs complexa:
– Simples: contém uma variável preditora e um desfecho
• Um estilo de vida sedentário está associado a um aumento no risco de proteinúria em pacientes com diabetes
– Complexa: contém mais de uma preditora ou mais de um desfecho
• Um estilo de vida sedentário e o consumo de álcool estão associados com um aumento no risco de proteinúria em pacientes com diabetes
• O consumo de álcool está associado a um aumento no risco de proteinúria e neuropatia em pacientes com diabetes
Tamanho da amostra: Hipótese
� Específica x vaga� Hipótese específica não deixa margem a
ambigüidades sobre os sujeitos e variáveis ou sobre o sobre como os testes de significância serão aplicados. Ex: história de uso de medicamentos antidepressivos tricíclicos, medida por revisão do recordatório farmacêutico, é mais comum em pacientes hospitalizados com um diagnóstico de admissão de infarto do miocárdio no HCPA no último ano do que naqueles hospitalizados por pneumonia.
Tipos de erros estatísticos:
CorretaErro tipo IINão rejeitam a hipótese nula
Erro tipo ICorretaRejeitam a
hipótese nula
Ausência de Associação entre o
Preditor e o Desfecho
Associação entre o Preditor
e o Desfecho
Resultados na Amostra do
Estudo
Verdade na População
Hulley et all, 2003
20
Tamanho da amostra
• Magnitudes de efeito (informação dada pelo pesquisador: “diferença clinicamente relevante”)
– Tamanho de efeito padronizado (effect size)
– Razão de chances (Odds ratio)
– Risco relativo
– Coeficiente de correlação
Mensuração de magnitude de efeito
Coeficiente de correlação
Tamanho de efeito
padronizado
(effect size)Contínua
Tamanho de efeito
padronizado
(effect size)
- Razão de chances
(Odds ratio)
- Risco relativo
Dicotômica
ContínuoDicotômico
DesfechoVariável
preditora
Magnitude de efeito:
• A probabilidade de um estudo poder detectar uma associação entre a variável preditora e o desfecho depende da magnitude real da associação na população-alvo.
21
Magnitude de efeito:
• Se a associação for forte, será facilmente detectada na amostra – Ex: os níveis de glicemia de jejum em mulheres
que praticam exercício físico são, em média, 20mg/dL mais baixos do que as que não praticam (tamanho da amostra necessário será pequeno)
• Se a associação for fraca, será difícil detectá-la– Ex: diferença de 2 mg/dL (tamanho da amostra
necessário será grande)
Magnitude de efeito:
• Em geral, se obtém da literatura, de estudos anteriores.
• Na ausência, pode-se estipular uma diferença mínima que poderia ser considerada clinicamente significativa.
• Se mesmo assim for impossível a sua estimativa, se faz um pequeno estudo piloto ou uma análise interina.
• Exemplo:– Um estudo experimental em ratos será realizado
para comparar 2 diferentes drogas cancerígenas (A e B) quanto à presença de carcinoma.
• Deseja-se estimar um tamanho da amostra que detecte uma diferença absoluta de 40%, sendo que a droga de menor efeito provoca carcinoma em 40%.
Tamanho de amostra: comparação de proporções
22
Tamanho de amostra: comparação de proporções
Tamanho de amostra: comparação de proporções
========================================
COMPARE2 Version 1.45
Tuesday, 5th December 2006, 7:06.
========================================
----------------------------------------------
Sample sizes required for testing a difference
----------------------------------------------
DATA:
Difference between proportions
Significance level = 5% Power = 90% Ratio A:B = 1
Proportion B = 0.4 Proportion A = 0.8
RESULTS:
REQUIRED SAMPLE: Total 60 (30 in A, 30 in B)
Continuity-corrected: Total 70 (35 in A, 35 in B)
EXPECTED PRECISION:
Approx. 95% CI for difference between proportions (D) =
D - 0.238 to D + 0.238
• Exemplo:– No mesmo estudo, também se deseja dosar os
níveis de uma enzima ZYX.• Deseja-se estimar um tamanho da amostra que
detecte uma diferença de 20 unidades, sendo que os desvios-padrão são em torno de 17 e 18.
Tamanho de amostra: comparação de proporções
23
Tamanho de amostra: comparação de médias
Tamanho de amostra: comparação de médias
========================================
COMPARE2 Version 1.44
Thursday, 23rd February 2006, 13:27.
========================================
----------------------------------------------
Sample sizes required for testing a difference
----------------------------------------------
DATA:
Difference between means
Significance level = 5% Power = 90% Ratio A:B = 1
SD in 17 SD in 18 Difference = 20
RESULTS:
REQUIRED SAMPLE: Total 36 (18 in A, 18 in B)
EXPECTED PRECISION:
Approx. 95% CI for difference between means (D) =
D - 12.172 to D + 12.172
Plano de análise estatística
Coeficiente de
correlaçãoTeste tContínua
Teste tTeste de qui-
quadradoDicotômica
ContínuoDicotômico
DesfechoVariável
preditora
24
Plano de análise estatística
• Análise multivariável (caso seja necessário controlar para possíveis variáveis confundidoras ou de
interação):– Regressão linear
– Regressão logística;
– Regressão de Poisson;
– Regressão de Cox.