6
Conceitos básicos de epidemiologia e estatística para a leitura de ensaios clínicos controlados Basic concepts in epidemiology and statistics for reading controlled clinical trials Resumo Resumo Resumo Resumo Resumo Os autores apresentam conceitos básicos de epidemiologia e de estatística necessários para a compreensão adequada do dese- nho e dos resultados de ensaios clínicos controlados. No texto apresentam-se, através de exemplos, os conceitos de medidas de associação e de efeito, teste de significância estatística, p-valor, intervalo de confiança e poder do estudo, e discutem-se os erros mais comuns em suas interpretações. Descritores Descritores Descritores Descritores Descritores: Ensaios clínicos controlados; Eficácia; Estatística; Testes de hipótese Abstract Abstract Abstract Abstract Abstract The authors present the basic concepts in epidemiology and statistics needed for understanding properly the design and results of controlled clinical trials. Through a set of examples, the concepts of measures of association and effect, statistical significance tests, p-value, confidence interval and statistical power are presented and common their misinterpretations are discussed. Keywords: Keywords: Keywords: Keywords: Keywords: Controlled clinical trial; Efficacy; Statistics; Hypothesis-testing 1 Departamento de Epidemiologia e Métodos Quantitativos em Saúde; Escola Nacional de Saúde Pública e Fundação Oswaldo Cruz Rev Bras Psiquiatr. 2005;27(2):146-51 Correspondência Evandro Silva Freire Coutinho Rua Leopoldo Bulhões, 1480, 8º andar – Manguinhos 21041-210 Rio de Janeiro, RJ, Brasil E-mail: [email protected] REVISÃO REVISÃO REVISÃO REVISÃO REVISÃO 146 Evandro Silva Freire Coutinho, 1 Geraldo Marcelo da Cunha 1 Versão original aceita em P ersão original aceita em P ersão original aceita em P ersão original aceita em P ersão original aceita em Por or or or ortuguês tuguês tuguês tuguês tuguês Financiamento: CNPq nr. 471145/03-3 Conflito de interesses: Inexistente Recebido: 12.08.2004 Aceito: 19.08.2004

Análise Estatistica Básica_Ensaios Clínicos Controlados

Embed Size (px)

DESCRIPTION

Bom artigo para entendimento de conceitos básicos de estatistica, necessários para entendimento de ensaios clínicos controlados. Melhor visualização fazando-se download.

Citation preview

Page 1: Análise Estatistica Básica_Ensaios Clínicos Controlados

Conceitos básicos de epidemiologia e estatísticapara a leitura de ensaios clínicos controlados

Basic concepts in epidemiology and statistics forreading controlled clinical trials

ResumoResumoResumoResumoResumoOs autores apresentam conceitos básicos de epidemiologia e de estatística necessários para a compreensão adequada do dese-nho e dos resultados de ensaios clínicos controlados. No texto apresentam-se, através de exemplos, os conceitos de medidas deassociação e de efeito, teste de significância estatística, p-valor, intervalo de confiança e poder do estudo, e discutem-se os errosmais comuns em suas interpretações.

DescritoresDescritoresDescritoresDescritoresDescritores: Ensaios clínicos controlados; Eficácia; Estatística; Testes de hipótese

Abs t rac tAbs t rac tAbs t rac tAbs t rac tAbs t rac tThe authors present the basic concepts in epidemiology and statistics needed for understanding properly the design and resultsof controlled clinical trials. Through a set of examples, the concepts of measures of association and effect, statistical significancetests, p-value, confidence interval and statistical power are presented and common their misinterpretations are discussed.

Keywords: Keywords: Keywords: Keywords: Keywords: Controlled clinical trial; Efficacy; Statistics; Hypothesis-testing

1 Departamento de Epidemiologia e Métodos Quantitativos em Saúde; Escola Nacional de Saúde Pública e Fundação Oswaldo Cruz

Rev Bras Psiquiatr. 2005;27(2):146-51

CorrespondênciaEvandro Silva Freire CoutinhoRua Leopoldo Bulhões, 1480, 8º andar – Manguinhos21041-210 Rio de Janeiro, RJ, BrasilE-mail: [email protected]

REVISÃOREVISÃOREVISÃOREVISÃOREVISÃO

146

Evandro Silva Freire Coutinho,1 Geraldo Marcelo da Cunha1

VVVVVersão original aceita em Persão original aceita em Persão original aceita em Persão original aceita em Persão original aceita em Pororororortuguêstuguêstuguêstuguêstuguês

Financiamento: CNPq nr. 471145/03-3Conflito de interesses: InexistenteRecebido: 12.08.2004Aceito: 19.08.2004

Art11_rev04.p65 12/5/2005, 19:31146

Page 2: Análise Estatistica Básica_Ensaios Clínicos Controlados

147 Coutinho ESF & Cunha GM

Rev Bras Psiquiatr. 2005;27(2):146-51

IntroduçãoIntroduçãoIntroduçãoIntroduçãoIntroduçãoOs ensaios clínicos constituem-se numa poderosa ferramenta

para a avaliação de intervenções para a saúde, sejam elasmedicamentosas ou não. O primeiro ensaio clínico, nos mol-des que hoje conhecemos, foi publicado no final da décadade 40,1 quando o estatístico Sir Austin Bradford Hill alocoualeatoriamente pacientes com tuberculose pulmonar em doisgrupos: os que receberiam estreptomicina e os que não rece-beriam o medicamento. Desta forma, ele pode avaliar, demaneira não-viesada, a eficácia deste medicamento.

Em que pese a publicação crescente de ensaios clínicoscontrolados, alguns aspectos do desenho e da análise aindasão mal compreendidos e interpretados de forma equivocada.O objetivo deste artigo é apresentar alguns conceitos básicosde epidemiologia e de estatística presentes em grande partedesses estudos, assim como chamar a atenção para as pecu-liaridades e equívocos em sua interpretação. Para isso, abor-daremos os seguintes tópicos:

1) Randomização;2) Medidas de efeito: razão e diferença;3) Testes de significância estatística;4) Intervalo de confiança;5) Poder do estudo.

RandomizaçãoRandomizaçãoRandomizaçãoRandomizaçãoRandomizaçãoNo ensaio clínico ideal para se avaliar a eficácia de um

tratamento, um grupo de pacientes deveria receber o placeboe ser acompanhado por um período de tempo para se medir aocorrência de certo evento (ex: óbito, cura). Em seguida, opesquisador faria o tempo recuar a um momento imediata-mente anterior à administração do placebo e administraria, aesse mesmo grupo de pacientes, o tratamento que se queravaliar. O desfecho nessa segunda situação seria contabilizadoe comparado com aquele observado na primeira situação. Porse tratarem dos mesmos pacientes, num mesmo momento desuas vidas, qualquer diferença quanto à ocorrência do desfe-cho (ex: óbito, cura) nas duas situações poderia ser atribuída,sem qualquer dúvida, à intervenção.

Como este desenho imaginário não é viável, os pesquisado-res realizam uma randomização com intuito de gerar gruposcomparáveis. Este procedimento consiste em alocar os indiví-duos aleatoriamente (ao acaso) nos grupos a serem compara-dos. Com isso, busca-se constituir grupos com característicasmuito semelhantes (comparáveis), com exceção das interven-ções que se quer avaliar. Com a distribuição eqüitativa defatores de risco ou de prognóstico, pode-se atribuir as diferen-ças observadas entre os grupos às intervenções que estão sendocomparadas. Embora a randomização não assegure a distri-buição homogênea dos fatores nos grupos comparados emtodas as ocasiões em que é implementada, a probabilidade deque isso ocorra aumenta conforme cresce o número de parti-cipantes no estudo.

O ocultamento do processo de randomização é importantepara evitar manipulações da alocação que podem comprome-ter a comparabilidade dos grupos. Num ensaio clínico bemconduzido, a decisão de incluir ou não um paciente no estu-do deve anteceder a sua randomização.

Ainda que a randomização constitua um aspecto central dosensaios clínicos, não é raro encontrarmos estudos nos quaisesse procedimento é implementado de forma inadequada. Es-tratégias de alocação por ordem de chegada, numeração corri-da e dias da semana não devem ser usadas, pois facilitam aidentificação da intervenção a que será submetido um pacienteselecionado para o estudo. Com isso, o responsável pela alocaçãopode manipular o processo (ainda que inconscientemente),comprometendo a comparabilidade dos grupos.

Para tornar esse problema mais claro vamos imaginar que opesquisador acredite que o novo tratamento é superior ao trata-mento convencional. Se ele sabe que um paciente mais gra-ve será alocado no grupo de tratamento convencional, elepode não incluir esse indivíduo no estudo, aguardando a che-gada de um paciente menos grave. Com isso, os grupos ten-dem a perder a desejada comparabilidade, ocorrendo um pre-domínio de pacientes mais graves no grupo que receberá onovo tratamento. O uso de uma seqüência aleatória de núme-ros, obtida através de tabelas de números aleatórios ou dealgoritmos computacionais, facilita o encobrimento da seqüên-cia de alocações e da conseqüente manipulação da alocação.*

A Tabela 1 ajuda a entender esse fenômeno. No caso dasestratégias apresentadas nas colunas 1 e 2, basta que o res-ponsável pela randomização descubra o dia ao qual cada tra-tamento está ligado para que ele desvende toda a seqüênciada randomização e saiba em qual grupo será alocado o próxi-mo paciente. No caso da coluna 3, mesmo que o pesquisadorsaiba que números ímpares correspondem ao tratamento A enúmeros pares correspondem ao tratamento B, ele não temcomo “deduzir” a seqüência das alocações. Estudos que ado-tam os procedimentos descritos nas colunas 1 ou 2 costu-mam ser denominados “quasi-experimentais”, sendo mais vul-neráveis a manipulações.

Medidas de efeitoMedidas de efeitoMedidas de efeitoMedidas de efeitoMedidas de efeitoConsiderando-se que o processo de randomização se deu

de modo adequado, que os pacientes receberam as interven-ções de modo apropriado e que as variáveis de interesse fo-ram aferidas corretamente, a próxima etapa será a análise dosdados. Existem diferentes maneiras de se mensurar o desfe-cho de interesse em um ensaio clínico. Quando os partici-pantes são classificados em dois grupos, segundo a presença

*NOT*NOT*NOT*NOT*NOTA: A: A: A: A: Existem diversas metodologias para implementar a randomização de modo mais eficiente, como o procedimento por blocos,estratificado, não fixo. Esses métodos fogem ao escopo deste artigo e podem ser encontrados nos artigos de Pocock e Meinert et al. 2-3

Art11_rev04.p65 12/5/2005, 19:31147

Page 3: Análise Estatistica Básica_Ensaios Clínicos Controlados

Rev Bras Psiquiatr. 2005;27(2):146-51

Estatística e ensaios clínicos controlados 148

ou não de certo acontecimento, diz-se que esta variável édicotômica. Por exemplo, os participantes podem ser classifi-cados como vivos ou mortos, curados e não curados, com ousem efeito adverso, e assim por diante.

Quando fazemos uso de uma variável dicotômica para clas-sificar o desfecho dos participantes do estudo, podemos usardiferentes medidas para comparar o resultado observado entreos grupos de intervenção e de controle. Essas medidas sãoconstruídas através de razões ou de diferenças e trazem infor-mações distintas.

1. Risco relativo ou redução relativa do risco (RR) - Eficácia1. Risco relativo ou redução relativa do risco (RR) - Eficácia1. Risco relativo ou redução relativa do risco (RR) - Eficácia1. Risco relativo ou redução relativa do risco (RR) - Eficácia1. Risco relativo ou redução relativa do risco (RR) - EficáciaO risco é a probabilidade de ocorrência de certo desfecho.

Varia entre 0 e 1 e pode ser transformado em percentual aose multiplicar por 100.

Os dados apresentados na Tabela 2 foram extraídos de umensaio clínico controlado4 em que se alocou aleatoriamente838 pacientes esquizofrênicos hospitalizados, de ambos ossexos, em dois grupos: clorpromazina e placebo. Os pacien-tes foram acompanhados por 24 semanas. Os dados referen-tes na tabela permitem estimar os riscos de agravamento dossintomas psicóticos nos dois grupos de pacientes:

No grupo tratado: R(t) = 37/416 = 0,089 ou 8,9%.No grupo controle: R(c) = 70/212 = 0,33 ou 33%.

Após obtermos os riscos em cada grupo, uma maneira decompararmos as duas intervenções é através do cálculo deuma razão desses riscos, conhecida como risco relativo (RR).Desse modo, quando o risco nos dois grupos for o mesmo, oRR será igual a 1. Se o risco no grupo de intervenção formenor do que o risco no grupo controle, então o RR serámenor que 1; caso contrário, ele será maior do que 1. Noexemplo da Tabela 2, o RR é:

RR = R(t) / R(c) = 0,089 / 0,33 = 0,27.Portanto, o grupo de pacientes com esquizofrenia que fez

uso de clorpromazina apresentou um risco cuja magnitudeequivale a 27% do risco encontrado para os pacientes quefizeram uso de placebo; isto é, a magnitude do risco no grupoque recebeu clorpromazina foi de aproximadamente ¼ damagnitude do risco no grupo placebo.

Pode-se ainda calcular a redução de risco relativo, tambémconhecida como eficácia, através da seguinte fórmula: RRRou Eficácia = (1-0,27) x 100 = 73%.

A eficácia representa a redução relativa do risco obtida com aintervenção. No exemplo da Tabela 2, conclui-se que o uso daclorpromazina reduziu em 73% o risco de piora de pacientes.

No caso do tratamento provocar um aumento do risco dealgum evento, teremos o excesso relativo de risco (ERR) cal-

culado como (RR-1) x 100. No mesmo estudo apresentadona Tabela 2, o risco de distonia foi de 5% nos usuários declorpromazina contra 2% no grupo com placebo, levando aum risco relativo de 2,5. Desse modo, o excesso relativo derisco foi de 150%.

ERR = (2,5-1) x 100 = 150%.Em outras palavras, a clorpromazina elevou em 150% o risco

de distonia em comparação com o grupo que recebeu placebo.É preciso cautela ao se interpretar o RR, pois nem sempre

um valor maior do que 1 indica algo ruim, indesejado. Tudodepende do modo como as variáveis estão sendo mensuradas.Num estudo com pacientes agitados/agressivos, realizado emtrês emergências psiquiátricas do Rio de Janeiro,5 comparou-se o uso de midazolam IM (intramuscular) em relação à com-binação haloperidol + prometazina (H+P), também por viaIM. Observou-se que 89% dos pacientes do primeiro grupoforam tranqüilizados em até 20 minutos após o uso da medi-cação, contra 67% do segundo grupo. Nesse caso, o RR foi1,33, o que significa um aumento de 33% da probabilidadede estar tranqüilo 20 minutos após o uso intramuscular domidazolam, em comparação com a combinação H+P.

2. Redução absoluta de risco (RAR)2. Redução absoluta de risco (RAR)2. Redução absoluta de risco (RAR)2. Redução absoluta de risco (RAR)2. Redução absoluta de risco (RAR)A RAR representa a redução, em termos absolutos, do risco

no grupo que sofreu a intervenção de interesse, em relaçãoao grupo controle.

RAR = [R(c) – R(t)] x 100No caso do estudo da Tabela 2, a RAR foi de 24,1%.RAR = (0,33-0,089) x 100 = 24,1%Para entendermos melhor o conceito de RAR e a sua dife-

rença em relação à redução do risco relativo (RRR), observe-mos os dados fictícios apresentados na Tabela 3.

No caso do desfecho reinternação, temos uma eficácia (RR)do tratamento de 50% e uma redução absoluta de risco (RAR)de 5%; isto é, o tratamento reduziu o número de reiternaçõesà metade (de 10% para 5%), o que representou a eliminaçãode um total de 5% desses eventos. Quanto ao desfecho reca-ída, a eficácia foi de 25% e a redução absoluta de risco foi de10%; em outras palavras, o tratamento reduziu o número derecaídas em apenas ¼ (de 40% para 30%), mas isso repre-sentou a eliminação de um total de 10% desses eventos. Por-tanto, ainda que a eficácia da intervenção seja maior para odesfecho reinternação, o maior benefício se dá para o desfe-cho recaída, onde houve uma redução de 10% do total decasos contra 5% do total das reinternações. Isso ocorreu por-que a freqüência de recaídas é maior do que a freqüência de

Art11_rev04.p65 12/5/2005, 19:31148

Page 4: Análise Estatistica Básica_Ensaios Clínicos Controlados

149 Coutinho ESF & Cunha GM

Rev Bras Psiquiatr. 2005;27(2):146-51

reinternações. A Figura 1 ajuda a entender essa conclusão.Sendo a área clara das barras aquela correspondente à dimi-nuição das reinternações e recaídas, observa-se uma reduçãode maior volume no evento recaída. As reinternações foramreduzidas à metade, mas isso representou um volume menordo que aquele alcançado para as recaídas.

4. Diferença de médias4. Diferença de médias4. Diferença de médias4. Diferença de médias4. Diferença de médiasExistem ensaios clínicos nos quais o desfecho é medido

através de escores de escalas como, por exemplo, a BriefPsychiatric Rating Scale (BPRS) ou a Abnormal InvoluntaryMovement Scale (AIMS). Essas escalas produzem escores paracada paciente, ao invés de resultados dicotômicos do tipo “sim/não”. Esse tipo de variável é denominada contínua, sendocomum o cálculo de sua média nos dois grupos que se desejacomparar. Para avaliar o tratamento de melhor resultado, cos-tuma-se comparar as médias dos dois grupos ao longo doestudo. Em outras ocasiões calculam-se esses escores no iní-cio e no final do tratamento, e compara-se a mudança dessesescores em cada grupo.

O estudo de Borison et al compararam, entre outros desfe-chos, os escores médios do BPRS ao final de 8 semanas nospacientes alocados para o grupo da Clorpromazina com osescores observados entre pacientes do grupo placebo. A mé-dia do grupo que recebeu clorpromazina foi 46,4, contra 50,5no grupo placebo.6

Um dos problemas desse tipo de desfecho é que, emboraseja possível afirmar que os pacientes que fizeram uso declorpromazina tivessem uma pontuação mais baixa para ossintomas psiquiátricos, é difícil extrair um significado clínicodessa diferença. É mais fácil entender uma redução de 25%das recaídas do que uma diferença de 4,1 pontos numa esca-la de sintomas psicóticos.

Nível de significância - valor de pNível de significância - valor de pNível de significância - valor de pNível de significância - valor de pNível de significância - valor de pAté o momento apresentamos diferentes medidas para esti-

mar o tamanho da diferença de um determinado evento (ex:reinternação, agravamento dos sintomas) em grupos expostosa diferentes intervenções (ex: clorpromazina vs placebo). Noentanto, ao lermos os ensaios clínicos é freqüente nos depa-ramos com expressões do tipo “a diferença entre os grupos foiestatisticamente significativa” ou “p < 0,05”.

O que se deseja com essas expressões é discutir o papel doacaso nos resultados obtidos em um ensaio clínico. Em ou-tras palavras, ainda que um estudo estime uma eficácia de30%, esta diferença entre os grupos pode ser casual.

Em estatística, uma das maneiras de abordar essa questãoé avaliando a evidência contra o que se denomina hipótesenula, segundo a qual não existe diferença entre os efeitos dasintervenções que se está comparando. A força evidência con-tra a hipótese nula é avaliada através do valor de p, que repre-senta a probabilidade de se observar uma diferença entre osgrupos como a que foi encontrada no estudo, quando, naverdade, esta diferença não existe. O valor de p também échamado de nível de significância e, quanto menor ele for,maior a evidência contra a hipótese nula. Por se tratar deuma probabilidade, o valor de P varia entre 0 e 1.

Os dados de três ensaios clínicos controlados comparandoclorpromazina com placebo (Tabela 4) ajudam a entender essaquestão. Todos os estudos foram conduzidos com pacienteshospitalizados, de ambos os sexos. Clark et al randomizaram55 pacientes, os quais foram acompanhados por 12 sema-nas,7 enquanto o estudo de Hall et al incluiu 175 pacientes,acompanhados por 66 dias.8 O estudo de Ban et alocou alea-toriamente 30 pacientes, sendo o período de seguimento de12 semanas.9 A hipótese nula no caso desses estudos é que aclorpormazina e o placebo não diferem quanto aos seus efei-tos sobre a sintomatologia psicótica. Os testes estatísticos apre-sentados na última linha da tabela mostram que, no caso doensaio de Hall et al, o valor de p é 0,01 (ou 1%).8 Portanto,

3. Número necessário para tratar (NNT)3. Número necessário para tratar (NNT)3. Número necessário para tratar (NNT)3. Número necessário para tratar (NNT)3. Número necessário para tratar (NNT)Um modo adicional de se medir o impacto de uma interven-

ção que vem se tornando popular nos últimos anos é o núme-ro necessário para tratar (NNT). Essa medida representa onúmero de pacientes que se precisa tratar para se prevenirum evento indesejado (ex: morte, recaída). O NNT é calcula-do como o inverso da RAR. No caso da Tabela 2, onde a RARfoi de 0,241 (ou 24,1%), o NNT será 1/0,241 = 4. Portanto,previne-se um caso de piora dos sintomas psicóticos em cadaquatro pacientes com esquizofrenia que fazem uso declorpromazina.

Vimos no item anterior que a RAR é influenciada pela fre-qüência do evento que se está avaliando. Pelo fato do NNTser o inverso da RAR, ele também será influenciado pela fre-qüência do evento. No caso dos dados da Tabela 3, temos umNNT de 10 para o evento recaída contra um NNT de 20 parao evento reinternação. Em outras palavras, para evitar umareinternação seria necessário tratar o dobro de pacientes doque seria necessário para impedir uma recaída.

É importante fazer uma distinção entre os efeitos benéficose os efeitos indesejados da intervenção. No caso desses últi-mos, o NNT é denominado número necessário para produzirum dano (NNH – number needed to harm).

Figura 1 - Comparação da eficácia e da redução absoluta deFigura 1 - Comparação da eficácia e da redução absoluta deFigura 1 - Comparação da eficácia e da redução absoluta deFigura 1 - Comparação da eficácia e da redução absoluta deFigura 1 - Comparação da eficácia e da redução absoluta derisco para dois desfechos (baseada nos dados da Trisco para dois desfechos (baseada nos dados da Trisco para dois desfechos (baseada nos dados da Trisco para dois desfechos (baseada nos dados da Trisco para dois desfechos (baseada nos dados da Tabela 3)abela 3)abela 3)abela 3)abela 3)

Art11_rev04.p65 12/5/2005, 19:31149

Page 5: Análise Estatistica Básica_Ensaios Clínicos Controlados

Rev Bras Psiquiatr. 2005;27(2):146-51

Estatística e ensaios clínicos controlados 150

a probabilidade de se observar uma eficácia de 21% em favorda clorpromazina, quando esta não difere do placebo, é deapenas 1%. No caso do estudo de Ban et al, a probabilidadede se encontrar uma eficácia de 25% na ausência de umasuperioridade da clorpromazina em relação ao placebo é de63%.9 Desse modo, o estudo de Hall et al apresenta umaforte evidência contra a hipótese nula (valor baixo de p),8 en-quanto no caso do estudo de Ban et al a evidência contra ahipótese nula é fraca (valor alto de p).9 As razões para essasdiscrepâncias serão discutidas adiante.

Para efeito de tomada de decisão, muitos ensaios clínicosconsideram a probabilidade menor do que 5% (p < 0,05) comoo valor limite para considerar que um efeito observado no estu-do é real, não sendo decorrente do acaso. Isto é, a hipótesenula será rejeitada caso o valor de p seja inferior a 0,05. Emoutras palavras, quando a probabilidade de concluirmos equi-vocadamente que uma intervenção é superior à outra for me-nor que 5%. Esse erro é denominado erro tipo I ou α.

Embora esse limite de 5% para aceitar ou rejeitar a hipóte-se nula seja habitual em ensaios clínicos, não existe nenhu-ma obrigação de que o valor de p seja fixado nesse nível.Dependendo dos riscos em se assumir uma conclusão falso-positiva, esse valor pode ser reduzido.**

Os resultados dos testes de significância estatística, atravésde seus valores de p, costumam ser interpretados equivocada-mente como medidas da magnitude do efeito de uma inter-venção. Quem mede a magnitude do efeito de uma interven-ção é a eficácia, a redução absoluta de risco, o número ne-cessário para tratar. Os valores de p apenas informam a pro-babilidade de que uma associação, identificada no estudo,seja um achado falso-positivo decorrente do acaso. Em outraspalavras, um valor de p igual a 0,10 ou 10% significa queexiste uma probabilidade de 10% de se encontrar uma eficá-cia como a observada no ensaio clínico na ausência de supe-rioridade de uma das intervenções.

Considerando-se um nível de significância de 5% e obser-vando as estimativas de eficácia, vemos que o estudo de Clarket al foi aquele com maior eficácia (32%), embora não sejaestatisticamente significativo (p = 0,11).7 Por outro lado, oestudo de Hall et al foi o único a apresentar significância esta-tística (p = 0,01), embora seja o de menor eficácia (21%).8

Portanto, um nível de significância ou valor de p baixo (ex: p =5% ou 1%) não quer dizer que exista uma forte associação(ex: grande eficácia), mas apenas que existe uma forte evidên-

cia de que o efeito observado não seja decorrente do acaso.Mas se o teste de significância estatística não avalia a mag-

nitude da associação (eficácia, neste caso), por que ele só foisignificativo no estudo de Hall et al, exatamente aquele commenor eficácia? Porque esses testes dependem não só damagnitude da eficácia, mas também do tamanho da amos-tra.8 Em outras palavras, o nosso grau de certeza de que umefeito observado não decorre do acaso aumenta quando te-mos um número maior de indivíduos no estudo. No caso daTabela 4, o estudo de Hall et al tem uma amostra cerca de 5vezes maior que a do estudo de Clark et al e cerca de 8 vezesmaior que no estudo de Ban et al.7-9

É importante ainda ressaltar que o fato de um resultado nãoser estatisticamente significativo não deve ser interpretado comoevidência de ausência de efeito da intervenção, mas sim deque as evidências contra a hipótese nula são fracas. Na Tabe-la 5 apresentamos dados fictícios sobre o risco de efeitos ad-versos de dois medicamentos (A e B). Observa-se que a únicadistinção entre os estudos 1 e 2 é o tamanho do grupo inves-tigado, já que a redução de efeitos adversos observada para otratamento A é a mesma em ambos os casos: 34%.

Se arbitrarmos um nível de significância de 5%, valores dep acima desse nível levarão à aceitação da hipótese nula evalores de P abaixo desse nível levarão à sua rejeição. Nessecaso, o estudo 1 não permitiria concluir que a droga A apre-senta um risco de efeitos adversos superior ao da droga B,pois o valor de P é alto (0,52); isto é, a probabilidade de quese trate de um achado ao acaso está acima do limite de 5%que arbitramos a priori. No entanto, no estudo 2, nossa con-clusão seria de que o tratamento A está mais sujeito à ocor-rência de efeitos adversos dado que o valor de P é baixo (0,04);isto é, a probabilidade de que este achado decorra de umacasualidade é menor do que o limite de 5% que estabelece-mos a priori. Do mesmo modo que na Tabela 4, essa mudan-ça na conclusão deve-se a um aumento do tamanho amostral.

**NOT**NOT**NOT**NOT**NOTA:A:A:A:A: Parece que esta opção pelo valor de 5% vem dos escritos do estatístico Sir R. A. Fisher, que expressou suapreferência por este ponto de corte.

Art11_rev04.p65 12/5/2005, 19:32150

Page 6: Análise Estatistica Básica_Ensaios Clínicos Controlados

151 Coutinho ESF & Cunha GM

Rev Bras Psiquiatr. 2005;27(2):146-51

ReferênciasReferênciasReferênciasReferênciasReferências1 .1 .1 .1 .1 . Medical Research Council. Streptomycin treatment of pulmonary

tuberculosis. A Medical Research Council Investigation. BMJ.1948;2:769-82.

2 .2 .2 .2 .2 . Pocock SJ. Clinical trials: a practical approach. Chichester: JohnWiley & Sons; 1983.

3 .3 .3 .3 .3 . Meinert CL. Clinical trials: design, conduct and analysis. New York:Oxford University Press; 1986. (Monographs in epidemiology andBiostatistics, 8).

4 .4 .4 .4 .4 . Prien RF, Cole JO. High dose chlorpromazine therapy in chronicschizophrenia. Report of National Institute of Mental Health-psychopharmacology research branch collaborative study group. ArchGen Psychiatry. 1968;18(4):482-95.

5 .5 .5 .5 .5 . TREC Collaborative Group. Rapid tranquillisation for agitated patientsin emergency psychiatric rooms: a randomised trial of midazolamversus haloperidol plus promethazine. BMJ.2003;327(7417):708-13. Comment in: Evid Based Ment Health.2004;7(2):42.

6 .6 .6 .6 .6 . Borison RL, Diamond BI, Dren AT. Does sigma receptor antagonismpredict clinical antipsychotic efficacy? Psychopharmacol Bull.1991;27(2):103-6.

7 .7 .7 .7 .7 . Clark ML, Ramsey HR, Rahhal DK, Serafetinides EA, Wood FD,Costiloe JP. Chlorpromazine in chronic schizophrenia. The effect ofage and hospitalization on behavioral dose-response relationships.Arch Gen Psychiatry. 1972;27(4):479-83.

8 .8 .8 .8 .8 . Hall RA, Dunlap DJ. A study of chlorpromazine: methodology andresults with chronic semi-disturbed schizophrenics. J Nerv MentDis. 1955;122(4):301-14.

9 .9 .9 .9 .9 . Ban TA, Lehmann HE, Sterlin C, Climan M. Comprehesiven clinicalstudies with thiothixene. Dis Nerv Syst. 1975;36(9):473-7.

Intervalo de confiançaIntervalo de confiançaIntervalo de confiançaIntervalo de confiançaIntervalo de confiançaA cada dois anos somos expostos aos resultados das pesqui-

sas eleitorais sobre as preferências dos eleitores. O percentualde votos de cada candidato é apresentado sempre seguido daseguinte informação: “a margem de erro da pesquisa é de 2%ou de 3%”. Isso significa que sempre que fazemos uma pes-quisa, seja ela eleitoral ou um ensaio clínico, utilizando umafração da população, existe certo grau de incerteza sobre oreal valor da estimativa que fazemos.

O intervalo de confiança define os limites inferior e supe-rior de um conjunto de valores que tem certa probabilidadede conter no seu interior o valor verdadeiro do efeito da in-tervenção em estudo. Desse modo, o processo pelo qual umintervalo de confiança de 95% é calculado é tal que ele tem95% de probabilidade de incluir o valor real da eficácia daintervenção em estudo.

Na Tabela 5 estão os dados fictícios de dois estudos (estudo3 e estudo 4) comparando a proporção de pacientes com efei-tos adversos observados ao longo do tratamento com doisneurolépticos (C e D). Ambos os estudos tiveram redução norisco de efeitos adversos de 50% com o uso do medicamentoC e um nível de significância estatística menor que 0,001 ou0,1%. Entretanto, o intervalo de confiança do estudo 4 é maisestreito do que o intervalo do estudo 3. Por essa razão, dize-mos que o estudo 4 é mais preciso do que o estudo 3, pois aregião de incerteza quanto ao verdadeiro valor da RR é me-nor. No caso do estudo 3, há uma probabilidade de 95% dointervalo entre 25% e 67% conter o valor verdadeiro da RRR,enquanto no caso do estudo 4 este intervalo varia apenas de43% a 56%. Não há obrigatoriedade de que o intervalo deconfiança seja de 95%, podendo ser de 90%, 99% ou aindaoutro valor diferente.

O uso do intervalo de confiança permite não só conhecer-mos a precisão com que o estudo estima certo efeito, comotambém possibilita dizermos se o achado é estatisticamentesignificativo para um dado nível de significância. Quando ointervalo de confiança contiver o valor nulo de efeito, o estu-do será inconclusivo (sem significância estatística). Como vi-mos anteriormente, entende-se por valor nulo de efeito o va-lor que expressa riscos iguais em ambos os grupos. No casodo RR, da eficácia e da RAR os valores nulos são um, zero ezero, respectivamente.

Voltando aos estudos da Tabela 4, o ensaio clínico de Hallet al,8 cujo valor de p de 0,01 foi significativo, tem um inter-valo de confiança de 95% para a RR que exclui o valor nuloum (0,65-0,95). Já o ensaio clínico de Ban et9 al apresentouum valor de p não significativo de 0,63, o que se expressanum intervalo de confiança de 95% que inclui o valor nulo(0,41-1,36).

PPPPPoder do estudooder do estudooder do estudooder do estudooder do estudoO poder de um ensaio clínico pode ser definido como a

probabilidade do estudo identificar uma diferença entre os tra-tamentos (efeito), quando esta diferença é real. O poder éinfluenciado por quatro fatores: a natureza do teste estatísti-co, o nível de significância, o tamanho da amostra e a dife-rença esperada no efeito dos dois tratamentos.

Na Tabela 4, o poder do estudo de Hall et al foi de 77%,enquanto o poder no ensaio de Ban et al9 foi de 16%. Como osestudos observaram eficácias bastante próximas, o que está le-vando a poderes tão distintos é a diferença no tamanho amostral.8

Levando em conta o conceito de poder, fica mais claro por-que um estudo com resultado sem significância estatística

não pode ser interpretado como evidência de ausência de efeito.Pode ser apenas um caso de falta de poder estatístico paraevidenciar este efeito.

Por esta razão, é de extrema importância para os ensaiosclínicos que:

1) O tamanho amostral propicie um poder elevado. Estudospara detectar efeitos pequenos necessitam amostras maiores.

2) O estudo informe o poder, sobretudo quando seus resul-tados não alcançam significância estatística. Se o poder forbaixo, nada se pode concluir. Se o poder for alto, pode-seconsiderar, com um pouco mais de segurança, que os trata-mentos tenham efeitos semelhantes.

ConclusõesConclusõesConclusõesConclusõesConclusões1) A magnitude de uma associação ou efeito de uma inter-

venção é dada pelo risco relativo, redução de risco relativo(eficácia), diferença de riscos ou diferença de médias e nãopelo valor de p.

2) O fato de uma intervenção num ensaio clínico apresen-tar maior eficácia (redução relativa do risco) não significa queela é responsável pela maior redução de risco em termos ab-solutos.

3) O valor de p não indica se o efeito de uma intervenção éforte ou fraco. Ele apenas indica a probabilidade de se obser-var determinado um efeito quando este se deve ao acaso.

4) O valor de p é influenciado, entre outros fatores, pelotamanho da amostra.

5) Estudos com amostras maiores tendem a obter estimati-vas de efeito mais precisas (menor intervalo de confiança) ecostumam apresentar maior poder (probabilidade de detectarum efeito quando este existe).

Art11_rev04.p65 12/5/2005, 19:32151