57
António Paula Brito de Pina 2005 Gabinete de Investigação e Estatística Delegação Regional do Algarve do Instituto da Droga e Toxicodependência

António Paula Brito de Pina · Investigação e Estatística com o EpiInfo ... Ao contrário do que muitos julgam, ... Quais são as perguntas que o investigador propõe?

Embed Size (px)

Citation preview

Page 1: António Paula Brito de Pina · Investigação e Estatística com o EpiInfo ... Ao contrário do que muitos julgam, ... Quais são as perguntas que o investigador propõe?

António Paula Brito de Pina

2005

Gabinete de Investigação e Estatística Delegação Regional do Algarve do Instituto da Droga e Toxicodependência

Page 2: António Paula Brito de Pina · Investigação e Estatística com o EpiInfo ... Ao contrário do que muitos julgam, ... Quais são as perguntas que o investigador propõe?

i Investigação e Estatística com o EpiInfo

António Pina Gabinete de Investigação e Estatística

Delegação Regional do Algarve do Instituto da Droga e Toxicodependência

Índice

PARTE 1 - A metodologia básica de investigação ...............................................1

1º- Identifique o assunto a investigar.....................................................................3

a) Quais são as perguntas que o investigador propõe?..............................................3

b) Qual a investigabilidade do problema?.................................................................4

c) É pertinente gastar recursos para tentar conseguir respostas a tais perguntas?.....4

d) O que é que já se sabe ou foi publicado sobre o assunto?.....................................4

e) Quais são as hipóteses a comprovar?....................................................................5

2º- Identifique as variáveis a estudar.....................................................................5

a) Quais são as variáveis?..........................................................................................5

b) Classifique cada variável segundo a sua escala de medição.................................6

c) Como vamos proceder à medição da variável?.....................................................6

d) Posicione cada variável no desenho do estudo.....................................................7

3º- Identifique a população e a amostra a estudar...............................................8

a) Qual a unidade de observação?.............................................................................8

b) A população vai ser toda estudada?......................................................................8

4º- Defina o desenho do seu estudo......................................................................10

5º- Planeie a recolha e a análise dos dados..........................................................11

6º- Interprete os resultados para elaborar um relatório....................................12

7º - Comentários finais..........................................................................................17

Page 3: António Paula Brito de Pina · Investigação e Estatística com o EpiInfo ... Ao contrário do que muitos julgam, ... Quais são as perguntas que o investigador propõe?

ii Investigação e Estatística com o EpiInfo

António Pina Gabinete de Investigação e Estatística

Delegação Regional do Algarve do Instituto da Droga e Toxicodependência

PARTE 2 - Noções de estatística..........................................................................19

1. A Estatística descritiva......................................................................................20

1.1. Interpretar as frequências absolutas e relativas................................................21

1.2. Interpretar as médias, desvios-padrão, medianas, etc. .....................................22

2. A Estatística Dedutiva.......................................................................................25

2.1- Os intervalos de confiança...............................................................................27

2.2.- Provas para verificar a associação entre duas variáveis qualitativas - o Qui-quadrado e a Prova de Fisher..................................28 2.3.- Provas para verificar a associação entre uma variável qualitativa e uma variável quantitativa - o t de Student / ANOVA e o U de Mann-Whitney / Kruskal-Wallis..............................................................31 3- A força da associação........................................................................................32

3.1. Estudos de coorte..............................................................................................33

3.2. Estudos de caso-controlo..................................................................................36

Bibliografia.............................................................................................................37

Anexo 1 - A Revisão Bibliográfica

Anexo 2 - Controlo das variáveis interferentes

Anexo 3 - Cálculo da dimensão da amostra

Page 4: António Paula Brito de Pina · Investigação e Estatística com o EpiInfo ... Ao contrário do que muitos julgam, ... Quais são as perguntas que o investigador propõe?

Investigação e Estatística com o EpiInfo 1

António Pina Gabinete de Investigação e Estatística

Delegação Regional do Algarve do Instituto da Droga e Toxicodependência

1

PARTE 1

A metodologia básica de investigação

Page 5: António Paula Brito de Pina · Investigação e Estatística com o EpiInfo ... Ao contrário do que muitos julgam, ... Quais são as perguntas que o investigador propõe?

Investigação e Estatística com o EpiInfo 2

António Pina Gabinete de Investigação e Estatística

Delegação Regional do Algarve do Instituto da Droga e Toxicodependência

2

A metodologia básica de investigação

Ao contrário do que muitos julgam, não basta saber Estatística para fazer Investigação,

atendendo que:

1º- A Estatística nunca dá certezas, dá apenas probabilidades baseadas em pressupostos

fictícios ..., tal como explicaremos na Parte 2 desta brochura.

2º- Os resultados estatisticamente significativos podem não ter relevância...,

nomeadamente quando a amostra é muito grande, porque é possível obter resultados

estatisticamente significativos nas pequenas diferenças encontradas entre dois subgrupos da

amostra, mesmo quando estas diferenças, além de pequenas, são pouco importantes.

3º- Os resultados da Estatística poderão dar-nos uma ideia sobre a eventual associação

entre variáveis, mas nunca nos revela a relação de causalidade... Por exemplo, a Estatística

poderá demonstrar que determinados perfis psicopatológicos poderão estar associados à

toxicodependência mas, saber se é esta psicopatologia que leva à toxicodependência, ou vice-

versa, só pode ser respondido tendo em conta o desenho do estudo, nomeadamente um desenho

que permita saber o que é que acontece primeiro (as perturbações psicopatológicas ou a

toxicodependência).

4º- Se os dados que introduzimos no computador para fazer os cálculos estatísticos não

forem os correctos, a interpretação dos resultados poderá ser impossível ou levar a conclusões

totalmente erradas... Por exemplo, se quisermos comparar o peso de dois grupos, e utilizarmos

uma balança diferente para os dois grupos poderemos obter resultados enganadores... Este

problema inclui-se nos denominados vieses de informação!

5º- Se o enquadramento teórico do estudo não for o correcto, é fácil chegar a conclusões

erradas porque os resultados estatísticos são espúrios... Um exemplo de uma de uma associação

espúria é a associação estatisticamente significativa entre o número de telemóveis existentes num

país e o número de doenças cardíacas. Um aprendiz a investigador poderia concluir erradamente

que a influência das ondas dos telemóveis poderia provocar um aumento das doenças

Page 6: António Paula Brito de Pina · Investigação e Estatística com o EpiInfo ... Ao contrário do que muitos julgam, ... Quais são as perguntas que o investigador propõe?

Investigação e Estatística com o EpiInfo 3

António Pina Gabinete de Investigação e Estatística

Delegação Regional do Algarve do Instituto da Droga e Toxicodependência

3

cardiológicas. Sucede no entanto que os países onde há mais telemóveis são também os mais

ricos e, devido à sobre-alimentação, têm com maior frequência doenças cardíacas. Assim, há

aqui uma terceira variável escondida, que pode provocar uma associação estatisticamente

significativa mas totalmente espúria. Esta terceira variável denomina-se de confundimento

porque produz um viés de confundimento.

Outro exemplo dum viés de confundimento em investigação é o que aconteceu num

estudo efectuado há alguns anos, sobre os efeitos de deixar de fumar. Verificou-se então que a

maioria dos fumadores que largavam o mau hábito, morriam mais frequentemente no primeiro

ano que os que continuavam a fumar. A conclusão lógica seria que qualquer fumador deveria

manter o seu hábito ... Sucede que, infelizmente, muito dos fumadores que deixam de fumar,

fazem-no porque já se sentem doentes, o que aumenta a probabilidade de morrerem no ano

seguinte, enquanto os outros ainda se sentem saudáveis e em muitos casos ainda o estão...

O que se passou neste estudo é que não se controlou o efeito de uma variável de

confundimento fundamental: o fumador já estava doente ou não, quando deixou de fumar? Estas

questões têm a ver fundamentalmente com o desenho do estudo e não com a Estatística.

Assim, para iniciar um trabalho de investigação é necessário seguir várias regras para

evitar escorregadelas. A primeira regra de ouro é que antes de avançar para o trabalho de campo

é fundamental sempre elaborar um protocolo que nos guie no futuro. Para isto teremos que

seguir uma sequência de passos que nos pouparão muitos problemas e dissabores...

A sequência que vou expor pode ser parcialmente modificada, nomeadamente as fases

posteriores poderão obrigar a reconsiderar as fases iniciais, mas genericamente é sempre a

sequência a utilizar.

1º- Identifique o assunto a investigar

a) Quais são as perguntas que o investigador propõe?

Clarifique estas perguntas que quer ver respondidas pelo estudo. Não seja vago. Formule

poucas perguntas e restrinja o mais possível os objectivos do seu estudo, caso contrário arrisca-se

a sentir-se completamente perdido quando começar o seu trabalho de campo. Quanto menos

objectivos um estudo tiver, maiores serão as suas probabilidades de êxito.

Page 7: António Paula Brito de Pina · Investigação e Estatística com o EpiInfo ... Ao contrário do que muitos julgam, ... Quais são as perguntas que o investigador propõe?

Investigação e Estatística com o EpiInfo 4

António Pina Gabinete de Investigação e Estatística

Delegação Regional do Algarve do Instituto da Droga e Toxicodependência

4

Por outro lado, um outro óbice importante em estudos com muitos objectivos é que

poderão ser necessários desenhos diferentes de estudo e amostras com dimensões diferentes para

os diferentes objectivos, o que complica muito a sua condução.

b) Qual a investigabilidade do problema?

É necessário verificar se existem tabus ou outros obstáculos culturais ou políticos que

impossibilitem a investigação. Existem ainda questões éticas relativamente à possibilidade de

colher alguns dados privados. Alguns estudos experimentais como por exemplo, os ensaios

terapêuticos, têm também de seguir normas éticas muito estritas, atendendo à perigosidade para a

saúde dos indivíduos que neles participam.

c) É pertinente gastar recursos para tentar conseguir respostas a tais perguntas?

É evidente que devemos ter imediatamente o pragmatismo necessário para identificar as

perguntas que estão muito para além das nossas possibilidades e recursos. Por outro lado, há aqui

também uma questão ética. Mesmo que hajam recursos para investigar um problema, caso este

seja menos pertinente que outros problemas existentes, não será ético gastar os recursos nesta

investigação, pois isto irá anular a oportunidade de investigar o assunto realmente pertinente. Isto

é uma consideração ética importante quando se tem dinheiro para investigar um assunto

particular...

d) O que é que já se sabe ou foi publicado sobre o assunto?

Trata-se de fazer o enquadramento teórico ou definição conceptual do problema, ou seja,

definir o que se sabe de universal sobre o assunto. Repare que aqui é necessário fazer uma

revisão bibliográfica sobre o tema, onde poderemos descobrir que outros já encontraram resposta

para algumas das nossas perguntas. Na revisão bibliográfica poderemos também encontrar ideias

novas sobre como conduzir o nosso estudo (Anexo 1- A revisão bibliográfica).

Esta definição conceptual do problema permite também identificar as variáveis que

deveremos controlar para não confundirem as nossas conclusões.

Page 8: António Paula Brito de Pina · Investigação e Estatística com o EpiInfo ... Ao contrário do que muitos julgam, ... Quais são as perguntas que o investigador propõe?

Investigação e Estatística com o EpiInfo 5

António Pina Gabinete de Investigação e Estatística

Delegação Regional do Algarve do Instituto da Droga e Toxicodependência

5

e) Quais são as hipóteses a comprovar?

A enunciação de hipóteses só poderá acontecer se nós tivermos já uma descrição das

características do problema. Por exemplo, se estiver descrito que a frequência de uma

determinada doença é diferente em duas populações, poderemos formular a hipótese de que essa

diferença está associada a uma diferença de um determinado factor de risco entre as duas

populações.

Quando falamos em hipóteses estamos a falar de perguntas sobre a relação entre

variáveis, para as quais nós vamos tentar encontrar respostas concretas, através da observação

planeada dos factos (no caso anterior, a pergunta poderia ser formulada da seguinte forma: está a

variável "doença" associada à variável "factor de risco"?)

Repare-se que as hipóteses são apenas fundamentais em estudos analíticos ou

experimentais. Um estudo descritivo não necessita de hipóteses: basta-lhe descrever as

características do fenómeno.

2º- Identifique as variáveis a estudar

a) Quais são as variáveis?

As variáveis descrevem as características do atributo a medir.

Num estudo descritivo bastará fazer a análise de forma isolada para cada variável: é a

análise univariada.

Num estudo analítico as variáveis já estão enunciadas nas hipóteses e tentar-se-á verificar

a associação ou não destas: é a análise bi ou multivariada.

É importante definir quais serão as nossas variáveis. A primeira definição é conceptual.

Por exemplo, se quisermos saber quantos toxicodependentes existem numa população, temos

primeiro que definir conceptualmente o que é, para o nosso estudo, ser "toxicodependente". Ser

fumador é toxicodependente? Ou apenas os consumidores de drogas ilícitas o são?

Também aqui, quanto menor for o número de variáveis a estudar, maior a probabilidade

de atingir os objectivos. Para um principiante, mais de 15 variáveis é perigoso...

Page 9: António Paula Brito de Pina · Investigação e Estatística com o EpiInfo ... Ao contrário do que muitos julgam, ... Quais são as perguntas que o investigador propõe?

Investigação e Estatística com o EpiInfo 6

António Pina Gabinete de Investigação e Estatística

Delegação Regional do Algarve do Instituto da Droga e Toxicodependência

6

b) Classifique cada variável segundo a sua escala de medição.

Agora passamos à definição operacional. Vamos supor que considerámos que um

fumador era um toxicodependente. Há que ainda definir se consideramos que alguém que fuma

um cigarro por semana também será considerado fumador, como outro que fuma um maço por

dia. Ou seja, há que definir agora a escala de medição: por exemplo, vamos contar o número de

cigarros por dia, ou apenas criamos dois grupos - fumadores/não fumadores?

Sumariamente, tendo em conta a escala de medição, poderemos classificar as variáveis da

seguinte forma:

1- Variáveis qualitativas nominais, cujos valores não tem uma relação de ordem entre

eles, por ex., o "Sexo" e "Raça". Para este tipo de variáveis, poder-se-á fazer o estudo das

proporções e aplicar-se o Qui-quadrado.

2- Variáveis qualitativas ordinais, cujos valores não são métricos mas incluem relações de

ordem. É o caso da variável "Peso" medida em 3 níveis (pouco pesados, pesados, muito

pesados). Para este tipo de variáveis poder-se-á fazer tudo quanto é possível fazer-se para as

variáveis nominais, mas também adicionalmente é possível estudar as medianas, quartis, modas,

e aplicar o Kruskal-Wallis, a regressão logística e outros testes não paramétricos.

3- Variáveis quantitativas, cujos valores são medidos numa escala métrica, como por ex.,

a "Idade", ou o "Peso" medido em gramas. Para este tipo de variáveis poder-se-á fazer tudo

quanto é possível fazer-se para as variáveis nominais e ordinais, mas também adicionalmente é

possível estudar as médias, desvios-padrão, e aplicar o ANOVA, a correlação e regressão linear,

etc.

Assim, é fundamental planearmos que tipo de variáveis queremos ter, para sabermos de

antemão quais as provas estatísticas que poderemos aplicar. É evidente que as variáveis

quantitativas são melhores que as meramente ordinais, e estas são melhores que as nominais,

porque incluem mais informação e são susceptíveis de lhes serem aplicadas provas estatísticas

mais potentes.

c) Como vamos proceder à medição da variável?

No caso da variável peso, será numa balança? Será sempre na mesma balança? Faremos 2

ou 3 pesagens e confiaremos na média? Será sem roupa ou com roupa? Confiaremos apenas no

peso que o próprio nos refere? Colhemos o dado da ficha clínica? No caso da variável "Fumar",

será através de um questionário, ou através de análise à saliva, etc.? E quem é que vai colher os

Page 10: António Paula Brito de Pina · Investigação e Estatística com o EpiInfo ... Ao contrário do que muitos julgam, ... Quais são as perguntas que o investigador propõe?

Investigação e Estatística com o EpiInfo 7

António Pina Gabinete de Investigação e Estatística

Delegação Regional do Algarve do Instituto da Droga e Toxicodependência

7

dados - o próprio investigador ou outros indivíduos? Se for com um questionário, como é que as

perguntas estão dispostas e em que condições vai ser aplicado o questionário?

Estas definições são extremamente importantes porque têm a ver com a qualidade da

medição. Aqui põem-se problemas relacionados com a precisão ou repetibilidade e a validade ou

exactidão do nosso método. Todos estes problemas podem traduzir-se em vieses de informação.

d) Posicione cada variável no desenho do estudo.

Quando se querem testar hipóteses, o que só é possível em estudos experimentais ou

analíticos, é útil dividir as variáveis, segundo as nossas hipóteses de estudo, em:

♦ variáveis explicativas, ou de exposição, independentes ou preditoras

♦ variáveis resposta, ou resultado, ou dependentes

♦ variáveis interferentes

É muito importante fazer um desenho que clarifique a relação destas variáveis, por

exemplo:

Suponhamos que vamos fazer um estudo em que uma hipótese é: o "tempo prévio de

consumo de cannabis" está associado ao "tempo de consumo de heroína". Neste caso, o "tempo

de consumo de cannabis" será uma variável de exposição e o "tempo de consumo de heroína" a

variável resultado. As variáveis interferentes poderão ser a idade e o sexo, o nível educacional,

social, etc. Ou seja, em muitos casos, há variáveis que podem interferir e alterar a relação entre

outras duas. É possível que um determinado subgrupo etário ou apenas um sexo tenha uma

associação positiva entre a variável de exposição e a do resultado, enquanto o outro subgrupo

tem uma associação negativa! Este é um dos problemas mais complexos da investigação, que

V. Exposição

V. resultado

V. interferentes

Page 11: António Paula Brito de Pina · Investigação e Estatística com o EpiInfo ... Ao contrário do que muitos julgam, ... Quais são as perguntas que o investigador propõe?

Investigação e Estatística com o EpiInfo 8

António Pina Gabinete de Investigação e Estatística

Delegação Regional do Algarve do Instituto da Droga e Toxicodependência

8

vicia frequentemente as conclusões e que só se resolve cabalmente com a implementação de um

desenho de estudo experimental.

Apesar de tudo, nos outros estudos é possível controlar razoavelmente o efeito das

variáveis interferentes através da análise estratificada (uma análise independente para cada

estrato da variável interferente, verificando seguidamente se há alteração dos resultados de um

estrato para outro) e outras técnicas mais sofisticadas que o EpiInfo disponibiliza (Anexo 2 -

Controlo das variáveis interferentes).

3º- Identifique a população e a amostra a estudar

a) Qual a unidade de observação?

É uma pessoa, ou uma família, ou outro grupo?

b) A população vai ser toda estudada?

Enquanto o Universo do nosso estudo poderá ser um conjunto de unidades de observação

para as quais não temos uma listagem (p.ex., os toxicodependentes no nosso País), a População

já é um conjunto destas unidades para as quais temos uma listagem (p.ex., os toxicodependentes

existentes no ficheiro dos serviços de saúde) e, por isso, da qual poderemos extrair uma amostra

de forma aleatória.

Caso a população seja muito extensa, torna-se impossível ou muito dispendioso incluir

todas as suas unidades de observação no estudo, pelo que se faz a selecção da amostra.

Claro que a única forma de termos alguma confiança na representatividade desta amostra

será fazermos a sua selecção de forma aleatória, para que cada elemento da amostra tenha

exactamente a mesma probabilidade de ser seleccionado. Também será importante calcularmos a

dimensão da amostra, de forma a dar a precisão que queremos às nossas estimativas, o que pode

ser ajudado pelo EpiInfo na secção STATCALC (Anexo 3 - Cálculo da dimensão de uma

amostra).

Existem vários métodos de selecção aleatória:

1. Selecção aleatória simples: é necessário ter uma listagem de toda a população, por

exemplo, de todos utentes dum serviço de saúde, aos quais se atribui um número de 1

Page 12: António Paula Brito de Pina · Investigação e Estatística com o EpiInfo ... Ao contrário do que muitos julgam, ... Quais são as perguntas que o investigador propõe?

Investigação e Estatística com o EpiInfo 9

António Pina Gabinete de Investigação e Estatística

Delegação Regional do Algarve do Instituto da Droga e Toxicodependência

9

a x. Posteriormente, ao acaso, seleccionam-se alguns elementos de toda a lista,

geralmente com a ajuda de uma tabela de números aleatórios.

2. Selecção aleatória sistemática: é necessário também ter uma listagem de toda a

população. Depois seleccionam-se elementos de x em x intervalos, por exemplo,

selecciona-se 1 elemento de 10 em 10 da listagem.

3. Selecção aleatória por conglomerados: é necessário uma listagem dos conglomerados,

por exemplo, uma listagem de escolas da região. Após se seleccionar aleatoriamente

um pequeno número de escolas desta listagem, estudam-se todos os alunos (ou uma

amostra) de cada escola seleccionada. Repare-se que aqui a primeira selecção

aleatória é feita sobre uma listagem de unidades - os conglomerados - que não são as

verdadeiras unidades de observação que interessam. Só numa segunda fase, depois de

escolher os conglomerados, se poderá fazer uma selecção aleatória a partir de uma

listagem que inclua as verdadeiras unidades de observação - os cidadãos incluídos em

cada conglomerado, por exemplo.

4. Selecção aleatória estratificada: é necessário ter uma listagem de toda a população

com alguma informação adicional (eventualmente socio-demográfica) da mesma.

Posteriormente definem-se vários estratos da população, de acordo com a informação

adicional que já se tinha e, a partir da listagem de elementos de cada estrato, faz-se

uma selecção aleatória de uma amostra em cada estrato.

Os métodos de selecção não aleatória poderão ser utilizados em estudos preliminares,

mas nunca garantem minimamente a representatividade, pelo que os seus resultados deverão

sempre ser confirmados com outros estudos.

Por outro lado, mesmo sendo a amostra representativa da população, não é obrigatório

que a população seja representativa do universo no atributo a medir. Por exemplo, a população

de toxicodependentes dos serviços de saúde quase certamente não são representativos de todos

os toxicodependentes (incluindo aqui os que não têm contacto com os serviços de saúde).

Todos os erros cometidos na fase da amostragem incluem-se na categoria dos vieses de

selecção.

Page 13: António Paula Brito de Pina · Investigação e Estatística com o EpiInfo ... Ao contrário do que muitos julgam, ... Quais são as perguntas que o investigador propõe?

Investigação e Estatística com o EpiInfo 10

António Pina Gabinete de Investigação e Estatística

Delegação Regional do Algarve do Instituto da Droga e Toxicodependência

10

4º- Defina o desenho do seu estudo

Seguidamente tentaremos classificar os vários tipos de estudos de investigação existentes.

Como é costume, os melhores desenhos são também os que requerem mais recursos, sendo

geralmente impossíveis de executar...

A- Estudos experimentais: são estudos caracterizados por aleatoriamente distribuirmos

uma população em dois grupos e posteriormente manipularmos as variáveis explicativas num

grupo, de forma a estudar o seu efeito nas variáveis resultado. O outro grupo serve como termo

de comparação e chama-se o grupo-controlo ou testemunha.

Estes estudos são os mais sofisticados e são os únicos que poderão fazer um controlo

eficaz das confusões provocadas pelas variáveis de confundimento que desconhecemos,

revelando assim relações de causalidade. Isto porque ao distribuirmos aleatoriamente os

indivíduos pelos dois grupos, temos a garantia de não haver grandes diferenças significativas

entre os grupos, relativamente às ditas variáveis de confundimento desconhecidas.

B- Estudos de observação analíticos

a) Estudos de coorte

Se pudermos fazer duas ou mais medições ao longo do tempo numa determinada

população, poderemos saber quais os efeitos que a exposição a um factor terá no final,

comparando os que desde o início estiveram expostos com aqueles que nunca estiveram expostos

ao factor. Embora possamos ver algumas semelhanças destes estudos com os estudos

experimentais, repare-se que o investigador não faz a diferenciação dos dois grupos de forma

aleatória como acontece nos estudos experimentais, sendo apenas o destino que separa o grupo

exposto do não exposto. Da mesma forma, neste caso, o investigador também não tem qualquer

poder de manipulação da variável de exposição, limitando-se a observar...

Um exemplo prático é estudar numa população de heroinodependentes qual a forma de

consumo com maior risco de mortalidade ao fim de um ano. Bastaria dividir a população

segundo a forma de consumo (ex.: injectável ou não) no início do ano, e depois, no final do ano,

verificar quantos morreram num grupo e no outro. Estes estudos possibilitam o cálculo de taxas

de incidência e prevalência, assim como do risco relativo (o EpiInfo efectua estes cálculos

automaticamente).

Page 14: António Paula Brito de Pina · Investigação e Estatística com o EpiInfo ... Ao contrário do que muitos julgam, ... Quais são as perguntas que o investigador propõe?

Investigação e Estatística com o EpiInfo 11

António Pina Gabinete de Investigação e Estatística

Delegação Regional do Algarve do Instituto da Droga e Toxicodependência

11

b) Estudos de caso-controlo

Poderão ser confundidos com os estudos de coorte porque também se baseiam em

medições ao longo do tempo, mas aqui os 2 grupos dividem-se tendo em conta os efeitos e não a

exposição. Ou seja, utilizando o exemplo anterior, caso não pudéssemos de antemão saber

quantos estiveram expostos ou não, seria sempre fácil diferenciar o grupo entre os que morreram

ou não no final do ano. Se soubermos, através de informação colhida num ficheiro, qual a forma

de consumo utilizada no passado, é possível estimar também algo aproximado ao risco relativo

que, neste caso, é denominado Odds Ratio.

c) Estudos transversais analíticos

Os estudos transversais analíticos são "fotografias" mas que também poderão incluir

alguma análise quando as variáveis de exposição e de resultado são persistentes ao longo do

tempo. Por exemplo, é possível estudar a associação entre a variável sexo (obviamente, quase

imutável...) e uma determinada doença crónica, numa população.

C - Estudos descritivos

Um estudo descritivo é aquele que ambiciona apenas estimar parâmetros de uma

população, nomeadamente proporções, médias, etc. Não necessita de elaboração de hipóteses de

estudo pois trata-se apenas de uma "fotografia" da situação. Tais estudos têm a importância

fundamental de serem sempre o primeiro passo da investigação. Deles nascem as hipóteses que

poderão ser estudadas em estudos mais sofisticados.

Todos os investigadores e toda a investigação deverá começar por aqui.

5º- Planeie a recolha e a análise dos dados

Decida quais serão os suportes de informação que vai utilizar, ou seja, desenhe a ficha ou

a tabela onde vai pôr os dados para posteriormente passar para o computador.

Claro que só deverá ser utilizado o computador se estiver previsto que vão ser efectuadas

várias análises aos mesmos dados (ex.: pedir cumulativamente frequências, médias e outros

Page 15: António Paula Brito de Pina · Investigação e Estatística com o EpiInfo ... Ao contrário do que muitos julgam, ... Quais são as perguntas que o investigador propõe?

Investigação e Estatística com o EpiInfo 12

António Pina Gabinete de Investigação e Estatística

Delegação Regional do Algarve do Instituto da Droga e Toxicodependência

12

testes estatísticos). Se estiver previsto apenas saber uma média e algumas frequências,

provavelmente não será importante utilizar o computador, atendendo que o tempo que levamos a

introduzir os dados não compensa os benefícios da sua utilização. Neste caso, bastará utilizar

uma máquina calculadora!

Finalmente, tendo em conta as hipóteses do estudo e a escala de medição das variáveis,

decida quais serão os testes estatísticos a aplicar.

A análise dos dados, depois de colhidos, é genericamente efectuada segundo 4 fases:

1- Verificar e corrigir os erros de preenchimento que sempre se cometem na introdução

dos dados (para isto é conveniente ver a base de dados em matriz, ou seja, listando

todos os valores de uma ou mais variáveis numa tabela; no EpiInfo um bom método

será clicar em LIST na secção ANALYSIS e seleccionar "update" para fazer as

correcções).

Os erros na colheita e transcrição dos dados para as fichas e o computador traduzem-

se em vieses de informação.

2- Efectuar a análise univariada: cada variável é estudada isoladamente e de forma

descritiva (frequências, medianas, médias, etc.).

3- Efectuar a análise bivariada: estuda-se a possibilidade de existir algum tipo de relação

entre uma variável de exposição e uma variável resposta (Qui-quadrado, Kruskall-Wallis,

ANOVA, etc.).

4- Efectuar a análise multivariada: estuda-se o efeito das variáveis interferentes na

relação entre as variáveis de exposição e as de resultado (análise estratificada, emparelhamento

das amostras, regressão linear ou logística multivariada, etc.).

6º- Interprete os resultados para elaborar um relatório

Já referimos que não bastará aplicar os testes estatísticos para tirar conclusões sobre os

nossos dados porque eles poderão estar errados ou porque o desenho do estudo pode não ser o

correcto. Assim, é fundamental, na hora de concluir o que quer que seja, pensar sempre em todas

as possibilidades de erro nos procedimentos metodológicos escolhidos. É também fundamental

revelar todos estes problemas de forma transparente no capítulo "Discussão" do relatório final,

sem tentar camuflar ou esconder estes erros, pois tal comportamento é extremamente grave para

Page 16: António Paula Brito de Pina · Investigação e Estatística com o EpiInfo ... Ao contrário do que muitos julgam, ... Quais são as perguntas que o investigador propõe?

Investigação e Estatística com o EpiInfo 13

António Pina Gabinete de Investigação e Estatística

Delegação Regional do Algarve do Instituto da Droga e Toxicodependência

13

quem é suposto estar à procura da "Verdade". Fica-nos a consolação que todos os estudos

cometem erros e têm limitações, pelo que se o nosso os não cometeu, será muito de desconfiar, a

não ser que tenhamos sido orientados por alguma entidade divina.

Na hora de interpretar os resultados, poderemos classificar todas as possibilidades de erro

da seguinte forma:

1- Os erros aleatórios relacionados com o processo de selecção aleatória de

amostragem e que as provas estatísticas medem quando nos informam da

probabilidade de os nossos resultados representarem o que sucede realmente na

população. Para diminuir estes erros será necessário aumentar a dimensão da amostra

até um limite razoável, de acordo com os nossos recursos. No Anexo 3 explica-se

uma forma fácil de calcular a dimensão da amostra, tendo em conta o máximo erro

aleatório admissível.

2- Os erros sistemáticos ou vieses que poderão ser classificados da seguinte forma:

♦ Vieses de selecção.

Têm a ver com o facto de seleccionarmos uma amostra através de um método

que não garante a sua representatividade:

a) vieses de admissão, p.ex., quando a nossa amostra é seleccionada a partir

de uma população especial, não representativa da realidade. É o caso se

fizermos um estudo baseado na população de toxicodependentes que vão

aos serviços de saúde: evidentemente as conclusões tiradas de um estudo

como este não podem ser generalizadas para todos os toxicodependentes,

por não incluirem aqueles que não vão aos serviços de saúde. Relacionado

com esta problemática está caracterizado o chamado viés de Berkson, que

tem a ver com o facto de quando se estuda uma população de doentes de

um serviço de urgência hospitalar, encontram-se frequentemente

associações estatísticas entre doenças que não se encontram associadas,

nem na população em geral, nem patogenicamente (p.ex., gota e bronquite,

atendendo serem ambas doenças com o denominador comum de

implicarem contactos frequentes com os serviços de urgência).

Page 17: António Paula Brito de Pina · Investigação e Estatística com o EpiInfo ... Ao contrário do que muitos julgam, ... Quais são as perguntas que o investigador propõe?

Investigação e Estatística com o EpiInfo 14

António Pina Gabinete de Investigação e Estatística

Delegação Regional do Algarve do Instituto da Droga e Toxicodependência

14

b) vieses de amostragem, p.ex., quando aplicamos um questionário a uma

amostra de conveniência que "apanhamos" na rua, esta poderá ser

constituída só pelos cidadãos mais simpáticos e que mais saiem à rua, o

que poderá ser muito diferente dos cidadãos em geral! A única forma de

evitar este viés é fazer sempre a selecção de forma aleatória.

c) vieses de não participação, p.ex., quando muitos elementos da amostra se

recusam a responder ao questionário.

d) vieses de ausência de respostas, p.ex., quando não se consegue contactar

todos os elementos da amostra.

e) vieses relacionados com o desaparecimento de elementos da amostra em

estudos longitudinais.

Nos casos referidos nas alíneas c), d) e e), é importante comparar o grupo da

amostra que não respondeu com o grupo que respondeu relativamente a outras

variáveis conhecidas (geralmente sócio-demográficas). Se não há diferenças

estatisticamente significativas entre os dois grupos aumenta a probabilidade de

as não-respostas não terem significado.

♦ Vieses de informação.

Têm a ver com os erros de classificação dos elementos da amostra, erros na

medição das variáveis, ou na codificação e recolha da informação. Geralmente

classificam-se segundo dois tipos:

a) vieses do observador (ou de classificação)

b) vieses de resposta: é o caso de um questionário que por ser mal feito poderá

induzir a maioria dos elementos da amostra a responderem num determinado

sentido...

Page 18: António Paula Brito de Pina · Investigação e Estatística com o EpiInfo ... Ao contrário do que muitos julgam, ... Quais são as perguntas que o investigador propõe?

Investigação e Estatística com o EpiInfo 15

António Pina Gabinete de Investigação e Estatística

Delegação Regional do Algarve do Instituto da Droga e Toxicodependência

15

Estes erros poderão ser minorados se houver rigor humano e técnico, utilizando

instrumentos de medição mais válidos, etc.

♦ Vieses de confundimento.

Falámos já que importa em estudos analíticos classificar as nossas

variáveis em três categorias: variáveis de exposição, de resposta e interferentes.

Há dois tipos de variáveis interferentes: as de confundimento e as

modificadoras de efeito.

O confundimento pode surgir quando uma variável interferente, neste caso

denominada de confundimento, distorce ficticiamente a associação entre a

variável de exposição e de resposta, alterando-lhe a força ou mesmo o sentido.

Um exemplo muito prático é quando o investigador quer saber se há

associação entre o estado civil e o cancro. Possivelmente, encontrar-se-á uma

associação positiva entre o facto de se estar casado e ter cancro, pelo que se

poderia tirar a conclusão errada que o casamento constitui um risco cancerígeno!

A verdade é que existe aqui uma variável de confundimento - a idade - que

distorce a associação! Efectivamente, a idade (v. de confundimento) está

associada tanto ao estado civil (v. de exposição), porque os casados tendem a ser

mais velhos, como ao cancro (v. resposta) porque os doentes de cancro também

tendem a ser mais velhos.

Em todos os casos de confundimento é necessário que a v. de

confundimento esteja associada tanto à exposição como à resposta. Outra forma

de dizer a mesma coisa é referir que além de a v. de confundimento estar

associada à resposta, é necessário também que os diversos grupos classificados

segundo a v. de exposição (no exemplo atrás apontado: dois grupos -

casados/solteiros) estarem desajustados quanto à v. de confundimento

(efectivamente, a proporção de velhos era diferente entre os casados e solteiros).

Repare-se que isto significa que, de alguma maneira, um confundimento é um erro

no desenho do estudo, porque não se deve comparar dois grupos desajustados (no

Anexo 2 dão-se mais informações sobre como controlar o efeito destas variáveis)!

Page 19: António Paula Brito de Pina · Investigação e Estatística com o EpiInfo ... Ao contrário do que muitos julgam, ... Quais são as perguntas que o investigador propõe?

Investigação e Estatística com o EpiInfo 16

António Pina Gabinete de Investigação e Estatística

Delegação Regional do Algarve do Instituto da Droga e Toxicodependência

16

Finalmente, para decidirmos que uma determinada variável de exposição poderá ter uma

relação de causalidade com uma variável resposta, deveremos pensar se se cumprem vários

critérios de causalidade. Existem três critérios essenciais de "causalidade":

♦ a temporalidade: efectivamente, é impossível um efeito ser anterior à sua causa... no entanto,

é possível uma variável ser anterior a outra e não haver qualquer relação de causalidade...

♦ a associação estatística: as variáveis de exposição terão de estar associadas às variáveis efeito

de forma estatisticamente significativa, ou seja, a associação não deverá ser fortuita (devida

ao acaso). No entanto, é possível haver associações causais entre variáveis que, em virtude da

pequena dimensão da amostra, não dão resultados estatisticamente significativos!

♦ a ausência de espuriedade, ou seja, ausência de associações "artificiais" entre variáveis, que

não têm significado próprio (por ex.: a associação entre o estado civil e o cancro, ou número

de telemóveis e as doenças cardíacas ...) provocadas pela interferência de terceiras variáveis

escondidas. Estamos aqui a falar novamente do problema do confundimento em investigação.

Os estudos experimentais são os que melhor podem controlar as confusões que todas estas

variáveis interferentes podem provocar. Nos outros estudos, tenta-se controlar estas

interferências através do emparelhamento, da padronização, ou da análise estratificada e

multivariada (Anexo 2 - Controlo das variáveis interferentes).

Outros critérios de causalidade menos importantes são:

♦ a força da associação: quanto maior a diferença entre duas populações quanto à frequência da

doença e do factor de risco, mais provável será haver uma associação entre a doença e o

referido factor de risco. A força da associação mede-se em termos epidemiológicos pelo risco

relativo (ou odds ratio), risco absoluto, coeficiente de determinação na correlação linear, etc.

No entanto, é possível pensarmos existir uma verdadeira associação causal, embora fraca,

quando os resultados, apesar de revelarem pouca força de associação, são estatisticamente

significativos...

Page 20: António Paula Brito de Pina · Investigação e Estatística com o EpiInfo ... Ao contrário do que muitos julgam, ... Quais são as perguntas que o investigador propõe?

Investigação e Estatística com o EpiInfo 17

António Pina Gabinete de Investigação e Estatística

Delegação Regional do Algarve do Instituto da Droga e Toxicodependência

17

♦ o gradiente biológico da associação refere-se à existência de uma curva dose-resposta entre a

variável "causal" e a variável efeito. No entanto, este gradiente pode existir mesmo sem

relação de causalidade se existirem variáveis de confundimento a modificar a associação...

♦ a consistência: quando a associação se repete em populações diferentes e em circunstâncias

diferentes.

♦ a especificidade: quando a causa leva sempre a um só efeito único é mais fácil estabelecer a

relação de causalidade, no entanto, a maioria das causas de doença ou saúde têm efeitos

múltiplos...

♦ a coerência com as teorias e conhecimentos vigentes, no entanto, se tivessemos que ser

sempre coerentes com o passado nunca evoluiríamos...

7º - Comentários finais

É importante escrever o protocolo no computador pois será seguramente necessário fazer

muitas modificações e correcções até a forma final! Por outro lado, muito do que se escreve para

o protocolo poderá ser utilizado para o relatório ou artigo a publicar, especialmente para os

capítulos de introdução e métodos.

Faça sempre ainda um cronograma com as suas actividades. É mais uma forma de auto-

disciplina que nos ajuda a levar a bom termo o nosso processo de investigação.

O rigor no cumprimento dos passos do protocolo é muito importante mas é evidente que

não há estudos perfeitos que nos possam revelar a "Verdade". Assim, depois da elaboração do

protocolo, resta-nos segui-lo com o rigor possível mas, também, com a consciência das

imperfeições do mesmo. A paixão pela perfeição não nos deve bloquear e, sobre este assunto,

alguém disse que «em investigação, assim como no amor, uma exagerada concentração na

técnica, levará provavelmente à impotência»...

Atendendo aos erros que todos os estudos incluem, as conclusões têm de ser geralmente

cuidadosas e prudentes.

Page 21: António Paula Brito de Pina · Investigação e Estatística com o EpiInfo ... Ao contrário do que muitos julgam, ... Quais são as perguntas que o investigador propõe?

Investigação e Estatística com o EpiInfo 18

António Pina Gabinete de Investigação e Estatística

Delegação Regional do Algarve do Instituto da Droga e Toxicodependência

18

Um remate final: a investigação deverá sempre que possível resultar num

trabalho publicado, pois só aquilo que é publicado tem existência real...

Page 22: António Paula Brito de Pina · Investigação e Estatística com o EpiInfo ... Ao contrário do que muitos julgam, ... Quais são as perguntas que o investigador propõe?

Investigação e Estatística com o EpiInfo 19

António Pina Gabinete de Investigação e Estatística

Delegação Regional do Algarve do Instituto da Droga e Toxicodependência

19

PARTE 2

Noções de estatística

Page 23: António Paula Brito de Pina · Investigação e Estatística com o EpiInfo ... Ao contrário do que muitos julgam, ... Quais são as perguntas que o investigador propõe?

Investigação e Estatística com o EpiInfo 20

António Pina Gabinete de Investigação e Estatística

Delegação Regional do Algarve do Instituto da Droga e Toxicodependência

20

Noções de Estatística

1. A Estatística descritiva.

Quando queremos investigar, o primeiro objectivo é descrever o fenómeno. Por isso, a

primeira fase de tratamento dos dados é a análise univariada, através da verificação das

frequências e o cálculo das medidas de localização central e de dispersão para cada variável

isoladamente.

Geralmente, não se calculam mais que as seguintes medidas:

♦ as frequências absolutas (números absolutos de cada valor) e as frequências relativas

(as proporções em percentagens ou permilagens, etc.).

♦ a média e desvio-padrão

♦ a mediana e desvio-quartil

♦ a moda.

No entanto, as medidas atrás referidas não poderão ser calculadas para qualquer tipo de

variável. Tudo depende da escala de valores de cada variável, pelo que aqui será importante fazer

um pequeno parêntesis para classificarmos as variáveis quanto à sua escala. Compreender esta

classificação é de importância crucial para utilizarmos de forma adequada a estatística.

Sumariamente, poderemos classificar as variáveis da seguinte forma:

1- Variáveis qualitativas nominais: são variáveis cujos valores não tem uma relação de

ordem entre eles, por ex., o Sexo e Raça.

Para este tipo de variáveis poder-se-á fazer o estudo das frequências absolutas e relativas (no EpiInfo

escolhemos o Comando FREQUENCIES).

2- Variáveis qualitativas ordinais, cujos valores não são métricos mas incluem relações de

ordem. É o caso da variável "Peso" medida em 3 níveis (pouco pesados, pesados, muito

pesados).

Para este tipo de variáveis poder-se-á fazer tudo quanto é possível fazer-se para as variáveis nominais, mas

também adicionalmente é possível estudar as medianas, quartis, modas (Comando MEANS no EpiInfo);

Page 24: António Paula Brito de Pina · Investigação e Estatística com o EpiInfo ... Ao contrário do que muitos julgam, ... Quais são as perguntas que o investigador propõe?

Investigação e Estatística com o EpiInfo 21

António Pina Gabinete de Investigação e Estatística

Delegação Regional do Algarve do Instituto da Droga e Toxicodependência

21

3- Variáveis quantitativas, cujos valores são medidos numa escala métrica, como por ex.,

a "Idade", ou o "Peso" medido em gramas.

Para este tipo de variáveis poder-se-á fazer tudo quanto é possível fazer-se para as variáveis nominais e

ordinais, mas também adicionalmente é possível estudar as médias e desvios-padrão (Comando MEANS no

EpiInfo).

Se quiser utilizar o EpiInfo (disponível gratuitamente em www.cdc.gov/epiinfo), aconselho a

criar uma pequena base de dados, (recomenda-se estudar o "Manual" existente em

http://www.saudepublica.web.pt/03-Investigacao/032-EpiInfoSoftware/apresentação_epiinfo_2000.htm), e que

poderemos nomear "Experiência":

Nome Data de Nascimento Data Actual Peso Sexo

João 13-12-1973 15-12-2000 60 homem

Maria 10-07-1961 15-12-2000 55 mulher

Manuel 20-11-1980 15-12-2000 80 homem

Luís 11-05-1950 15-12-2000 75 homem

Ana 15-08-1985 15-12-2000 50 mulher

Com esta base de dados criada será mais fácil compreender as provas estatísticas.

1.1.Interpretar as frequências absolutas e relativas.

No caso de variáveis nominais como o sexo ou a raça, só poderão ser calculadas as

frequências. É totalmente impossível calcular a média ou a mediana do sexo porque a escala

destas variáveis não tem sequer uma relação de ordem. Repare-se que por vezes codificam-se as

variáveis com números para introdução no computador, o que torna possível pedir erradamente

médias para variáveis nominais, embora tais resultados, evidentemente, não tenham significado

nenhum!

No caso de variáveis ordinais ou quantitativas, claro que é também possível calcular as

frequências. Por exemplo, suponhamos que sabemos o Peso medido em Kg de 1000 pessoas.

Será possível calcular as frequências de quem tem 40 Kg, 41 Kg, 42 Kg, ..., etc., mas atendendo

ao elevado número de pessoas, será preferível agrupá-las em grupos com o mesmo intervalo, por

exemplo, grupo A (40-45 Kg), grupo B (46-49 Kg), etc., de forma a calcular as frequências para

cada grupo.

Page 25: António Paula Brito de Pina · Investigação e Estatística com o EpiInfo ... Ao contrário do que muitos julgam, ... Quais são as perguntas que o investigador propõe?

Investigação e Estatística com o EpiInfo 22

António Pina Gabinete de Investigação e Estatística

Delegação Regional do Algarve do Instituto da Droga e Toxicodependência

22

Convém que o intervalo de amplitude dos diferentes grupos seja sempre o mesmo, caso

contrário, os resultados poderão confundir-nos, pois tenderemos a comparar grupos que não são

comparáveis! 1

1.2.Interpretar as médias, desvios-padrão, medianas, etc.

Para além das frequências absolutas e relativas já referidas, existem outras medidas

geralmente calculadas para variáveis ordinais ou quantitativas, tal como se encontra no Quadro

seguinte:

Escala da variável Medidas de localização central Medidas de dispersão

Ordinal ou Quantitativa Mediana Amplitude interquartil / Desvio

interquartil

Quantitativa Média Variância / Desvio-padrão

Qualquer escala Moda -

A Média aritmética assim como o Desvio-padrão que lhe está associado, são conceitos

que geralmente oferecem poucas dúvidas. São calculados apenas em variáveis com a escala

quantitativa. Por exemplo, não tem significado calcular a média para o Sexo (variável nominal)

ou para o Peso medido em escala ordinal.

O conceito de Mediana, no entanto, gera muitas confusões: a Mediana é simplesmente o

valor que se situa a meio da fila ordenada de valores, desde o mais baixo ao mais alto. Assim,

tem que haver uma relação de ordem nos valores, pelo que a Mediana pode ser calculada tanto

para as variáveis ordinais como para as quantitativas puras. A partir do exemplo relacionado com

a base de dados "Experiência" criada no EpiInfo, poderemos criar uma nova variável idade a

partir da data de nascimento e data actual, tal como se explica no Manual sobre o EpiInfo, e

executar o comando MEANS para a idade, obtendo todas estas medidas. Neste exemplo, temos

cinco pessoas com as seguintes idades já ordenadas:

1 Apesar de tudo, existe a possibilidade de comparar graficamente classes de diferentes amplitudes através dos histogramas que, são gráficos em que a área das colunas representam o número de indivíduos (ao invés da altura das colunas). No entanto, apesar deste tipo de gráficos ser muito falado nos cursos de estatística, raramente se vêm em artigos ...

Page 26: António Paula Brito de Pina · Investigação e Estatística com o EpiInfo ... Ao contrário do que muitos julgam, ... Quais são as perguntas que o investigador propõe?

Investigação e Estatística com o EpiInfo 23

António Pina Gabinete de Investigação e Estatística

Delegação Regional do Algarve do Instituto da Droga e Toxicodependência

23

15 20 27 39 50

O número 27 representa o valor que está a meio, ou seja, é a Mediana. Isto significa que

50% das pessoas têm uma idade igual ou maior que 27 e, evidentemente, os outros 50% têm uma

idade igual ou menor que 27.

O número 20 representa o valor que está a meio da primeira metade, ou seja, é o primeiro

Quartil ou Percentil 25. Isto significa que 75% das pessoas têm uma idade igual ou maior que 20

e, evidentemente, os outros 25% têm uma idade igual ou menor que 20.

O número 39 representa o valor que está a meio da segunda metade, ou seja, é o terceiro

Quartil ou Percentil 75. Isto significa que 75% das pessoas têm uma idade igual ou menor que 39

e, evidentemente, os outros 25% têm uma idade igual ou maior que 39.

Claro que a mediana é também o segundo Quartil e o Percentil 50. No caso deste

exemplo, com um número ímpar de valores ordenados (cinco), a mediana é o valor que está a

meio, mas no caso de um número par de valores ordenados, a mediana terá ser calculado

fazendo-se a média entre os dois valores que estão a meio.

A Moda é o valor mais frequente (ou seja, o que "está na moda"...). Neste caso, como não

existe nenhum valor mais frequente, o EpiInfo dá-nos o menor valor (através do comando

MEANS), o que não tem significado absolutamente nenhum, podendo mesmo induzir-nos em

erro. O que se passa é que quando existem várias Modas, o EpiInfo apresenta sempre a menor:

ou seja, se numa amostra existem 10 pessoas com 20 anos e 10 pessoas com 30 anos, sendo

todas as outras idades menos frequentes, sucede que existem duas Modas, mas o EpiInfo vai

referir apenas a que apresenta o menor valor ou seja, dirá que 20 anos é o valor mais frequente.

Por isto, se nos interessa referir a Moda, convém verificar se não há outro valor tão frequente na

nossa amostra. Para isto basta executar o comando FREQUENCIES, que nos dá as frequências

de todos os valores.

Qual a diferença de interpretação entre a Mediana e a Média?

Em primeiro lugar a Mediana pode ser utilizada tanto em variáveis quantitativas como em

variáveis qualitativas ordinais, enquanto a Média só pode ser utilizada em variáveis

quantitativas.

Page 27: António Paula Brito de Pina · Investigação e Estatística com o EpiInfo ... Ao contrário do que muitos julgam, ... Quais são as perguntas que o investigador propõe?

Investigação e Estatística com o EpiInfo 24

António Pina Gabinete de Investigação e Estatística

Delegação Regional do Algarve do Instituto da Droga e Toxicodependência

24

Em segundo lugar, no caso das variáveis quantitativas, embora a Média seja um valor

mais fácil de entender, tem o defeito de nos induzir em erro se a nossa amostra tiver valores

muito extremos. Por exemplo, na distribuição de idades da nossa amostra a Média é de 30,2 e a

Mediana de 27. Imagine que o indivíduo mais velho tinha não 50 anos de idade mas sim 100

anos. Isto faria com que a Média saltasse para 40,2, ou seja, seria superior a quase todos os

valores individuais, mas a Mediana continuaria a ser 27. Se olharmos para todos os 5 valores

individuais da nossa amostra, verificamos que o número 27 é melhor representante da

distribuição global da idade na nossa amostra que o erróneo número 40,2.

Assim, no caso das variáveis quantitativas, quando o valor da Mediana é muito diferente

da Média, é aconselhável considerar sempre a Mediana como valor de referência mais

importante.

Além das medidas de localização central (média, mediana, moda) existem as medidas de

dispersão que nos dão a ideia da variação dos dados.

Quando se calcula a média dever-se-á sempre calcular o desvio-padrão, apresentando-se a

sua fórmula apenas para ficar-se com uma ideia do que representa:

Desvio-padrão = N

MédiaXi∑ −2)(

em que

Xi = Cada valor individual

N = Número de todos os valores

Ou seja, para calcular o Desvio-padrão é necessário primeiro calcular a Média e depois

calcular todas as diferenças entre cada valor individual e a média. É um erro dizer que o desvio-

padrão é a média de todas as diferenças, mas podemos senti-lo como algo aproximado.

Por vezes, queremos comparar duas variáveis quantitativas quanto ao seu grau de

dispersão, por exemplo, o Peso (em Kg) e a Idade (em Anos). Esta comparação não poderá ser

feita comparando simplesmente os Desvios-padrão respectivos, porque estes estão expressos em

unidades de medida diferentes, i.e., não se pode comparar a dispersão de Kg com a de Anos! No

entanto, é possível fazer esta comparação em termos relativos, se calcularmos o coeficiente de

variação, da seguinte forma:

Coeficiente de variação = Média

padrãoDesvio −X 100%

Page 28: António Paula Brito de Pina · Investigação e Estatística com o EpiInfo ... Ao contrário do que muitos julgam, ... Quais são as perguntas que o investigador propõe?

Investigação e Estatística com o EpiInfo 25

António Pina Gabinete de Investigação e Estatística

Delegação Regional do Algarve do Instituto da Droga e Toxicodependência

25

convencionando alguns autores que um coeficiente variação maior que 10% significa que

a dispersão é forte.

Nas variáveis ordinais, como não é possível calcular médias ou desvios-padrão, para

avaliar o grau de dispersão, poder-se-á calcular a Amplitude interquartil e o Desvio-quartil.

A Amplitude interquartil é simplesmente a diferença entre o 3º e o 1º Quartil, ou seja, no

exemplo anterior, 39-20= 19. Repare-se que nesta Amplitude inter-quartil situam-se os 50%

centrais dos valores.

O Desvio interquartil é sempre metade da Amplitude interquartil, ou seja, 19/2=9,5.

Também é possível, calcular a o coeficiente de variação quartil da seguinte forma:

Coeficiente de variação quartil= QuartilQuartil

erquartilAmplitude

º1º3

int

+

X 100%

Claro que estes cálculos também podem ser efectuados para as variáveis quantitativas.

2. A Estatística Dedutiva

Para além da simples descrição dos dados que temos, a Estatística pretende ajudar-nos a

inferir até que ponto os nossos resultados poderão ser representativos da população que está por

trás da nossa amostra.

Ou seja, suponhamos que retiramos de forma aleatória uma amostra de 100 doentes de

um ficheiro clínico com 1000 doentes. Após verificarmos que na nossa amostra temos 10% de

mulheres, poderemos perguntar-nos até que ponto, na população, também existe 10% de

mulheres.

De facto, devido ao acaso, ao seleccionar aleatoriamente uma amostra, podemos sempre

ter o azar de encontrar 100 sujeitos que são muito diferentes da população.

É intuitivo que quanto maior for a diferença entre a amostra e a população de origem,

menor será a probabilidade de isso acontecer. Por outras palavras, a probabilidade de termos uma

amostra semelhante à sua população é elevada, mas existe sempre uma possibilidade de a

amostra ser diferente, sendo a probabilidade de isto acontecer tanto menor quanto maior for esta

diferença. Mas, como medir esta probabilidade?

Page 29: António Paula Brito de Pina · Investigação e Estatística com o EpiInfo ... Ao contrário do que muitos julgam, ... Quais são as perguntas que o investigador propõe?

Investigação e Estatística com o EpiInfo 26

António Pina Gabinete de Investigação e Estatística

Delegação Regional do Algarve do Instituto da Droga e Toxicodependência

26

Aqui entram as Provas estatísticas e os seus resultados em termos de probabilidades "p"

de significância estatística.

É importante referir que existem 3 formas de aplicar os testes estatísticos:

1º - Provas de conformidade, ou seja, para verificar se há diferenças entre uma amostra e

uma população (é o exemplo atrás referido em que pretendemos saber qual a probabilidade de a

percentagem de mulheres na nossa amostra ser semelhante há que existe na população de

origem). Por outras palavras, até que ponto a minha amostra é representativa da população?.

2º - Provas de homogeneidade, ou seja, para verificar se as diferenças encontradas entre

dois grupos da amostra serão representativas de diferenças reais na população de origem. Por

exemplo, através do comando MEANS no EpiInfo, podemos ver se as mulheres são diferentes

dos homens quanto à variável idade na nossa amostra. Também aqui há a possibilidade de haver

diferenças entre a idade dos dois grupos, mas isto poderá ser devido apenas ao acaso e não a

verdadeiras diferenças na população. As provas estatísticas medem sempre a probabilidade de as

diferenças encontradas serem devidas ao acaso, partindo do pressuposto que na verdade não

existem diferenças na população. Se a probabilidade encontrada for pequena, teremos mais

confiança em afirmar que as mulheres e os homens têm idades diferentes na população.

3º- Provas de independência, ou seja, verificar se duas variáveis simétricas são

independentes (ex.: se a cor dos olhos é independente ou está associada `a raça e até que ponto

isso também existe na população de origem).

Repare-se que o "p" de significância estatística, resultante destas provas, dá-nos sempre a

a probabilidade de os nossos resultados serem semelhantes ao que existe na população de origem

(partindo do pressuposto que na população de origem não há diferenças entre grupos, nem

associações entre variáveis). Geralmente, em ciências da saúde, quando estas probabilidades são

inferiores a 5%, ou seja, há menos de 5 possibilidade em 100 de suceder um determinado

resultado, nós consideramos que são estatisticamente significativas.

Como este "p" tem a ver apenas com a probabilidade de os nossos resultados se

assemelharem ao que existe na população, têm uma grande limitação: não nos dizem se as

diferenças encontradas ou a associação entre as variáveis são fortes ou importantes! De facto,

nem sempre aquilo que é estatisticamente significativo é importante! Repare-se: suponhamos que

queremos saber se as mulheres são diferentes dos homens quanto à idade. Se aplicarmos um teste

Page 30: António Paula Brito de Pina · Investigação e Estatística com o EpiInfo ... Ao contrário do que muitos julgam, ... Quais são as perguntas que o investigador propõe?

Investigação e Estatística com o EpiInfo 27

António Pina Gabinete de Investigação e Estatística

Delegação Regional do Algarve do Instituto da Droga e Toxicodependência

27

estatístico os seus resultados são tanto mais estatisticamente significativos quando maiores forem

as diferenças entre os dois grupos, e também, quanto maior for a dimensão da amostra estudada.

Isto significa que por vezes, pequeníssimas diferenças entre os dois grupos podem ser

estatisticamente significativas se a amostra tiver grandes dimensões. Mas a questão que aqui se

põe é: são estas pequeníssimas diferenças importantes do ponto de vista clínico, social, etc.?

Neste caso particular, o aprendiz de estatística tenderá a valorizar um qualquer resultado

estatisticamente significativo, mesmo que este não tenha interesse absolutamente nenhum,

atendendo ter a ver com pequeníssimas diferenças...

Em conclusão, existem duas dimensões na análise dos resultados: uma em que a

Estatística nos diz até que ponto o que vemos na nossa amostra é o que existe na população, ou

seja, até que ponto é estatisticamente significativo; outra em que procuramos verificar até que

ponto os nossos resultados implicam associações entre variáveis ou diferenças importantes e

fortes, calculadas através de simples subtracções (Diferenças de Riscos) ou quocientes (Risco

Relativo, Odds Ratio, etc). É possível haver uma associação forte nos resultados da nossa

amostra que, no entanto, não sendo estatisticamente significativos, têm pouco interesse porque

não temos garantias de existirem na população real. Por outro lado, tal como já referimos, é

possível haver uma associação estatisticamente significativa mas que, por ser tão fraca, não tem

importância nenhuma.

Posto isto vamos agora partir para a compreensão dos testes estatísticos no EpiInfo.

2.1- Os intervalos de confiança

Quando solicitamos o comando "FREQUENCIES" para uma variável como o sexo, por

ex., o EpiInfo dá-nos os valores das percentagens de cada sexo e o Intervalo de Confiança de

95% para as mesmas percentagens.

Este intervalo de confiança só tem interesse se as percentagens em causa são de uma

amostra seleccionada aleatoriamente de uma população mais vasta.

Por exemplo, suponhamos que a nossa base de dados "Experiência" (5 elementos em que

3 são homens e 2 são mulheres) representa uma amostra de todos os utentes dum serviço de

saúde. Nesta amostra poderemos dizer que existem 60% (3/5=0,6) de homens e 40% (2/5=0,4)

de mulheres. Mas será que as percentagens de cada sexo, em toda a população de utentes, são

também estas? Nunca o saberemos ao certo com estes dados. No entanto, aplicando a prova que

Page 31: António Paula Brito de Pina · Investigação e Estatística com o EpiInfo ... Ao contrário do que muitos julgam, ... Quais são as perguntas que o investigador propõe?

Investigação e Estatística com o EpiInfo 28

António Pina Gabinete de Investigação e Estatística

Delegação Regional do Algarve do Instituto da Droga e Toxicodependência

28

o EpiInfo aplica, poderemos acreditar com uma confiança de 95% que a percentagem de homens

na população estará algures entre 14,7% e 94,7% e a percentagem de mulheres entre 5,3% e

85,3%2.

Repare-se que neste caso os intervalos de confiança são muitíssimos dilatados, atendendo

que a amostra em causa conta com apenas 5 elementos, pelo que o erro de amostragem é enorme.

É evidente que quanto maior for a nossa amostra, mais pequeno será o intervalo de

confiança e por isso, mais provável será obtermos extrapolações precisas das verdadeiras

percentagens da população.

Mas atenção: mesmo este intervalo não é uma certeza pois tem uma confiança de 95%,

ou seja, há sempre uma probabilidade de 5% de a verdadeira percentagem estar fora destes

limites...

É claro que, se as percentagens em causa forem calculadas tendo por base não uma

amostra mas toda a população, os intervalos de confiança que o EpiInfo automaticamente vomita

não têm significado absolutamente nenhum, pelo que devem ser ignorados. Um exemplo é

quando um médico introduz os dados de todo o seu ficheiro clínico e depois quer saber a

percentagem de cada sexo para o seu ficheiro. Se o resultado for 35% de mulheres, é mesmo

35% sem qualquer dúvida ou intervalo de confiança, pois ele quis saber a percentagem de

mulheres do seu ficheiro que, neste caso, está totalmente informatizado.

Finalmente, tenha-se em atenção que se a amostra não é aleatória, também não será

legítimo falar-se em intervalos de confiança para a população, porque aqui a amostra não será

representativa de nenhuma população conhecida.

2.2.- Provas para verificar a associação entre duas variáveis qualitativas - o Qui-quadrado e a Prova de Fisher.

Suponhamos que temos uma amostra de 5 pessoas, para as quais sabemos o sexo e a

idade. O sexo é uma variável nominal, enquanto a idade poderá ser quantitativa, caso façamos a

sua medição em "anos". No entanto, neste caso vamos transformá-la numa variável também

nominal, criando duas classes - a classe dos adultos e a dos jovens.

2 Novamente, segundo os Estatísticos, a interpretação deverá ser feita com uma pequena nuance: um Intervalo de confiança de 95% significará que se seleccionarmos um número infinito de amostras sempre da mesma forma aleatória, em 95% delas, estarão incluidos os valores "verdadeiros" no intervalo de confiança resultante.

Page 32: António Paula Brito de Pina · Investigação e Estatística com o EpiInfo ... Ao contrário do que muitos julgam, ... Quais são as perguntas que o investigador propõe?

Investigação e Estatística com o EpiInfo 29

António Pina Gabinete de Investigação e Estatística

Delegação Regional do Algarve do Instituto da Droga e Toxicodependência

29

Nestes casos, assim como em qualquer caso onde tenhamos duas variáveis qualitativas

em jogo, poderemos expor os dados segundo uma tabela de dupla entrada. Tendo em conta o

exemplo já criado no EpiInfo, poderemos criar esta tabela através da execução do comando

TABLES, em que pomos Sexo como variável de exposição e Grupos etários (ex.: Jovens com

menos de 18 anos e Adultos) como variável resposta:

Variável "output" (Grupos)

Adultos Jovens Total

Homem 3 0 3

Mulher 1 1 2

Variável de

exposição (Sexo) Total 4 1 5

Também na secção STATCALC é possível construir tabelas mas, neste caso,

directamente do teclado, e não a partir de uma base de dados já existente.

Seja como for, face aos dados da tabela exemplificada em cima, pode-se perguntar se o

grupo de "Adultos" é diferente do grupo de "Jovens" quanto ao sexo.

Vamos supor que na verdade não existe uma diferença entre os dois grupos quanto ao

sexo na população de onde vem esta amostra. Novamente, mesmo que seja esta a verdade, é

também possível que quando colhemos uma amostra o resultado possa apresentar uma diferença

por questões ligadas ao acaso.

É claro que quanto maior for a dimensão da amostra, mais fácil será identificar diferenças

verdadeiras entre os dois grupos. Também, quanto maior for a diferença no género sexual entre

os dois grupos, mais provável será a existência desta diferença verdadeira entre os dois grupos.

O Qui-quadrado mede a probabilidade de as diferenças encontradas nos dois grupos da

nossa amostra serem devidas ao acaso, partindo do pressuposto que, na verdade, não há

diferenças entre os dois grupos na população donde provêm. Se a probabilidade for alta

poderemos concluir que não há diferenças estatisticamente significativas. Se a probabilidade for

baixa (particularmente menor que 5%) poderemos concluir que o grupo de "Adultos" é diferente

do grupo de "Jovens" quanto ao sexo, e de forma estatisticamente significativa.

No entanto, o Qui-quadrado tem limitações, nomeadamente, deverá ser substituído pela

Prova exacta de Fisher quando os valores esperados nas células da tabela são inferiores a 5.

Page 33: António Paula Brito de Pina · Investigação e Estatística com o EpiInfo ... Ao contrário do que muitos julgam, ... Quais são as perguntas que o investigador propõe?

Investigação e Estatística com o EpiInfo 30

António Pina Gabinete de Investigação e Estatística

Delegação Regional do Algarve do Instituto da Droga e Toxicodependência

30

Assim, eu recomendo que se verifique sempre se somos avisados - "Warning: the

expected value of a cell is < 5. Fisher Exact Test should be used". Nestes casos, evidentemente

utilizaremos o "p" unilateral de Fisher ("1-tailed P-value"). Quando não recebemos este aviso

poderemos utilizar o valor "p" do Qui-quadrado não corrigido.

No caso do nosso exemplo o valor "p" do Qui-quadrado seria 0,17 mas o valor a utilizar

deveria ser o de Fisher, ou seja 0,40 (o que significaria que as eventuais diferenças não seriam

estatisticamente significativas).

♦ Outras tabelas (com mais de duas filas e/ou colunas)

Neste caso a Prova de Fisher não é aplicável (só o é para tabelas de 2x2) pelo que o seu

resultado nunca aparece.

O comando TABLES produz a tabela e calcula o Qui-quadrado mas, quando a tabela é

superior a 2x2, não nos avisa quando os valores esperados nas células são inferiores a 5.

Só a secção STATCALC nos dá tais avisos pelo que eu recomendo sempre reproduzir

estas tabelas, com mais de duas filas ou colunas, nesta secção. Deverá ser aceite o valor de "p"

proposto excepto quando somos avisados que o valor esperado de uma célula é inferior a 5.

Nestes casos, como já não podemos utilizar a Prova de Fisher, resta-nos agregar a tabela de

forma a conter menos colunas ou filas, e voltar a aplicar o Qui-quadrado.

Também na secção STATCALC existe a possibilidade muito interessante de se fazer a

prova da tendência linear do Qui-quadrado.

Suponhamos que temos uma tabela do género:

Doenças cardíacas (Variável resultado)

Sim (casos)

Não (controlos)

1 (não fuma) 5 85 2 (1-15 cigarros/dia)

6 54 Variável de exposição (Consumo de tabaco) 3 (>15

cigarros/dia) 9 41

Fonte:Massons, J.M.D. - Métodos estadísticos en ciencias de la salud, UD 10 - Barcelona, 11ª Ed, ISBN: 84-8049-189-2, 1999.

Page 34: António Paula Brito de Pina · Investigação e Estatística com o EpiInfo ... Ao contrário do que muitos julgam, ... Quais são as perguntas que o investigador propõe?

Investigação e Estatística com o EpiInfo 31

António Pina Gabinete de Investigação e Estatística

Delegação Regional do Algarve do Instituto da Droga e Toxicodependência

31

Neste caso, temos uma variável de exposição ordenada e uma variável resultado

dicotómica. Se, fizermos o Qui-quadrado obteremos o seguinte resultado: p=0,0629 .

Este resultado diz-nos que não há diferenças estatisticamente significativas (para um

nível de significância convencionado de 0,05) entre os doentes e não doentes quanto ao seu

consumo de tabaco, mas não tem em conta o efeito crescente da variável exposição.

Se entrarmos em conta com este efeito, não só tornamos mais potente o teste como

poderemos verificar existir uma relação linear entre as duas variáveis. É o que faz a Prova da

tendência linear do Qui-quadrado cujo “p”, neste caso, é igual a 0,0206. Ou seja, há uma relação

linear estatisticamente significativa entre o nível de consumo de tabaco e a existência de doença

cardíaca.

Esta Prova da tendência linear só poderá ser aplicada quando a variável resposta seja

dicotómica e a variável exposição seja quantitativa ou ordinal (variável de categorias ordenadas

em três ou mais níveis).

Também só poderá ser aplicada depois de verificarmos que não há valores esperados nas

células inferiores a 5. Isto não é automaticamente verificado pelo EpiInfo enquanto se faz a

prova da tendência linear: ter-se-á sempre que aplicar o Qui-quadrado convencional na secção

STATCALC, da forma já referida.

2.3.- Provas para verificar a associação entre uma variável qualitativa e uma variável quantitativa - o t de Student / ANOVA e o U de Mann-Whitney / Kruskal-Wallis.

Agora execute o comando MEANS da variável Idade segundo o Sexo ("crosstabulated by

value of ...").

Além das Médias, Desvios-padrão, Medianas, Quartis, etc. das idades para os dois sexos,

aqui temos ainda os resultados dos típicos testes de homogeneidade nos quais a pergunta é

"haverá diferenças entre os dois grupos (masculino/feminino) quanto à idade?".

O EpiInfo vomita os resultados do teste ANOVA (correspondem ao teste t de Student

quando é aplicado apenas para duas subamostras) e do teste de Kruskal-Wallis (que

correspondem ao teste U de Mann-Whitney/Wilcoxon quando é também aplicado apenas para

duas subamostras).

Page 35: António Paula Brito de Pina · Investigação e Estatística com o EpiInfo ... Ao contrário do que muitos julgam, ... Quais são as perguntas que o investigador propõe?

Investigação e Estatística com o EpiInfo 32

António Pina Gabinete de Investigação e Estatística

Delegação Regional do Algarve do Instituto da Droga e Toxicodependência

32

O teste ANOVA exige muitos pressupostos pelo que é perigoso ser utilizado por

principiantes, especialmente em amostras de pequena dimensão. Em alternativa, recomendo

utilizar sempre os resultados do teste de Kruskal-Wallis porque é robusto, muito conservador e

não exige nenhum pressuposto. O Kruskal-Wallis pode ser utilizado para variáveis quantitativas

e qualitativas ordinais, tal como a Mediana.

No entanto, caso haja interesse em utilizar o ANOVA, atendendo que quando se

cumprem os seus pressupostos, este teste é de facto um pouco mais potente que o Kruskal-

Wallis, recomenda-se fazê-lo só nestas circunstâncias:

1º- A variável a testar terá de ser quantitativa.

2º- Quando os grupos têm dimensões diferentes, deverá existir homogeneidade nas

variâncias, ou seja, o "p" do teste de Bartlett, efectuado automaticamente pelo EpiInfo deve ser

superior a 0,05. No caso do nosso exemplo é 0,9385 pelo que se conclui estar cumprido este

pressuposto.

3º- Quando pelo menos um dos grupos tem menos de 30 elementos, deverão os diversos

grupos ter uma distribuição Normal. Infelizmente, o EpiInfo não executa qualquer teste para

confirmar esta Normalidade, pelo que se aconselha a nunca aplicar o ANOVA nestes casos.

No caso do nosso exemplo, o grupo de mulheres tem apenas 2 elementos e o grupo de

homens apenas 3 elementos, pelo que nunca se deveria utilizar o ANOVA. Apenas o teste de

Kruskal-Wallis poderia ser aplicado, não sendo as diferenças estatisticamente significativas

(p=0,5637).

3- A força da associação.

Já referimos que existe duas dimensões quando estudamos uma associação entre

variáveis: uma em que a Estatística nos diz até que ponto o que vemos na nossa amostra poderá

ser o que existe na população, ou seja, até que ponto é estatisticamente significativo; outra em

que procuramos verificar até que ponto os nossos resultados implicam associações fortes entre

variáveis, calculadas através de simples subtracções (Diferença de Riscos ou Risco Atribuível)

ou quocientes (Risco Relativo, Odds Ratio, etc). É possível haver uma associação forte nos

resultados da nossa amostra que, no entanto, não sendo estatisticamente significativos, têm

Page 36: António Paula Brito de Pina · Investigação e Estatística com o EpiInfo ... Ao contrário do que muitos julgam, ... Quais são as perguntas que o investigador propõe?

Investigação e Estatística com o EpiInfo 33

António Pina Gabinete de Investigação e Estatística

Delegação Regional do Algarve do Instituto da Droga e Toxicodependência

33

pouco interesse porque não temos garantias de existirem na população real. Por outro lado, tal

como já referimos, é possível haver uma associação estatisticamente significativa mas que, por

ser tão fraca, não tem importância nenhuma.

Vamos agora falar de duas importantes medidas da força da associação - o Risco Relativo

e o Odds Ratio.

Estas medidas só poderão ser calculadas em tipos particulares de estudos de observação

analítica - os estudos de coorte e de caso-controlo.

3.1. Estudos de coorte

Se pudermos fazer duas ou mais medições ao longo do tempo numa determinada

população, poderemos saber quais os efeitos que a exposição a um factor terá no final,

comparando os que desde o início estiveram expostos com aqueles que nunca estiveram expostos

ao factor.

Um exemplo prático é estudar numa amostra de heroinodependentes qual a forma de

consumo com maior risco de mortalidade ao fim de um ano. Bastaria separar a amostras em dois

estratos segundo a forma de consumo (ex.: injectável ou não) no início do ano, e depois, no final

do ano, verificar quantos morreram num grupo e no outro. Estes estudos possibilitam o cálculo

de taxas de incidência e prevalência, assim como do risco relativo.

Vamos a um exemplo com números.

Suponhamos que definimos que existe um problema de maior mortalidade entre os

toxicodependentes e que seria pertinente estudá-lo. Assim, queremos estudar ou identificar

aqueles toxicodependentes que estão em maior risco de morrer. Após a revisão bibliográfica e o

conhecimento que já tínhamos do assunto, pomos a hipótese de existir uma associação entre a

forma de administração da droga e a mortalidade, ou seja, "acreditamos" que o consumo

injectável poderá incluir um maior risco de mortalidade que os outros consumos.

Após termos seguido durante um ano uma amostra de 2000 toxicodependentes, já

caracterizados quanto aos seus consumos, vamos no final caracterizá-los quanto ao seu estado

vital no fim do período e dispor os dados numa tabela de 2x2:

Page 37: António Paula Brito de Pina · Investigação e Estatística com o EpiInfo ... Ao contrário do que muitos julgam, ... Quais são as perguntas que o investigador propõe?

Investigação e Estatística com o EpiInfo 34

António Pina Gabinete de Investigação e Estatística

Delegação Regional do Algarve do Instituto da Droga e Toxicodependência

34

Casos de doença ou de outro tipo de evento (Óbitos durante o ano em estudo?)

SIM NÂO TOTAL

SIM A (200) B (800) A+B (1000)

NÃO C (50) D (950) C+D (1000)

Exposição no início do período em estudo (Consumos injectáveis?)

TOTAL A+C (250) B+D (1750) A+C+B+D

(2000)

♦ Risco Absoluto ou Incidência Cumulada nos Expostos = A/A+B=200/1000=20%

♦ Risco Absoluto ou Incidência Cumulada nos Não Expostos = C/C+D=50/1000=5%

♦ Diferença Absoluta ou Risco Atribuível (RA)=Inc. C. nos expostos - Inc. C. nos não expostos =20%-

5%=15%

♦ Diferença relativa ou Fracção Etiológica do Risco (FER)= RA/Inc. C. nos expostos= 15/20=75%

♦ Risco Relativo (RR) = Inc. C. nos expostos / Inc. C. nos não expostos =20/5=4

♦ 75,4950/800

50/200

/

/===

DB

CAOR

Com estes dados, poderemos calcular o risco absoluto de morrer quando se injecta a

droga (A/A+B=20%) e o risco absoluto de morrer sem este comportamento (C/C+D=5%). A

medição da força da associação entre as duas variáveis poderá ser calculada ou através da

diferença (20%-5%=15%) ou do quociente entre estes dois riscos (20/5=4). A Diferença de

Riscos é frequentemente denominada como Risco Atribuível (RA) e o quociente entre os dois

riscos corresponde ao denominado Risco Relativo (RR).

Repare-se que a força de associação é nula quando o RA for aproximadamente zero, ou

quando o RR for aproximadamente igual a um.

Qual a diferença de interpretação entre o RA e o RR?

Genericamente o RA é uma medida importante para avaliar o impacto duma intervenção

que diminua a exposição ao factor de risco na comunidade. Assim, no exemplo anterior

poderíamos pensar que se conseguíssemos eliminar os hábitos de consumo endovenosos,

poderíamos eliminar os óbitos em 15% dos toxicodependentes com consumos injectáveis. O RA

é a quantidade de risco que pode ser atribuída ao factor em causa: se retirarmos este factor,

continuará a haver óbitos, embora devido a outros factores. O RA só tem sentido se tivermos

Page 38: António Paula Brito de Pina · Investigação e Estatística com o EpiInfo ... Ao contrário do que muitos julgam, ... Quais são as perguntas que o investigador propõe?

Investigação e Estatística com o EpiInfo 35

António Pina Gabinete de Investigação e Estatística

Delegação Regional do Algarve do Instituto da Droga e Toxicodependência

35

informação sobre as duas incidências cumuladas. De facto, se as duas incidências forem 95% e

80%, o significado de um RA=15% é diferente de uma outra situação em que as duas incidências

são de 20% e 5%. A Fracção Etiológica do Risco (FER) já relativiza esta informação de acordo

com a incidência nos expostos, sendo que para estas duas situações daria resultados diferentes:

15/95=0,16 e 15/20=0,75. Isto significaria que, caso pudéssemos erradicar o factor de risco, na

primeira situação haveria uma diminuição de 16% da mortalidade e, na segunda situação, de

75%.

Já o RR é uma medida mais utilizada em investigação porque dá uma ideia mais apurada

da potência de uma associação causal. Neste caso o RR é 4, ou seja o risco de morrer é 4 vezes

superior nos expostos que nos não expostos.

O Odds Ratio (OR), que poderá traduzir-se como "razão de possibilidades", é uma

aproximação estimada do RR, pelo que só tem interesse em estudos onde este não poderá ser

calculado, nomeadamente nos estudos de caso-controlo, dos quais se falará depois.

Tal como é possível calcular os intervalos de confiança para as frequências, também é

possível calcular intervalos de confiança para o RA, o RR e o OR.

O EpiInfo efectua estes cálculos quer através do comando TABLES (quando já existe

uma base de dados criada) quer através da secção STATCALC (nesta secção apenas calcula os

intervalos de confiança do RR e OR).

Chama-se a atenção que o cálculo dos intervalos de confiança de 95% destas medições,

substitui com vantagem qualquer outra prova de significância estatística. Repare-se que, se no

intervalo de confiança do RA não estiver incluído o "0", ou no do RR e OR não estiver incluído

o "1", poderemos afirmar com uma confiança de 95% que existe uma diferença entre o grupo

exposto e não exposto. Por outras palavras, poderemos concluir que existe uma diferença

estatisticamente significativa (para um nível de significância de 5%). Por exemplo, segundo o

EpiInfo o intervalo de confiança do Risco Relativo do exemplo mencionado seria 2,97-5,38 o

que, atendendo não incluir o 1, significaria haver uma associação estatisticamente significativa

entre a forma de consumo e a mortalidade.

Page 39: António Paula Brito de Pina · Investigação e Estatística com o EpiInfo ... Ao contrário do que muitos julgam, ... Quais são as perguntas que o investigador propõe?

Investigação e Estatística com o EpiInfo 36

António Pina Gabinete de Investigação e Estatística

Delegação Regional do Algarve do Instituto da Droga e Toxicodependência

36

3.2. Estudos de caso-controlo

Poderão ser confundidos com os estudos de coorte porque também se baseiam em

medições ao longo do tempo, mas aqui os dois grupos dividem-se tendo em conta os efeitos e

não a exposição. Vamos a um exemplo com números.

Suponhamos que queríamos estudar exactamente a mesma associação já referido entre a

forma de administração da droga e a mortalidade. No entanto, ao contrário do estudo anterior,

não tínhamos disponibilidade de recursos ou tempo para seguirmos durante um ano uma amostra

de toxicodependentes como no exemplo anterior de estudo de coorte. Por outro lado, é previsível

haver poucos óbitos (poucos efeitos) no final de um ano pelo que, para implementarmos um

estudo de coorte, teríamos que certamente vigiar milhares de pessoas. Isto torna, evidentemente,

um estudo de coorte totalmente impraticável para a maioria das situações onde o efeito a medir é

pouco frequente (ex: doenças raras, etc). Felizmente, tínhamos a possibilidade de saber nos

ficheiros dos serviços de saúde quem tinha morrido no último ano. Assim, desenhámos um

estudo de caso-controlo, formado por um grupo de toxicodependentes que morreram e um outro

grupo de sobreviventes. Aos dois grupos verificámos os hábitos de consumo (eventualmente,

através da consulta das fichas clínicas) e dispusemos os dados numa tabela de 2x2:

Casos de doença ou de outro tipo de evento (Óbitos durante o ano em estudo?)

SIM NÂO TOTAL

SIM A (200) B (800) A+B (1000)

NÃO C (50) D (950) C+D (1000)

Exposição no início do período em estudo (Consumos injectáveis?)

TOTAL A+C (250) B+D (1750) A+C+B+D

(2000)

Repare-se que esta tabela é igual à anterior mas os cálculos efectuados anteriormente não

têm significado epidemiológico e são incorrectos. Efectivamente, não poderemos calcular os

riscos absolutos porque não sabemos qual é a população exposta que deu origem a todos os

óbitos. Consequentemente, também não poderemos calcular o RA e o RR. No entanto,

demonstra-se que, quando o efeito é raro (neste caso, os óbitos) é possível estimar

Page 40: António Paula Brito de Pina · Investigação e Estatística com o EpiInfo ... Ao contrário do que muitos julgam, ... Quais são as perguntas que o investigador propõe?

Investigação e Estatística com o EpiInfo 37

António Pina Gabinete de Investigação e Estatística

Delegação Regional do Algarve do Instituto da Droga e Toxicodependência

37

aproximadamente o RR num estudo de caso-controlo, dando-lhe neste caso a denominação de

Odds Ratio (OR), da seguinte forma:

75,4950/800

50/200

/

/===

DB

CAOR

O OR e o seu intervalo de confiança interpretam-se da mesma forma que para o RR,

sendo também calculados automaticamente pelo EpiInfo (neste caso, o intervalo de confiança de

95% é 3,4-6,7 sendo este resultado também estatisticamente significativo porque não inclui o

"1").

Bibliografia ♦ Abramson, J.H. Survey methods in community medicine - an introduccion to epidemiological

and evaluative studies. 2º ed. New York: Churchill Livingstone, 1979.

♦ Dean, A.G.; et al. Epi Info 2000, a database and statistics program for public health

professionals for use on Windows 95, 98, NT, and 2000 computers. Atlanta (USA): Centers

for Disease Control and Prevention, 2000.

♦ Doménech Massons, José M. Métodos Estadísticos en Ciencias de la Salud. Barcelona

(Espanha): Universitat Autònoma de Barcelona, 1999.

♦ Gerstman, Burt. Data Analysis With Epi Info.

http://www.sjsu.edu/faculty/gerstman/EpiInfo/, Novembro 2000.

♦ Jiménez Villa, J. Como iniciar un trabajo de investigación. Atención Primaria, Vol. 5, Nº 2,

Espanha, 1988.

♦ Serrano, Pedro. Redacção e Apresentação de Trabalhos Científicos. Lisboa: Relógio D'Água,

1996.

Page 41: António Paula Brito de Pina · Investigação e Estatística com o EpiInfo ... Ao contrário do que muitos julgam, ... Quais são as perguntas que o investigador propõe?

Investigação e Estatística com o EpiInfo ANEXO 1. - A revisão bibliográfica

António Pina Gabinete de Investigação e Estatística

Delegação Regional do Algarve do Instituto da Droga e Toxicodependência

Anexo 1 – pág. 1

Anexo 1 A Revisão Bibliográfica

Page 42: António Paula Brito de Pina · Investigação e Estatística com o EpiInfo ... Ao contrário do que muitos julgam, ... Quais são as perguntas que o investigador propõe?

Investigação e Estatística com o EpiInfo ANEXO 1. - A revisão bibliográfica

António Pina Gabinete de Investigação e Estatística

Delegação Regional do Algarve do Instituto da Droga e Toxicodependência

Anexo 1 – pág. 2

1- Porque fazer a pesquisa bibliográfica?

Na fase inicial da elaboração de um protocolo de investigação é necessário fazer a revisão

bibliográfica do assunto com os seguintes objectivos:

1- Saber se alguém já publicou as respostas às nossas questões, para decidir da

pertinência de repetir uma investigação com objectivos idênticos;

2- Saber quais os métodos utilizados em investigações similares, para decidir sobre o

melhor método a utilizar;

3- Quando pretendemos enveredar por um estudo de desenho experimental ou

analítico, no qual pomos hipóteses sobre a associação entre variáveis, a revisão bibliográfica

permite enquadrarmos o nosso estudo num modelo de causalidade e, assim, diferenciar quais

serão as variáveis de exposição, de resposta e, sobretudo, as variáveis interferentes. Estas

variáveis interferentes (sejam elas de confusão ou apenas modificadoras do efeito), deverão

ser identificadas logo no início do estudo através do que já é sabido sobre o assunto. Isto

possibilitará desenhar adequadamente o estudo de forma a controlar estas variáveis, não

deixando que as mesmas confundam os nossos resultados (no Anexo 2. explica-se melhor

esta problemática).

2- Como fazer a pesquisa bibliográfica?

A revisão bibliográfica, em primeiro lugar, deverá ser efectuada nos livros de texto e

tratados, de forma a enquadrar o melhor possível o problema a investigar.

No entanto, quando queremos fazer investigação, é também obrigatório ler aquilo que há

de mais actual sobre o assunto, e isto só se encontra em revistas periódicas ou através da consulta

de teses de doutoramento em mestrados. A questão é saber onde estão os artigos que nos

interessam no meio das dezenas de milhares que são publicados anualmente.

Para identificar estes artigos deverá fazer a pesquisa nas fontes secundárias (publicações

que indexam a informação bibliográfica de milhares de artigos, por assunto, palavras-chave,

autores, revistas, etc.). Actualmente, é muito comum fazer tais pesquisas em computador,

embora ainda seja possível fazê-las em publicações de papel. Estas fontes secundárias, em

Page 43: António Paula Brito de Pina · Investigação e Estatística com o EpiInfo ... Ao contrário do que muitos julgam, ... Quais são as perguntas que o investigador propõe?

Investigação e Estatística com o EpiInfo ANEXO 1. - A revisão bibliográfica

António Pina Gabinete de Investigação e Estatística

Delegação Regional do Algarve do Instituto da Droga e Toxicodependência

Anexo 1 – pág. 3

muitos casos, incluem os resumos dos artigos, o que possibilita obter rapidamente uma ideia

sobre os artigos que nos interessam.

Estas pesquisas podem ser feitas nas próprias bibliotecas. Neste caso, temos a vantagem

de ser ajudados pelo técnico da biblioteca e, podemos pedir imediatamente os artigos que

queremos. As bibliotecas quando não têm os artigos, frequentemente, através de convénios com

outras bibliotecas, podem fornecê-los.

Sucede que temos que ser criteriosos na nossa selecção, caso contrário, arriscamo-nos a

ler demasiados artigos que não nos vão interessar e, eventualmente, a ter que pagar o envio

destes artigos desnecessariamente.

Em Portugal, a biblioteca que, na área da toxicodependência, melhor nos pode prestar tais

serviços é, sem sombra de dúvida, a do Instituto da Droga e Toxicodependência.

No Algarve, recomendaria o Centro de Documentação da Administração Regional de

Saúde e a Biblioteca da Universidade do Algarve.

No entanto, actualmente, é ainda possível fazer todas estas pesquisas em casa, desde que

tenhamos ligação à Internet. Depois das pesquisas, será possível também solicitar os artigos em

casa embora, frequentemente, seja necessário pagar este envio.

Eis alguns endereços onde tais pesquisas poderão ser feitas na tranquilidade do lar:

1. Instituto da Droga e Toxicodependência (www.idt.pt). Um site com muita informação oficial na área da toxicodependência onde se poderá

pesquisar artigos e documentos na sua biblioteca (que é seguramente a melhor do País sobre o assunto).

2. Medline (www.nlm.nih.gov/hinfo.html) Talvez a melhor base de dados em biomedicina.

3. Annual Reviewes (http://annurev.org) Excelente base de dados bibliográfica na área das ciências biomédicas (inclui o tema da

psicologia), físicas, sociais (inclui temas da saúde pública).

4. TESEO (www.mcu.es/TESEO/index.html) Base de dados de teses espanholas. Poder-se-á saber em que universidade está a tese e as

diversas bibliotecas em Espanha onde será possível consultá-las.

5. Base de dados da Organização Mundial da Saúde (www.who.int/hlt/virtuallibrary/English/virtuallib.htm)

Page 44: António Paula Brito de Pina · Investigação e Estatística com o EpiInfo ... Ao contrário do que muitos julgam, ... Quais são as perguntas que o investigador propõe?

Investigação e Estatística com o EpiInfo ANEXO 1. - A revisão bibliográfica

António Pina Gabinete de Investigação e Estatística

Delegação Regional do Algarve do Instituto da Droga e Toxicodependência

Anexo 1 – pág. 4

Além de possibilitar pesquisas de toda a documentação da OMS, têm ainda links para dicionários e outras bases de dados bibliográficas.

Há ainda endereços na Internet para revistas especializadas onde poderemos pesquisar

artigos, geralmente sem pagar e, evidentemente solicitá-los, mediante um pagamento:

1. American Journal of Epidemmiology (www.aje.oupjournals.org)

2. American Journal of Public Health (www.apha.org/journal/AJPH2.htm)

3. Annals of Epidemiology (www.elsevier.nl/inca/publications/store/5/0/5/7/4/6/)

4. British Medical Journal (www.bmj.com)

5. Journal of the American Medical Association - JAMA (http://jama.ama-

assn.org)

6. The Journal of Public Health Medicine - Online services

(www3.oup.co.uk/pubmed)

7. The Lancet (www.thelancet.com)

8. The British Psychological Society (www.bps.org.uk/index.cfm) Possibilita pesquisar e solicitar artigos de várias revistas ligadas à Psicologia.

Finalmente, há ainda a estratégia de pesquisa bibliográfica em árvore: quando num artigo

interessante, verificamos que existem referências bibliográficas sobre um assunto, tentamos

aceder aos artigos citados. Este método pode clarificar aspectos e pormenores importantes, mas

tem o defeito de fazer depender demasiado a pesquisa bibliográfica de um só artigo ou autor,

pelo que nunca deverá ser o método único de pesquisa bibliográfica.

Referência bibliográfica aconselhada:

Serrano, Pedro. Redacção e Apresentação de Trabalhos Científicos. 2ª ed. Lisboa:

Relógio D'Água; 2004.

Page 45: António Paula Brito de Pina · Investigação e Estatística com o EpiInfo ... Ao contrário do que muitos julgam, ... Quais são as perguntas que o investigador propõe?

Investigação e Estatística com o EpiInfo ANEXO 2 - Controlo das variáveis interferentes

António Pina Gabinete de Investigação e Estatística

Delegação Regional do Algarve do Instituto da Droga e Toxicodependência

Anexo 2 – pag. 1

Anexo 2 Controlo das variáveis interferentes

Page 46: António Paula Brito de Pina · Investigação e Estatística com o EpiInfo ... Ao contrário do que muitos julgam, ... Quais são as perguntas que o investigador propõe?

Investigação e Estatística com o EpiInfo ANEXO 2 - Controlo das variáveis interferentes

António Pina Gabinete de Investigação e Estatística

Delegação Regional do Algarve do Instituto da Droga e Toxicodependência

Anexo 2 – pag. 2

Uma introdução ao controlo das variáveis interferentes

Como controlar o efeito de confundimento das variáveis interferentes?

a) Em primeiro lugar será necessário um bom enquadramento teórico do modelo de

causalidade para detectarmos tais confundimentos através de uma boa revisão bibliográfica

do problema.

b) Após esta revisão é importante listar todas as variáveis interferentes que

eventualmente poderão levar a confundimento.

c) Infelizmente, mesmo com uma boa revisão bibliográfica não temos a garantia de

conhecer todas as variáveis interferentes pelo que apenas os estudos experimentais dão

garantias de controlo de todas estas variáveis, atendendo compararem grupos que são

formados de forma aleatória (única forma de garantir com muita fiabilidade que os grupos

são idênticos relativamente a terceiras variáveis interferentes desconhecidas).

d) Nos outros estudos de observação analíticos existem vários métodos estatisticos

para controlar estas variáveis (pelo menos as conhecidas...), nomeadamente através do

emparelhamento, da padronização, ou da análise estratificada e multivariada.

É importante ter a noção da existência dos dois tipos de variáveis interferentes: as v. de

confundimento (que produzem confundimento) e as v. modificadoras de efeito (que produzem

interacção). Enquanto as primeiras traduzem um desajustamento na comparabilidade dos grupos

produzindo a confusão, as segundas fazem parte do modelo causal, ou seja, são também uma

variável de exposição que modifica a variável resposta, mesmo quando os grupos estão

ajustados.

Figura 1 - Exemplo de confundimento

V. Exposição (casamento)

V. resultado (cancro)

V. confundimento (idade)

Page 47: António Paula Brito de Pina · Investigação e Estatística com o EpiInfo ... Ao contrário do que muitos julgam, ... Quais são as perguntas que o investigador propõe?

Investigação e Estatística com o EpiInfo ANEXO 2 - Controlo das variáveis interferentes

António Pina Gabinete de Investigação e Estatística

Delegação Regional do Algarve do Instituto da Droga e Toxicodependência

Anexo 2 – pag. 3

Um exemplo de confundimento clássico é quando fazemos a comparação entre dois

grupos - casados/ não casados - e verificamos que o grupo dos casados tem mais cancro (Figura

1). A conclusão errada poderia ser que o casamento provoca o cancro! Mas o problema aqui foi o

facto de o grupo dos casados ser mais idoso que o dos solteiros! Ou seja, os dois grupos estavam

desajustados quanto à idade pelo que a sua comparação feita desta forma "crua" levava à

confusão! Realça-se que as variáveis de confundimento (ex.: a idade) estão sempre associadas

tanto às variáveis de exposição (ex.: estado civil) como às variáveis resultado (ex.: cancro).

Figura 2 - Exemplo de interacção

Um exemplo de interacção de uma variável interferente modificadora de efeito é quando

ao estudarmos a associação entre a idade (v. de exposição) e o cancro (v. resposta), verificamos

que o hábito de fumar (v. modificadora do efeito) também produz cancro (Figura 2). Repare-se

que, neste caso, a v. "hábito de fumar" também modifica a possibilidade de ter cancro, mesmo

que os dois grupos (fumadores/não fumadores) estejam ajustados quanto à idade. Da mesma

forma, a idade modifica a possibilidade de ter cancro, mesmo que os dois grupos (novos ou

idosos) tenham exactamente os mesmos hábitos tabágicos. Ou seja, neste caso não há

confundimento: existe é duas variáveis – tabaco e idade - que têm efeitos próprios e

independentes na variável resultado (cancro).

Com as variáveis modificadoras de efeito há um somatório ou uma subtracção do efeito,

sendo por isso variáveis que pertencem ao modelo causal, enquanto as variáveis de

confundimento puras são apenas vieses.

V. Exposição (idade)

V. resultado (cancro)

V. modificadora de efeito

(tabagismo)

Page 48: António Paula Brito de Pina · Investigação e Estatística com o EpiInfo ... Ao contrário do que muitos julgam, ... Quais são as perguntas que o investigador propõe?

Investigação e Estatística com o EpiInfo ANEXO 2 - Controlo das variáveis interferentes

António Pina Gabinete de Investigação e Estatística

Delegação Regional do Algarve do Instituto da Droga e Toxicodependência

Anexo 2 – pag. 4

Para complicar mais um pouco, é possível haver ainda v. interferentes que são

simultaneamente de confundimento e modificadoras de efeito. Basta que no estudo anterior, em

que verificamos a associação entre idade e cancro, a v. modificadora de efeito "hábito de fumar"

esteja também desajustada nos dois grupos etários (velhos/jovens).

Na prática, para verificar se há confundimento, bastará ver se há associação entre a v.

interferente e a v. resposta e, se há concomitantemente, desajustamento na variável de exposição

entre os dois grupos (expostos/ não expostos) quanto à v. interferente. Para verificar se há

interacção bastará verificar se a força da associação entre as variáveis de exposição e de

resultado (eventualmente medida através do Risco Relativo ou Odds Ratio) é diferente nos

diversos estratos da variável interferente.

O EpiInfo ajuda-nos a controlar o efeito destas variáveis interferentes através do cálculo

dos Riscos Relativos ou Odds Ratios no comando TABLES ou na secção STATCALC.

Efectivamente podemos calcular estas medidas ajustadas e não ajustadas e, através da sua

comparação, verificar o tipo de interferência que existe.

Vejamos algumas situações concretas:

1-Exemplo de inexistência de confundimento e de interacção:

No estudo em que verificamos a associação entre a idade e o cancro, temos uma variável

interferente que denominamos "hábito de fumar".

No primeiro quadro em a), expõe-se a totalidade dos dados, com estratificação de acordo

com a variável interferente, no segundo em b), expõem-se os dados totais sem estratificação e,

nos terceiro e quarto quadro em c) e d), expõem-se os dados para cada estrato da v. interferente:

Page 49: António Paula Brito de Pina · Investigação e Estatística com o EpiInfo ... Ao contrário do que muitos julgam, ... Quais são as perguntas que o investigador propõe?

Investigação e Estatística com o EpiInfo ANEXO 2 - Controlo das variáveis interferentes

António Pina Gabinete de Investigação e Estatística

Delegação Regional do Algarve do Instituto da Droga e Toxicodependência

Anexo 2 – pag. 5

a) Amostra total com estratificação para a v. interferente:

Doença (Cancro) V. Exposição V. Interferente Doença + Doença -

% de Fumadores em cada grupo

etário Fumador 12 188

Exposição (Idade) Positiva (>45 anos)

Não Fumador 18 282 40%

Fumador 8 192 Exposição (Idade) Negativa (<45 anos)

Não Fumador 12 288 40%

b) Amostra total (sem estratificação):

Doença (Cancro) Doença + Doença -

Positiva (>45 anos) 30 470 Exposição (Idade) Negativa (<45 anos) 20 480

Risco Relativo=1,5

c) Estrato de não fumadores:

Doença (Cancro) Doença + Doença -

Positiva (>45 anos) 18 282 Exposição (Idade) Negativa (<45 anos) 12 288

Risco Relativo =1,5

d) Estrato de fumadores:

Doença (Cancro) Doença + Doença -

Positiva (>45 anos) 12 188 Exposição (Idade) Negativa (<45 anos) 8 192

Risco Relativo =1,5

Ou seja, neste caso, o Risco Relativo é rigorosamente igual em qualquer estrato, o que

comprova que a v. hábito de fumar não modifica o efeito na v. cancro. Também a proporção de

fumadores tanto num grupo etário como no outro é idêntica (em ambos os grupos etários existe

Page 50: António Paula Brito de Pina · Investigação e Estatística com o EpiInfo ... Ao contrário do que muitos julgam, ... Quais são as perguntas que o investigador propõe?

Investigação e Estatística com o EpiInfo ANEXO 2 - Controlo das variáveis interferentes

António Pina Gabinete de Investigação e Estatística

Delegação Regional do Algarve do Instituto da Droga e Toxicodependência

Anexo 2 – pag. 6

uma proporção de fumadores semelhante de 40%), o que significa não haver desajuste ou

confundimento.

Repare-se que, se pedirmos ao EpiInfo (através da secção STATCALC) que calcule um

sumário destes dados para os dois estratos temos os seguintes dados:

RR não ajustado (Crude RR) = RR ajustado (Mantel-Haenszel Weighted RR) = 1,5

Quando o RR não ajustado é igual ao ajustado, não há confundimento.

Quando o RR é igual em cada estrato, não há interacção ou modificação do efeito.

2- Exemplo de confundimento sem interacção:

a) Amostra total com estratificação para a v. interferente:

Doença (Cancro) V. Exposição V. Interferente Doença + Doença -

% de Fumadores em cada grupo

etário Fumador 194 606

Exposição (Idade) Positiva (>45 anos)

Não Fumador 6 194 80%

Fumador 24 76 Exposição (Idade) Negativa (<45 anos)

Não Fumador 26 874 10%

b) Amostra total (não estratificada)

Doença (Cancro) Doença + Doença -

Positiva (>45 anos) 200 800 Exposição (Idade) Negativa (<45 anos) 50 950

Risco Relativo =4

Page 51: António Paula Brito de Pina · Investigação e Estatística com o EpiInfo ... Ao contrário do que muitos julgam, ... Quais são as perguntas que o investigador propõe?

Investigação e Estatística com o EpiInfo ANEXO 2 - Controlo das variáveis interferentes

António Pina Gabinete de Investigação e Estatística

Delegação Regional do Algarve do Instituto da Droga e Toxicodependência

Anexo 2 – pag. 7

c) Estrato de não fumadores

Doença (Cancro) Doença + Doença -

Positiva (>45 anos) 6 194 Exposição (Idade) Negativa (<45 anos) 26 874

Risco Relativo =1

d) Estrato de fumadores

Doença (Cancro) Doença + Doença -

Positiva (>45 anos) 194 606 Exposição (Idade) Negativa (<45 anos) 24 76

Risco Relativo =1

Ou seja, neste caso, o Risco Relativo é rigorosamente igual em qualquer estrato, o que

comprova que a v. hábito de fumar não modifica o efeito na v. cancro. No entanto, a proporção

de fumadores é diferente nos dois grupos etários (há 80% de fumadores no grupo com mais de

45 anos, e apenas 10% no grupo com menos de 45 anos) e isto provoca confundimento na

associação entre a idade e o cancro.

Repare-se que, se pedirmos ao EpiInfo (através da secção STATCALC) que calcule um

sumário destes dados para os dois estratos temos os seguintes dados:

RR não ajustado (Crude RR) = 4 ≠ RR ajustado (Mantel-Haenszel Weighted RR) = 1

Quando o RR ajustado é diferente do não ajustado existe confundimento e, neste caso,

deveremos referir apenas o RR ajustado como medida de força da associação.

Quando o RR é igual em cada estrato, não há interacção ou modificação do efeito.

Page 52: António Paula Brito de Pina · Investigação e Estatística com o EpiInfo ... Ao contrário do que muitos julgam, ... Quais são as perguntas que o investigador propõe?

Investigação e Estatística com o EpiInfo ANEXO 2 - Controlo das variáveis interferentes

António Pina Gabinete de Investigação e Estatística

Delegação Regional do Algarve do Instituto da Droga e Toxicodependência

Anexo 2 – pag. 8

3- Exemplo de interacção sem confundimento:

a) Amostra total com estratificação para a v. interferente:

Doença (Cancro) V. Exposição V. Interferente Doença + Doença -

% de Fumadores em cada grupo

etário Fumador 42 258

Exposição (Idade) Positiva (>45 anos)

Não Fumador 4 196 60%

Fumador 8 292 Exposição (Idade) Negativa (<45 anos)

Não Fumador 2 198 60%

b) Amostra total (não estratificada)

Doença (Cancro) Doença + Doença -

Positiva (>45 anos) 46 454 Exposição (Idade) Negativa (<45 anos) 10 490

Risco Relativo =4,6

c) Estrato de não fumadores

Doença (Cancro) Doença + Doença -

Positiva (>45 anos) 4 196 Exposição (Idade) Negativa (<45 anos) 2 198

Risco Relativo =2

d) Estrato de fumadores

Doença (Cancro) Doença + Doença -

Positiva (>45 anos) 42 258 Exposição (Idade) Negativa (<45 anos) 8 292

Risco Relativo =5,2

Page 53: António Paula Brito de Pina · Investigação e Estatística com o EpiInfo ... Ao contrário do que muitos julgam, ... Quais são as perguntas que o investigador propõe?

Investigação e Estatística com o EpiInfo ANEXO 2 - Controlo das variáveis interferentes

António Pina Gabinete de Investigação e Estatística

Delegação Regional do Algarve do Instituto da Droga e Toxicodependência

Anexo 2 – pag. 9

Ou seja, neste caso o Risco Relativo dos dois estratos é diferente, o que significa que o

hábito de fumar interage com a associação idade - cancro. No entanto, não existe confundimento

porque não existe desajuste: a proporção de fumadores é igual entre os dois grupos etários (em

ambos é de 60%).

Repare-se que, se pedirmos ao EpiInfo (através da secção STATCALC) que calcule um

sumário destes dados para os dois estratos temos os seguintes dados:

RR não ajustado (Crude RR) = RR ajustado (Mantel-Haenszel Weighted RR) = 4,6

Quando o RR não ajustado é igual ao ajustado, não há confundimento.

Quando o RR é diferente em cada estrato, há interacção ou modificação do efeito, como é

o caso.

No entanto, havendo interacção, comprovada pela diferença na força de associação entre

os diversos estratos, deveremos sempre verificar adicionalmente se estas diferenças são

estatisticamente significativas, através da prova de Mantel-Haenszel Summary Chi-squared

proposta no EpiInfo, em que o "p", neste caso, é de 0,0000017, ou seja, é estatisticamente

significativo.

Quando há interacção como neste exemplo, não poderemos referir apenas um RR para

traduzir a relação entre as duas variáveis. Nestes casos deveremos referir o resultado RR para

cada estrato, atendendo o risco ser efectivamente diferente em cada estrato.

4- Exemplo de confundimento e interacção juntos:

a) Amostra total com estratificação para a v. interferente:

Doença (Cancro) V. Exposição V. Interferente Doença + Doença -

% de Fumadores em cada grupo

etário Fumador 12 188

Exposição (Idade) Positiva (>45 anos)

Não Fumador 188 612 20%

Fumador 48 752 Exposição (Idade) Negativa (<45 anos)

Não Fumador 2 198 80%

Page 54: António Paula Brito de Pina · Investigação e Estatística com o EpiInfo ... Ao contrário do que muitos julgam, ... Quais são as perguntas que o investigador propõe?

Investigação e Estatística com o EpiInfo ANEXO 2 - Controlo das variáveis interferentes

António Pina Gabinete de Investigação e Estatística

Delegação Regional do Algarve do Instituto da Droga e Toxicodependência

Anexo 2 – pag. 10

b) Amostra total (não estratificada)

Doença (Cancro) Doença + Doença -

Positiva (>45 anos) 200 800 Exposição (Idade) Negativa (<45 anos) 50 950

Risco Relativo =4

c) Estrato de não fumadores

Doença (Cancro) Doença + Doença -

Positiva (>45 anos) 188 612 Exposição (Idade) Negativa (<45 anos) 2 198

Risco Relativo =23,5

d) Estrato de fumadores

Doença (Cancro) Doença + Doença -

Positiva (>45 anos) 12 188 Exposição (Idade) Negativa (<45 anos) 48 752

Risco Relativo =1

Ou seja, neste caso o Risco Relativo dos dois estratos é diferente, o que representa haver

interacção. Por outro lado também existe desajustamento entre os dois grupos etários quanto à v.

hábito de fumar (o grupo com maios de 45 anos tem 20% de fumadores, enquanto o grupo com

menos de 45 anos tem 80% de fumadores).

Claro que se pedirmos ao EpiInfo (através da secção STATCALC) que calcule um

sumário destes dados, verificamos a existência de confundimento porque o RR não ajustado

(Crude RR) = 4 ≠ RR ajustado (Mantel-Haenszel Weighted RR) = 4,2.

Quando o RR não ajustado é diferente do ajustado, há confundimento.

Quando o RR é diferente em cada estrato, há interacção ou modificação do efeito, como é

o caso.

Page 55: António Paula Brito de Pina · Investigação e Estatística com o EpiInfo ... Ao contrário do que muitos julgam, ... Quais são as perguntas que o investigador propõe?

Investigação e Estatística com o EpiInfo ANEXO 2 - Controlo das variáveis interferentes

António Pina Gabinete de Investigação e Estatística

Delegação Regional do Algarve do Instituto da Droga e Toxicodependência

Anexo 2 – pag. 11

Repete-se que a interacção só deverá ser valorizada quando estatisticamente significativa,

comprovada pelo resultado da prova de Mantel-Haenszel Summary Chi-squared (o "p", neste

caso, é de 0,00000, ou seja, é estatisticamente significativo).

O confundimento terá que ser valorizado apenas de acordo com o nosso juízo clínico,

porque não há uma prova objectiva, tal como a significância estatistica da interacção. Neste caso,

embora seja um facto que existe confundimento, comprovado pela diferença entre o RR ajustado

e não ajustado, a verdade é que essa diferença é relativamente pequena (de 4 a 4,2), pelo que

provavelmente o mais correcto seria não a valorizar.

Posto isto qual será a melhor estratégia para identificar as variáveis de confundimento e

as variáveis modificadoras do efeito? Proponho o seguinte procedimento:

a) Já aqui foi referida a necessidade de fazer um bom enquadramento teórico do qual

resulte uma listagem das possíveis variáveis interferentes.

b) Durante a análise bivariada dever-se-á verificar a possibilidade de alteração de

associações após a estratificação segundo possíveis v. interferentes.

c) Se há diferenças de RR entre os estratos, existe interacção (que só deve ser

valorizada quando é estatisticamente significativa). Nestes casos, nos resultados deveremos

apresentar os RR de cada estrato, não sendo compreensível um RR global.

d) Se há diferença entre o RR ajustado e não ajustado, existe confundimento e deverá

sempre ser apresentado o RR ajustado, como medida da força de associação entre a variável

de exposição e de resultado (eliminando o efeito da variável de confundimento).

e) Se há diferenças estatisticamente significativas de RR entre os estratos, e entre o

RR ajustado e não ajustado, existe confundimento e interacção, devendo também ser

apresentados apenas os RR de cada estrato, não sendo compreensível um RR global.

Page 56: António Paula Brito de Pina · Investigação e Estatística com o EpiInfo ... Ao contrário do que muitos julgam, ... Quais são as perguntas que o investigador propõe?

Investigação e Estatística com o EpiInfo ANEXO 3 - Cálculo da dimensão da amostra

António Pina Gabinete de Investigação e Estatística

Delegação Regional do Algarve do Instituto da Droga e Toxicodependência

Anexo 3 – pag. 1

Anexo 3 Cálculo da dimensão da amostra

Page 57: António Paula Brito de Pina · Investigação e Estatística com o EpiInfo ... Ao contrário do que muitos julgam, ... Quais são as perguntas que o investigador propõe?

Investigação e Estatística com o EpiInfo ANEXO 3 - Cálculo da dimensão da amostra

António Pina Gabinete de Investigação e Estatística

Delegação Regional do Algarve do Instituto da Droga e Toxicodependência

Anexo 3 – pag. 2

Calcular a dimensão de uma amostra através do EpiInfo

Esta possibilidade de calcular a dimensão de uma amostra é muito útil se queremos partir

para o estudo com alguma confiança sobre a possibilidade de, no futuro, podermos extrapolar os

nossos resultados para a população. Por outras palavras, a dimensão da amostra tem tudo a ver

com a precisão dos intervalos de confiança que queremos vir a ter quando fizermos os nossos

cálculos. No entanto, é necessário ter em conta que esta amostra terá que ser obrigatoriamente

seleccionada pelo método aleatório (simples, sistemático ou estratificado)3.

Para isso, na secção STATCALC do EpiInfo, poderemos verificar qual a dimensão

correcta da nossa amostra, escolhendo "Sample size & power" e depois "Population survey".

Teremos que responder seguidamente às perguntas colocadas, nomeadamente:

1º- Qual a dimensão da população total? Experimente pôr 5000.

2º - Qual a frequência que julgamos ser verdadeira na população total? É evidente que

não estamos certos desta frequência, no entanto, tendo em conta outros estudos ou informações

poderemos estimar esta frequência... Quando não fazemos a mínima ideia desta frequência real,

poderemos escolher o valor mais conservador que é 50%. Experimente então pôr 50%.

3º - Qual o valor mais errado que admitiríamos obter da nossa amostra? Suponhamos que

admitiríamos ter um intervalo de confiança de 50% + 10%, ou seja seria obter ou 60% ou 40%

como limites. Terá que responder a esta pergunta colocando ou 60 ou 40%.

Atenção! Verifique sempre se ambos os valores limites são credíveis! Suponha que dá ao EpiInfo a informação que admitiria um intervalo de confiança de 5% + 10%, ou seja, seria obter ou 15% como limite máximo, ou -5% como limite mínimo, o que não é credível porque é um número negativo!

Veja agora o resultado: terá de ter uma amostra de 94 elementos se quiser obter intervalos

de confiança de 95% ("confidence level of 95%"), cujo limites não ultrapassem 60 ou 40%,

partindo do pressuposto que a verdadeira proporção é de 50%, e que a amostra será seleccionada

pelos métodos aleatórios já designados.

Complicado? Talvez, mas melhor que isto só se perguntar directamente a Deus ...

3 A amostragem por conglomerados aumenta um pouco o erro pelo que existem correcções matemáticas apropriadas, actualmente só disponíveis no EpiInfo 6.04.