17
ANÁLISE / ANALYSIS Os Caminhos da Estatística e suas Incursões pela Epidemiologia The Paths of Statistics and its Incursions through Epidemiology Celia L. Szwarcwald 1 Euclides A. de Castilho 1 SZWARCWALD, C. L & CASTILHO, E. A. de The Paths of Statistics and its Incursions through Epidemiology. Cad. Saúde Públ., Rio de Janeiro, 8 (1): 05-21, jan/mar, 1992. In this paper the development of Statistics is contemplated from its probabilistic fundamentals until the current studies of time and space "dependence". Some applications of the quantitative method in the epidemiologic approach are evaluated. An attempt is made to establish some limits to the current statistical techniques through the discussion of theoretical assumptions and their adequacy to analyse empirical data. The development (or generalization) of new procedures that could possibly help to overcome methodological difficulties that are still found in various analysis of causal inference in Epidemiology is emphasized. Keywords: Statistics; Applied Statistics; History of Statistics; Biostatistics; Statistics/Epidemiology Relationships 1 Fundação Oswaldo Cruz. Avenida Brasil, 4365, Rio de Janeiro, RJ, 21045, Brasil. O DESENVOLVIMENTO DA ESTATÍSTICA A História da Probabilidade O homem traz consigo a idéia de "chance" desde os mais remotos tempos. Evidências estão nos jogos de aposta, referenciados em toda a história da humanidade, e nos "instru- mentos da sorte", encontrados em sítios arqueo- lógicos de grande antiguidade. Imagina-se que a noção intuitiva de probabilidade estaria presente no curso dos jogos, influenciando o apostador nas suas estratégias e decisões (Davis, 1955). No entanto, até meados do século XVI, a grande maioria dos pensadores negava a existência da "chance" nos fenômenos naturais. Mesmo diante do seu reconhecimento, era excluída como objeto do discurso racional. Aristóteles identificava "chance" como "a classe de tudo que é indefinido, inescrutável ao intelecto humano". Na mesma linha de pensa- mento, séculos mais tarde, o mistério da "chance" ainda era explicado como uma defi- ciência de nosso conhecimento, que, limitado pela inteligência, era incapaz de apreender todas as causas de ocorrência dos eventos e suas possíveis interações simultâneas (Neuts, 1973). Os primeiros problemas de probabilidade aparecem no período da Renascença e relacio- nam-se apenas aos jogos de azar. As soluções da "geometria do dado" são apresentadas por matemáticos franceses no século XVII, desta- cando-se particularmente Blaise Pascal e Pierre Fermat (Davis, 1955; Kendall, 1956). Utilizan- do elementos de análise combinatória no cálcu- lo de probabilidades, Jakob Bernouilli continuidade a esses estudos. Entre suas contri- buições, sobressaem-se a distribuição que leva seu nome e a "lei fraca dos grandes números", mais conhecida como "tentativas independentes de Bernouilli" (Neuts, 1973). O desenvolvimento do pensamento probabi- lístico moderno está, sem dúvida, estreitamente relacionado à ascensão do método empírico nas pesquisas científicas. Revolucionando o pensa- mento de sua época, Francis Bacon, ao final do século XVn, enfatiza o papel da experiência no processo de geração do conhecimento e propõe a indução como método de investigação (Demo, 1989). A necessidade de expressar o

Os Caminhos da Estatística e suas Incursões pela Epidemiologia · distribuições de probabilidades, sobressaindo-se notavelmente a obra de Ronald A. Fisher (Hotelling, 1951). São

  • Upload
    buidan

  • View
    220

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Os Caminhos da Estatística e suas Incursões pela Epidemiologia · distribuições de probabilidades, sobressaindo-se notavelmente a obra de Ronald A. Fisher (Hotelling, 1951). São

ANÁLISE / ANALYSIS

Os Caminhos da Estatística e suas Incursõespela EpidemiologiaThe Paths of Statistics and its Incursions through Epidemiology

Celia L. Szwarcwald1

Euclides A. de Castilho1

SZWARCWALD, C. L & CASTILHO, E. A. de The Paths of Statistics and its Incursionsthrough Epidemiology. Cad. Saúde Públ., Rio de Janeiro, 8 (1): 05-21, jan/mar, 1992.

In this paper the development of Statistics is contemplated from its probabilistic fundamentalsuntil the current studies of time and space "dependence". Some applications of the quantitativemethod in the epidemiologic approach are evaluated. An attempt is made to establish somelimits to the current statistical techniques through the discussion of theoretical assumptions andtheir adequacy to analyse empirical data. The development (or generalization) of newprocedures that could possibly help to overcome methodological difficulties that are still foundin various analysis of causal inference in Epidemiology is emphasized.

Keywords: Statistics; Applied Statistics; History of Statistics; Biostatistics;Statistics/Epidemiology Relationships

1 Fundação Oswaldo Cruz. Avenida Brasil, 4365, Rio deJaneiro, RJ, 21045, Brasil.

O DESENVOLVIMENTO DA ESTATÍSTICA

A História da Probabilidade

O homem traz consigo a idéia de "chance"desde os mais remotos tempos. Evidênciasestão nos jogos de aposta, referenciados emtoda a história da humanidade, e nos "instru-mentos da sorte", encontrados em sítios arqueo-lógicos de grande antiguidade. Imagina-se quea noção intuitiva de probabilidade estariapresente no curso dos jogos, influenciando oapostador nas suas estratégias e decisões(Davis, 1955). No entanto, até meados doséculo XVI, a grande maioria dos pensadoresnegava a existência da "chance" nos fenômenosnaturais. Mesmo diante do seu reconhecimento,era excluída como objeto do discurso racional.Aristóteles identificava "chance" como "aclasse de tudo que é indefinido, inescrutável aointelecto humano". Na mesma linha de pensa-mento, séculos mais tarde, o mistério da"chance" ainda era explicado como uma defi-ciência de nosso conhecimento, que, limitado

pela inteligência, era incapaz de apreendertodas as causas de ocorrência dos eventos esuas possíveis interações simultâneas (Neuts,1973).

Os primeiros problemas de probabilidadeaparecem no período da Renascença e relacio-nam-se apenas aos jogos de azar. As soluçõesda "geometria do dado" são apresentadas pormatemáticos franceses no século XVII, desta-cando-se particularmente Blaise Pascal e PierreFermat (Davis, 1955; Kendall, 1956). Utilizan-do elementos de análise combinatória no cálcu-lo de probabilidades, Jakob Bernouilli dácontinuidade a esses estudos. Entre suas contri-buições, sobressaem-se a distribuição que levaseu nome e a "lei fraca dos grandes números",mais conhecida como "tentativas independentesde Bernouilli" (Neuts, 1973).

O desenvolvimento do pensamento probabi-lístico moderno está, sem dúvida, estreitamenterelacionado à ascensão do método empírico naspesquisas científicas. Revolucionando o pensa-mento de sua época, Francis Bacon, ao final doséculo XVn, enfatiza o papel da experiênciano processo de geração do conhecimento epropõe a indução como método de investigação(Demo, 1989). A necessidade de expressar o

Page 2: Os Caminhos da Estatística e suas Incursões pela Epidemiologia · distribuições de probabilidades, sobressaindo-se notavelmente a obra de Ronald A. Fisher (Hotelling, 1951). São

grau de incerteza na ocorrência dos experimen-tos e de explicar o fato de duas experiênciasiguais poderem ter resultados diferentes leva aoreconhecimento da racionalidade probabilísticaem eventos da natureza. A pesquisa em proba-bilidade no século XVIII culmina com o notá-vel trabalho de Pierre-Simon de Laplace,"Theorie Analitique de Probabilités". À luz daconcepção do cientificismo, rapidamente am-plia-se o domínio de abrangência do cálculoprobabilístico. Este torna-se indispensável paralidar com dados relativos a temas de interessesocial e econômico, como administração dasfinanças públicas, saúde coletiva, conduta deeleições e seguro de vida. Surgem as primeirasidéias do positivismo e Condorcet propõe uma"ciência natural da sociedade", isto é, uma"matemática social" baseada no cálculo dasprobabilidades (Lowy, 1991).

De Laplace até o início do século XX, poucose acrescenta à teoria das probabilidades. Osraros avanços estão principalmente relacionadosao desenvolvimento de técnicas estatísticas e àanálise de erros experimentais (Neuts, 1973).

Durante a primeira metade do século XX, apreocupação dominante da pesquisa matemáticaé com o tratamento abstrato e a axiomatizaçãode vários de seus ramos. Após a descoberta deKomolgorov, em 1903, de que a probabilidadepoderia ser considerada uma "medida" (emtermos matemáticos), os vagos fundamentosteóricos são reformulados sob um outro refe-rencial, a "teoria das medidas", bem maispoderoso conceitualmente (Ash, 1972).

Destacam-se como contribuições da modernaconcepção a "lei forte dos grandes números" ea demonstração do "teorema do limite central",por J. W. Lindeberg, em 1922 (Feller, 1968).

No que diz respeito ao campo aplicativo,pouco a pouco os modelos determinísticos sãosubstituídos pelos probabilísticos e tornam-sehabituais no estudo de diferentes fenômenos.Introduzida inicialmente na teoria da dinâmicados gases, a teoria das probabilidades desempe-nha, hoje, papel importante na física quânticae invade os domínios da teoria atômica (Neuts,1973).

Em anos mais recentes, a pesquisa na área deprobabilidades tem se concentrado no estudo da"dependência". A generalização dos processosde Poisson e das cadeias de Markov dá origem

à teoria dos processos estocásticos, cuja ampli-tude e variedade de aplicações parecem serinesgotáveis (Narayan Bhat, 1972).

O Objeto da Estatística Através do Tempo

A palavra "estatística" é derivada de status,em latim, e significa, na sua origem, o "estudodo estado". Inicialmente, no século XVI, pensa-da pelos ingleses como uma ciência política,destinava-se a descrever características de umpaís, tais como população, área, riquezas erecursos naturais (Laurenti et al., 1985; Yule &Kendall, 1950). Deste papel histórico, origina-se a sua função de caracterização numérica deuma série de informações populacionais. Comesta abordagem, o termo é utilizado no plural,como as "estatísticas de saúde", as "estatísticasde mortalidade", as "estatísticas do registrocivil", entre outras (Berquó et al., 1984; Yule& Kendall, 1950).

Os estudos desenvolvidos por Pierre-Simonde Laplace e Carl Friedrich Gauss, no início doséculo XIX, transformam a concepção da Esta-tística. Com a visão de uma teoria dos erros,passa a ser amplamente aplicada a dadosexperimentais (Yule & Kendall, 1950). Siste-matiza-se a análise dos desvios em relação àmédia em medidas repetidas de uma quantida-de. São elaborados conceitos da teoria daestimação, como o método de mínimos quadra-dos por Gauss, e o primeiro intervalo de con-fiança , em 1812, em um trabalho de Laplace(Lehmann, 1959) [Apesar de sua deduçãocorreta, o autor considerava o parâmetro comouma variável ao atribuir-lhe a probabilidade derecair no intervalo. A interpretação apropriadadata de um século mais tarde, devida a E. B.Wilson, em 1927, e H. Hotelling, em 1931(Lehmann, 1959). Desafortunadamente, até osdias presentes, com muita freqüência, o concei-to é erradamente aplicado].

Na segunda metade do século XIX, a teoriaestatística passa a ser enunciada a partir degeneralizações das propriedades observadas emamostras grandes. São pesquisadas famílias defunções matemáticas que se aproximem dasdistribuições de freqüências empíricas (Steel &Torrie, 1981). Na Alemanha, prioriza-se oestudo pelo coletivo, originando-se os princí-pios da Estatística Descritiva, ramo da Estatísti-

Page 3: Os Caminhos da Estatística e suas Incursões pela Epidemiologia · distribuições de probabilidades, sobressaindo-se notavelmente a obra de Ronald A. Fisher (Hotelling, 1951). São

ca que tem a função de organizar os dados,resumindo-os numa série de medidas, gráficose tabelas para enfatizar as características essen-ciais do conjunto (Rankin, 1966). Nomes dedestaque desta época são os de Francis Galtone Karl Pearson. O primeiro, por meio de expe-rimentos em Genética, estuda a distribuiçãonormal bivariada, propõe o coeficiente decorrelação como medida de associação e desco-bre algumas características das distribuiçõescondicionais, como a regressão linear e ahomoscedasticidade (Anderson, 1958). Por suavez, Karl Pearson desenvolve a teoria e a apli-cação de diferentes tipos de correlação à pes-quisa biológica. Seus estudos concentram-se naprocura de distribuições teóricas, publicando,em 1900, a famosa estatística qui-quadradopara o teste de adequação dos dados às distri-buições de probabilidades. É fundador darevista Biometrika e de uma escola de Estatísti-ca, vindo estimular a produção de novos conhe-cimentos na área (Walker, 1958).

Um aluno de Karl Pearson, de nome WilliamS. Gosset, dedica-se ao estudo de pequenasamostras e das distribuições do desvio-padrão,da razão entre a média e o desvio padrão e docoeficiente de correlação amostral. Seus resul-tados são divulgados na Biometrika, em 1908,sob o pseudônimo de Student, porque, porrazões contratuais de trabalho, suas publicaçõesnão podiam ser individualizadas (Steel &Torrie, 1981).

Por outro lado, problemas conceituais apre-sentados pelo matemático alemão WilhelmLexis colocam em questionamento, na mesmaépoca, o interesse apenas pelo coletivo. Aoestudar anualmente a razão de sexo no nasci-mento, através de estatísticas vitais, Lexismostra, por meio de resultados empíricos, aconsistência da suposição de que a determi-nação do sexo é governada por um simplesmecanismo de chance, como o procedimento"cara-coroa". Isto renova o esforço à procurade mecanismos de chance atuando nos indiví-duos para produzir as observadas característicascoletivas (Rankin, 1966). Nos anos 20, GeorgePolyá constrói um sistema de mecanismos dechance que pode gerar quase todas as distri-buições propostas por Karl Pearson. O objetoda Estatística move-se do estudo do coletivo à

construção dos mecanismos de chance, ou dosmodelos estocásticos dos fenômenos. Esta idéiaé explicitamente expressa por Émile Borel: "Oproblema básico da estatística matemática éinventar um sistema de simples mecanismos dechance, tais que as probabilidades determinadaspor este sistema concordem com as freqüênciasrelativas observadas dos vários detalhes dofenômeno estudado" (Rankin, 1966). No decor-rer do século XX, o campo indicado peladefinição de Borel cresce em importância,concomitante à produção de considerávelliteratura em processos estocásticos, constituin-do-se, atualmente, em um dos capítulos dateoria das probabilidades (Feller, 1968).

Inferência Estatística: um Produtodo Século XX

Enquanto a concepção estatística dos siste-mas de mecanismos de chance caía em proces-so de desuso, esforço crescente era atribuídoaos problemas de estimação e à dedução dasdistribuições de probabilidades, sobressaindo-senotavelmente a obra de Ronald A. Fisher(Hotelling, 1951). São devidas a ele váriascontribuições de uso atual e amplamente divul-gadas, entre elas o método da estimação pormáximo-verossimilhança e a distribuição darazão entre variâncias, denominada posterior-mente por G. W. Snedecor distribuição "F", emsua homenagem (Remington & Schork, 1970).Fundamentando-se no princípio da aleatori-zação à experimentação agrícola, Fisher desen-volve as bases dos "desenhos de experimentos".Problemas de classificação em Botânica olevam à proposição da função discriminate,em 1936. No livro clássico de C. RadhakrishnaRao, há mais de vinte citações referentes à suaautoria de procedimentos de estimação e análi-se (Rao, 1973).

Simultaneamente aos progressos na teoria daestimação, o pensamento estatístico da primeirametade do século XI tem seu interesse voltadoà solução dos problemas de testes de hipóteses.

Referências vagas à "significância" datam dosséculos XVIII e XIX. Em 1900, Karl Pearsonutiliza o conhecido teste qui-quadrado. Porém,somente em 1928 são introduzidos os conceitosde erro de primeira e segunda espécies, porJerzy Neyman e Egon S. Pearson. Primeiros a

Page 4: Os Caminhos da Estatística e suas Incursões pela Epidemiologia · distribuições de probabilidades, sobressaindo-se notavelmente a obra de Ronald A. Fisher (Hotelling, 1951). São

reconhecer que a decisão de um teste deveenvolver considerações não só sobre a hipótese,mas também sobre as alternativas, estes doisautores tiveram marcante influência nos rumosda Estatística contemporânea (Lehmann, 1959).

Em meados dos anos 30, não fugindo aotratamento axiomático da Matemática a todosos seus ramos, é dada à Estatística nova formu-lação teórica. J. Neyman e E. S. Pearson apre-sentam a teoria da inferência estatística, em1936, apta a considerar os testes de hipótesescom a precisão e o rigor impostos pela Mate-mática moderna (Lehmann, 1959). De altarepercussão acadêmica, a teoria matemática deNeyman-Pearson vem a referendar o campo depesquisa teórica, a Estatística Matemática,tratada como uma disciplina matemática naqual a probabilidade é a ferramenta básica(Hoel, 1980). Os testes de hipóteses são apre-ciados, à luz da teoria dos jogos, pioneiramen-te por Abraham Wald, em 1940. Reconhecendoas vantagens do ponto de vista conceitual,estende a abordagem da teoria dos jogos,originalmente proposta para aplicações emEconomia, ao domínio estatístico. Assim gene-ralizada, passa a ser denominada teoria dadecisão (Fergunson, 1967). Utilizando a lingua-gem de jogos, o espaço dos parâmetros popula-cionais a serem testados é o conjunto dospossíveis resultados de um jogo, enquanto asdecisões estatísticas são as alternativas ouestratégias do jogador. Busca-se a "melhor"opção através do conhecimento adquirido cominformações pesquisadas por meio da experi-mentação. A qualificação de "melhor" tem osentido de minimizar a probabilidade de erro(a perda) conseqüente à decisão tomada(Fergunson, 1967). Outro grande legado de A.Wald é a chamada análise seqüencial, muitoutilizada em problemas que envolvem controlede qualidade (Wolfowitz, 1952).

A Importância da Amostragem

A influência da inferência estatística extrava-sa o plano teórico. A união da velha estatísticaà nova teoria probabilística amplia sobremanei-ra a sua aplicação à análise de dados empíri-cos. Agora é possível responder a questiona-mentos relativos a parâmetros populacionais

k

através de um pequeno subconjunto, a amostra.

Em procedimento tipicamente indutivo,chegando-se a conclusões sobre uma populaçãoa partir do estudo de uma amostra, a técnica deamostragem torna-se essencial. Surge o proble-ma de selecionar uma amostra, o mais repre-sentativa da população total, diante das limi-tações de custos e das possibilidades de perdade precisão na estimativa dos parâmetros.

As técnicas de amostragem estão indis-pensavelmente vinculadas ao nome de W.G. Cochran, que as sistematizou em 1953(Cochran, 1953). Embora de freqüente empregoem investigações populacionais, nem sempre otratamento analítico dos dados é adequado aotipo de procedimento utilizado para a seleçãodas unidades experimentais, resultando emsérios vieses de interpretação. Com esta pers-pectiva, um seguro objeto de estudo da Estatís-tica aplicada nos próximos anos será o desen-volvimento de métodos de estimação e inferên-cia compatíveis com as diferentes técnicas deamostragem. Vale insistir que esta questão nãovem recebendo a devida consideração e sãoinúmeros os exemplos de inferências incorretas,conseqüentes ao corriqueiro tratamento de quesempre está-se diante de amostras aleatóriassimples.

A Estatística Recente

A partir dos anos 40, a pesquisa estatística sevolta para solucionar problemas envolvendovariados aspectos da inferência, cada um tendoa sua aplicação a situações específicas. Ostestes de hipóteses para médias, variâncias eproporções, a teoria dos testes uniformementemais poderosos, o processo de inclusão (ex-clusão) de variáveis nos modelos de regressãosão algumas das formas de inferência de usoconsagrado (Rao, 1973).

Nesta mesma linha, encontram-se os "méto-dos não paramétricos", mais apropriadamentedenominados "livres de distribuição". Cons-tituem-se em testes de hipóteses cuja aplicaçãoindepende dos pressupostos teóricos da estatís-tica paramétrica, inclusive no que diz respeitoà distribuição da variável aleatória em estudo.Apesar de apresentarem as vantagens de supo-sições teóricas mais flexíveis, os testes nãoparaméticos podem, por vezes, ser poucosensíveis, deixando passar desapercebidas

Page 5: Os Caminhos da Estatística e suas Incursões pela Epidemiologia · distribuições de probabilidades, sobressaindo-se notavelmente a obra de Ronald A. Fisher (Hotelling, 1951). São

características quantitativas importantes dasinformações (Rao, 1973; Remington & Schork,1970).

Estimulada pelos seus campos de aplicação,ao lado das facilidades de processamentointroduzidas pela informática, a Estatística temenfatizado, ultimamente, o desenvolvimentodos procedimentos multivariados. Classicamen-te baseados na distribuição multinomial, expan-diram-se anos mais tarde também à funçãomultinomial (Anderson, 1958; Bishop, Finberg& Holland, 1975). O conceito matemático de"combinação linear" é introduzido para descre-ver as relações entre uma variável resposta eum conjunto de variáveis independentes ouexplicativas. Entre os modelos mais conhecidosestão os de regressão múltipla, análise devariância e covariância e a função discriminan-te. No caso de multiplicidade de respostas, asprincipais técnicas são as de correlação canôni-ca, de discriminação de vários grupos e deanálises de variância e covariância multivaria-das (Green, 1978; Searl, 1971).

Nos anos 70/80, são propostos os modeloslog-lineares para a análise de dados categóri-cos, onde os logaritmos das probabilidades dosestados multinomiais são expressos comocombinação linear de efeitos principais e deinteração entre os fatores (Bishop, Finberg &Holland, 1975; Haberman, 1978). Capaz delidar com os dois tipos de variáveis indepen-dentes, contínuas e discretas, a regressão logís-tica representa o logito da probabilidade condi-cional do sucesso de uma resposta binariacomo uma função linear (Cox, 1970). Emborade formas diferentes, todos estes modelosenfocam aspectos de explicação para umavariável considerada como dependente deoutras. Já os procedimentos multivariados deanálise fatorial, componentes principais, análisede correspondências e análise de conglomera-dos têm abordagem diferente. A ênfase é dadaà análise de interdependência no conjunto totalde variáveis (Green, 1978). Os três primeirossão denominados redutores do espaço multi-variado, pois têm o objetivo de representar asinformações originais por meio de um númeromenor de variáveis que o considerado inicial-mente. A análise de conglomerados também éum procedimento simplificador, porém, neste

caso, a redução procede-se no número deobjetos e não nas dimensões do espaço (Green,1978).

De maneira bem resumida, o temário daanálise multivariada pode ser assim subdividi-do: de mensuração da dependência entre variá-veis; de analogia à inferência univariada; deredução das dimensões do espaço; de classifi-cação e agrupamento das unidades experimen-tais (Anderson, 1958). Tais métodos se pro-põem a analisar observações coletadas numcorte de tempo. A interpretação corresponde,assim, à imagem das observações num dadomomento, sem apreender sua evolução tempo-ral.

Sob a consideração de que a explicação decertos fenômenos envolve o estudo do seuacompanhamento temporal, uma das vertentesda pesquisa estatística atual objetiva a propo-sição de modelos que incluam a possibilidadede análise da "dependência no tempo". Nestesentido, desenvolvem-se os modelos de sériestemporais, com o reconhecimento explícito daimportância da seqüência das observações notempo. No caso de uma estrutura probabilística,isto é, as flutuações irregulares apresentarempropriedades estatísticas de variabilidade, asséries constituem-se em processos estocásticos.As informações sucessivas são dependentes dasanteriores, fazendo-se necessária a introduçãode novos conceitos, como o de auto-correlaçãopara medir a dependência de observaçõesda mesma variável em tempos diferentes(Anderson, 1971). Embora haja o reconhe-cimento geral de sua importância, as sériestemporais ainda possuem domínio restrito deaplicação. Sua utilização tem sido limitada àinterpretação de séries econômicas, com propó-sitos predominantemente preditivos.

Os estudos da dependência no tempo inspi-ram os adeptos da Geografia Quantitativa àsanálises da dependência no espaço. A produçãode métodos é acelerada graças à constataçãoque as técnicas estatísticas convencionais,baseadas na independência das unidades experi-mentais, mostram-se impróprias ao tratamentodos dados geográficos que exibem tipicamenteordenação sistemática no espaço (Hammond &McCullagh, 1978; Johnston, 1978). Dada asimilaridade dos problemas de dependência nos

Page 6: Os Caminhos da Estatística e suas Incursões pela Epidemiologia · distribuições de probabilidades, sobressaindo-se notavelmente a obra de Ronald A. Fisher (Hotelling, 1951). São

domínios do tempo e do espaço, muitos dosmétodos de inferência temporal têm sidoadaptados para análise das distribuições espa-ciais. Entretanto, enquanto a medida deauto-correlação no tempo é um problema unidi-mensional, a interdependência entre obser-vações espaciais pode ser multidimensional,resultando em questões bem mais complexas eainda não de todo resolvidas (Hammond &McCullagh, 1978). Mais recentemente, a articu-lação do interesse econométrico na dependênciatemporal e do geográfico na dependênciaespacial origina a elaboração de séries espaço-temporais que incluem parâmetros que variamem ambos os domínios (Cliff & Hagget, 1979;Raubertas, 1988; Tango, 1984).

O Paradoxo Estatístico

Embora de uso amplamente estabelecido, ateoria preconizada por J. Neyman e E. S.Pearson é até hoje geradora de controvérsias.Muitos estatísticos de renome, desde a elabo-ração conceitual dos testes de hipóteses, ques-tionam a validade do estabelecimento de umnível de significância como forma de decisão(Rao, 1973). Os debatedores argumentam quea decisão estatística é tomada sem levar emconsideração a probabilidade a priori da hipó-tese nula (Fisher, 1956; Jeffreys, 1948; Savage,1954).

A contradição entre o procedimento deinferência e a existência de uma distribuição apriori da hipótese nula fica evidente no traba-lho de Lindley, denominado pelo próprio autorcomo o "paradoxo estatístico" (Lindley, 1957).Por meio do teste habitual para a média deuma distribuição normal, considerando umaamostra aleatória de tamanho "n", Lindleydemonstra que um determinado valor de "n"pode ser sempre encontrado tal que:a) O valor da média é significativamentediferente ao proposto na hipótese nula ao nívelde a %;b) A probabilidade a posteriori de que a hipó-tese nula é verdadeira é (100 - a )%.

Este é o paradoxo. Sendo a pequeno, porexemplo 5%, a interpretação do primeiroresultado é decidir que a média é significativa-mente diferente do valor especificado na hipó-

tese nula, enquanto pelo segundo existem boasrazões de se acreditar na igualdade (Lindley,1957). Indaga-se, então, o porquê do usoconsagrado do nível de significância em papeldecisório. A resposta é dada também porLindley, que demonstra que para a suposiçãoda probabilidade a priori igual a 50%, o para-doxo só vem a ocorrer para amostras relativa-mente grandes (Lindley, 1957). O problematrazido à compreensão dos usuários da área desaúde é muito bem examinado por Browner eNewman (Browner & Newman, 1987). Aanalogia é feita a um teste de diagnóstico cujosresultados podem ser positivos ou negativos. Averacidade das hipóteses nula e alternativacorrespondem à ausência e à presença dadoença,respectivamente. A probabilidade derejeição da hipótese nula quando ela é verda-deira (o nível de significância) é relacionada àfalso-positividade, enquanto o poder do teste, àsensibilidade. Como nos testes de diagnóstico,os autores apontam as vantagens da análisebayesiana na interpretação dos resultados,baseados nos seguintes fatos: os valores donível de significância descritivo ("p") podemser maiores do que 5%, mas produzirem valo-res preditivos sugestivos de que a hipótese nulaé falsa; os valores de "p" podem ser menoresdo que 5%, mas não se mostrarem aptos aestabelecer a veracidade da hipótese alternativa.

Desde a avaliação crítica da teoria deNeyman-Pearson, propostas alternativas têmsido elaboradas para o tratamento dos testes dehipóteses, constituindo-se nas denominadasescolas de inferência estatística (Oakes, 1990).Entre as principais está a fisheriana, cujaargumentação é baseada na probabilidadefiducial e que também tem sido sujeita a diver-sas objeções (Rao, 1973). O desenvolvimentoda escola bayesiana, em época mais recente,expõe novamente ao debate os fundamentos dainferência estatística (Phillips, 1973).

As Ilusões da Estatística

As estatísticas há muito ultrapassaram odomínio da ciência. Utilizadas por toda parte,são muitas vezes enganosas, dependendo dopropósito com que estão sendo abordadas.Apresentadas pela mídia na intenção de impres-

Page 7: Os Caminhos da Estatística e suas Incursões pela Epidemiologia · distribuições de probabilidades, sobressaindo-se notavelmente a obra de Ronald A. Fisher (Hotelling, 1951). São

sionar o espectador, são calculadas freqüente-mente de maneira inadequada. É o caso, porexemplo, da taxa de acidentes de trânsito fataisdada por unidade de tempo e não pelo númerode habitantes da população.

Muitas vezes, com propósitos de mascararcertos aspectos das informações, as medidas detendência central são escolhidas intencional-mente. São os casos clássicos do emprego damediana, quando não se deseja levar em consi-deração os valores extremos das observações,e da média geométrica, para produzir umindicador de menor magnitude que o aritmeti-camente calculado. Um fato que ficou conheci-do no Brasil, no governo Figueiredo, em 1983,foi a decisão de que o índice nacional depreços ao consumidor (INPC) passaria a serestimado como média geométrica dos seuscomponentes, produzindo, desta forma, umnúmero (ilusoriamente) mais baixo do queaqueles anteriormente usados.

Artifícios de representação também podemser realizados através de procedimentos gráfi-cos. Para enfatizar uma tendência crescente emum sistema cartesiano, basta comprimir aescala horizontal e ampliar a vertical que avisão de aclive será muito mais acentuada(Remington & Schork, 1970). A este respeito,Huff apresenta diversas situações que condu-zem a enganos de interpretação (Huff, 1954).

Contudo, a estimativa de estatísticas demaneira incorreta nem sempre é intencional,ocorrendo, em algumas ocasiões, por falhas nasinformações em que são baseadas. Diante dodesconhecimento da existência de subenume-ração do número de nascidos vivos nos censosdecenais, por exemplo, a taxa de natalidade doBrasil seria subestimada se calculada a partirdos dados censitários publicados pela FIBGE.

Vieses de interpretação na investigaçãocientífica são também raramente propositais.Decorrem, geralmente, pelo desenho inapro-priado do experimento, inadequação do métodode análise ou pela superficialidade na expli-cação dos resultados. Vários periódicos médi-cos apresentam artigos de revisão sobre traba-lhos publicados que contêm aplicação detécnicas estatísticas a estudos clínicos. Umaampla pesquisa, por exemplo, foi organizadapelos editores do New England Journal of

Medicine. O estudo teve o objetivo de determi-nar os métodos estatísticos utilizados e seestavam sendo apropriada e corretamenteaplicados. Em uma análise de mais de milartigos publicados na revista, mostrou-se o usoinsuficiente das técnicas multivariadas e damodelagem estatística; que o poder dos testesde hipóteses foi apresentado em somente 2%dos trabalhos analisados; e a necessidade demaior divulgação das técnicas estatísticas paraa seleção mais adequada do método de análise(Bailar & Mosteller, 1986).

No que concerne à utilização da Estatísticapara demonstração de uma hipótese por meioda experimentação, é preciso ressaltar que aestatística não "prova" nada. Através de seusprocedimentos descritivos, estimadores e infe-renciais, ela apenas auxilia o pesquisador atomar uma decisão. Um dos grandes mitos daEstatística é o nível de significância descritivodo teste, o valor de "p". A ele atribui-se tantoo papel de demonstrador matemático-empíricocomo o de destruidor de teorias, sem que sejamobservados o tamanho da amostra, o poder doteste ou a probabilidade a posteriori da hipóte-se nula ser verdadeira (Greenland, 1988).Desde que as estatíticas de decisão são funçãocrescente do número de observações, quantomaior o tamanho da amostra, maior a probabi-lidade de rejeição da hipótese. Sendo assim, asformulações das hipóteses nula e alternativa éque devem governar o delineamento da investi-gação, o tamanho da amostra e o procedimentode coleta das informações. Esses, por sua vez,conduzem à escolha do método adequado deanálise.

Todavia, ainda que toda a análise quantitativatenha sido procedida corretamente, os resulta-dos devem ser sujeitos à contemplação cautelo-sa. Embora significativos estatisticamente,podem não seguir nenhuma lógica de expli-cação. A Estatística não é a "benção final" dasevidências encontradas na pesquisa. Pelo con-trário, o maior poder da metodologia estatísticareside em tirar dos dados o seu máximo poten-cial de informação. Acredita-se que os procedi-mentos descritivos do comportamento de cadavariável e a compreensão da estrutura deinterdependência, constituindo-se no que sechama "o entrar nos dados", em permanente

Page 8: Os Caminhos da Estatística e suas Incursões pela Epidemiologia · distribuições de probabilidades, sobressaindo-se notavelmente a obra de Ronald A. Fisher (Hotelling, 1951). São

referência à natureza do objeto em estudo, sãoos passos mais importantes na análise interpre-tativa dos resultados de um experimento.

A ESTATÍSTICA NA EPIDEMIOLOGIA

As Estatísticas Demógrafo-Sanitárias

O sistema atual de registro civil é resultantede um processo evolutivo que se inicia com atranscrição de dados de batizados, enterros ecasamentos pelo clero nos registros paroquiais(Laurenti et al., 1985). Em princípios do séculoXVI, em função da epidemia da peste, osregistros de mortes semanais tornam-se obriga-tórios em Londres. Aos poucos, óbitos poroutras causas também são incluídos e o sistemaé estendido a todas as paróquias da Inglaterra(Pollard et al., 1974). Transformados em sériesmais regulares no século seguinte, fundamen-tam os estudos de John Graunt, primeiro aperceber a importância da análise quantitativados eventos vitais. Na publicação Observationsupon the bills of mortality, em 1662, Grauntintroduz o princípio da razão de regularidadeestatística, observa uma razão de sexo aonascimento constante, reconhece padrões sazo-nais e diferenças urbano-rurais no comporta-mento das taxas brutas de mortalidade e tem omérito de construir a primeira tábua de vida.William Petty converte seu trabalho nas basesda "aritmética política", que pouco a poucopassa a ser conhecida como Demografia(Laurenti et al, 1985; Pollard et al., 1974).

Somente a partir do século XIX, quando aresponsabilidade do registro dos eventos vitaistransfere-se da Igreja para o Estado e estabele-ce-se, de forma legal, a sua obrigatoriedade emvários países, são impulsionados os estudosdemográficos. Surgem também as primeirasanálises de morbidade na Inglaterra e nosEstados Unidos, introduzindo-se a abordagemde doenças pelo método quantitativo (Barreto,1990). Em 1839, William Farr, na função decompilador do sistema oficial de registros naInglaterra, estabelece a coleta sistemática deinformações sobre morbidade e mortalidade(Laurenti et al., 1985). Primeiro estatísticomédico, Farr faz uso do registro civil para oestudo de doenças e propõe uma forma de

classificá-las com uniformidade internacional(OMS, 1978).

Desde Farr até os dias de hoje, vários indica-dores e procedimentos de análise foram desen-volvidos com o objetivo de traçar o perfilnosológico de uma população. Atualmente, estatarefa é de competência da Estatística Demó-grafo-Sanitária, mais conhecida como Estatísti-ca Vital, embora esta última denominação nãoesteja de acordo com a definição das NaçõesUnidas, que lhe atribui somente o tratamentodos eventos vitais (Laurenti et al., 1985). Decerta forma, constitui-se na estatística descritivada saúde, tendo a função de construir medidasnuméricas que caracterizem séries de dadosvitais (nascimentos, óbitos e perdas fetais) e deinformações relativas a doenças e a serviços(Laurenti et al., 1985). A construção dos indi-cadores de saúde a partir de dados secundáriosestá relacionada à qualidade dos sistemas deinformações. Muitas vezes incompletos edescontínuos, não permitem um adequadotratamento estatístico dos dados.

Os vínculos com a Demografia permanecemestreitos. Em primeiro plano, manifestam-sepelo interesse mútuo nos aspectos dinâmicosdas sociedades (fecundidade, mortalidade emigração) e naqueles relativos à composiçãodas populações segundo sexo, idade, situaçãode domicílio, entre outros. Em segundo, pelanecessidade de desenvolvimento de técnicasdemográficas, quer seja para estimativas dedenominadores das taxas de morbi-mortalidade,quer seja para mensuração indireta de indicado-res em populações com sistemas de registroincompletos.

No que diz respeito à abordagem conceitual,o interesse atual tem sido na proposição deindicadores mais sensíveis à percepção dasaúde de uma população. Partindo do princípiode que a ausência de doença não implicanecessariamente na presença de saúde, algunspesquisadores dedicam-se a tentativas de defi-nições de saúde no sentido positivo (Goldberg,1990).

No tocante à metodologia de avaliação dasestatísticas demógrafo-sanitárias de uma popu-lação, a sua evolução num certo período detempo encontra instrumental nos procedimentosde séries temporais, que permitem a determi-nação dos componentes de tendência, periodici-

Page 9: Os Caminhos da Estatística e suas Incursões pela Epidemiologia · distribuições de probabilidades, sobressaindo-se notavelmente a obra de Ronald A. Fisher (Hotelling, 1951). São

dade e sazonalidade. Já a análise das distri-buições espaciais tem tido aproximações recen-tes com os modelos utilizados pela GeografiaQuantitativa e vem demonstrando interessantesresultados (Breslow & Enstrom, 1974; Cook &Pocock, 1983).

A Epidemiologia e o MétodoIndutivo Estatístico

O termo Bioestatística aparece primeiramenteem 1923, em substituição à expressão "estatísti-cas vitais" (Berquó et al., 1984). Tem hojesignificado mais abrangente e é consideradacomo a disciplina que trata da aplicação dosprocedimentos estatísticos, descritivos e infe-renciais aos problemas biológicos (Remington& Schork, 1970). Sua aplicação às ciênciasmédicas é particularmente impulsionada porinfluência da publicação de Bradford Hill,Principles of Medical Statistics, em 1937(Berquó et al., 1984).

No que se refere à análise de dados epide-miológicos, a história da utilização do métodoindutivo quantitativo é estreitamente relaciona-da à questão da causalidade e à forma com queesta é tratada ao longo do tempo. Embora sejaatualmente uma das grandes fomentadoras daBioestatística, a Epidemiologia só vem a adotá-la como metodologia analítica em meados dopresente século, a partir da consagração dateoria de multicausalidade (Barreto, 1990).

A abordagem de associações entre fatoresambientais e doença aparece desde o séculoXIX. Vários pesquisadores, naquela época,além da caracterização quantitativa da situaçãode saúde de populações selecionadas, analisa-vam comunidades quanto às suas condições desaneamento, moradia, ocupação e nutrição(Susser, 1985).

Mas as investigações em populações tiveramseu desenvolvimento enfraquecido nas primei-ras décadas do século XX. A "teoria do germe"que se impôs sobre a "teoria miasmática"adotou o critério laboratorial como o únicoválido para a verificação das hipóteses deunicausalidade (Barreto, 1990; Susser, 1985). Aquantificação adquire novamente papel impor-tante a partir dos progressos obtidos na con-cepção da multicausalidade para doenças

infecciosas. Surgem os modelos matemáticoscontemplando o agente causal e os fatoresambientais relacionados à sua transmissão(Barreto, 1990).

Procurando novos caminhos para ampliar suacapacidade explicativa na determinação dasenfermidades, a Epidemiologia encontra nainferência estatística o instrumental adequadopara o teste de suas hipóteses. A teoria dadecisão enquadra-se perfeitamente no espíritopositivista do raciocínio epidemiológico daépoca, apresentando meios de "provar" empiri-camente relações causais conjecturadas teorica-mente (Almeida Filho, 1989).

Nos anos 60, os avanços na informáticapermitem o processamento de grandes massasde dados, estimulando a realização de inves-tigações populacionais. Divulga-se o empregodas técnicas multivariadas, que embora tives-sem sido deduzidas na década de 30, só agorapodem ser usadas na prática. Surgem softwaresditos próprios para o tratamento de informaçõesquantitativas das ciências sociais. Intensifica-sea aplicação dos modelos lineares à interpre-tação das associações epidemiológicas. Fortale-cem-se os laços interdisciplinares, ocorre achamada "matematização da Epidemiologia"(Almeida Filho, 1989).

A incapacidade interpretativa dos modelosdeterminísticos causais na explicação dasdoenças crônicas, em predomínio nos paísesindustrializados, conduz os epidemiologistas àelaboração de novas propostas conceituais emetodológicas. À luz do conceito de risco, aoinvés do determinismo do efeito, passa a seravaliada a probabilidade de ocorrência dadoença. São formulados desenhos de estudosalternativos que solicitam procedimentos esta-tísticos específicos (Breslow & Day, 1980;Breslow & Day, 1987). Para cada delineamentoexperimental, são criadas técnicas de estimaçãoe análise, a regressão linear é trocada pelalogit-linear, a produção de programas paramicrocomputadores é acelerada.

Nos países centrais, proliferam estudosdispendiosos, com amostras enormes parapossibilitar o controle de inúmeras variáveisintervenientes. Em ocasiões não raras, entretan-to, a estimativa do risco não se diferenciaexpressivamente da unidade, ao ponto de se

Page 10: Os Caminhos da Estatística e suas Incursões pela Epidemiologia · distribuições de probabilidades, sobressaindo-se notavelmente a obra de Ronald A. Fisher (Hotelling, 1951). São

acreditar convictaniente na decisão inferencialde rejeição da hipótese nula. Ao não se conse-guir realizar a distinção entre os significadosestatístico e epidemiológico da associação, aconduta adotada é a de repetição do experimen-to para, somente à evidência de respostassemelhantes, estabelecê-la como verdadeira(Knekt et al., 1988; UK National Case-ControlStudy Group, 1989). Muito esforço é consumi-do para a produção relativamente pobre deconhecimentos.

No decorrer das últimas décadas, os paradig-mas da pesquisa epidemiológica têm sidoexpostos a intensos debates. O estabelecimentoda causalidade através dos modelos tradicionaisvem sendo colocado em questionamento,principalmente no que diz respeito à compre-ensão dos problemas de saúde cujos determi-nantes estão no interior das organizaçõessociais (Sabroza, 1990). Esta situação, ampla-mente discutida por diversos autores da Améri-ca Latina (Sérgio Arouca, Jaime Breilh e AsaCristina Laurell, entre outros), enfatiza o inade-quado tratamento de atributos coletivos comosendo passíveis de uma expressão individual(Almeida Filho, 1989; Costa, 1990; Nunes,1985). É curioso que este reducionismo naprática se faz, na verdade, de modo maisacentuado, pois a quase totalidade dos estudosque se dizem capazes de lidar com a causalida-de o fazem com base em procedimentos estatís-ticos que assumem relações lineares (ou logit--lineares) entre as variáveis.

Os Processos Estocásticos

Já em princípios do século XX, a Epidemio-logia buscava na Matemática a solução de seusmodelos teóricos de multicausalidade de doen-ças infecciosas. Ignoradas as variações randô-micas e baseando-se na consideração que oprocesso saúde-doença era governado apenaspor leis dinâmicas, surgem os modelos mate-máticos determinísticos para representação dasepidemias (Bailey, 1964).

Anos mais tarde, com a identificação de queos eventos mórbidos são sujeitos à chance,paralelamente ao avanço na teoria das probabi-lidades, a modelagem é aperfeiçoada e passama ser utilizados os processos estocásticos. Ouso do adjetivo "estocástico", sinônimo de

probabilístico, tem o propósito de enfatizar oaspecto aleatório da ocorrência dos fenômenos,em constraste com as antigas formulaçõesdeterminísticas. Estas, contudo, são legítimasno caso de populações grandes, quando pode-seassumir que as flutuações estatísticas sãosuficientemente pequenas para serem ignoradas,além de considerar-se útil a sua abordagem,anterior à probabilística, pela sua capacidadeexplicativa à dinâmica do processo (Bartlett,1960).

De maneira formal, um modelo estocástico éaquele que especifica a distribuição de probabi-lidades de uma variável (vetor) aleatória (o)sobre uma classe de situações de interesse emcada ponto do tempo. A sucessão de estados oude mudanças, concebida como contínua notempo, constitui-se no processo estocástico(losifescu & Tautu, 1973). Dito estacionárioquando a sua estrutura probabilística é constan-te no tempo, o seu estudo teórico constitui-senum dos temas abordados pelos procedimentosde séries temporais, quando estas são geradaspor um modelo subdividido em uma tendênciadeterminística e uma parte aleatória com apropriedade de invariância (Anderson, 1971).Em contraposição está o processo evolucioná-rio, cuja primeira formulação matemática foirealizada por Francis Galton, no final do séculoXIX, interessado particularmente na probabili-dade de extinção das famílias de nobre posiçãona Inglaterra. Em 1924, G, Udny Yule deduz o"modelo puro de nascimentos-mortes" numapopulação (losifescu & Tautu, 1973).

Desde então, os processos estocásticos têmsido utilizados para representar a evolução devários fenômenos biológicos, como o cresci-mento de populações, migração, competiçãoentre espécies, flutuações na composição gené-tica de populações (como mutação e seleção),além dos sistemas fisiológicos de múltiploscompartimentos e dos processos epidêmicos(losifescu & Tautu, 1973).

Estes últimos têm sido de interesse perma-nente para a explicação dos mecanismos detransmissão de certas doenças (Bailey, 1964;Bartlett, 1960; Iosifescu & Tautu, 1973). Ograu de complexidade dos modelos depende donúmero de categorias que compõem a popu-lação epidêmica, porém pelo menos dois com-ponentes são sempre necessários, os infectados

Page 11: Os Caminhos da Estatística e suas Incursões pela Epidemiologia · distribuições de probabilidades, sobressaindo-se notavelmente a obra de Ronald A. Fisher (Hotelling, 1951). São

e os suscetíveis, cujas relações determinam adinâmica do processo. A intratabilidade mate-mática dos modelos mais sofisticados vemsendo superada por procedimentos de simu-lação.

Atenção tem se dirigido recentemente àmodelagem de dinâmica de doenças como aAIDS (Castillo-Chavez, 1989) e aos processosque objetivam descrever a propagação espacialdas epidemias (Cliff & Hagget, 1979).

As Medidas de Associação Estatística

A Epidemiologia tem na causalidade,como jádito, uma de suas questões fundamentais. Oproblema que permanentemente se coloca é oda mensuração das relações causais. Afora aquestão da possibilidade de se quantificar osdeterminantes sociais do processo saúde-doen-ça, mesmo no âmbito da chamada epidemiolo-gia clássica, o seu modo de trabalho com asditas relações causais merece algumas reflexõesa partir do corpo teórico da Estatística. Desdeo conceito de probabilidade condicional, pas-sando pelo coeficiente de correlação e pelo qui--quadrado de Pearson até a dependência notempo e no espaço dos dias de hoje, a preocu-pação com a "dependência" entre dois atributostem despertado interesse constante.

Em termos teóricos, duas variáveis sãoindependentes se e somente se a distribuição deprobabilidades condicional da primeira, dada asegunda, é igual à distribuição marginal daprimeira (Hoel et al., 1971). Esta noção de"dependência" pode ser visualizada através daanálise de uma tabela de contingência, quandoas variáveis são consideradas associadas se asdistribuições multinomiais forem significativa-mente diferentes para dois níveis da resposta;pode ser traduzida pelo risco relativo ou peloodds ratio iguais a 1 na situação de indepen-dência; ou, ainda, na construção da teoria deregressão múltipla no caso de multinormalida-de, onde a média da distribuição condicional éum modelo linear das variáveis preditoras e areta é constante quando há independência.

Um conceito mais intuitivo de mensuração de"dependência" é o de covariância. Tem osentido de examinar o comportamento conjuntoem comparação à multiplicação dos isolados.

Se há independência, a covariância é nula(Hoel et al., 1971). As primeiras medidas dograu de dependência entre duas variáveisaleatórias foram propostas através do coeficien-te de correlação, descrito como a covariânciapadronizada pelo produto dos desvios-padrãode cada uma. Pela desigualdade de Schwarz,demonstra-se que seu valor absoluto é limitadopela unidade. A magnitude da associação é,então, medida dentro de um intervalo de extre-mo inferior zero (nenhuma associação) até oponto máximo de um (Hoel et al., 1971).

Em 1944, H. E. Daniels dá uma interpretaçãogeométrica da independência, representando-apela ortogonalidade de dois vetores no espaçoeuclidiano. Neste contexto, a medida de corre-lação corresponde ao cosseno do ângulo forma-do pelos vetores aleatórios em consideração. Aassociação máxima, quando o cosseno é iguala um, é referida à colinearidade, em oposiçãoà perpendicularidade, situação de cosseno zeroe ausência de correlação. Daniels demonstra,ainda, que as medidas de associação tradicio-nais, como os coeficientes de correlação dePearson, Spearman e de Kendall, além docoeficiente de contingência média, podem serexpressos por meio de cossenos de ângulosentre vetores de coordenadas convenientementeescolhidas (Daniels, 1944).

Leo A. Goodman é outro autor contemporâ-neo que contribui expressivamente ao problemade medir associações em variáveis categóricasordinais. Objetivando captar o efeito da orde-nação dos níveis de cada um dos fatores,propõe medidas baseadas na "redução propor-cional dos erros" na predição da resposta. Oserros são respectivos a duas situações, a deausência de informações sobre a variávelpreditora, relativamente a uma segunda, diantedo conhecimento prévio do valor da variávelindependente (Goodman, 1979).

Na procura de critérios de escolha de medi-das de associação adequadas às análises quanti-tativas das pesquisas sociológicas, Herbert L.Costner, em 1965, propõe adotar aquelas quepudessem ser estabelecidas por meio da re-dução proporcional no erro de predição(Costner, 1965). É possível demonstrar que adefinição geométrica de Daniels, atribuída àcorrelação (como o cosseno do ângulo formado

Page 12: Os Caminhos da Estatística e suas Incursões pela Epidemiologia · distribuições de probabilidades, sobressaindo-se notavelmente a obra de Ronald A. Fisher (Hotelling, 1951). São

pelos vetores aleatórios), tem uma interpretaçãode "redução proporcional no erro".

Assim, as atuais propostas de estatísticas paramedir associações entre variáveis têm sidobaseadas na definição de Daniels. Sendo ocosseno de um ângulo em um espaço vetorialexpresso como razão de um produto internodos vetores (covariância) pelo produto dasnormas (desvios-padrão), as formulações gene-ralizadas têm evoluído em duas direções:convenientes escolhas de funções de coordena-das vetoriais no espaço euclidiano e definiçãode um produto interno adequado em um espaçode Hilbert (Ash, 1972), possibilitando a ex-tensão para espaços infinito-dimensionais. Estaúltima aproximação foi considerada por T. W.Anderson no estudo de predição de processosestocásticos estacionários no tempo (Anderson,1971). É fato por demais conhecido que asignificância da correlação estatística é insufi-ciente para indicar dependência no sentidoepidemiológico. Vários autores têm se preocu-pado inclusive em estabelecer critérios, de talmodo que na ocorrência da associação estatísti-ca, seja possível determinar se ela é, de fato,causal (Hill, 1965). Entretanto, os epidemiolo-gistas, perante os problemas de causalidade,têm mostrado atitudes díspares. Não só asignificância estatística tem sido apresentadafreqüentemente como evidência de uma relaçãocausal, como também à inexistência de corre-lação estatística, a hipótese epidemiológica édescartada de imediato. Em divergência a estascondutas, é preciso ressaltar que para determi-nadas distribuições de probabilidades, as variá-veis aleatórias podem ser não correlacionadas,mas dependentes (Hoel et al., 1971). Salienta-se, ainda, que é usual considerar as variáveiscontínuas como normalmente distribuídas,acarretando em mensurar a associação entreelas por meio de modelos lineares. Destamaneira, se a regressão for quadrática, prova-velmente será encontrada uma correlação debaixa magnitude.

Na prática, o que vem ocorrendo é o empre-go automático dos modelos multivariadoslineares (ou logit-lineares), sem análise préviaou qualquer representação gráfica das relaçõesde dependência no conjunto de informações.Os testes para correlações parciais das variáveiscontínuas ou as estastísticas de máximo-veros-

similhança correspondentes à inclusão devariáveis nos modelos logísticos são os crité-rios estabelecidos pelos epidemiologistas parao julgamento de suas hipóteses. Percorrendotodos os significados das medidas de asso-ciação estatística ao longo do tempo, suainterpretação como redução proporcional noerro de predição e suas generalizações, indaga-se o porquê desta utilização tão restrita emvista do leque de possibilidades existentes.

Os Modelos de Regressão

O objetivo de uma análise estatística utilizan-do a técnica de construção de modelos é, emgeral, o de encontrar a melhor adequação (nosentido de minimizar o erro de predição)através do menor número possível de variáveis(Draper & Smith, 1966). Este propósito, noentanto, está longe de satisfazer os objetivos daEpidemiologia na procura dos determinantes oudos fatores de risco de um problema de saúde.Em primeiro lugar, o princípio da parcimônia,se é conveniente ao intuito preditivo na dimi-nuição dos custos e esforços em obter infor-mações, é, pelo contrário, insatisfatório parauma interpretação plausível das relações entreas variáveis. A economia de variáveis consiste,na verdade, em minimizar o caminho explicati-vo de um evento ao outro (Li, 1975).

Uma segunda colocação que se impõe refere-se ao fato de que, nos procedimentos de re-gressão, as variáveis explicativas são tratadascom equanimidade, resultando mini modelo emque a resposta é determinada pela adição deefeitos, sem a interpretação do fenômeno. Asdecisões de inclusão (exclusão) de fatores sãopuramente estatísticas e, como recomendadoem procedimentos com comparações múltiplas,baseadas na diminuição do nível de significân-cia. Ao final de todas as etapas, nada se sabesobre o poder de cada teste de hipótese causal,muito menos pondera-se sobre suas probabili-dades a priori. Além disso, em diversas oca-siões, um coeficiente de correlação múltiplabaixo é considerado como aceitável, ou seja,grande parte da variabilidade da resposta éatribuída ao acaso.

O método conhecido como a "análise detrajetórias" é uma forma de regressão estrutura-da onde um diagrama especifica a natureza da

Page 13: Os Caminhos da Estatística e suas Incursões pela Epidemiologia · distribuições de probabilidades, sobressaindo-se notavelmente a obra de Ronald A. Fisher (Hotelling, 1951). São

estrutura proposta. É de acordo com este dia-grama que a análise subseqüente é realizada(Li, 1975). No caso do desconhecimento préviodo delineamento do circuito causal, váriosesquemas podem ser propostos, considerandoos possíveis papéis das variáveis como "deconfundimento", "intermediárias" ou " modifi-cadoras de efeito" (Breslow & Day, 1980;Morgenstern, 1989). Criado por Sewell Wright,em 1921, para análise de diagramas genealógi-cos, teve seu emprego divulgado por O. D.Duncan nas ciências sociais (Li, 1975). Sob onome de "teoria dos grafos", tem vasto campode aplicação na Pesquisa Operacional, com oobjetivo de otimização dos fluxos de organi-zação, como as redes de comunicação e trans-porte (Berge & Ghouila-Houri, 1962). Apesarde se constituir num procedimento bem maisapropriado para a construção de uma estruturacausal compatível com os dados observados,tem pouca repercussão ainda entre os epide-miologistas.

A Interpretação Estatística de Risco

O conceito de risco, fundamental à Epide-miologia moderna, é definido como "a probabi-lidade de um indivíduo de uma população vira desenvolver a doença durante um dadoperíodo de tempo" (Morgenstern, 1989). Apartir desta concepção probabilística, novasmedidas de associação são adotadas, como o"risco relativo" e a "razão dos produtos cruza-dos" (odds ratio). O grau de dependência éavaliado pelo afastamento destas medidas daunidade (Fleiss, 1973). A resposta determinísti-ca é transformada numa probabilística, o risco(ou uma função do risco) passa a ser utilizadocomo variável dependente dos modelos deregressão, a causa torna-se o "fator de risco".

Em virtude de sua fácil interpretação, omodelo logístico tem sido um método deanálise amplamente difundido na pesquisaepidemilógica. No caso de uma só covariável,o coeficiente angular da reta corresponde àrazão dos produtos cruzados. Extensão feita aocaso politômico, os parâmetros da regressãorepresentam os odds ratio em relação a umacategoria de referência (Hosmer & Lemeshow,1989). Estatisticamente, a variável dependente

tem distribuição Bernouilli (ausência ou presen-ça da doença) e a sua esperança condicional,igual à probabilidade do sucesso, é descritacomo uma função logística das variáveis predi-toras. Sob a suposição de independência dasunidades experimentais, os erros do modeloseguem uma distribuição binomial (Hosmer &Lemeshow, 1989).

Desta forma, este processo de "modelagem"dos dados é tipicamente um procedimento deanálise de mecanismos individuais independen-tes que, somando-se, produzem o efeito coleti-vo. Assinala-se, portanto, novamente o despro-pósito de incluir nos modelos variáveis mensu-radas em grupos (onde as observações podemser dependentes), fugindo ao pressuposto deindependência dos erros da regressão. Ressalve-se, também, que a definição de "grupo derisco" ("grupo populacional em que se encontraum risco relativo de uma dada condição maiordo que 1,0") (Almeida Filho, 1989) não temqualquer suporte na teoria dos modelos estatís-ticos. Probabilisticamente, "grupo de risco" é aunião de indivíduos, supostamente independen-tes, que apresentam um determinado atributo,chamado "fator de risco" pelos epidemiologis-tas.

Medidas em Grupos de Observações:a Falácia Ecológica e o Problemada Unidade de Análise

Em análise de correlações entre variáveisrelativas a grupos de indivíduos, ao invés dospróprios indivíduos, falsos juízos podem ocor-rer se as inferências "entre grupos" (ecológicas)são supostamente válidas para "dentro dosgrupos" (Piantadosi et al., 1988). O problemade interpretação na análise das associaçõesecológicas foi apontado pioneiramente por W.S. Robinson, que lhe deu o nome de "faláciaecológica" (Robinson, 1950). Desde então, estaquestão tem sido abordada por diversos autores.Alguns apontam para situações onde sérioserros seriam introduzidos em inferências sobreindivíduos por meio de estudos ecológicos(Morgenstern, 1982). Outros delineiam circuns-tâncias onde tais inferências estariam justifica-das (Richardson et al., 1987).

A relação matemática entre as correlações

Page 14: Os Caminhos da Estatística e suas Incursões pela Epidemiologia · distribuições de probabilidades, sobressaindo-se notavelmente a obra de Ronald A. Fisher (Hotelling, 1951). São

ecológica e individual, embora proposta tam-bém por Robinson, foi demonstrada apenasrecentemente (Piantadosi et al., 1988). Consisteem descrever o coeficiente de regressão entredois fatores como soma ponderada dos coefi-cientes angulares "dentro" e "entre" grupos.Assim, comprova-se que na ausência de dadosindividuais não é possível a estimativa da"verdadeira" associação (a "total") e que apenasna igualdade dos parâmetros "dentro" e "entre"a correlação é expressa pela chamada corre-lação ecológica.

Porém, este não é o único problema de umaanálise ecológica. A questão da modificação doagrupamento de observações é outro ponto parareflexão. Foi identificada por G. U. Yule e M.G. Kendall, em 1950, que assinalaram: "nósnão podemos perder de vista que nossos resul-tados dependem da unidade de análise" (Yule& Kendall, 1950). Em teoria, existe uma infini-dade de maneiras na qual uma área pode serdividida, apesar dos dados serem apresentadospara um particular conjunto de subdivisões.Estas podem ser recombinadas de tal forma aconstituir regiões numa nova escala. Para cadauma das alternativas, os coeficientes de corre-lação tomam valores diferentes, acarretando emdistintas possibilidades de interpretação. Este éo denominado "problema da modificação daunidade de área", abordado recentemente por S.Openshaw e P. J. Taylor em estudos de distri-buições espaciais (Openshaw & Taylor, 1979).

Modelos em Perspectiva

Diante dos problemas metodológicos encon-trados para testar muitas das hipóteses demulticausalidade de interesse epidemiológicoatual, resta recorrer ao desenvolvimento demodelos estatísticos mais apropriados. Apesardas limitações da Estatística como instrumentalanalítico dos diversos campos de indagação daEpidemiologia, entende-se que o esforço deveráser dirigido à procura de modelos que permi-tam avaliar os agravos de saúde na sua maiorcomplexidade, seja nos mecanismos unitáriosque produzem as características coletivas, sejanos processos coletivos que influenciam ofenômeno que vem a ocorrer no indivíduo.

Desta forma, vislumbram-se algumas pers-

pectivas, como a análise em desenhos hierar-quizados, onde possa ser considerado o nívelde atuação de cada variável em estudo. Oprocesso amostral, determinado pela hierarqui-zação dos fatores, seria realizado, então, emquantos estágios se fizessem necessários. Emcada etapa, as unidades experimentais seriamsupostamente dependentes, expressando-se amatriz de variâncias-covariâncias do vetor deobservações como uma matriz não diagonal,cujos elementos que não pertencessem à diago-nal principal (as covariâncias) fossem funçõesda correlação intra-classe. O progresso daresolução estatística estará em formular apartição da correlação total na estrutura especi-ficada.

Já para os estudos ecológicos, onde a in-tenção da análise resida apenas nas inferênciaspara as unidades amostradas e não para osindivíduos, é freqüente o interesse pelas repre-sentações espaciais (mapas) das patologias. Ocoeficiente de correlação, como utilizadotradicionalmente "ponto a ponto", não capita osefeitos de aglomeração ou de propagação dosfenômenos. Releva-se, deste modo, a generali-zação dos processos estocásticos no domínio dotempo para o domínio do espaço, elaborandométodos de estimação de medidas de asso-ciação entre distribuições espaciais (Clifford etal., 1989).

No mesmo contexto, uma outra possibilidadeé a construção de coeficientes de correlação emespaços de Hubert, conforme já referido,mediante a definição adequada de um produtointerno. Neste caso, a extensão da teoria deregressão entre modelos temporais para mode-los espaciais seria realizada por meio da esco-lha de um eixo direcional unidimensional,como, por exemplo, a distância dos pontos doespaço a um determinado ponto consideradocomo origem.

Diante do propósito contínuo de elaboraçãode modelos que traduzam o real à linguagemmatemática, acredita-se que uma outra possívelvertente de pesquisa estatística será a procurade modelos que contemplem a compreensão doprocesso evolutivo a que estão sujeitas asdistribuições dos fenômenos.

Por outro lado, a abrangência do comporta-mento temporal dos mecanismos explicativos

Page 15: Os Caminhos da Estatística e suas Incursões pela Epidemiologia · distribuições de probabilidades, sobressaindo-se notavelmente a obra de Ronald A. Fisher (Hotelling, 1951). São

aliados à chance gera modelos cada vez maiscomplexos. Entende-se,portanto, que um dosrumos a ser seguido é a procura de instrumen-tal, no interior da própria Matemática, quevenha a simplificar a resolução de tais proble-mas.

AGRADECIMENTOS

A autora CLS agradece à OPAS, especifica-mente ao Dr. Moises Goldbaum, por ter conce-dido a oportunidade de sua participação nocurso Advanced Statistical Methods in CancerEpidemiology-IARC, 1989, que forneceu subsí-dios para a elaboração de parte deste trabalho,sobretudo nos itens referentes aos modelosestatísticos utilizados atualmente pela Epide-miologia.

RESUMO

SZWARCWALD, C. L. & CASTILHO, E.A. de Os Caminhos da Estatística e suasIncursões pela Epidemiologia. Cad. SaúdePúbl., Rio de Janeiro, 8 (1): 05-21, jan/abr,1992.Neste trabalho, contempla-se odesenvolvimento da Estatística, desde suasorigens probabilísticas até os atuais modelosde "dependência" no tempo e no espaço.Avalia-se a evolução do método quantitativona abordagem epidemiológica, como tambémprocura-se estabelecer limites das técnicasestatísticas habituais, discutindo-se suassuposições teóricas e sua adequação aotratamento analítico das informações.Enfatizam-se a importância dodesenvolvimento e/ou generalização deprocedimentos que possam ajudar a superaras dificuldades metodológicas aindaencontradas em diversos estudos de inferênciacausal em Epidemiologia.Palavras-Chave: Estatística; EstatísticaAplicada; História da Estatística;Bioestatística; RelaçõesEstatística/Epidemiologia

REFERÊNCIAS BIBLIOGRÁFICAS

ALMEIDA FILHO, N., 1989. Epidemiologia semNúmeros (Introdução Crítica à CiênciaEpidemiológica). Rio de Janeiro: Editora Cam-pus.

ANDERSON, T. W., 1958. An Introduction toMultivariate Statistical Analysis. New York:John Wiley & Sons.

, 1971. The Statistical Analysis of TimeSeries. New York: John Wiley & Sons.

ASH, R. B., 1972. Real Analysis and Probability.New york: Academic Press.

BAILAR, J. C. & MOSTELLER, F. (Ed.), 1986.Medical Uses of Statistics. Waltham, Massa-chussets: NEJM Books.

BAILEY, N. T. J., 1964. The Elements of StochasticProcesses with Applications to the NaturalSciences. New York: John Wiley & Sons.

BARRETO, M. L., 1990. A Epidemiologia, suahistória e crises: notas para pensar o futuro. In:Epidemiologia Teoria e Objeto (D. C. Costa,org.), pp. 19-38, São Paulo: Hucitec-Abrasco.

BARTLETT, M. S., 1960. Stochastic PopulationModels in Ecology and Epidemiology. London:Methuen.

BERGE, C. & GHOUILA-HOURI, A., 1962. Pro-grammes, Jeux et Réseaux de Transport. Paris:Dunod.

BERQUÓ, E. S.; SOUZA, J. M. P. & GOTLIEB, S.L. D., 1984. Bioestatística. São Paulo: E.P.M..

BISHOP, Y.; FINBERG, S. & HOLLAND, P.,1975. Discrete Multivariate Analysis. Cam-bridge: MIT Press.

BRESLOW, N. E. & DAY, N. E., 1980. StatisticalMethods in Cancer Research v.1 - The Analysisof Case-Control Studies. IARC scientificpublication no 32, Lyon, International Agency forResearch on Cancer.

, 1987, Statistical Methods in CancerResearch v.2 - The Design and Analysis ofCohort Studies. IARC scientific publication no

82, Lyon, International Agency for Research onCancer.

BRESLOW, N. E. & ENSTROM, J. E., 1974.Geographic correlations between cancer mor-tality rate and alcohol-tobacco consumption inthe United States. Journal of the NationalCancer Institute, 53: 631-639.

BROWNER, W. S. & NEWMAN, T. B., 1987. Areall significant "p" values created equal? Theanalogy between diagnostic tests and clinicalresearch. Journal of the American Medical Asso-ciation, 257: 2459-2463.

Page 16: Os Caminhos da Estatística e suas Incursões pela Epidemiologia · distribuições de probabilidades, sobressaindo-se notavelmente a obra de Ronald A. Fisher (Hotelling, 1951). São

CASTILLO-CHAVEZ, C. (Ed.), 1989. Mathematicaland Statistical Approaches to AIDS Epidemio-logy. Berlin: Springer-Verlag.

CLIFF, A .D. & HAGGET, P., 1979. Geographicalaspects of epidemic diffusion in closed commu-nities. In: Statistical Applications in the SpatialSciences (N. Wrigley, ed.), pp. 5-44, London:Pion Limited.

CLIFFORD, P.; RICHARDSON, S. & HEMON, D.,1989. Assessing the significance of the correla-tion between two spatial processes. Biometrics,45: 123-134.

COCHRAN, W. G., 1953. Sampling Techniques.New York: John Wiley & Sons.

COSTA, D. C. (Org.), 1990. Epidemiologia Teoriae Objeto. São Paulo: Hucitec/Abrasco.

COOK, D. G. & POCOCK, S. J., 1983. Multipleregression in geographic mortality studies withallowance for spatially correlated errors.Biometrics, 39: 361-371.

COSTNER, H. L., 1965. Criteria for measures ofassociation. American Sociological Review, 30:341-353.

COX, D. R., 1970. Analysis of Binary Data. London:Methuen.

DANIELS, H. E., 1944. The relation between meas-ures of correlation in the universe of samplepermutations. Biometrika, 33: 129-135.

DAVIS, F. N., 1955. Dicing and Gaming (a note onthe history of probability). Biometrika, 42:1-15.

DEMO, P., 1989. Metodologia Científica em Ciên-cias Sociais. São Paulo: Editora Atlas.

DRAPER, N. R. & SMITH, H., 1966. AppliedRegression Analysis. New York: John Wiley &Sons.

FELLER, W., 1968. An Introduction to ProbabilityTheory and Its Applications. 3rd edition, NewYork: John Wiley & Sons.

FERGUNSON, T. S., 1967. Mathematical Statistics(a decision theory approach). New York: Aca-demic Press.

FISHER, R. A., 1956. Statistical Method and Scien-tific Inference. Edinburgh: Oliver and Boyd.

FLEISS, J. L., 1973. Statistical Methods for Rates &Proportions. New York: John Wiley & Sons.

GOLDBERG, M., 1990. Este obscuro objeto daEpidemiologia. In: Epidemiologia Teoria eObjeto (D. C. Costa, org.), pp. 87-136, SãoPaulo: HucitecAbrasco

GOODMAN, L. A., 1979. Simple models for theanalysis of association in cross-classificationhaving ordered categories. Journal of the Ameri-can Statistics Association, 74: 537-552.

GREEN, P. E., 1978. Analysing Multivariate Data.Hinsdale, Illinois: The Dryden Press.

GREENLAND, S., 1988. On sample-size and powercalculations for studies using confidence inter-vals. American Journal of Epidemiology, 128:231-237.

HABERMAN, S. J., 1978. Analysis of QualitativeData. New York Academic Press.

HAMMOND, R. & MC CULLAGH, P. S., 1978.Quantitative Techniques in Geography: anIntroduction. Oxford: Clarendon Press.

HILL, A. B., 1965. Principles of Medical Statistics.New York: Oxford University Press.

HOEL, P. G.; PORT, S. C. & STONE, C. J., 1971.Introduction to Probability Theory. Boston:Houghton Mifflin Company.

HOEL, P. G., 1980. Estatística Matemática. Rio deJaneiro: Editora Guanabara Dois.

HOSMER, D. W. & LEMESHOW, S., 1989. AppliedLogistic Regression. New York: John Wiley &Sons.

HOTELLING, H., 1951. The impact of R. A. Fisheron statistics. Journal of the American StatisticsAssociation, 46: 35-46.

HUFF, D., 1954. How to Lie with Statistics. NewYork W. W. Norton.

IOSIFESCU, M. & TAUTU, P., 1973. StochasticProcesses and Applications in Biology and Medi-cine. New York: Springer-Verlag.

JEFFREYS, H, 1948. Theory of Probability. 2nd ed.,Oxford: Clarendon Press.

JOHNSTON, R. J., 1978. Multivariate StatisticalAnalysis in Geography. London: Longman.

KENDALL, M. G., 1956. Studies in the history ofprobability and statistics: II. Biometrika, 43:1-14.

KNEKT, P.; REUNANEN, A.; AROMAA, A.;HELIOVAARA, M. & HAKAMA, M., 1988.Serum cholesterol and risk of cancer in a cohortof 39,000 men and women. Journal of ClinicalEpidemiology, 41: 519-530.

LAURENTI, R.; JORGE, M. H. P. M.; LEBRÃO,M. L. & GOTLIEB, S. L. D., 1985. Estatísticasde Saúde. São Paulo: Editora Pedagógica e Uni-versitária Ltda.

LEHMANN, E. L., 1959. Testing Statistical Hypoth-eses. New York: John Wiley & Sons.

LI, C. C., 1975. Path Analysis-a Primer. PacificGrove, California: The Boxwood Press.

LINDLEY, D. V., 1957. A statistical paradox.Biometrika, 44: 187-192.

LOWY, M., 1991. Ideologias e Ciência Social -Elementos para uma Análise Marxista. SãoPaulo: Cortez Editora.

Page 17: Os Caminhos da Estatística e suas Incursões pela Epidemiologia · distribuições de probabilidades, sobressaindo-se notavelmente a obra de Ronald A. Fisher (Hotelling, 1951). São

MORGENSTERN, H., 1982. Uses of ecologicanalysis in epidemiologic research. AmericanJournal of Public Health, 72: 1336-1344.

MORGENSTERN, H., 1989. Epidemiologic Meth-ods, class notes (Mimeo.).

NARAYAN BHAT, U., 1972. Elements of AppliedStochastic Processes. New York: John Wiley &Sons.

NEUTS, M. F., 1973. Probability. Boston: Allyn andBacon Inc..

NUNES, E. D. (Org.), 1985. As Ciências Sociais emSaúde na América Latina: tendências e perspec-tivas. Brasília: OPAS.

OAKES, M., 1990. Statistical Inference. ChestnutHill, MA: Epidemiology Resources Inc.

OPENSHAW, S. & TAYLOR, P. J., 1979. A millionor so correlation coefficients: three experimentson the modifiable areal unit problem. In:Statistical Applications in the Spatial Sciences(N. Wrigley, ed.), pp. 128-144, London: PionLimited.

ORGANIZAÇÃO MUNDIAL DA SAÚDE, 1978.Classificação Internacional de Doenças, Lesõese Causas de Óbitos: 9a revisão. Vol. 1. SãoPaulo, Centro da OMS para classificação dedoenças em Português.

PIANTADOSI, S.; BYAR, D. P. & GREEN, S. B.,1988. The ecological fallacy. American Journalof Epidemiology, 127: 893-900.

PHILLIPS, L. D., 1973. Bayesian Statistics forSocial Scientists. London: Nelson.

POLLARD, A. H. ; YUSUF, F, & POLLARD, G.N., 1974. Demographic Techniques. Sydney:Pergamon Press.

RANKIN, B., 1966. The history of probability andthe changing concept of the individual. Journalof the History of Ideas, 27: 483-504.

RAO, C. R., 1973. Linear Statistical Inference andIts Applications. New York: John Wiley & Sons.

RAUBERTAS, R. F., 1988. Spatial and temporalanalysis of disease occurrence for detection ofclustering. Biometrics, 44: 1121-1129.

REMINGTON, R. D. & SCHORK, M. A., 1970.Statistics with Applications to the Biological andHealth Sciences. Englewoods Cliffs, New Jersey:Prentice-Hall.

RICHARDSON, S.; STUCKER, I. & HEMON, D.,1987. Comparison of relative risks obtained inecological and individual studies: some methodo-logical considerations. International Journal ofEpidemiology, 16: 111-120.

ROBINSON, W. S., 1950. Ecological correlationsand the behavior of individuals. American Socio-logical Review, 15: 351-357.

SABROZA, P. C., 1990. Prefácio. In: EpidemiologiaTeoria e Objeto ( D. C. Costa, org.), pp. 7-10,São Paulo: Hucitec/Abrasco.

SAVAGE, L. J., 1954. The Foundations of Statistics.London: Routledge and Kegan Paul.

SEARL, S. R., 1971. Linear Models. New York:John Wiley & Sons.

STEEL, R. G. D. & TORRIE, J. H., 1981. Principlesand Procedures of Statistics (a biometricalapproach). Singapore: Me Graw-Hill.

SUSSER, M., 1985. Epidemiology in the UnitedStates after World War II: the evolution of tech-nique. Epidemilogic Reviews, 7: 147-177.

TANGO, T., 1984. The detection of disease clus-tering in time. Biometrics, 40: 15-26.

UK NATIONAL CASE-CONTROL STUDYGROUP, 1989. Oral contraceptive use and breastcancer risk in young women. The Lancet, May6: 973-982.

WALKER, H. M., 1958. The contributions of KarlPearson. Journal of the American Statistics Asso-ciation, 53: 11-27.

WOLFOWITZ, J., 1952. Abraham Wald, 1902-1950.Annals of Mathematical Statistics, 23: 1-13.

YULE, G. U. & KENDALL, M. G., 1950. AnIntroduction to the Theory of Statistics. London:Charles Griffin.