historia_estatistica

Embed Size (px)

Citation preview

ISSN 1677-5473

Empresa Brasileira de Pesquisa Agropecuria Secretaria de Gesto e Estratgia Ministrio da Agricultura, Pecuria e Abastecimento

Texto para Discusso 21

Breve Histria da Estatstica

Jos Maria Pompeu Memria

Embrapa Informao Tecnolgica Braslia, DF 2004

1

Exemplares desta publicao podem ser adquiridos na: Empresa Brasileira de Pesquisa Agropecuria Edifcio-Sede da Embrapa Secretaria de Gesto e Estratgia Parque Estao Biolgica PqEB Av. W3 Norte (final) CEP 70770-901 Braslia, DF Fone (61) 448-4449 Fax: (61) 448-4319 Editor desta srie Antnio Jorge de Oliveira Coordenador editorial Vicente G. F. Guedes Corpo editorial Antnio Flvio Dias vila Antnio Jorge de Oliveira Antnio Raphael Teixeira Filho Ivan Srgio Freire de Sousa Levon Yeganiantz Produo editorial e grfica Embrapa Informao Tecnolgica Reviso de texto e tratamento editorial Francisco C. Martins Normalizao bibliogrfica Dau Antunes Corra Editorao eletrnica Jlio Csar da Silva Delfino Projeto grfico Tnisson Waldow de Souza 1 edio 1 impresso (2004): 500 exemplares

Todos os direitos reservados. A reproduo no autorizada desta publicao, no todo ou em parte, constitui violao dos direitos autorais (Lei no 9.610). Dados Internacionais de Catalogao na Publicao CIP Embrapa Informao Tecnolgica Memria, Jos Maria Pompeu. Breve histria da estatstica / Jos Maria Pompeu Memria. Braslia, DF : Embrapa Informao Tecnolgica, 2004. 111 p. ; 21 cm. (Texto para discusso, ISSN 1677-5473 ; 21). 1. Estatstica. I. Ttulo. III. Srie. CDD 519.5 (21a ed.)

Embrapa 2004

2

ApresentaoTexto para Discusso um veculo utilizado pela Secretaria de Gesto e Estratgia, da Empresa Brasileira de Pesquisa Agropecuria Embrapa , para dinamizar a circulao de idias novas e a prtica de reflexo e de debate sobre aspectos relacionados cincia, tecnologia, ao desenvolvimento agrcola e ao agronegcio. O objetivo desta srie fazer com que uma comunidade mais ampla, composta de profissionais das diferentes reas cientficas, debata os textos apresentados, contribuindo para o seu aperfeioamento. O leitor poder apresentar comentrios e sugestes, assim como debater diretamente com os autores, em seminrios especialmente programados, ou utilizando qualquer um dos endereos fornecidos: eletrnico, fax ou postal. Os trabalhos para esta coleo devem ser enviados Embrapa, Secretaria de Gesto e Estratgia, Edifcio-Sede, Parque Estao Biolgica PqEB , Av. W3 Norte (Final), CEP 70770-901 Braslia, DF. Contatos com a Editoria devem ser feitos pelo fone (61) 448-4449 ou pelo fax (61) 448-4319. Os usurios da Internet podem acessar as publicaes pelo endereo http://www.embrapa.br/unidades/ uc/sge/textdiscussao.htm/. Para os usurios do Sistema Embrapa, basta clicar em novidades, na Intranet. O Editor

3

4

SumrioIntroduo ................................................................ 9 Primrdios ............................................................... 11 A Escola Biomtrica ................................................ 26 A Fase da Experimentao ...................................... 36 Desenvolvimento dos Levantamentos por Amostragem .............................. 68 A Era Atual ............................................................. 81 Referncias ............................................................. 92

5

6

21

DiscussOpara

TextO

Breve Histria da Estatstica

Jos Maria Pompeu Memria1

1

Pesquisador aposentado da Empresa Brasileira de Pesquisa Agropecuria Embrapa Parque Estao Biolgica PqEB Av. W3 Norte (final), CEP 70770-900 Braslia, DF, Brasil

7

8

Introduo

Auguste Comte1 No se conhece completamente uma cincia, a menos que se saiba sua histria.

.N

esta Breve Histria da Estatstica, o assunto est exposto didaticamente em cinco sees, a saber: Primrdios, dividida em trs partes: Contribuio da Astronomia, A Influncia de Qutelet, e As Idias de Galton. A Escola Biomtrica. A Fase da Experimentao, tambm dividida em trs partes: Fundamentos Tericos da Estatstica, Anlise de Varincia e Delineamentos Experimentais, e Teste de Hipteses Estatsticas. Desenvolvimento dos Levantamentos por Amostragem e, finalmente. A Era Atual, onde enfatizada a revoluo causada pelos computadores.

1

Do Cours de Philosophie Positive. Citao extrada do livro Histoire de la Dmographie de Jacques et Michel Dupquier Paris: Librairie Academique Perrin, 1985. p. 17.

9

Contudo, a exposio no tem carter puramente descritivo das descobertas cronologicamente acumuladas, mas procura salientar as influncias recprocas entre as personalidades mais representativas e suas idias sobre a origem e o desenvolvimento dos mtodos e tcnicas mais importantes, que contriburam na formao da Estatstica como disciplina autnoma, numa perspectiva integrada prpria histria da cincia. No tarefa fcil saber quando se originou a histria de qualquer ramo do conhecimento, pois isso vai depender do conceito que fizermos dele e que, naturalmente, evoluir no decorrer do tempo. A histria da Estatstica bem confirma esta assero. Ainda hoje, no conceito popular a palavra estatstica evoca dados numricos apresentados em quadros ou grficos, publicados por agncias governamentais, referentes a fatos demogrficos ou econmicos. A etimologia da palavra, do latim status (estado), usada aqui para designar a coleta e a apresentao de dados quantitativos de interesse do Estado, bem reflete essa origem. Entretanto, a mera coleta de dados assim apresentados est longe de ser o que entendemos, hoje, por Estatstica. Na verdade, sua feio essencial a de ser um conjunto de mtodos (mtodos estatsticos), especialmente apropriado, no dizer de George Udny Yule (1871 1951), ao tratamento de dados numricos afetados por uma multiplicidade de causas. Esses mtodos fazem uso da Matemtica, particularmente do clculo de probabilidades, na coleta, apresentao, anlise e interpretao de dados quantitativos.

10

Primrdios

.D

esde remota antigidade, os governos tm se interessado por informaes sobre suas populaes e riquezas, tendo em vista, principalmente, fins militares e tributrios. O registro de informaes perde-se no tempo. Confcio relatou levantamentos feitos na China, h mais de 2000 anos antes da era crist. No antigo Egito, os faras fizeram uso sistemtico de informaes de carter estatstico, conforme evidenciaram pesquisas arqueolgicas. Desses registros tambm se utilizaram as civilizaes prcolombianas dos maias, astecas e incas. conhecido de todos os cristos o recenseamento dos judeus, ordenado pelo Imperador Augusto. Os balancetes do imprio romano, o inventrio das posses de Carlos Magno, o Doomsday Book, registro que Guilherme, o Conquistador, invasor normando da Inglaterra, no sculo 11, mandou levantar das propriedades rurais dos conquistados anglo-saxes para se inteirar de suas riquezas, so alguns exemplos anteriores emergncia da estatstica descritiva no sculo 16, na Itlia. Essa prtica tem sido continuada nos tempos modernos, por meio dos recenseamentos, dos quais temos um exemplo naquele que se efetua a cada decnio, em nosso Pas, pela Fundao IBGE, rgo responsvel por nossas estatsticas (dados estatsticos) oficiais. Com o Renascimento, foi despertado o interesse pela coleta de dados estatsticos, principalmente por suas aplicaes na administrao pblica. A obra pioneira de Francesco Sansovini (1521 1586), representante da 11

orientao descritiva dos estatsticos italianos, publicada em 1561, um exemplo dessa poca. Deve ser mencionado ainda o reconhecimento por parte da Igreja Catlica Romana da importncia dos registros de batismos, casamentos e bitos, tornados compulsrios a partir do Conclio de Trento (1545 1563). Entretanto, mais amplos e gerais foram os estudos feitos pelos alemes, especialmente por Gottfried Achenwall (1719 1772), professor da Universidade de Gttingen, a quem se atribui ter criado o vocbulo estatstica, em 1746. Contudo, nada mais fizeram do que dar melhor sistematizao e definio da mesma orientao descritiva dos estatsticos italianos. Acreditar nessas atividades como o comeo da histria da estatstica deixar de compreender o verdadeiro significado da Estatstica. Podemos dizer que o desenvolvimento da estatstica teve origem nas aplicaes, pois nenhuma disciplina tem interagido tanto com as demais disciplinas em suas atividades do que ela, dado que por sua natureza a cincia do significado e do uso dos dados. Da, sua importncia como instrumento auxiliar na pesquisa cientfica. A primeira tentativa para se tirar concluses a partir de dados numricos foi feita somente no sculo 17, na Inglaterra, com o que foi denominado Aritmtica Poltica, que evoluiu para o que se chama hoje de demografia. Contudo, s comeou realmente a existir como disciplina autnoma no raiar do sculo 20, o verdadeiro incio da estatstica moderna. A tentativa acima referida foi feita por John Graunt (1620 1674), um prspero negociante londrino de tecidos que em 1662, publicou um pequeno livro intitulado 12

Natural and Political Observations Mentioned in a Following Index and Made upon the Bills of Mortality. Sua anlise foi baseada sobre razes e propores de fatos vitais, nos quais ele observou uma regularidade estatstica num grande nmero de dados. Por seu trabalho foi eleito Fellow of the Royal Society (F. R. S.), sociedade cientfica fundada em 1660, por Carlos II. Os dados usados por Graunt compreendiam uma serie anual de 1604 a 1660, coletados nas parquias de Londres, de onde ele tirou as seguintes concluses: que havia maior nascimento de crianas do sexo masculino, mas havia distribuio aproximadamente igual de ambos os sexos na populao geral; alta mortalidade nos primeiros anos de vida; maior mortalidade nas zonas urbanas em relao s zonas rurais. Graunt era cnscio de ser leigo no assunto, pois no era mdico, nem matemtico, nem poltico, mas apenas uma mente curiosa que utilizou com lgica uma anlise, pode-se dizer cientfica, dos registros disponveis sobre mortalidade. Com seus dados, elaborou uma tbua de vida rudimentar, baseada apenas na sobrevivncia nas idades de 6 a 76 anos. Foi William Petty (1623 1683), contemporneo e continuador de Graunt, quem denominou de Aritmtica Poltica nova arte de raciocinar por meio de dados sobre fatos relacionados com o governo. Em 1683, ele publicou sua obra Five Essays on Political Arithmetic e sugeriu que fosse criada uma repartio de registro de estatsticas vitais, mas isso s se consolidou no sculo 19, com o Dr. William Farr (1807 1883), contribuidor original da estatstica mdica. Note-se que a denominao 13

posterior de estatstica acabou por incluir a Estatstica Descritiva e a Aritmtica Poltica. Dos trabalhos desse perodo, sem dvida, o mais importante foi o do astrnomo ingls Edmond Halley (1656 1742), que em 1693 construiu a primeira tbua de sobrevivncia, elaborada com os registros vitais da cidade alem de Breslu (atual Wroclaw, Polnia), referentes ao perodo de 1687 a 1691, elemento bsico para o clculo de seguros de vida. Embora o seguro comercial tivesse sido praticado pelos babilnios e fosse conhecido dos gregos e dos romanos, Halley , com justia, considerado o criador do clculo atuarial. Deve ser ainda mencionado o nome de Richard Price (1723 1791), o fundador da aturia, na Inglaterra. Contemporneo desse perodo em que as idias estatsticas tiveram inicio, desenvolveu-se o clculo de probabilidades, mas independentemente dessas idias, vindo entretanto a influenci-las posteriormente. O clculo de probabilidades originou-se da correspondncia entre dois grandes matemticos do sculo 17: Blaise Pascal (1623 1662) e Pierre de Fermat (1601 1665), para solucionar problemas relacionados com jogos de azar, em moda nos sales da Frana, sustentados pelo lazer de uma aristocracia. Desses problemas, os mais clebres foram propostos a Pascal em 1654, pelo nobre francs Chevalier de Mr, jogador de grande experincia e perspiccia. Na verdade, antes de Pascal e Fermat, j alguns matemticos italianos como Niccol Fontana Tartaglia (1499 1557), Girolamo Cardano (1501 1576), seguidos por Galileu Galilei (1564 1642) interessaram-se por problemas de probabilidades relacionados com jogos de dados. 14

Os primeiros problemas sobre probabilidades refletiram o desenvolvimento da anlise combinatria em jogos de azar. Em todos eles eram examinados os diferentes modos em que arranjos e combinaes podiam ser empregados na enumerao dos casos favorveis. Esses problemas eram dominados por consideraes sobre os casos igualmente provveis, com as probabilidades determinadas a priori, onde foi utilizado o seguinte tipo de raciocnio: dado uma urna contendo a (bolas pretas) e b (bolas brancas), a probabilidade de se extrair uma bola preta igual aa . a +b

O primeiro matemtico a considerar situaes em que no era possvel a enumerao de casos igualmente possveis foi Jacob Bernoulli (1654 1705), professor da Universidade de Basilia, Sua, e primeiro membro de uma numerosa famlia de matemticos suos, que props determinar a probabilidade de tais casos a posteriori, isto , pela freqncia relativa do nmero de casos favorveis determinada empiricamente, em sua obra Ars Conjectandi, publicada postumamente em 1713, por seu sobrinho Nicholas Bernoulli. A novidade consistia na tentativa de dar um tratamento formal noo vaga de quanto maior fosse o acmulo de evidncia sobre uma desconhecida proporo de casos, mais prximo estar-se-ia de aceitar essa proporo, isto , medida que o nmero de observaes aumenta. Pode-se afirmar que J. Bernoulli abriu o caminho para a quantificao da incerteza com seu teorema cujo enunciado, na sua forma moderna, o que se conhece como a lei fraca dos grandes nmeros. Numa de suas formas mais conhecidas, pode ser expresso da seguinte maneira: 15

Paralelamente ao trabalho dos probabilistas, desenvolveram-se mtodos de grande utilidade no tratamento dos dados de observao, em particular da Astronomia e da Geodsia, de onde surgiu a Teoria dos Erros. A importncia da curva normal e o uso amplo da palavra erro, bem demonstram o quanto desses conceitos foi incorporado teoria estatstica, o que justifica a abertura de uma parte sobre essa contribuio.

Contribuio da AstronomiaDe h muito tempo que os astrnomos tinham solues praticas para lidar com o problema de conciliar observaes discordantes como, por exemplo, tomando a media aritmtica dessas observaes, aps descarte daquelas muito discordantes (outliers). Entretanto, foi somente no sculo 18 que ocorreu nos de mente mais matemtica dar um tratamento que conduziu curva de freqncia dos erros acidentais. Assim, os trabalhos mais importantes devem-se a dois dos maiores matemticos de todos os tempos: Pierre Simon, Marqus de Laplace (1749 1827) e Carl Friedrich Gauss (1777 1855). A maior contribuio de Laplace, na teoria de probabilidades, hoje conhecida por teorema central (fundamental) do limite e pode ser descrita como uma generalizao do teorema do limite de De Moivre. Na sua forma clssica, o Teorema Central do Limite enuncia que:Qualquer soma ou mdia de variveis aleatrias tem, para um grande nmero de termos, uma distribuio aproximadamente normal.

17

Em 1810, Laplace publicou Mmoire sur les formules qui sont function de trs-grands nombres. Vrios eminentes matemticos contriburam, posteriormente, para seu desenvolvimento, emprestandoo maior rigor. Atualmente, podemos enunci-lo em sua forma clssica, do seguinte modo: se uma populao tem varincia finita 2 e mdia , a distribuio da mdia aritmtica de n observaes aproxima-se de uma distribuio normal com varincia e mdia , medida n que o tamanho n da amostra aumenta. O fato notvel que nenhuma restrio feita sobre a funo de densidade da populao original. Da, a grande importncia da distribuio normal na teoria e aplicaes da Estatstica. As contribuies de Laplace foram sintetizadas na sua obra monumental Thorie Analytique des Probabilits, publicada em 1812. Independentemente, Gauss chegou curva dos erros com esprito emprico, adotando como axioma o princpio de que o valor mais provvel de uma quantidade desconhecida, observada com igual preciso vrias vezes sob as mesmas circunstncias, a mdia aritmtica das observaes. Aps vrias consideraes gerais a priori sobre a funo de freqncia dos erros f (x), como a de ter um mximo para x = 0, de ser simtica e admitir valor nulo fora do limite dos erros possveis, obteve a curva dos erros, que ficou conhecida como a curva de Gauss. Seu trabalho foi publicado em 1809, com o ttulo latino Theoria Motus Corporum Coelestium in Sectionibus Conicis Solum Ambientium, com uma seo final sobre combinaes

2

18

das observaes e a curva dos erros. Esses estudos levaram-no a enunciar o Princpio dos Mnimos Quadrados. Com efeito, numa distribuio normal, a probabilidade dos erros x1x2,...,xn ocorrerem simultaneamente mxima, quando a soma dos quadrados dos desvios ou erros for mnima. O valor obtido para que essa condio se verifique a mdia aritmtica das observaes, que fica assim justificada como o melhor meio de se combinar as observaes, se os erros seguem uma distribuio normal. O argumento de Gauss pode ser acusado de circular. Posteriormente, Gauss melhorou sua argumentao, publicando em 1823, a obra Theoria Combinationis Observationum Erroribus Minimis Obnoxiae. Entretanto, justia deve ser feita ao matemtico francs Andr Marie Legendre (1752 1833), que em 1805 j havia proposto o mtodo dos mnimos quadrados como aplicvel para combinar observaes astronmicas e geodsicas, baseado em critrio intuitivo. Gauss, no entanto, considerou ter prioridade na idia, pois j vinha se preocupando com ela desde 1795. A obra de Legendre, chamada Nouvelles Mthodes pour la Determination des Orbites des Comtes continha o apndice Sur la mthode des moindres quarrs. A curva normal ficou mais conhecida como curva de Gauss e o princpio dos mnimos quadrados foi atribudo a Gauss, que o utilizou como mtodo de estimao de parmetros. Pode-se invocar aqui, a Lei de Eponmia de Stigler, citada em Stigler (1980, p. 147), Nenhuma descoberta cientfica conhecida pelo nome do seu inventor original. 19

Em seguida, sero vistas outras influncias na formao da Estatstica, a corrente social e a corrente biolgica, representadas respectivamente pelos grandes vultos de Qutelet e Galton.

A influncia de QuteletAdolphe Qutelet foi quem primeiro percebeu que a Estatstica deveria ser baseada na noo de probabilidade. Ningum, melhor do que ele, representa a nova influncia oriunda das cincias sociais (chamadas, na poca, de morais), trazendo de volta a preocupao com o social originada pela Escola de Aritmtica Poltica. De cultura universal, Qutelet foi matemtico, astrnomo, fsico, estatstico, poeta, escritor e at artista. Lambert Adolphe Jacques Qutelet (1796 1874) nasceu em Gand e faleceu em Bruxelas, Blgica. Com justia, considerado o pai das estatsticas pblicas, e o iniciador da colaborao internacional. Suas duas maiores contribuies na anlise estatstica dos dados sociais foram o conceito de homem mdio e o ajustamento da distribuio normal, conjugados com a interpretao da regularidade estatstica. Sua principal obra, Essai de Physique Sociale, publicada em 1835, dividida em quatro volumes. Os dois primeiros so consagrados s qualidades fsicas do homem, o terceiro s qualidades morais e intelectuais, e o quarto sobre as propriedades do homem mdio e o sistema social. Seu conceito de homem mdio uma fico estatstica destinada a facilitar as comparaes no espao e no tempo. Neste conceito, a originalidade de Qutelet no ter calculado as mdias aritmticas das medidas, mas em ter considerado suas 20

disperses e descoberto que a curva normal (este nome foi dado, posteriormente, por Galton e Pearson curva dos erros, como era ento conhecida) podia ser ajustada satisfatoriamente s medidas de peso, estatura e permetro torcico por ele feitas em recrutas franceses. Coletou, tambm, dados sobre criminalidade e delinqncia, agrupando-os de acordo com o sexo, a idade, a escolaridade e o tipo de delito, introduzindo a idia de predisposio ao crime. Qutelet foi um organizador eficiente e hbil. So exemplos desse trao de sua personalidade, a construo do Observatrio Astronmico de Bruxelas, a criao da Comission Centrale de Statistique, em 1841, e a organizao do Congresso Internacional de Meteorologia, em 1873, em Viena, pouco antes de falecer. Sua grande idia era a constituio de uma rede internacional de observaes meteorolgicas, segundo mtodos uniformes. Planejou um recenseamento do Reino dos Pases Baixos para 1829 (que ento compreendia Blgica, Holanda e Luxemburgo), tendo pensado em utilizar o mtodo da estimativa da razo para estimar a populao, conhecido por mtodo do multiplicador, devido a Laplace, que o empregou em 1802, determinando o nmero de nascimentos na Frana e multiplicando esse nmero pela razo da populao para os nascimentos. Essa razo fora estimada tomando-se o censo em algumas comunidades selecionadas, escolhidas em 30 departamentos (distritos) espalhados por todo o pas, e o nmero de nascimentos nessas comunidades baseado na mdia dos 3 anos 1800, 1801 e 1802. Laplace no tinha idia de amostra aleatria, mas usou um processo que se aproximou dela, tendo obtido para a mencionada razo, o valor 28,35282, usado como 21

multiplicador. Entretanto, Qutelet no se utilizou desse critrio, por achar que havia muita variao nos Pases Baixos, o que demandaria um grande nmero de regies a serem escolhidas para sua determinao, sendo to dispendioso quanto se fosse feita a enumerao total. Essa enumerao acabou sendo feita em 1846, no recenseamento geral da populao, agricultura e indstria para a Blgica, j ento independente desde 1830. As atividades internacionais de Qutelet no foram menos notveis. Assim, em 1853, organizou o primeiro Congresso Internacional de Estatstica, em Bruxelas, iniciativa que em 1885, levou criao do Instituto Internacional de Estatstica, em Londres. A sede atual desse Instituto em Haia, na Holanda. Qutelet foi tambm responsvel pela fundao da Statistical Society of London, em 1834, posteriormente denominada Royal Statistical Society.

As idias de GaltonSir Francis Galton (1822 1911) considerado por Stigler (1986), um personagem romntico na Histria da Estatstica e talvez o ltimo dos cientistas fidalgos. Foi a leitura do livro de Charles Darwin (de quem era meio primo em primeiro grau) sobre Origin of Species (1859), responsvel em transform-lo de gegrafo amador em antroplogo e eugenista (a palavra eugenia foi cunhada por ele, em 1883). Sob o ponto de vista estatstico, seu livro Natural Inheritance, publicado em 1889, provavelmente sua obra mais importante. Ele elaborou a sugesto de que a distribuio normal completamente determinada pela 22

declividade da linha de regresso dos filhos em relao aos pais, uma vez que o meio-pai era a mdia de duas alturas no correlacionadas, cada uma com a mesma disperso populacional. Os conhecimentos matemticos de Galton no eram suficientes para lidar com o problema e ento ele apelou para seu amigo J. D. Hamilton Dickson, professor de Matemtica na Universidade de Cambridge, para achar a frmula da superfcie encontrada, que nos tempos atuais corresponde da funo normal bidimensional. Ainda no havia ocorrido a Galton a expresso exata da correlao, pois desconhecia seu sinal. Ele expressouse sobre a co-relao (s depois escrita correlao), como conseqncia das variaes devidas a causas comuns. A letra r foi inspirada na letra inicialmente usada para designar a reverso. Os efeitos de posio e de escala das observaes das variveis foram eliminados com a padronizao das variveis por meio da centragem sobre a mediana e pela eliminao do efeito escala pela diviso pelo desvio semiquartlico. Contudo, essa padronizao trazia a inconvenincia de produzir valores de r maiores que a unidade. A frmula por ele proposta foi modificada por Walter Frank Raphael Weldon (1860 1906), professor de Zoologia em Cambridge, muito ligado a Galton, que chegou necessidade de se atribuir um sinal positivo ou negativo ao examinar as dimenses de 22 pares de rgos de vrias espcies de camares. Entretanto, a frmula do coeficiente de correlao, como hoje conhecida, s foi determinada em 1896, por Karl Pearson. Galton interessou-se, tambm, pela utilizao dos mtodos estatsticos em Psicologia. Conjuntamente com 24

o psiclogo americano James McKeen Cattell (1860 1944), pioneiro desses estudos nos Estados Unidos, produziu dados estatsticos de distribuio assimtrica que contrariavam suas concepes tericas, nas quais predominavam o conceito de curva normal. Mais uma vez, venceu sua limitao em matemtica com a ajuda de seu amigo matemtico Donald MacAlister, que sugeriu a transformao dos dados por seus logaritmos, surgindo, da, a distribuio normal logartmica, usando a mdia geomtrica como medida de posio mais apropriada. Os interesses de Galton foram amplos e variados, bem prprios da versatilidade de seu talento, mas na Psicologia, sua preocupao precpua foi a medida das diferenas individuais e a influncia desempenhada pela hereditariedade (nature) e pelo meio ambiente (nurture) na manifestao dessas diferenas, tanto nos traos fsicos como nos mentais, particularmente na inteligncia. Galton foi herdeiro de grande fortuna, tendo deixado filantropicamente 45 mil libras esterlinas para a fundao de uma ctedra de Eugenia, na Universidade de Londres e, 200 libras esterlinas para a publicao de uma revista destinada s aplicaes da Estatstica herana biolgica, denominada Biometrika, cujo primeiro nmero saiu em 1901, e publicada at hoje, sem interrupo, embora com a finalidade ampliada. Em 1904, fundou um laboratrio de pesquisas sobre a gentica humana, que veio a ser denominado Galton Laboratory of National Eugenics cujo primeiro diretor foi Karl Pearson, que com o prprio Galton e foram os fundadores da Escola Biomtrica. Em reconhecimento as suas inmeras contribuies, foi-lhe concedido o ttulo honorfico de Sir, em 1909. 25

A Escola Biomtrica

.A

Escola Biomtrica floresceu na Inglaterra, entre o final do sculo 19 e o comeo do sculo 20, mais precisamente entre 1890 e 1920. Foi um dos grandes perodos formativos da historia da Estatstica, com a predominncia das tcnicas de correlao e ajustamento de curvas, de notveis resultados na descrio das grandes amostras. Seu principal representante foi Karl Pearson (1857 1936), considerado, com justia, o fundador da Estatstica. Pearson estudou Matemtica em Cambridge, a universidade britnica de maior tradio nesse assunto. Antes de se interessar pela estatstica, exerceu varias atividades, entre elas a de lecionar matemtica aplicada e mecnica no curso de engenharia do University College nome dado instituio de ensino superior do antigo sistema de educao britnico afiliado Universidade de Londres. Homem de grande erudio, capacidade de trabalho e forte personalidade, seu pensamento filosfico influenciou suas idias estatsticas. Em 1892, publicou sua obra clssica de filosofia, The Grammar of Science, de grande repercusso. De acordo com Pearson, toda variao se dava numa escala contnua; as variveis descontnuas ou discretas seriam variveis contnuas com interrupes, e as medidas de associaes entre elas teriam o propsito de, na verdade, estimar a correlao subjacente entre as variveis contnuas. Essas pressuposies foram feitas porque ele estava convencido de que a concepo unificada da cincia era possvel graas ao conceito de correlao no lugar da 26

Nessa frmula, usou os desvios em relao media aritmtica e no mediana, e o desvio-padro (termo por ele cunhado), em vez do desvio semiquartlico, conforme tinha sido usado anteriormente. Seus estudos subseqentes levaram-no ao desenvolvimento da regresso e correlao mltiplas e foram a base de nmerosos artigos escritos pelo prprio Pearson e seus colaboradores, distinguindo-se entre eles George Udny Yule, que foi seu assistente de 1893 a 1912. Yule conhecido, especialmente, por seu livro An Introduction to the Theory of Statistics, cuja primeira edio de 1911 e, a partir da dcima-primeira, em 1937, contou com a co-autoria do renomado estatstico Maurice George Kendall (1907 1983). Esse livro de Yule & Kendall (1937) foi por muito tempo o texto clssico sobre mtodos estatsticos de maior aceitao, principalmente entre os economistas. Em 1912, Yule transferiu-se para Cambridge, como lecturer (professor-assistente), posteriormente promovido a reader (professor-adjunto), cargo em que se aposentou precocemente, em 1931. Em analogia com o coeficiente de correlao como medida da associao de dados quantitativos, Yule introduziu o coeficiente de associao para a medida do grau de associao em tabelas de contingncia 2 x 2, que levou a longa controvrsia quando foi sugerido considerarse a tabela 2 x 2 como dupla dicotomia de uma superfcie normal bidimensional. Karl Pearson (1901) desenvolveu um mtodo de estimar essa correlao, chamando-a de correlao tetracrica. Hoje, tanto o coeficiente de associao como a correlao tetracrica caram em desuso, sendo considerados apenas uma curiosidade estatstica. Em seus trabalhos sobre correlao e regresso 28

diferentes famlias de curvas so obtidas quando se admitem vrias relaes entre as constantes a, b0 , b1 e b2 . As solues dessa equao foram classificadas, por Pearson, em 12 famlias de curvas, aquelas de determinada famlia, sendo chamadas do Tipo I, as de uma segunda famlia do Tipo II, e assim, sucessivamente; a curva normal do Tipo VII e obtida pela integrao da citada equao diferencial, fazendo b1 e b2 = 0. As diversas curvas de Pearson tm vrias formas causadas por um grau maior ou menor de assimetria e achatamento. Foram largamente usadas nas amostras grandes, mas, atualmente, apresentam apenas interesse acadmico. O artigo fundamental de Pearson (1895) sobre esse assunto foi publicado em Contributions to the Matemathical Theory of Evolution. A quem se interessar por maiores detalhes, aconselha-se consultar o livro de W. P. Elderton (1927). O conhecimento dos ndices de assimetria e de achatamento ou curtose (kurtosis), conforme denominado por Pearson (cuja preferncia pelos termos de origem grega era notria), requer os conhecimentos de certas quantidades obtidas por meio dos chamados momentos de ordem superior. Pearson tomou o termo momento emprestado da Fsica e fez largo uso desse conceito, a partir de 1893, mas j era conhecido antes. No Sistema de Pearson, o conjunto de funes contnuas tem seus parmetros expressos em termos de momentos; as curvas ficaro determinadas, se conhecermos os quatro primeiros momentos. O momento de ordem k em relao media o valor esperado k = E (x )k. Assim, para k = 2 obtm-se a varincia 2 = E(x )2 = 2. 30

significncia para comprovar o ajustamento das curvas de freqncia (goodness of fit). Para isso, Pearson (1900) usou a distribuio do qui-quadrado por ele descoberta. Na verdade, foi uma redescoberta, embora Pearson no tivesse conhecimento, pois o astrnomo alemo F. R. Helmert j a havia descoberto em 1875, mas noutro contexto, constituindo mais um exemplo da lei de eponmia, de Stigler. Entretanto, nas aplicaes do teste do quiquadrado tanto no teste de aderncia (goodness of fit) das curvas de freqncia, como na existncia de associao nas tabelas de contingncia, usou o nmero errado de graus de liberdade, por no ter percebido corretamente as restries impostas e a perda de um grau de liberdade para cada parmetro estimado. Assim, que no teste de significncia da existncia de associao, numa tabela 2 x 2, Pearson usou o teste com trs graus de liberdade, em vez de um grau de liberdade. Yule percebeu esse erro e conseguiu mostrar, construindo um grande nmero de tabelas, que para uma tabela de contingncia rxc, o nmero correto de graus de liberdade seria (r1) (c1), mas no conseguiu provar sua proposio, restando a Fisher (1922a) faz-la. Com o aumento de trabalho, Pearson procurou angariar recursos para continuar as atividades do Laboratrio de Biometria, obtendo em 1903, a primeira de uma serie de doaes. Uma doao de Galton levou fundao do Laboratrio de Eugenia, em 1907. Esses laboratrios foram combinados em 1911, quando foi estabelecido o Departamento de Estatstica Aplicada, e Pearson passou a ocupar a ctedra Galton de Eugenia no University College, cargo em que permaneceu at sua aposentadoria, em 1933. 32

2 conta a distribuio de s =

que ele n mostrou, por meio do clculo dos momentos, ser do Tipo III das curvas de Pearson (em essncia uma

( X X )2

distribuio do 2 ) e ademais que s 2 e X eram independentemente distribudas, Student derivou a distribuio de Z =X , que devido a Fisher passou s

mais tarde a ser conhecida por t = Z n 1, sendot = ( X )

(X X )

2

n(n 1)

O prprio Student denominou-a t e veio a ser conhecida como distribuio t de Student. Deve ser consultado, a esse repeito, o artigo de Churchill Eisenhart (1979). A contribuio de Student no foi devidamente apreciada na poca, pois para Karl Pearson, as pequenas amostras no eram fidedignas, devendo ser evitadas. Foi Fisher quem reconheceu o mrito desse trabalho, ao qual emprestou seu gnio para desenvolv-lo teoricamente. Gosset publicou ainda vrios trabalhos, sempre com o pseudnimo de Student, imposio da Cervejaria Guinness, que no permitia a seus tcnicos usarem seus prprios nomes em suas publicaes. Mas isso ser assunto para a seo seguinte, A Fase da Experimentao. No perodo em que exerceu a ctedra, Pearson dedicou boa parte de seu tempo construo de tabelas estatsticas, numa poca em que predominava o uso das 34

mquinas de calcular manuais! Foram ento publicadas as seguintes tabelas: Tables for Statisticians and Biometricians (1914 1931), Tables for the Incomplete Gama Function (1922), Tables for the Incomplete Beta Funcion (1934), que se revelaram de grande utilidade queles que pesquisavam em estatstica. Alm disso, esteve ocupado com suas funes editoriais da Biometrika, atividade que exerceu at sua morte, em 1936. Para deixar essa revista livre somente para artigos de Estatstica, K. Pearson fundou outra, The Annals of Eugenics, em 1930, dedicando-a exclusivamente Eugenia e Gentica Humana. Com a aposentadoria de Karl Pearson, seu departamento foi desdobrado em dois: o Departamento de Eugenia e o Departamento de Estatstica. O primeiro foi oferecido a R. A. Fisher, que o ocupou como professor catedrtico Galton de Eugenia, famoso tambm nesse assunto, com a publicao do seu livro The Genetical Theory of Natural Selection, Fisher (1930b). Nesse cargo, Fisher passou a editor da nova revista The Annals of Eugenics, que sob sua influncia tornou-se rapidamente importante em artigos sobre estatstica. Somente em 1943, quando Fisher saiu para lecionar na Universidade de Cambridge, Inglaterra, seu substituto no Laboratrio Galton, L. S. Penrose, dedicou novamente essa revista inteiramente a assuntos de gentica humana, modificando seu ttulo para Annals of Human Genetics, mantido at hoje. O Departamento de Estatstica ficou a cargo de seu assistente e filho Egon Sharpe Pearson (1895 1980), primeiramente como reader e depois como professor titular. K. Pearson continuou como editor da Biometrika, at sua morte, 3 anos depois. 35

A Fase da Experimentao

.D

iferentemente das tcnicas estatsticas utilizadas pela Escola Biomtrica, as pesquisas cientficas de natureza experimental exigiam tratamento adequado s pequenas amostras, com objetivo inferencial, conforme revelaram os trabalhos pioneiros de Gosset, que se tornou conhecido pelo seu pseudnimo de Student. Esses trabalhos foram continuados no mais alto nvel terico por R. A. Fisher, a figura mais representativa da Fase da Experimentao, considerado o criador dos mtodos modernos da Anlise e Delineamento de Experimentos. Ronald Aylmer Fisher (1890 1962) nasceu em Londres, no dia 17 de fevereiro de 1890, e faleceu em Adelaide, na Austrlia, a 29 de julho de 1962. Aps terminar seus estudos secundrios em Harrow, que com Eton eram as mais famosas escolas pblicas da Inglaterra (que, na verdade, de pblicas s tm o nome), matriculouse, em 1909, no curso de Matemtica da Universidade de Cambridge, com uma bolsa de estudos para o Gonville and Caius College. Em 1912, bacharelou-se, mas continuou por mais 1 ano estudando Mecnica Estatstica e Fsica Quntica com Sir James Jeans, e Teoria dos Erros, com F. M. J. Stratton, ambos renomados astrnomos. Como estudante, interessou-se tambm pela Gentica, tendo lido os trabalhos de Karl Pearson sobre Mathematical Contributions to the Theory of Evolution, e participado ativamente como presidente da Sociedade de Eugenia da Universidade de Cambridge. Durante sua vida profissional, iniciada em 1912, ainda como estudante universitrio, e que se estendeu por 36

meio sculo, at sua morte, fez contribuies tericas fundamentais Estatstica e anlise e delineamento de experimentos que, por si, j garantiriam sua fama de um dos maiores cientistas do sculo. Alm dessas contribuies, Fisher foi tambm um eminente geneticista, exemplo raro da combinao de talento matemtico e de cientista natural no mais elevado sentido, o que bem revela a versatilidade de seu gnio. Basta mencionar seu clebre artigo publicado em 1918 e o famoso livro em 1930, anteriormente citados. Com John Burdon Sanderson Haldane (1892 1964) e com o geneticista americano Sewall Wright (1889 1988) conhecido dos estatsticos por sua inveno do path coefficient (coeficiente de percurso) na regresso mltipla Fisher constituiu o triunvirato que governou os primeiros 25 anos de existncia da Gentica de Populaes. No devem ser omitidas, tambm, suas importantes pesquisas serolgicas, que culminaram com a elucidao do mecanismo hereditrio do sistema Rh de grupos sangneos. Considerado por C. Radhakrishna Rao como o fundador da Estatstica Moderna, Fisher foi no somente o maior estatstico de sua poca, mas para muitos que conheceram sua obra monumental, ainda o maior estatstico de todos os tempos. Ao longo de sua eminente carreira, recebeu vrias honrarias e distines acadmicas, entre outras, o grau de Doutor por sua Alma Mater em 1926, o ttulo de Fellow of the Royal Society (F. R. S.) em 1929, e o ttulo honorfico de Sir, em 1952. Para maiores detalhes de sua vida e de sua obra, recomenda-se a leitura da excelente biografia escrita por sua filha Joan Fisher Box (1978), e dos nmeros da revista Biometrics 20(2), 1964 (In Memoriam Ronald Aylmer Fisher 1890 1962) e Biometrics 46(4) 1990, por ocasio 37

do centenrio de seu nascimento. Para completar, com opinies crticas bem valiosas, aconselhvel a leitura de artigo pstumo do conceituado estatstico de tendncia bayesiana, Leonard Jimmie Savage (1917 1971), intitulado: On Rereading R. A. Fisher (Savage, 1976), considerado por Oscar Kempthorne a mais requintada lio de estatstica que ele j tivera.

Fundamentos tericos da EstatsticaAs contribuies de Fisher estatstica comearam com o artigo (Fisher, 1912) no qual empregou o mtodo da mxima verossimilhana no ajustamento de curvas de freqncia, mas usou o nome de probabilidade inversa, que o levou a corrigir 10 anos mais tarde, no seu clssico trabalho Fisher (1922b). Nessa publicao, com Fisher (1925c), ele resolveu essencialmente o problema da estimao pontual, aplicando o mtodo da mxima verossimilhana. Ainda recm-formado, Fisher entrou em contato com os trabalhos de Student (1908b), sobre a distribuio t e a subseqente distribuio do coeficiente de correlao em pequenas amostras. Nesse trabalho, Student usou um processo de simulao, utilizando uma experincia de amostragem semelhante que fizera para a verificao emprica das distribuies de s2 e Z de seu trabalho anterior. Entretanto, coube a Fisher, a soluo da distribuio exata de r para (Fisher,1915), em cujo trabalho chegou transformao r = tanh (z) (sendo z sua prpria distribuio), fruto de sua intuio geomtrica. 38

0

Fisher continuou seus estudos sobre as distribuies amostrais, tendo produzido vrias distribuies exatas e desenvolvido os respectivos testes de significncia, incluindo-se a demonstrao exata da distribuio de Student e sua prpria distribuio z, dando sempre preferncia pela representao hipergeomtrica, que o levou a dar solues singularmente independentes de simbolismo algbrico. Mostrou, tambm, a relao entre essas distribuies e a do 2. Para aplicao nos testes de significncia, os diversos valores dessas distribuies foram publicados nas conhecidas tbuas Statistical Tables for Biological, Agricultural and Medical Research, de Fisher & Yates (1938), com a distribuio da razo de varincia, conhecida por F, assim denominada em sua homenagem a Snedecor e relacionada distribuio z de Fisher pela expresso e2Z = F. O artigo acima mencionado foi o nico publicado em Biometrika. Outro artigo de Fisher (1921) sobre o erro provvel do coeficiente de correlao saiu somente em 1921, na nova revista internacional Metron, editada por Corrado Gini. Nessa revista, foi tambm publicado seu trabalho (Fisher, 1925a), no qual dada a demonstrao matemtica da distribuio t de Student, utilizando a representao da amostra num espao ndimensional, que o prprio Student recebera de Fisher e havia remetido a Pearson, na expectativa de que fosse publicado em Biometrika. Segundo Yates & Mather (1963), em sua biografia sobre Fisher, o mtodo da mxima verossimilhana foi, sem dvida, uma das maiores contribuies de Fisher metodologia estatstica. O trabalho relevante sobre esse assunto est contido em seus artigos de 1912, 1922 e 39

1925, previamente citados e mais ainda em Fisher (1935a), em cuja discusso A. L. Bowley atribui ao estatstico e economista Francis Ysidro Edgeworth (1845 1926), prioridade na estimao pela mxima verossimilhana, corroborada, de certo modo, por Savage (1976), no seu artigo On Rereading R. A. Fisher, ao declarar que Edgeworth antecipara importantes idias sobre a verossimilhana, embora de modo obscuro. Contudo, segundo Edwards (1974), Edgeworth no se antecipou a Fisher, uma vez que ele fora bem explcito ao usar a Probabilidade Inversa. Semelhante ponto de vista esposado por Rao (1962), ao argumentar contra idntica alegao de Neyman (1951), em dar preferncia a Edgeworth. Entretanto, a verdade que coube a Fisher, o mrito de ter criado o conceito de verossimilhana, diferente de probabilidade, e desenvolvido o Mtodo de Mxima Verossimilhana, aplicando-o na estimao de parmetros, inclusive na Gentica, onde encontrou campo frtil de aplicao. Os conceitos de consistncia, eficincia e suficincia foram claramente definidos. Os estimadores suficientes so considerados os mais desejveis, mas nem todos os parmetros tm estimadores suficientes, mas quando estes existem, o estimador de mxima verosimilhana um estimador suficiente, conforme mostrou Fisher, ao revelar a superioridade de seu mtodo de estimao em relao ao mtodo dos momentos, anteriormente usado, desenvolvido por Karl Pearson. O mtodo dos mnimos quadrados, de Gauss, equivalente ao mtodo da mxima verossimilhana, quando a distribuio normal. No dizer de Fisher, um estimador suficiente aquele que contm toda a informao contida na amostra, sendo desnecessrio considerar qualquer outro estimador. Matematica40

Nenhum subconjunto relevante pode ser reconhecido. Se, a partir da informao disponvel, podem ser reconhecidos subconjuntos com diferentes probabilidades, ento o subconjunto ao qual o assunto em questo pertence deve ser considerado o conjunto referencial. Nesse caso, nenhuma probabilidade referente ao assunto baseado no inteiro conjunto correta, conforme explica Yates (1964a). No dizer de C. R. Rao, Fisher foi, sem dvida, o arquiteto da anlise multidimensional. Nesse assunto, seus estudos pioneiros foram uma fonte de inspirao de vrios trabalhos. Assim, a distribuio de Wishart, deduzida em 1928, foi uma extenso multidimensional do mtodo geomtrico usado por Fisher, para o caso bidimensional. Sua funo discriminante, utilizada para resolver problemas taxonmicos , em muitos aspectos, semelhante s linhas desenvolvidas por Harold Hotelling (1895 1973), em 1931, na distribuio T da razo de Student, e por Mahalanobis, na ndia, para a estimao da diferena entre populaes pela distncia D, um aperfeioamento do coeficiente de semelhana racial usado por K. Pearson e seus associados em pesquisas antropomtricas de craniometria. Pode-se incluir, tambm, o critrio de Samuel Stanley Wilks (1906 1964), uma generalizao multidimensional do teste F (exceto que a contribuio do resduo no numerador). Meno deve ser feita, ainda, s contribuies na anlise de correspondncia simples e na anlise de correspondncia mltipla por meio dos seus escores timos e das tabelas de contingncia bidirecionais com dados categricos, conforme salienta Gower (1990). Outro 44

exemplo de teste no-paramtrico o teste de Fisher de probabilidade exata, aplicado em tabelas de contingncia 2 x 2, cuja prtica restringe-se s situaes em que o nmero nas clulas pequeno, pois, de outro modo, os clculos tornam-se laboriosos.

Anlise de Varincia e delineamentos experimentaisA Anlise de Varincia (Anova) , provavelmente, o mtodo estatstico de maior repercusso na pesquisa cientfica, especialmente na experimentao agrcola, de onde surgiu como uma das muitas provas do gnio de Fisher. Em se tratando de uma exposio histrica, natural que a anlise de varincia e os delineamentos experimentais, vistos por ele como dois aspectos do mesmo todo, sejam tratados conjuntamente. Seu desenvolvimento e muito de suas aplicaes originaramse no perodo em que Fisher trabalhou na Estao Experimental de Rothamsted, de 1919 a 1933, a maior e mais antiga das instituies britnicas de pesquisa agrcola onde eram conduzidos ensaios com fertilizantes qumicos desde sua fundao, em 1843. A terminologia por ele criada bem reflete essa influncia. Suas idias sobre esse assunto encontram-se em suas duas obras: Statistical Methods for Research Workers, (1925b) e The Design of Experiments, (1935c), as quais so consideradas suas maiores contribuies Estatstica. Embora destinadas aos pesquisadores das reas biolgica e agronmica, no so de fcil leitura. Entretanto, graas sua disseminao foram devidamente interpretadas, especialmente por George Waddel Snedecor (1881 1974), autor do livro (Snedecor, 1937), que j vai para a stima edio, tendo W. G. Cochran como co-autor. 45

Os princpios essenciais do planejamento de experimentos enunciados por Fisher esto representados no diagrama abaixo, afixado na parede do seu laboratrio em Rothamsted:IRepetio II Casualizao III Controle local

Validez da estimativa do erro experimental

Reduo do erro experimental

Estimativa do erro experimental

A novidade introduzida por Fisher foi o princpio da casualizao, uma brilhante inspirao, inteiramente sua, segundo Yates (1964b). Segundo ele, a casualizao garantiria a validez da estimativa do erro e possibilitaria a aplicao dos testes de significncia para se verificar o efeito dos tratamentos. Para ele, pela casualizao (por um mecanismo objetivo de sorteio) nenhum tratamento seria continuamente favorecido ou desfavorecido nas sucessivas repeties por alguma fonte estranha de variao. Ela se fazia necessria para que as variaes que contribuem para o erro experimental fossem convertidas em variveis aleatrias. 46

Ainda de acordo com Fisher, a anlise de varincia pode ser considerada um mtodo estatstico, mas no um teorema matemtico, sendo nada mais que um modo conveniente de arranging the arithmetic, segundo suas palavras. Naturalmente, como outras invenes lgicas, baseada em teoremas matemticos, previamente demonstrados. Um tratamento matemtico elementar encontra-se em Irwin (1931), e uma prova formal mais completa foi dada por Cochran (1934). A ttulo de rigor histrico, deve ser mencionado que a idia de comparar a variao entre grupos com a variao dentro de grupos como teste de homogeneidade foi primeiramente estudada por Wilhelm Lexis (1837 1914) na Alemanha, no final do sculo 19, com relao amostragem de atributos homgrados. Para isso, Lexis criou um critrio de disperso (o termo varincia no era conhecido na poca), tambm chamado razo de Lexis, L., ligado ao 2 pela relao 2 / = L2, onde o nmero de graus de liberdade. Contudo, somente graas aos trabalhos de Fisher, essas idias tiveram maior avano e pleno desenvolvimento. O termo varincia foi cunhado por Fisher, em 1918, em artigo j mencionado, no qual mostra que as correlaes encontradas entre parentes podem ser explicadas pelo mecanismo da herana mendeliana. Neste trabalho foi apresentada uma decomposio percentual da varincia total em suas respectivas causas, mas no pode ser considerada uma anlise de varincia como essa veio a ser conhecida. O primeiro artigo sobre esse tpico apareceu num artigo de Fisher, com sua assistente Miss Winifred A. Mackenzie (Fisher & Mackenzie, 1923). Trata-se da 47

anlise estatstica de um experimento realizado em Rothamsted em 1922, utilizando um delineamento do tipo split plot (subparcela). De acordo com Cochran (1980), em seu artigo pstumo Fisher and the Analysis of Variance, Fisher ainda no havia dominado completamente as normas da anlise de varincia. Na verdade, sua anlise denominada Analysis of Variation e no variance, continha erros, pois foi usada apenas uma nica estimativa do erro experimental para todas as comparaes. interessante observar que Fisher empregou primeiramente o modelo multiplicativo como mais apropriado. Nesse mesmo artigo, usou tambm o modelo aditivo, que continuou preferindo em trabalhos posteriores, provavelmente pela maior facilidade de manipulao. Entretanto, 2 anos depois, em 1925, ao publicar Statistical Methods for Research Workers, Fisher havia percebido seu erro e apresentou ento uma anlise estatstica correta no pargrafo 42, Ex. 41. Naquela poca, ele tinha completo domnio sobre o assunto. Esse exemplo serve para comprovar, mais uma vez, que, na abertura de novos caminhos, os primeiros passos so oscilantes. As idias nunca surgem de modo pronto e definitivo, obedecendo antes a um processo de desenvolvimento que se aperfeioa de maneira tentativa, com hesitaes, pois que o processo criativo formado de conjeturas da imaginao e no uma deduo lgica dos conhecimentos anteriores. Cabe, aqui, a frase do escritor Arthur Koestler The history of ideas is filled with barren truths and fertile errors. (A histria das idias est cheia de verdades estreis e erros frteis). Anteriormente, os delineamentos sistemticos eram os mais populares entre os agrnomos na experimentao de campo, que acreditavam podiam obter maior preciso desse modo. Um exemplo so os quadrados Knut-Vik, 48

que imitam o movimento da pea do cavalo no jogo de xadrez, uma espcie de quadrado latino. Abaixo, figura um quadrado Knut-Vik 5 x 5,

A D B E C

B E C A D

C A D B E

D B E C A

E C A D B

Quadrado Knut-Vik

onde se v que nenhum tratamento aparece mais de uma vez numa diagonal. Esse tipo de arranjo era conhecido na Dinamarca desde 1872, mas atribudo ao noruegus Knut-Vik. Deve ser dito, que o prprio Student, ao se envolver em experimentao de campo, principalmente na competio de variedades de cevada em larga escala, por motivos de trabalho na Cervejaria Guinness, deu preferncia aos arranjos balanceados sistemticos, argumentando que a casualizao causa um aumento da variabilidade. Isso constituiu ponto de discrdia entre Student e Fisher, embora no tenha causado qualquer inimizade entre ambos, que permaneceram amigos at a morte de Student, em 1937. Independentemente de Fisher, ele chegara estimativa do erro para a comparao de variedades, utilizando, como sempre, sua originalidade, 49

que Fisher mostrou ser algebricamente equivalente anlise de varincia. Em 1923, em sua correspondncia com Gosset, Fisher mostrou, tambm, a derivao do procedimento usado na anlise de varincia em blocos casualizados por meio do ajustamento de constantes para blocos e para tratamentos pelo mtodo clssico dos mnimos quadrados. Embora essa tenha sido a primeira abordagem da anlise de varincia, Fisher deu preferncia apresentao da anlise aritmtica da decomposio da soma dos quadrados, cuja simplicidade tornou-a acessvel aos pesquisadores menos versados em teoria estatstica. Isso representou um ganho prtico enorme, desde que no fosse elevado a um ritual cego, nas palavras de Maurice Stevenson Bartlett (1910 2002), conhecido por seu teste de homogeneidade de varincias (Bartlett, 1965). Entretanto, essa simplicidade de clculos depende do fato de o experimento ter sido delineado para ser ortogonal, i.e., permitir que os efeitos sejam capazes de uma estimao direta e separada, pois, em caso contrrio, tornar-se- necessrio usar o princpio clssico dos mnimos quadrados para se estimarem os parmetros. As tcnicas de estimao de parcelas perdidas (missing plot), iniciadas com Allan & Wishart (1930), nada mais so que recursos para restaurar a ortogonalidade, tornando assim possvel a anlise de varincia, segundo padro simples. O primeiro reconhecimento ostensivo de que um modelo linear analisado pelo mtodo dos mnimos quadrados era mais fundamental do que uma anlise intuitiva baseada no desdobramento da soma dos quadrados deve-se a Yates (1933). Naquela poca, Yates ainda no tinha conhecimento da correspondncia entre Fisher e Gosset, acima referida. No demorou para que esse 50

mtodo fosse utilizado em delineamentos no balanceados e estendido a problemas de regresso mltipla. pena que a Anova seja estudada atualmente apenas dentro da teoria dos modelos lineares, pela seduo de sua elegncia, completamente desligada de sua origem histrica. As idias de Fisher foram finalmente vitoriosas e, a partir de 1925, a casualizao foi usada como rotina em todos os planos experimentais realizados em Rothamsted. A anlise de varincia, com a anlise de covarincia, tambm por ele desenvolvida, passaram a constituir o instrumental bsico para a interpretao dos resultados dos experimentos controlados. Em seu artigo, Fisher (1926), considerado o precursor de seu livro The Design of Experiments, declara, peremptoriamente, que no se deve levar em conta o aforismo de se perguntar natureza apenas uma questo de cada vez, pois muitas vezes ela se recusa a responder at que outro fator seja acrescentado, advogando, assim, o uso de experimentos fatoriais e suas vantagens. Contudo, ele percebeu as dificuldades prticas para um grande nmero de fatores, tendo mostrado que essas dificuldades poderiam ser evitadas incluindo-se num bloco apenas uma parte de todas as combinaes possveis.Assim, cada bloco no seria mais uma repetio completa, sacrificandose deliberadamente a informao de certas interaes, consideradas pouco importantes, confundindo-as com as diferenas entre blocos. Esse artifcio tcnico foi denominado confundimento (confouding), que pode ser total ou parcial, conforme as interaes estejam completamente confundidas ou apenas em parte, permitindo, assim, a recuperao da informao sobre as interaes confundidas. No supracitado artigo, Fisher mostra, pela primeira vez, sua preferncia por um nvel de 51

significncia de 5% revelando que talvez outros preferissem um nvel mais rigoroso, como 2% ou 1%. Os experimentos fatoriais e as tcnicas de confundimento foram posteriormente desenvolvidos por Frank Yates (1902 1994) e esto expostos em sua monografia The Design and Analysis of Factorial Experiments (1937), qual deve ser acrescentada sua extensa lista de trabalhos sobre blocos incompletos, em geral. Em 1931, Yates foi para Rothamsted, em substituio a John Wishart (1898 1956), assistente de Fisher desde 1928, que sara naquele ano para lecionar na Universidade de Cambridge, onde foi responsvel pela formao acadmica de mais de uma gerao de ilustres estatsticos. Um exemplo de sua cooperao com Fisher, naquele perodo, a publicao de Fisher & Wishart (1930), que mostra a preocupao de ambos em divulgar os novos mtodos ao alcance dos pesquisadores. Yates trouxe consigo sua vasta experincia em aplicaes do mtodo dos mnimos quadrados de Gauss em levantamentos geodsicos, na antiga colnia britnica da Costa do Ouro (atual Gana); conhecimentos esses que vieram a se tornar de grande utilidade na sua nova funo. Foi ativo e eficiente colaborador de Fisher, substituindo-o na chefia do Departamento de Estatstica de Rothamsted, quando este se retirou para assumir a ctedra na Universidade de Londres, em 1933, tendo permanecido nesse posto at sua aposentadoria. fruto dessa colaborao as conhecidas tbuas estatsticas de Fisher e Yates, publicadas em 1938. A elaborao dessas tbuas contou com a eficiente assistncia de Wilfred Leslie Stevens (1911 1958), conhecido dos brasileiros por suas atividades profissionais neste Pas, onde faleceu prematuramente como professor da Universidade de So Paulo, cargo que vinha exercendo desde 1948. 52

Alm desses nomes, deve ser lembrado, tambm, William Gemmell Cochran (1909 1980), assistente de Yates por 5 anos, de 1934 a 1939, ano em que emigrou para os Estados Unidos da Amrica, e foi substitudo por David John Finney (1917) ex-assistente de Fisher no Laboratrio Galton. Nos Estados Unidos, Cochran exerceu primeiramente o magistrio na Universidade Estadual de Iowa, em Ames, onde cooperou com G. W. Snedecor no estabelecimento do Laboratrio de Estatstica, que ficou famoso como pioneiro das atividades de ensino e pesquisa, sob a direo de Snedecor. Anos depois, Cochran aceitou convite de Gertrude Mary Cox (1900 1978) para participar do corpo docente da Universidade Estadual da Carolina do Norte, em Raleigh, de onde saiu para a Universidade John Hopkins e finalmente para Harvard. preciosa lembrana de sua colaborao com Gertrude Cox a obra de Cochran & Cox (1950), cujo trabalho havia iniciado quando ambos faziam parte do corpo docente de Iowa, de relevantes servios aos que se dedicam estatstica experimental. Posteriormente, em 1947, veio para Ames, fazer parte do quadro profissional, tambm procedente da Inglaterra, onde estudara em Cambridge com Wishart e trabalhara alguns anos com Yates em Rothamsted, Oscar Kempthorne (1919 2000), outro estatstico de renome. Em seu livro Kempthorne (1952), ele reconhece nas primeiras pginas do prefcio seu dbito a Fisher e Yates, cujas contribuies considera como os fundamentos do assunto. Uma vez estendida a experimentos mais complexos, alm de fornecer as estimativas dos erros e os testes de significncia dos vrios efeitos, a Anova permitiu estimar as componentes de varincia atribudas s diferentes 53

classes de efeito. Alis, em Statistical Methods for Research Workers, o leitor introduzido Anlise de Varincia nesse contexto, como alternativa correlao intra-classe e que, segundo o autor, esse mtodo constitua grande simplificao. Fisher achou que a distribuio do coeficiente de correlao intra-classe era essencialmente equivalente da razo de varincias. Ele nunca se preocupou de tratar a correlao intra-classe separadamente da anlise de varincia, nas sucessivas edies de seu livro. Certamente, a forma da anlise de varincia apropriada correlao intra-classe ou a qualquer classificao hierrquica requer ampliao para ser usada nas classificaes cruzadas da anlise de experimentos. A Anova difundiu-se rapidamente entre os pesquisadores. Para muitos deles, a estimao das componentes de varincia era irrelevante, mas em muitos casos essas estimativas tornavam-se necessrias. Tudo isso era bem conhecido at o fim da 2a Guerra Mundial. Entretanto, depois desse perodo surgiu novo conceito introduzido por Churchill Eisenhart (1913 1994) em artigo sobre pressuposies em que se baseia a anlise de varincia, Eisenhart (1947). Nesse artigo, ele distingue o Modelo I ou de efeitos fixos, e o Modelo II ou de efeitos aleatrios, tendo sido depois acrescentado o modelo misto, em que alguns efeitos so fixos e outros aleatrios. A anlise estatstica a mesma nos diferentes modelos, mas os testes de significncia diferem, de acordo com a expectncia dos quadrados mdios. Na prtica, um modelo de efeitos fixos, se os tratamentos so deliberadamente escolhidos, ou de efeitos aleatrios (tambm chamado de componentes de varincia) se feita uma seleo aleatria dos tratamentos, mas o interesse do pesquisador no se 54

restringe apenas a eles. Esse ltimo a forma original da anlise de varincia. Fisher fez ainda notveis contribuies em fascinantes problemas combinatrios relacionados com a enumerao dos quadrados latinos e greco-latinos, onde mais uma vez revelou seu gnio. Algumas histrias interessantes relacionadas com esse trabalho so relatadas por Yates (1975). Segundo Finney, em nenhum lugar a elegncia da matemtica de Fisher mais evidente do que nos seus artigos sobre esse assunto, publicados no Annals of Eugenics de 1940 a 1945. Grande nmero das solues encontradas encontram-se nas Tbuas Estatsticas de Fisher e Yates. O prprio Finney (1945) publicou noAnnals of Eugenics, seu artigo no qual discute o uso de apenas parte de uma repetio num experimento fatorial, quando o nmero de fatores grande. Essa tcnica ficou conhecida por repetio fracionada, para cujo desenvolvimento contribuiu tambm Kempthorne (1947). Nesse assunto, particularmente interessante a leitura do Captulo V do livro de Fisher The Design of Experiments (1935c), na parte referente aos quadrados latinos ortogonais, quadrados greco-latinos e de ordem superior. Esses resultados estimularam as investigaes de um grupo brilhante de matemticos indianos, sob a liderana de Raj Chandra Bose (1901 1987) do Instituto de Estatstica de Calcut, fundado por Prasanta Chandra Mahalanobis (1893 1972), em 1931. Conta Bose, que em dezembro de 1937, durante um seminrio realizado no Instituto, Fisher, ento em visita ndia, conjeturou que seria possvel construir um quadrado hiper-greco-latino para todo o valor de p, que um nmero primo ou potncia de um primo. Foi objetivo de seu primeiro artigo provar que a suposio de Fisher era correta, o que Bose 55

conseguiu usando as propriedades dos Corpos de Galois e das Geometrias Projetivas Finitas com eles relacionadas. Em seu artigo Bose (1938) desenvolve um mtodo de construir os quadrados hiper-greco-latinos. Na mesma poca W. L. Stevens (1938) publicou seu artigo The Completely Orthogonalized Latin Square. Bose continuou esses estudos e fez muitas contribuies sobre o assunto, tendo confirmado a conjectura de Euler de que no existe um quadrado latino 6 x 6 ortogonal, e mostrou num artigo com Shrikvande (1959), a falsidade da conjetura que generalizava a no-existncia de quadrado greco-latino da ordem 4t+2 para todo t > 1. Leonard Euler (1707 1783) foi o primeiro matemtico a se interessar pelos quadrados latinos, denominados mgicos naquela poca em que fora publicado seu artigo Recherches sur une nouvelle specie de quarrs magiques, em 1782. Na poca daquele artigo, Bose j havia emigrado para os Estados Unidos, onde em 1949, passou a integrar o corpo docente da Universidade da Carolina do Norte, em Chapel Hill. Aps sua aposentadoria naquela Universidade, continuou suas atividades de pesquisa e ensino na Universidade Estadual do Colorado at sua morte, em 1987. Uma das figuras mais eminentes do grupo de matemticos do Instituto de Calcut foi Calyampudi Radhakrishna Rao (1920 ), conhecido dos estatsticos por seus inmeros artigos e pelos livros: Advanced Statistical Methods in Biometric Research (1952) e a verso mais terica dele Linear Statistical Inference and its Applications (1973). Alm da influncia inicial de Mahalanobis em sua carreira, Rao obteve seu Ph.D. em Cambridge, sob a orientao de Fisher e Wishart, influncias estas que explicam a escola a que pertence. 56

So exemplos de sua contribuio no assunto de delineamentos experimentais seus trabalhos em cooperao com K. R. Nair, e seu artigo General Methods of Analysis for Incomplete Block Designs (1947), quando era ainda estudante em Cambridge. Rao esteve mais de uma vez no Brasil, sendo a ltima em 1999, quando recebeu o grau de Doutor Honoris Causa pela Universidade de Braslia, em concorrida solenidade. Para completar o quadro de diferentes influncias estatsticas na India, oportuno mencionar outro grupo liderado principalmente por Pandurang Vasudeo Sukhatme (1911 1997), cujos trabalhos tiveram incio em 1940, no Indian Council of Agricultural Research Icar, em Nova Delhi, ndia. Comeando como uma seo de Estatstica do Icar, em 1959 passou a constituir o Institute of Agricultural Research Statistics, de reconhecida importncia por suas funes de pesquisa e atividades de treinamento em nvel de ps-graduao. Na esfera internacional, P. V. Sukhatme tornou-se conhecido por suas atividades na Food and Agriculture Organization FAO , rgo das Naes Unidas, onde a partir de 1951, exerceu o cargo de diretor da Diviso de Estatstica na sede, em Roma, por mais de 20 anos. As necessidades da experimentao industrial, onde so pesquisados vrios fatores representados por variveis quantitativas, levaram ao desenvolvimento de delineamentos especiais, conhecidos na literatura pelo nome de Delineamentos de Box, em homenagem ao estatstico ingls George Edward Pelham Box (1919), residente nos Estados Unidos desde 1956, o maior responsvel por seu desenvolvimento. Inicialmente, seu trabalho foi aplicado na determinao das condies timas em processos qumicos, mas pode ser estendido a situaes em que a 57

experimentao seqencial e os erros envolvidos so de pequena magnitude. O interesse era o de ajustar uma superfcie de resposta descrita aproximadamente por um polinmio do 2o grau e, sendo assim, no haveria razo especial para se usar um arranjo fatorial completo. Os novos delineamentos, tais como os delineamentos compostos e os rotacionais, permitem testar grande nmero de fatores em poucas unidades experimentais. Essas idias esto expostas nos seguintes artigos: Box & Wilson (1951) e Box (1954). Assim, os polinmios ajustados podem ser usados como funes de produo para calcular a combinao tima dos insumos a serem utilizados.

Teste de hipteses estatsticasA teoria clssica do teste de hipteses foi fruto da colaborao entre dois eminentes estatsticos Jerzy Neyman e Egon Sharpe Pearson, iniciada quando Neyman estagiava no University College para onde fora estudar com Karl Pearson no outono de 1925. Esta colaborao relatada por Pearson (1970) em The Neyman-Pearson Story (1926 1934). Jerzy Neyman (1894 1981) foi, indubitavelmente, um dos gigantes da Estatstica. Nasceu em Bendery, na regio da Bessarbia, ento parte da Rssia Czarista, que pertenceu posteriormente Romnia e finalmente Repblica Socialista da Moldvia, atual Moldava, da exUnio Sovitica, de ascendentes poloneses de credo catlico, pertencentes pequena aristocracia rural, cujas terras haviam sido confiscadas na Revolta de 1863. Notese que a Polnia no existia como estado soberano desde 58

1795, quando houve sua partilha entre a ustria, a Prssia e a Rssia. No vero de 1921, Neyman, pela primeira vez foi Polnia, que havia ressurgido como pas independente ao terminar a 1a Guerra Mundial, j no posto de assistente de Matemtica no Instituto de Tecnologia de Kharkov, na Ucrnia, em cuja universidade se graduara em Matemtica, segundo relata sua bigrafa Constance Reid (1982), autora do livro Neyman-from Life, que iniciou a escrever quando ele ainda vivia. Em 1924, Neyman j havia obtido o grau de Doutor com a tese cujo ttulo em ingls On the Application of Probability Theory to Agricultural Experiments, fora preparada no perodo em que trabalhou no Instituto Nacional de Agricultura, em Bydgoszcz (anteriormente, Bromberg). Essa tese, cujo original em polons, com sumrio em alemo, acha-se parcialmente reproduzida por Neyman (1990). Contudo, sua exposio mais conhecida encontrase no artigo de Neyman (1935). O interesse de Neyman em se aperfeioar em Estatstica levou-o a obter uma bolsa de estudos para estudar com Karl Pearson, mas cedo percebeu que o nvel terico ensinado no era o que ele esperava, o que o levou a prosseguir seus estudos em Paris, onde assistiu s aulas de Flix douard Justin mile Borel (1871 1956), Henri Lon Lebesgue (1875 1941) e de outros matemticos eminentes como Paul Pierre Lvy (1886 1971) e Jacques Salomon Hadamard (1865 1963) sobre assuntos de seu maior interesse, relacionados com a teoria de probabilidades, medida e integrao, que j o haviam entusiasmado quando estudante do grande probabilista russo Sergey Natanovich Bernstein (1880 1968) na Universidade de Kharkov. oportuno registrar que nessa 59

de estimao intervalar, assunto que o havia ocupado desde 1930. Foi quando surgiu sua teoria de intervalos de confiana, publicada no apndice de seu famoso artigo On the Two Different Aspects of the Representative Method: the Method of Stratified Sampling and the Method of Purposive Selection (Neyman, 1934). A identidade numrica dos limites fiduciais de Fisher e os limites de confiana sugeriram a Neyman que suas teorias eram essencialmente a mesma, levando-o a considerar seu trabalho como uma extenso e aperfeioamento das idias de Fisher. Alguns autores chegaram a usar as expresses limites fiduciais e limites confidenciais como sinnimas. Posteriormente, Fisher (1935b), declara que Neyman tentou desenvolver o argumento da probabilidade fiducial de um modo que, lamentavelmente, ignorava os resultados da teoria da estimao luz do que fora originalmente lanada. Assim, no chamado teste de Behrens, estudado por Fisher nesse artigo, a diferena entre as duas teorias acentuada. O teste de Behrens, primeiramente estudado por W. V. Behrens (1929), consiste no teste da diferena de duas mdias, cujas varincias podem ser diferentes. Esse teste requer o uso de tbuas especiais, construdas por Sukhatme e apresentadas nas Tabelas Estatsticas de Fisher e Yates, anteriormente citadas. Para esse teste, no h soluo na teoria de Neyman. Para a compreenso completa dessas diferenas, aconselhavel a leitura do artigo de Neyman (1941), no qual ele elucida, de forma didtica, a diferena entre as duas teorias, conceitualmente diversas. Para Fisher, a teoria de Neyman e Pearson servia bem de modelo para a inspeco de qualidade por amostragem, mas no para a pesquisa cientfica. A regio de aceitao e de rejeio de lotes, com as idias de riscos 63

do consumidor e do produtor, tm origem nos dois tipos de erros. O erro do tipo I corresponderia ao risco do produtor, i.e., probabilidade de que uma partida de boa qualidade venha a ser rejeitada, enquanto o erro do tipo II seria a probabilidade de uma partida de m qualidade ser aceita na inspeco, que o risco do consumidor. Segundo Fisher, deve-se pensar nos problemas cientficos em linguagem diferente da exigida na eficincia tecnolgica. Por isso, ele no concordou com Wald, ao considerar o tratamento do delineamento experimental como parte do problema geral da deciso. Para Fisher, a deciso est relacionada com a ao prtica, enquanto a inferncia com o conhecimento cientfico. Um exemplo familiar da primeira o controle estatstico de qualidade industrial. Para ele, os intervalos de confiana de Neyman nada afirmam sobre a probabilidade do parmetro em relao ao resultado obtido numa amostra particular, mas sobre o intervalo calculado sobre hipotticas amostras que no foram realmente obtidas. Apesar dessas crticas, a inferncia estatstica foi conduzida de modo consistente com a teoria de Neyman-Pearson, usando testes estatsticos introduzidos por K. Pearson e Fisher. Abraham Wald (1902 1950) em seu artigo (Wald, 1939), apesar de escrito antes de ele conhecer pormenorizadamente a moderna teoria estatstica, j esto presentes as noes mais importantes de sua teoria da deciso. Posteriormente, ele colaborou na formalizao da anlise e experimentao seqencial, que vinha sendo usada de modo informal, na inspeo por amostragem no controle de qualidade na indstria. Wald vinha trabalhando nesse assunto desde 1943, condensando os resultados no seu livro Sequential Analysis, (Wald, 1947). Nesse livro, apresentado seu teste seqencial da razo de 64

O desempenho de medido pela perda mdia incorrida, denominada funo risco R( , )=E[l( , (x)]. Notese que Laplace e Gauss consideraram os erros de observao como perdas e o mtodo dos mnimos quadrados tinha sua justificativa na base de minimizar tais perdas. O problema de selecionar os melhores procedimentos de deciso tem sido atacado de vrios modos. Um deles pelo critrio minimax, ao invs de usar o valor mdio do risco. Por esse critrio, oriundo da teoria dos jogos desenvolvida de modo determinstico na obra do clebre matemtico John von Neumann (1903 1957) e do economista Oskar Morgenstern (1902 1977) (Neumann & Morgenstern (1944), minimizado o risco mximo, da o nome minimax. Esse critrio tem por fim maximizar a proteo contra o pior que possa acontecer, sendo por isso considerado muito conservador. Alm da vantagem de conservador, o critrio minimax independente da distribuio a priori do parmetro e tem risco constante, sob certas condies. Wald esteve procura de outros critrios, mas sem resultado satisfatrio. Ele deu ainda muitas contribuies Estatstica, mas infelizmente faleceu aos 48 anos num acidente areo na ndia, de onde regressava aps lecionar sobre os temas de seu recmpublicado livro. Esta fatalidade privou a comunidade cientfica de um possante intelecto, no auge de sua carreira, tendo muito ainda para contribuir para o desenvolvimento da estatstica matemtica. Por iniciativa de William Edwards Deming (19001993), o Departamento de Agricultura dos Estados Unidos convidou Neyman a fazer uma srie de palestras na Escola de Ps-Graduao em Washington, no vero de 1937. Foi nesta oportunidade que ele aceitou o convite para organizar e dirigir um Laboratrio de Estatstica no Departamento de Matemtica da Universidade da 66

Califrnia, no campus de Berkeley, na posio de professor titular (full professor). Essa nova atividade teve incio em agosto de 1938, tendo continuado ao longo dos anos, mesmo depois da aposentadoria, em 1961, como professor emrito, at sua morte em 1981. J em 1955, fora criado o Departamento de Estatstica ao qual ficou agregado o mencionado laboratrio. Nesse perodo, Neyman conseguiu fazer o que veio a ser considerado o maior e melhor centro mundial de ensino e pesquisa da estatstica, tendo atrado para Berkeley, sob sua liderana, uma pliade de profissionais da mais alta categoria, tais como: Erich Leo Lehmann (1917 ), autor do livro Testing Statistical Hypotheses (1959) e, mais recentemente, Theory of Point Estimation (1983), Lucien Le Cam (1924 ), Henry Scheff (1907 1977), conhecido pelo teste estatstico que tem seu nome e pelo livro The Analysis of Variance (1959), David Blackwell (1919 ), Michel Love (1907 1979), conhecido probabilista, e muitos outros. Ficaram famosos os simpsios promovidos qinqenalmente, a partir de 1945, nos quais participaram os mais ilustres colaboradores, cujos trabalhos foram publicados posteriormente, anualmente, como Proceedings of the Berkeley Symposium on Mathematical Statistics and Probability. Nessa fase, a ltima de sua carreira profissional, Neyman continuou ocupado com suas pesquisas anteriores relacionadas com a inferncia estatstica, como atestam suas publicaes sobre os melhores estimadores assintoticamente normais (best asymptotically normal BAN) e sobre os testes timos de hipteses compostas, os chamados C-alfa testes, sendo C em homenagem a Harald Cramr (1893 1985). Entretanto, sua maior produo foi em trabalhos aplicados nas reas de astronomia, meteorologia e medicina, merecendo destaque 67

seus artigos com Elizabeth Leonard Scott (1917 1988) referentes distribuio espacial de galxias e do enfoque estatstico aos problemas da cosmologia, e os seus prprios sobre anlise estatstica dos resultados dos ensaios para provocar chuvas artificiais que deram origem ao artigo de Neyman (1967). Na ltima rea, os melhores trabalhos foram condensados em Probability Models and Cancer de Neyman & Le Cam (1982). A influncia de Neyman em Berkeley, ao lado da de Wald, na Universidade de Columbia, foram responsveis pela maior formalizao matemtica da estatstica nos Estados Unidos, dando assim incio separao da origem inglesa, de predominncia fisheriana. Ele fez tambm estudos pioneiros sobre levantamentos por amostragens, onde introduziu novos mtodos, mas esse assunto ser visto na prxima seo.

Desenvolvimento dos Levantamentos por Amostragem

.N

esta seo, ser tratada a coleta de informaes na forma como se apresentam, sem controle das fontes de variao por parte do pesquisador, i.e., dados de natureza no experimental. Cronologicamente, tiveram origem de certo modo desde os primrdios da Estatstica, mas na verdade s se desenvolveram aps as contribuies provenientes da teoria da estatstica, que se desenvolveu principalmente na fase de experimentao, vista na seo anterior. Vale salientar que enquanto nos experimentos lidam-se com populaes imaginrias e infinitas, nos levantamentos as populaes so reais e finitas. 68

O estudo das populaes finitas bem mais recente, a teoria mais difcil e as frmulas so mais complicadas. A esse respeito, interessante a leitura do artigo de Hansen & Hurvitz (1943). As necessidades prticas da amostragem em levantamentos incentivarem estudos tericos dos quais surgiu uma grande variedade de planos de amostragem, que no teriam ocorrido se a questo da amostragem tivesse ficado restrita unicamente s populaes infinitas. Os levantamentos por amostragem so praticamente o nico mtodo de pesquisa nas cincias econmicas e sociais. Um relato histrico das aplicaes da amostragem em levantamentos encontrado nos seguintes artigos: Stephan (1949), Seng (1951) e Hansen & Madow (1976). Uma viso geral resumida sobre o assunto pode ser vista no Captulo IV Les Sondages, do livro de Droesbeke & Tassi (1990). Quem primeiro advogou o uso da amostragem em levantamentos (sample surveys) foi Kiaer, com seu mtodo de representatividade, na reunio do Instituto Internacional de Estatstica (criado 10 anos antes, em Londres) em 1895, em Berna, Sua. Andres Nicolas Kiaer (1838 1919) era ento Diretor do Bureau Central de Estatstica em Cristiania, como era chamada a capital da Noruega, que em 1925 passou a se chamar Oslo. A idia de Kiaer sobre amostra representativa era a de ser uma miniatura aproximada da populao. O mtodo que ele props correspondia ao que, atualmente, seria um bem trabalhado mtodo de estratificao, levando-se em conta fatores geogrficos, sociais e econmicos. Alm disso, ele introduziu uma seleo proporcional em cada estrato, baseada em detalhes do prvio censo demogrfico. Kiaer defendeu sua idia nas vrias reunies do Instituto Internacional de Estatstica, realizadas em So Petersburgo, 69

representativa foi feita pelos estatsticos italianos Corrado Gini (1884 1965) e seu assistente Luigi Galvani, para obterem uma amostra dos dados do censo de 1921 em 1926/1927. Na poca, Gini era o maior estatstico italiano, editor da revista Metron, internacionalmente reconhecida, e de grande influncia na direo do Escritrio Central de Estatstica de seu pas. Eles decidiram retirar os dados de 29 das 214 unidades administrativas (circondari) em que a Itlia estava dividida. Essas 29 unidades eram tais que seus valores mdios de sete importantes caractersticas eram prximos das mdias do pas inteiro. Entretanto, quando outras caractersticas foram consideradas, ou quando outros aspectos que no apenas as mdias, por exemplo a variabilidade ou as associaes das sete caractersticas foram levados em conta, Gini e Galvani encontraram grandes discrepncias entre os dados da amostra e do pas como um todo. Gini (1928) concluiu em seu artigo sobre tal mtodo de amostragem que os controles eram ineficientes, crtica identicamente repetida no artigo de Gini & Galvani (1929). Essa era a situao quando foi publicado o famoso artigo de Neyman (1934), citado na sesso anterior. Nesse trabalho, considerado uma contribuio pioneira, um verdadeiro divisor de aguas, no dizer de Kruskal e Mosteller no artigo anteriormente citado, Neyman mostrou a superioridade da amostragem aleatria estratificada sobre a seleo intencional, ento aconselhada como mtodo representativo da amostragem e severamente criticada por Gini e Galvani, cuja aplicao no censo italiano citada, detalhadamente, em seu artigo. A descrena no mtodo representativo, argumentou Neyman, devia ser na amostragem intencional e no na amostragem probabilstica, que ele recomendava como a do mtodo 71

representativo. Na verdade, no h processo seguro para se saber se determinada amostra representativa de uma populao. Operacionalmente, define-se como representativa uma amostra selecionada ao acaso, de modo que cada unidade de amostragem tenha uma probabilidade conhecida, e diferente de zero, de participar na amostra. O artigo de Neyman repleto de boas idias. Nele, apresentada uma discusso sobre a inferncia em populaes finitas na base da casualizao introduzida pelos procedimentos de seleo. Pela primeira vez, em ingls, tratada a estimao intervalar pelos intervalos de confiana, conforme j foi visto na seo anterior. pena que a discusso sobre esse assunto, tratado no apndice do artigo, tivesse tirado de certo modo o brilho da apresentao da parte principal do trabalho sobre mtodos de amostragem. Nesta sesso, que contou com a presena de Bowley, Fisher e E. S. Pearson, entre outros membros da sociedade, houve apenas pequenas discordncias salientadas por Pearson que os dois mtodos no eram exatamente iguais, e reforadas por Fisher, ao declarar que o argumento fiducial era utilizado somente nos casos de existir uma estatstica suficiente, publicadas posteriormente em seu artigo sobre o assunto, conforme foi citado na seo anterior. Foi na apresentao do trabalho de Neyman (1935), sobre Statistical Problems in Agricultural Experimentation, com a colaborao de K. Iwaskiewicz e St. Kolodzieczyk, apresentado em memorvel sesso em 28 de maro de 1935, que teve incio a desavena com Fisher. Essa e outras discordncias resultaram em polmicas entre Fisher e Neyman que culminaram, lamentavelmente, com o desentendimento entre ambos. O procedimento adotado nessas apresentaes era o de circular o manuscrito com 72

antecedncia entre os membros convidados para participar na discusso, para que pudessem preparar seus comentrios na discusso que se seguia aps a apresentao formal do trabalho. As discusses, juntamente com a resposta do autor do trabalho, eram finalmente incorporadas ao texto do artigo publicado, tornando possvel sua reproduo em futuras citaes dos historiadores da cincia para elucidar eventuais dvidas. Neyman tratou, tambm, da amostragem estratificada, que antes havia sido considerada por Bowley, tendo discutido e deduzido a partilha tima (optimum allocation) das unidades da amostra nos diferentes estratos. Esse assunto fora antes estudado pelo russo Alexander Alexandrovitch Tchuprov (1874 1926) no seu artigo (1923), mas no era do conhecimento de Neyman, nem teve repercusso prtica nos levantamentos por amostragem. Contudo, Neyman (1952), reconheceu publicamente a prioridade de Tchuprov to cedo tomou conhecimento. Nessa rea, outra importante contribuio de Neyman foi seu artigo sobre amostragem dupla, ou em duas fases, Neyman (1938) cujo ttulo : Contributions to the Theory of Sampling Human Populations. Esse artigo, ao lado de seu famoso artigo acima mencionado, seriam suficientes para garantir a Neyman o reconhecimento de sua preeminncia na teoria dos levantamentos por amostragem. A noo intuitiva de miniatura da populao deu origem a processos de escolha das amostras por convenincia ou de amostras intencionais, por apreciao subjetiva. Um exemplo do tipo mencionado a amostragem por quotas, que um mtodo de amostragem estratificada, em que a seleo dentro dos estratos no ao acaso. Essas quotas (estratos) so em nmero tal que sua 73

proporo na amostra aproximadamente a mesma que na populao. O argumento contrrio ao seu uso que no se pode calcular o erro de amostragem. aconselhvel a leitura do artigo: An experimental study of quota sampling de Moser & Stuart (1953). Contudo, a amostragem por quotas foi largamente utilizada em pesquisas de mercado e de opinio pblica, como nas intenes de voto em pesquisas eleitorais. A prevista vitria de Thomas Dewey na disputa com Harry Truman nas eleies de 1948, para a presidncia dos Estados Unidos, desacreditou publicamente o mtodo de amostragem por quotas, usado por George Gallup, jornalista a cargo da pesquisa. Apresentadas as causas do fracasso, Gallup abandonou o mtodo de amostragem por quotas, de carter no probabilstico, e passou a utilizar um plano de amostragem onde em todas as suas etapas prevalecia o conceito de aleatorizao, conforme escreve Jorge de Souza (1990), professor titular de Estatstica da Universidade de Braslia aposentado, em sua obra Pesquisa Eleitoral Crticas e Tcnicas, cuja leitura recomendada aos interessados neste assunto. Na prtica, pelo menos em levantamentos sociais e econmicos, raramente uma amostra selecionada de modo estritamente aleatrio. Geralmente dispe-se de uma lista de unidades de amostragem e usa-se algum tipo de seleo, como por exemplo, cada dcima unidade da lista ou outra forma de seleo sistemtica. A amostra obtida pelo emprego de um mtodo de seleo que consiste em sortear apenas a primeira unidade, sendo as demais selecionadas segundo um plano sistemtico, conhecida, tambm, pela denominao de amostra quase-aleatria (quasi-random sample). Esse termo citado em Buckland (1951) e em Moser (1961), 74

na pg. 76, sendo tambm mencionado por Yates (1946). Um estudo terico da amostragem sistemtica encontrase em: Madow & Madow (1944). Os levantamentos por amostragem tiveram posteriormente desenvolvimento em diversos pases, principalmente nos Estados Unidos, nas atividade exercidas pelo Bureau of the Census, rgo de longa histria, com trabalho pioneiro no desenvolvimento, construo e aplicao do equipamento de processamento de dados em cartes perfurados, conhecidos como cartes Hollerith, nome de seu inventor Herman Hollerith (1860 1929). Atualmente, esse processamento feito por computao eletrnica. Uma relao das atividades do Bureau of the Census encontra-se no artigo de Morris Howard Hansen (1910 1990) Some History and Reminiscenses on Survey Sampling (1987), que participou por vrios anos do quadro profissional do Bureau. Sua experincia, com a de William Hurwitz e William Madow, refletida no livro em dois volumes de Hansen et al., (1953). O ltimo desses autores lecionou na Universidade de So Paulo, em 1946 e 1947, tendo ministrado durante o perodo de frias acadmicas, de dezembro de 1946 a fevereiro de 1947, um curso intensivo sobre a Teoria dos Levantamentos por Amostragem, no Rio de Janeiro, a tcnicos brasileiros de estatstica, a convite do IBGE. As notas de aula deram origem ao livro Teoria dos Levantamentos por Amostragem (Madow,1951). Ao lado da edio brasileira, foi publicada pelo Instituto Nacional da Estatstica de Portugal, a edio portuguesa da mesma obra. Embora muitas idias usadas na teoria dos levantamentos por amostragem sejam oriundas dos trabalhos de Fisher, como casualizao e controle local 75

(estratificao), ele pessoalmente no escreveu qualquer livro sobre tcnicas de amostragem, especialmente nas aplicaes em levantamentos. Entretanto, enquanto estava em Rothamsted, Fisher estudou o uso da amostragem em parcelas experimentais, com conseqncias no desenvolvimento e melhoramento das estimativas de produo agrcola e das reas cultivadas. Depois da Segunda Guerra Mundial, Fisher foi membro da Subcomisso das Naes Unidas sobre Amostragem Estatstica onde, ao lado de Mahalanobis e Yates, teve grande influncia nos trabalhos publicados pela Subcomisso, especialmente na terminologia recmcriada. O prprio livro de Yates, Sampling Methods for Censuses and Surveys (1949), surgiu da solicitao da Subcomisso na sua primeira sesso, em Lake Success, em Long Island, New York, em setembro de 1947, para que fosse preparado um manual para auxiliar o projetado Censo Mundial da Populao e da Agricultura, em 1950. Esse livro, o primeiro sobre o assunto, e cuja quarta e ltima edio foi publicada em 1981, preencheu plenamente as necessidades previstas pela Subcomisso das Naes Unidas e recomendvel ser consultado, especialmente em problemas prticos relacionados com o planejamento e a execuo dos levantamentos por amostragem. Na Gr-Bretanha, a necessidade de obteno de dados por meio de levantamentos no foi to urgente como nos Estados Unidos. A populao do pas relativamente menor e muito mais concentrada. Muitos dados sobre a populao so obtidos como subproduto da administrao, no necessitando de levantamentos especiais. O primeiro uso de tcnicas de amostragem no pas foi feito por Bowley, num levantamento em Reading, 76

em 1912, no qual ele tomou aproximadamente cada 20 domiclio da classe operria, com ateno no clculo dos erros de amostragem e na possibilidade de vis (bias) pela introduo de substituies e recusas, conforme publicado em seu artigo (Bowley,1913). Contudo, na Inglaterra, a amostragem nunca alcanou a aceitao que teve nos Estados Unidos, segundo Moser (1949, 1955), cujos artigos tratam, minuciosamente, desse assunto. A ndia exemplo de outro pas que contribuiu para o desenvolvimento e aplicao dos levantamentos por amostragem com finalidade especialmente para o planejamento econmico na dcada de 1930, sob a orientao do Instituto Indiano de Estatstica organizado por P. C. Mahalanobis. Essas atividades deram origem a seus artigos Mahalanobis (1944, 1946). Entre outras atividades, Mahalanobis introduziu a tcnica de subamostras interpenetrantes para controlar e avaliar a contribuio de erros alheios amostragem, didaticamente explicada no livro texto de Cochran (1953), no Captulo 13 Sources of Error in Surveys. Uma lista de erros alheios amostragem citada por Deming (1950), e algumas medidas para controlar esse erros em levantamentos realizados em populaes humanas so estudadas por Hansen & Steinberg (1956). Note-se que o erro de amostragem apenas uma pequena poro do erro total. No Indian Council of Agricultural Research Icar