412

Click here to load reader

Como Fazer Experimentos 2aEd Barros Scarminio Bruns OCR

Embed Size (px)

Citation preview

  • Bencio de Barros NetoIeda Spacino Scarminio

    Roy Edward Bruns

    COMO FAZER EXPERIMENTOSPESQUISA E DESENVOLVIMENTO NA

    CINCIA E NA INDSTRIA

  • FICHA CATALOGRFICA ELABORADA PELABIBLIOTECA CENTRAL DA UNICAMP

    Barros Neto, Bencio deB278c Como fazer experimentos: pesquisa e desenvolvimento

    na cincia e na indstria I Bencio de Barros Neto, IedaSpacino Scarminio, Roy Edward Bruns. -- Campinas, SP :Editora da Unicamp, 2001.

    (Coleo Livro-Texto)1. Qumica - Mtodos estatsticos. 2. Planejamento

    experimental. 3. Modelos matemticos. 4. Otimizaomatemtica. I Scarminio, Ieda Spacino. 11. Bruns, RoyEdward. 111. Ttulo.

    ISBN: 85-268-0544-4

    20. CDD - 540.28- 519.5- 511.8- 519.7

    ndices para Catlogo Sistemtico:

    1. Qumica - Mtodos estatsticos2. Planejamento experimental3. Modelos matemticos4. Otimizao matemtica.

    540.28519.5511.8519.7

    Copyright by Editora da Unicalnp, 2001

    Coleo Livro-Texto

    Nenhuma parte desta publicao pode ser gravada, armazenada em sistema eletrnico, fotocopiada,reproduzida por meios mecnicos ou outros quaisquer sem autorizao prvia do editor.

    Secretria executivaElisabeth Regina Marchetti

    Assessor de produo editorialVlademir Jos de Camargo

    Preparao e revisoBenicio de Barros Neto

    Supervisora de editorao eletrnicaSilvia Helena P. C. Gonalves

    Editorao eletrnicaRossana Cristina Barbosa

    Designer de capaBenicio de Barros Neto

    Arte-final de capaAdailton Clayton dos Santos

    Acompanhamento grficoEdnilson Tristo

    Assessor de informticaCarlos Leonardo Lamari

    Associao Brasileira deEditoras Universitrias

    2001Editora da UnicampCaixa Postal 6074

    Cidade Universitria - Baro GeraldoCEP 13083-970 - Campinas - SP - Brasil

    Tel.: (19) 3788-1015 - Tel./Fax: (19) 3788-1100www.editora.unicamp.br

  • Prefcio

    1 Como a Estatstica pode ajudar1.1 Em que a Estatstica pode ajudar1.2 Modelos empricos

    1.3 Planejamento e otimizao de experimentos

    2 Quando as coisas funcionam normalmente

    2.1 Erros

    2.1(a) Tipos de erros2. 2 Populaes, amostras e distribuies

    2.2(a) Como descrever as caractersticas da amostra2.3 A distribuio normal

    2.3(a) Como calcular probabilidades de ocorrncia2.3(b) Como usar as caudas da distribuio normal padro2.3(c) Porque a distribuio normal to importante?2.3(d) Como calcular um intervalo de confiana para a mdia2.3(e) Como interpretar um intervalo de confiana

    2.4 Covarincia e correlao

    2.5 Combinaes lineares de variveis aleatrias2.6 Amostragem aleatria em populaes normais

    2.7 Aplicando a distribuio normal

    2.7(a) Como fazer comparaes com um valor de referncia2.7(b) Como determinar o tamanho da amostra2.7(c) Como fazer o controle estatstico de processos2.7(d) Como comparar dois tratamentos

    Como comparar duas mdias

    Como fazer comparaes emparelhadas

    Como comparar duas varincias

    Sumrio

    1

    2

    4

    5

    9

    1011

    1518

    25

    27

    31

    34

    36

    38

    38

    43

    48

    56

    56

    58

    60

    64

    64

    67

    69

  • Sumrio

    2A Aplicaes

    2A.1 De casa para o trabalho2A.2 Bioequivalncia de medicamentos genricos e de marca2A.3 Mais feijes?2A.4 Produtividade de algas marinhas

    3 Como variar tudo ao mesmo tempo

    3.1 Um planejamento fatorial 22

    3.1(a) Clculo dos efeitos3.1(b) Interpretao geomtrica dos efeitos3.1(c) Estimativa do erro experimental3.1(d) Interpretao dos resultados3.1(e) Um algoritmo para o clculo dos efeitos3.1(f) O modelo estatstico

    3.2 Um planejamento fatorial 233.2(a) Clculo dos efeitos3.2(b) Estimativa do erro3.2(c) Interpretao dos resultados3.2(d) O modelo estatstico

    3.3 Um planejamento fatorial 243.3(a) Clculo dos efeitos3.3(b) Estimativa do erro

    3.4 Anlise por meio de grficos normais

    3.5 Operao evolucionria com fatoriais de dois nveis

    3.6 Blocagem em planejamentos fatoriais3A Aplicaes

    3A.1 Hidrlise de resinas3A.2 Voltametria cclica do azul de metileno3A.3 Tempo de reteno em cromatografia lquida3A.4 Separao de gases por adsoro3A.5 Melhorando funes de onda3A.6 Desempenho de eletrodos de Ti!I'i023A.7 Controlando a espuma3A.8 Desenvolvimento de um detergente

    7171778082

    83

    8587

    89919496

    100

    105106108109112

    113

    114

    115117123

    126130

    130131

    133

    135137140

    144

    146

  • 4 Quando as variveis so muitas

    4.1 Fraes meias de planejamentos fatoriais4.1(a) Como construir uma frao meia4.1(b) Relaes geradoras de fatoriais fracionrios

    4.2 O conceito de resoluo4.2(a) Fatoriais fracionrio's de resoluo quatro4.2(b) Fatoriais fracionrios de resoluo cinco4.2(c) Variveis inertes e fatoriais embutidos em fraes4.2(d) Fraes meias com resoluo mxima

    4.3 Triagem de variveis

    4.3(a) Fatoriais fracionrios de resoluo trs4.3(b) Planejamentos saturados4.3(c) Como construir uma frao de resoluo trs4.3(d) Como construir uma frao 2~V4 a partir de uma frao 21iI4

    4.3(e) Planejamentos saturados de Plackett e Burman4.3(f) Tcnicas de Taguchi para engenharia de qualidade

    4A Aplicaes

    4A.l Adsoro em slicas organofuncionalizadas4A.2 Termogravimetria do oxalato de clcio4A.3 Anlise cromatogrfica de gases4A.4 Resposta cataltica da Mn-porfirina4A.5 Escoamento de xidos na indstria siderrgica4A.6 Produo de violacena por bactrias4A.7 Cura de uma resina polister

    5 Como constr~ir modelos empricos

    5.1 Um modelo para y = f(T)5.2 Anlise da varincia

    5.3 Intervalos de confiana5.4 Significncia estatstica da regresso5.5 Um novo modelo para y = f(T)5.6 Falta de ajuste e erro puro5.7 Correlao e regresso5A Aplicaes

    Sumrio

    149

    150

    155157159159

    161163

    166166166169177

    177

    179180

    185185

    187190

    191

    193

    195

    198

    201

    201

    212

    217223

    224

    227

    235238

  • Sumrio

    5A.15A.2

    5A.3

    5A.45A.5

    5A.6

    A flexibilidade do arCalibrao em cromatografiaCalibrao multivariadaIntervalo de energias proibidas em semicondutoresDeterminao de um calor de vaporizaoOutra calibrao

    238

    241

    244

    245246

    248

    6 Andando na superfcie de resposta

    6.1 Metodologia de superfcies de resposta6.1(a) Modelagem inicial6.1(b) Como determinar o caminho de mxima inclinao6.1(c) Localizao do ponto timo

    6.2 A importncia do planejamento inicial6.3 Um experimento com trs fatores e duas respostas6.4 Como tratar problemas com muitas variveis6.5 Planejamentos compostos centrais6A Aplicaes

    6A.1 Resposta cataltica do Mo(VI)6A.2 Desidratao osmtica de frutas6A.3 Diminuindo o colesterol6A.4 Produo de lacase6A.5 Aumentando o oxignio do ar

    7 Como modelar misturas

    7.1 Misturas de dois componentes

    7.2 Misturas de trs componentes

    7.3 Um exemplo: misturas de trs componentes7.4 Modelos cbicos para misturas de trs componentes

    7.5 Avaliao de modelos

    7.6 Pseudocomponentes

    7.7 Outros planejamentos7.8 Misturas com mais de trs componentes7A Aplicaes

    7A.1 Influncia do solvente na complexao do on Fe(III)7A.2 Resistncia trao de misturas polimricas

    251

    251252

    256261264

    266

    275280

    286

    286

    288

    291

    294

    296

    301

    304

    309

    313

    317

    320

    323

    325329333

    333

    335

  • 7A.37A.4

    7A.5

    Determinao cataltica de Cr(VI)Condutividade de uma blenda polimricaNo precisa comer para conhecer o pudim

    Sumrio

    339341

    344

    8 Otimizao simplex

    8.1 o simplex bsico8.2 o simplex modificado8.3 O simplex supermodificado

    Referncias bibliogrficas

    Respostas aos exerccios

    Tabelas

    ndice Remissivo

    349

    350355

    366

    371

    375

    391

    399

  • Prefcio

    A utilidade deve ser a principal inteno de qualquer publicao. Onde quer que essainteno no aparea claramente, nem os livros nem seus autores tm o menor direito aprovao da humanidade. Assim escreveu William Smellie no prefcio primeira edio daEncyclopaedia Britannica, publicada em 1768.

    Nosso livro tem a modesta inteno de ser til s pessoas que desejarem - ouprecisarem - fazer experimentos. A edio que voc est lendo uma verso considera-velmente revista, corrigida e ampliada do nosso texto anterior, Planejamento e Otimizaode Experimentos, que esgotou trs tiragens. Como foram muitas as mudanas que fizemos,conclumos que seria apropriado mudar tambm o ttulo, para torn-lo uma descrio maisfiel do contedo e do propsito do livro.

    Na preparao desta edio cada sentena foi reconsiderada, com o objetivo de tornaro texto mais claro. Todos os erros que conseguimos descobrir, ou que os leitores tiveram abondade de nos apontar, foram corrigidos. A principal mudana, porm, que vrios novosassuntos foram includos, enquanto outros tantos passaram a ter um tratamento maisaprofundado.

    Entre as novidades, gostaramos de chamar a ateno para o captulo dedicado metodologia de superfcies de resposta, e para as sees contendo aplicaes reais das vriastcnicas de planejamento e anlise que discutimos no texto principal. Muitos leitores daprimeira edio comentaram conosco que gostariam de ver menos teoria e mais prtica. Os35 exemplos reais que agora inclumos (quase 80 novas pginas dedicadas a eles, no total)representam um esforo no sentido de, seno diminuir a teoria, pelo menos temper-la combastante prtica. As pessoas que usaram a edio anterior notaro ainda que o projetogrfico tambm foi modificado, na esperana de tornar a leitura mais agradvel.

    Nos 15 anos em que nos dedicamos a tentar ensinar quimiometria - isto , oemprego de tcnicas estatsticas, matemticas e grficas para resolver problemas qumicos -tivemos centenas de alunos e alunas, tanto nas nossas prprias universidades quanto emoutras instituies de ensino e pesquisa, bem como em diversas empresas. Esses estudantesvinham principalmente das cincias exatas e das engenharias, mas vrias outras profissesestiveram representadas, da administrao medicina, passando pela biologia, pela far-mcia e pela tecnologia de alimentos, para mencionar as primeiras que nos ocorrem agora.Essa diversidade nos faz acreditar que as tcnicas que apresentamos podem ser aprendidase usadas, com maior ou menor esforo, por qualquer profissional que tenha de realizarexperimentos.

    Gostaramos de reiterar que a estatstica no faz milagres, e que no pode substituirde forma alguma o conhecimento tcnico especializado. O que continuamos esperando

    xi

  • Prefcio

    demonstrar, com esta nova edio, que um profissional que junte conhecimentos deplanejamento de experimentos e de anlise de dados a uma slida formao tcnica em suarea torna-se um profissional mais competente, e por isso mesmo mais competitivo.

    Ns mesmos somos qumicos, no estatsticos, e talvez seja isso que diferencie onosso livro de outros com um contedo semelhante. Embora no acreditemos que algumpossa dominar as tcnicas de planejamento e anlise de experimentos sem um certoconhecimento dos fundamentos da Estatstica, neste livro procuramos reduzir a discussodessa base ao mnimo que consideramos necessrio, e passar logo para o que interessa -problemas de pesquisa e desenvolvimento. Por outro lado, como sabemos que a Estatsticano costuma figurar entre as disciplinas mais populares na formao de diversas categoriasprofissionais, partimos do princpio de que nossos leitores no tm nenhum conhecimentoprvio dessa cincia. Mesmo assim, chegamos mais cedo aos problemas experimentais commuitas variveis do que os textos mais tradicionais.

    Um nmero muito grande de pessoas contribuiu para que este livro se tornasserealidade. Se na primeira edio a lista j era extensa demais para que citssemos a todosnominalmente, temos a satisfao de reconhecer que de l para c ela s fez ampliar-se, enossa gratido aumentou na mesma proporo. Queremos, porm, agradecer especialmentequeles cujo trabalho permitiu que inclussemos tantas aplicaes na presente edio. Essesso chamados pelo nome quando discutimos seus respectivos dados.

    As universidades em que trabalhamos so muito distantes uma da outra, e a nossacolaborao tem se beneficiado do apoio da Fapesp, da Faep-Unicamp e do CNPq, pelo quetambm somos muito gratos.

    Por uma coisa somos os nicos responsveis: os defeitos que no conseguimos reme-diar. Contamos com a ajuda dos leitores para resolver esse problema de otimizao. Nossosendereos eletrnicos esto a embaixo. Se voc sabe como poderamos melhorar o livro,ficaremos muitos satisfeitos em ouvir sua opinio.

    Campinas, janeiro de 2001.B. B. Neto ([email protected])Departamento de Qumica FundamentalUniversidade Federal de Pernambuco

    l. S. Scarminio ([email protected])Departamento de QumicaUniversidade Estadual de Londrina

    R. E. Bruns (brunsigm.unicamp.br)Departamento de Fsico-QumicaInstituto de Qumica - Unicamp

    XII

  • 1Como a Estatstica pode ajudar

    ... Porque ter a mente boa no o bastante; o principal aplic-la bem. Asmaiores almas so capazes tanto das maiores virtudes quanto dos maioresvcios, e aqueles que marcham lentamente podem avanar muito mais, seseguirem o caminho certo, do que os que correm porm dele se afastam.Descartes, Discurso sobre o mtodo, parte I.

    Este um livro sobre o bom senso. Mais especificamente, sobre o bom senso na realizao de

    experimentos e na anlise de seus resultados. No incio do Discurso sobre o mtodo, umpouco antes da citao acima, Descartes diz que, de todas as coisas no mundo, a mais bem

    distribuda o bom senso, porque "todos se acham to abundantemente providos [de bomsenso] que mesmo aqueles mais difceis de se contentar em outros assuntos comumente nodesejam mais bom senso do que j tm" (Descartes, 1637). Se voc acredita nisso (Descartesobviamente no acreditava), este livro no para voc.

    Digamos, porm, que voc esteja de acordo com Descartes - afinal, voc continuoulendo - e ache que nem tudo que parece bvio to bvio assim. Nesse caso, se voc estiver

    envolvido com experimentao, seja na vida acadmica, seja na indstria, seja numlaboratrio de pesquisa ou desenvolvimento, este livro poder lhe ser bastante til. Com ele

    voc poder aprender a realizar seus experimentos e tirar suas concluses de forma maiseconmica e eficaz.

    Nos captulos seguintes apresentaremos algumas tcnicas relativamente simples e

    fceis de empregar. Como o ovo de Colombo, essas tcnicas podero at parecer bvias depois

    que voc refletir um pouco sobre elas, mas isso no lhes tira o mrito nem a eficcia. Paradeixar mais claro o que queremos dizer, vamos considerar um exemplo prtico, muito fcil de

    encontrar na vida real, principalmente na indstria, onde a relao custo!benefcio sempreuma questo importante.

    Digamos que um qumico deseje obter o rendimento mximo em uma certa reao, eque essa reao seja controlada por apenas duas variveis: a temperatura e a concentraode um determinado reagente. Na nomenclatura que adotaremos neste livro, a propriedade

    de interesse, que neste caso o rendimento, chamada de resposta. As variveis que emprincpio influenciam a resposta (isto , a temperatura e a concentrao) so os fatores, e a

    1

  • Como a Estatstica

    funo que descreve essa influncia chamada de superficie de resposta. O objetivo dopesquisador descobrir quais os valores - os nveis - dos dois fatores que produzem a maiorresposta possvel. Como voc faria para resolver esse problema?

    Eis uma sugesto. Para manter as coisas sob controle, fixamos um dos fatores num

    certo nvel e variamos o outro at descobrir qual o nvel desse outro fator que produz o maior

    rendimento. Variando s um dos fatores estaremos nos assegurando de que qualquer

    mudana na resposta ter sido causada pela modificao do nvel desse fator. Depois,

    mantendo esse fator no nvel timo encontrado, variamos o nvel do primeiro fator (o quetinha sido fixado), at descobrir o valor dele que tambm produz um rendimento mximo.Pronto. O experimento acabou, e descobrimos os valores timos que estvamos procurando,

    certo?

    Errado! Esse pode ser o senso comum, mas certamente no bom senso. Quase todasas pessoas a quem perguntamos concordaram que o procedimento que acabamos de

    descrever era "o mais lgico", e no entanto existe uma maneira muito mais eficaz de fazer o

    experimento. Alis, com esse "senso comum" o rendimento mximo s seria descoberto em

    circunstncias muito especiais. Ao contrrio do que se poderia esperar, muito melhor fazer

    variar todos os fatores ao mesmo tempo. A razo para isso que as variveis podem seinfluenciar mutuamente, e o valor ideal para uma delas pode depender do valor da outra.

    Esse comportamento, que chamamos de intera~o entre os fatores, um fenmeno queocorre com muita freqncia. Raras so as situaes em que dois fatores atuam de forma

    realmente independente.

    Este apenas um exemplo de como o senso comum pode ser enganoso. Voltaremos a

    ele nos captulos seguintes, para um tratamento detalhado. Neste captulo vamos apenas in-

    troduzir algumas noes bsicas de modelagem e apresentar sumariamente as tcnicas que

    discutiremos ao longo do livro, tentando mostrar a utilidade de cada uma delas na vida real.

    1.1 Em que a Estatstica pode ajudar

    comum, especialmente em indstrias qumicas, aparecerem problemas em que precisamosestudar vrias propriedades ao mesmo tempo e estas, por sua vez, so afetadas por um

    grande nmero de fatores experimentais. Como investigar os efeitos de todos esses fatores

    sobre todas as propriedades, minimizando o trabalho necessrio e o custo dos experimentos?

    Como melhorar a qualidade do produto resultante? Que fatores experimentais devemoscontrolar para que a qualidade do produto seja assegurada?

    2

  • As pesquisas realizadas com o objetivo de fornecer respostas a essas perguntasmuitas vezes tomam vrios meses de trabalho de pesquisadores e tcnicos, a um custo

    bastante alto em termos de salrios, reagentes, anlises qumicas e testes fsicos. O principal

    objetivo deste livro mostrar que o emprego de conhecimentos estatsticos pode ajudar aresponder a essas perguntas de forma racional e econmica. Usando planejamentosexperimentais baseados em princpios estatsticos, os pesquisadores podem extrair do

    sistema em estudo o mximo de informao til, fazendo um nmero mnimo de

    experimentos.

    Os mtodos mais eficazes que podem ser usados por cientistas e engenheiros para

    melhorar ou otimizar sistemas, produtos e processos so apresentados nos captulos

    seguintes. Esses mtodos so ferramentas poderosas, com as quais vrios objetivosespecficos podem ser alcanados. Podemos fabricar produtos com melhores caractersticas,

    diminuir seu tempo de desenvolvimento, aumentar a produtividade de processos, minimizar

    a sensibilidade dos produtos s variaes nas condies ambientais, e assim por diante.

    Voltando ao nosso exemplo inicial, vejamos algumas questes especficas em que oplanejamento experimental pode ajudar o pesquisador a atingir seus objetivos mais rapida-mente e a um custo menor. Digamos que ele j saiba que a temperatura e a concentrao,bem como o tipo de catalisador, afetam o rendimento. Como seria possvel ajustar os valoresda temperatura e da concentrao para obter uma quantidade maior do produto? Variando

    esses fatores, seria possvel maximizar o rendimento? As mudanas nesses valores provo-

    cariam mudanas semelhantes nos rendimentos se o catalisador fosse outro? Que expe-rimentos devemos realizar para obter mais informaes sobre o sistema? Como podemos

    quantificar a eficincia dos catalisadores para as diferentes combinaes de temperatura e

    concentrao? Como os valores dos fatores experimentais podem ser mudados para obtermos

    o maior rendimento possvel sem que as propriedades mecnicas do produto final deixem de

    satisfazer s suas especificaes? Nos captulos restantes discutiremos tcnicas estatsticas

    de planejamento e anlise capazes de nos auxiliar a encontrar respostas confiveis paratodas estas questes.

    Os mtodos que veremos independem da natureza do problema a que so aplicados.

    Servem para estudar reaes qumicas, sistemas biolgicos, processos mecnicos (entremuitos outros), e tambm podem varrer todas as possveis escalas de interesse, desde umanica reao em bancada at um processo industrial operando em larga escala. O

    denominador comum so os princpios estatsticos envolvidos, que so sempre os mesmos. claro que isso no significa menosprezar o conhecimento tcnico que o especialista j detmsobre o sistema em estudo. Como j dissemos no prefcio, ele insubstituvel. As ferra-

    3

  • Come a Estatistica

    mentas estatsticas, embora valiosas, so apenas um complemento a esse conhecimento. O

    ideal que as duas coisas - conhecimento bsico do problema e estatstica - andem juntas.

    1.2 Modelos empricos

    Quando se trata de modelar dados resultantes de experimentos ou observaes, importantefazer a distino entre modelos empricos e modelos mecansticos. Tentaremos esclarecer

    essa diferena considerando dois exemplos prticos.

    Imaginemos que um astrnomo queira calcular a hora em que vai ocorrer o prximo

    eclipse da Lua. Como sabemos, os fatos acumulados ao longo de sculos de observao e

    especulao levaram, no final do sculo XVII, a uma teoria que explica perfeitamente os

    fenmenos astronmicos no-relativsticos: a mecnica newtoniana. A partir das leis de

    Newton possvel deduzir o comportamento dos corpos celestes como uma conseqncia

    inevitvel das suas interaes gravitacionais. Este um modelo mecanstioo: com elepodemos prever as trajetrias dos astros porque sabemos as causas que as provocam, isto, conhecemos o mecanismo por trs de seu comportamento. O astrnomo s precisa

    aplicar a mecnica newtoniana s suas observaes e fazer as dedues necessrias. Ele

    no tem, alis, de ficar restrito ao sistema solar: as leis de Newton aplicam-se univer-

    salmente. Em outras palavras, a mecnica newtoniana tambm um modelo global.

    Agora consideremos uma situao bem diferente e mais prxima de ns. Um qumico

    encarregado de projetar uma fbrica piloto baseada numa determinada reao recm-desenvolvida em bancada. Ele sabe que o comportamento dessa reao pode ser

    influenciado por muitos fatores: as quantidades iniciais dos reagentes, o pH do meio, o

    tempo de reao, a carga de catalisador, a velocidade com que os reagentes so

    introduzidos no reator, a presena ou ausncia de luz, e assim por diante. Mesmo que

    exista um modelo cintico para a reao em questo, dificilmente ele poder levar em

    conta a influncia de todos esses fatores, alm de outros mais que costumam aparecer

    quando se muda da escala de laboratrio para a escala piloto. Numa fbrica em larga

    escala, ento, que normalmente o objetivo de longo prazo, a situao ainda maiscomplexa. Surgem elementos imponderveis, como o nvel de impurezas da matria-

    prima, a flutuao de fatores ambientais (umidade, por exemplo), a estabilidade doprocesso como um todo, e at mesmo o prprio envelhecimento do equipamento. Trata-se

    de uma situao muito complicada, para a qual difcil ser otimista quanto possibi-

    lidade de se descobrir um modelo mecanstico to abrangente e eficaz como a mecnica

    newtoniana. Num caso destes, o pesquisador deve recorrer forosamente a modelos

    4

  • empricos, isto , modelos que procuram apenas descrever, com base na evidnciaexperimental, o comportamento do processo estudado. Isto totalmente diferente de

    tentar explicar a partir de umas poucas leis o que est se passando, que o que procurafazer um modelo mecanstico. Mesmo conseguir descrever, dito assim sem nenhuma

    adjetivao, pode ser em muitos casos uma tarefa ambiciosa demais. Na modelagememprica j nos damos por satisfeitos se somos capazes de descrever o processo estudadona regio experimental investigada. Isto quer dizer que modelos empricos so tambmmodelos lomis. Sua utilizao para fazer previses para situaes desconhecidas corre por

    conta e risco do usurio.

    Para resumir o contedo deste livro numa nica frase, podemos dizer que o seu

    objetivo ensinar as tcnicas mais empregadas para desenvolver modelos empricos.

    1.3 Planejamento e otimizao de experimentosAs pessoas normalmente se lembram da Estatstica quando se vem diante de grandes

    quantidades de informao. Na percepo do chamado senso comum, o emprego de mtodos

    estatsticos seria algo semelhante prtica da minerao. 1 Um estatstico seria um tipo de

    minerador bem-sucedido, capaz de explorar e processar montanhas de nmeros e delas

    extrair valiosas concluses. Como tanta coisa associada ao senso comum, esta tambm uma

    impresso falsa, ou no mnimo parcial. A atividade estatstica mais importante no a

    anlise de dados, e sim o planejamento dos experimentos em que esses dados devem serobtidos. Quando isso no feito da forma apropriada, o resultado muitas vezes umamontanha de nmeros estreis, da qual estatstico algum conseguiria arrancar quaisquer

    concluses.

    A essncia de um bom planejamento consiste em projetar um experimento de formaque ele seja capaz de fornecer exatamente o tipo de informao que procuramos. Para issoprecisamos saber, em primeiro lugar, o que mesmo que estamos procurando. Mais uma

    vez, parece bvio, mas no bem assim. Podemos mesmo dizer que um bom experimentador

    , antes de tudo, uma pessoa que sabe o que quer. Dependendo do que ele queira, algumas

    tcnicas sero mais vantajosas, enquanto outras sero simplesmente incuas. Se voc quertornar-se um bom planejador, portanto, comece perguntando a si mesmo:

    1 Alis, o termo data mining est se tornando cada vez mais comum para descrever investigaesexploratrias em grandes bancos de dados, normalmente de interesse comercial.

    5

  • Como a Estatstica

    O que eu gostaria de fimr sabendo quando o experimento tiver terminado?

    Yogi Berra, o astro do beisebol americano, tambm era conhecido por suas tiradas

    espirituosas, e s vezes paradoxais. Uma delas se aplica perfeitamente neste contexto: Se

    voc no sabe para onde est indo, vai terminar batendo em outro lugar.

    Imaginemos um eixo que descreva o progresso de uma investigao experimental,

    desde uma situao de praticamente nenhuma informao at a construo de um (hipot-tico) modelo mecanstico global. Caminhar ao longo desse eixo corresponderia a ir descendoas linhas da Tabela 1.1, que mostra um sumrio do contedo do livro. Na primeira linha,

    numa situao de pouca informao, sequer sabemos quais so as variveis mais impor-

    tantes para o sistema que estamos estudando. Nosso conhecimento talvez se limite a uma

    pequena experincia prtica ou a alguma informao bibliogrfica. Nessas condies, a pri-meira coisa a fazer realizar uma triagem e descartar as variveis no significativas, para

    no perder mais tempo e dinheiro com elas no laboratrio. O uso de planejamentos fatoriaisfracionrios, discutidos no Captulo 4, uma maneira de alcanar esse objetivo. Os planeja-mentos fracionrios so extremamente econmicos e podem ser usados para estudar dezenasde fatores de uma s vez.

    Tabela 1.1. A evoluo de um estudo emprico. O conhecimento do sistema estu-dado aumenta medida que percorremos a tabela de cima para baixo.

    Objetivo

    Triagem de variveis

    Avaliao da influncia de variveis

    Construo de modelos empricos

    Otimizao

    Tcnica

    Planejamentos fracionrios

    Planejamentos fatoriaiscompletos

    Modelagem por mnimosquadrados

    RSM, simplex

    Captulo

    4

    3

    5,7

    6,8

    Construo de modelos mecansticos Deduo a partir de princpiosgerais

    Tendo selecionado os fatores importantes, nosso prximo passo seria avaliar

    quantitativamente sua influncia sobre a resposta de interesse, bem como as possveis inte-

    raes de uns fatores com os outros. Para fazer isso com o mnimo de experimentos, podemos

    empregar planejamentos fatoriais completos, que so tratados no Captulo 3. Ultrapassandoessa etapa e desejando obter uma descrio mais detalhada, isto , obter modelos maissofisticados, podemos passar a empregar a modelagem por mnimos quadrados, que o

    6

  • assunto tratado no Captulo 5. Esse provavelmente o captulo mais importante de todos,porque algumas das tcnicas discutidas em outros captulos nada mais so que casos

    particulares da modelagem por mnimos quadrados. Um exemplo o Captulo 7, dedicado

    modelagem de misturas. Modelos de misturas tm algumas peculiaridades, mas no fundo

    so modelos ajustados pelo mtodo dos mnimos quadrados.

    s vezes nosso objetivo principal otimizar nosso sistema, isto , maximizar ouminimizar algum tipo de resposta. Pode ocorrer que ao mesmo tempo ns tambm tenhamos

    de satisfazer determinados critrios. Por exemplo: produzir a mxima quantidade de um

    determinado produto, ao menor custo possvel, e sem fugir das especificaes. Nessa situao

    uma tcnica conveniente a metodologia de superficies de resposta (RSM), apresentada noCaptulo 6 e tambm baseada na modelagem por mnimos quadrados. Mais adiante, no

    Captulo 8, apresentamos uma tcnica de otimizao diferente, o simplex seqencial, em que

    o objetivo simplesmente chegar ao ponto timo, dispensando-se a construo de um modelo.

    Construir modelos empricos no basta. Precisamos tambm avaliar se eles so

    realmente adequados ao sistema que estamos querendo descrever. S ento tem cabimento

    procurar extrair concluses desses modelos. Um modelo mal ajustado faz parte da ficocientfica, no da cincia.

    impossvel fazer uma avaliao da qualidade do ajuste de um modelo sem recorrera alguns conceitos bsicos de estatstica. Isto no significa, porm, que voc tenha de se

    tornar um especialista em estatstica para poder se valer das tcnicas que apresentamos

    neste livro. Algumas noes baseadas na famosa distribuio normal so suficientes. Essas

    noes so apresentadas no Captulo 2, e so muito importantes para a compreenso e a

    aplicao dos mtodos de planejamento e anlise apresentados nos demais captulos. Paratentar amenizar a costumeira aridez com que so discutidos tais conceitos, baseamos nosso

    tratamento na soluo de um problema prtico, de alguma relevncia para a culinrianacional.

    A utilizao de todos os mtodos descritos neste livro praticamente invivel sem aajuda de um microcomputador para fazer clculos e grficos. Quando escrevemos a primeiraedio, distribuamos junto com o livro um disquete com vrios programas escritos com essafinalidade. Hoje a abundncia de programas muito mais sofisticados, vrios dos quais dedomnio pblico, no s para Windows como para Linux, tornou o nosso disquete obsoleto. Se

    mesmo assim voc estiver interessado nos tais programas (que so para o sistema DOS),pode obt-los gratuitamente na pgina do Instituto de Qumica da Unicamp(www.igm.unicamp.br). a partir do link chemkeys.

    7

  • jj

    j

    j

    j

    j

    j

    j

    j

    j

    j

    j

    j

    j

    j

    j

    j

    j

    j

    j

    j

    j

    j

    j

    j

    j

    j

    j

    j

    j

    j

    j

    j

    j

    j

    j

    j

    j

    j

    j

    j

    j

    j

    j

    j

    j

    j

    j

    j

    j

    j

    j

    j

    j

    j

    j

  • 2Quando as coisas funcionam normalmente

    o que leva um pesquisador a fazer experimentos o desejo de encontrar a soluo de deter-minados problemas. Escrevemos este livro para mostrar como qualquer pesquisador (ou pes-quisadora, naturalmente), aplicando as tcnicas estatsticas apropriadas, pode resolver seusproblemas experimentais de forma mais eficiente. Queremos ensinar ao leitor o que fazerpara tirar o melhor proveito dessas tcnicas, no s na anlise dos resultados experimentais,

    mas principalmente no prprio planejamento dos experimentos, antes de fazer qualquermedio.

    Estatstica um termo que, merecidamente ou no, goza de pouca popularidade

    entre os qumicos, e entre pesquisadores e engenheiros em geral. Quem ouve falar noassunto pensa logo num grande volume de dados, valores, percentagens ou tabelas, onde

    esto escondidas as concluses que buscamos, e que esperamos que os mtodos estatsticos

    nos ajudem a descobrir. Na verdade, analisar os dados apenas uma parte da Estatstica. Aoutra parte, to importante quanto - se no mais - planejar os experimentos queproduziro os dados. Muita gente j descobriu, da forma mais dolorosa, que um descuido noplanejamento pode levar um experimento, feito com a melhor das intenes, a terminar emresultados inteis, dos quais nem a anlise mais sofisticada consegue concluir nada. R. A.

    Fisher, o criador de muitas das tcnicas que discutiremos, escreveu uma advertncia elo-

    qente: "Chamar o especialista em estatstica depois que o experimento foi feito pode ser o

    mesmo que pedir a ele para fazer um exame post-mortem. Talvez ele consiga dizer de que foi

    que o experimento morreu."

    Felizmente essa situao desagradvel pode ser evitada. Basta que voc planejecuidadosamente a realizao do seu experimento, em todos os detalhes e usando as ferra-

    mentas estatsticas apropriadas. Com essa precauo, alm de minimizar os custos ope-

    racionais, voc ter a garantia de que os resultados do experimento iro conter informaes

    relevantes para a soluo do problema de partida. Com experimentos bem planejados, ficamuito fcil extrair concluses vlidas. A anlise dos resultados passa a ser trivial.

    A recproca verdadeira. Um pesquisador que desconhea a metodologia do planeja-mento experimental corre o risco de chegar a concluses duvidosas. Pior ainda, pode acabar

    9

  • uu:an:on as coisas funcionam normahnente

    realizando experimentos que no levem a concluso alguma, duvidosa ou no, e cujo nicoresultado prtico seja o desperdcio de tempo e dinheiro.

    Neste livro apresentaremos vrias tcnicas de planejamento e anlise que, com umpouco de esforo, podem ser usadas por qualquer pesquisador no seu dia-a-dia. Para discuti-

    las corretamente, precisamos de alguns conceitos de estatstica, todos baseados, em ltima

    anlise, na famosa distribuio normal. por isso que resolvemos dar a este captulo o ttuloque ele tem.

    Existem vrios excelentes livros de estatstica, em todos os nveis de dificuldade,

    desde o muito elementar at o muito avanado. Muitos so voltados para reas especficas -

    cincias sociais, cincias humanas, cincias da sade e, claro, tambm cincias fsicas e

    engenharia. Em geral eles tratam de muitos assuntos importantes do ponto de vista

    puramente estatstico, mas no totalmente relevantes para o nosso estudo do planejamentoe da otimizao de experimentos. Como o nosso objetivo chegar o quanto antes s apli-caes prticas, vamos apresentar neste captulo somente os conceitos estatsticos essenciais

    para o trabalho do engenheiro ou do pesquisador, seja no laboratrio ou no campo.

    Por aborrecida que s vezes parea, a estatstica fundamental para que ns possa-

    mos planejar e realizar experimentos de forma eficiente. Para aproveitar todo o potencialdas tcnicas apresentadas no restante do livro, muito importante que voc tenha uma com-

    preenso correta do contedo deste captulo.

    2.1 Erros

    Para obter dados experimentais confiveis, precisamos executar um procedimento bem defi-

    nido, com detalhes operacionais que dependem da finalidade do experimento.

    Imaginemos que nosso problema experimental seja determinar a concentrao decido actico numa amostra de vinagre. O procedimento tradicional para resolv-lo fazer

    uma titulao cido-base. Seguindo o mtodo usual, precisamos

    (a) preparar a soluo do padro primrio;

    (b) us-la para padronizar a soluo de hidrxido de sdio de concentraoapropriada;

    (c) realizar a titulao propriamente dita.

    Cada uma dessas etapas, por sua vez, envolver um certo nmero de operaes bsicas,

    como pesagens, diluies e leituras de volume.

    10

  • Determinaes como esta fazem parte da rotina dos laboratrios bromatolgicos, que

    as usam para verificar se o vinagre est de acordo com o estabelecido pela legislao (4% decido actico, no mnimo).

    Suponhamos que, ao titular duas amostras de procedncias diferentes, um analista

    tenha encontrado 3,80% de cido actico para a amostra A e 4,20% para a amostra B. Isso

    quer dizer que ele deve aceitar a segunda amostra, por estar acima do limite, e condenar a

    primeira, por conter menos cido que o mnimo determinado por lei?

    No sabemos, pelo menos por enquanto. No podemos dar uma resposta justa semter uma estimativa da incerteza associada a esses valores, porque cada uma das operaes

    de laboratrio envolvidas na titulao est sujeita a erros, e esses erros todos iro se juntarpara influenciar o resultado final - e portanto nossas concluses - numa extenso que ainda

    no temos como avaliar. O resultado insatisfatrio pode no ser culpa da amostra, e sim das

    variaes inerentes ao procedimento analtico. O mesmo se pode dizer do resultado aparente-

    mente bom.

    Digamos que neste exemplo os erros sejam de tal monta que no tenhamos condiesde obter um resultado final com preciso superior a 0,30%.1 Sendo assim, o verdadeiro va-

    lor da concentrao da primeira amostra pode estar entre 3,50% e 4,10%. O valor observado,3,80%, seria apenas o ponto mdio desse intervalo. O resultado dessa nica titulao no

    excluiria a possibilidade de o verdadeiro teor de cido estar acima de 4%, e portanto enqua-

    drar-se na lei. Da mesma forma, a verdadeira concentrao da segunda amostra pode estarabaixo de 4%. Sem uma indicao da incerteza experimental, os valores 3,80% e 4,20% po-

    dem levar a concluses - e talvez a atitudes, como a rejeio do lote de vinagre - no auto-rizadas pelos fatos.

    2.1 (a) Tipos de erro

    Todos sabemos que qualquer medida est sempre afetada por erros - so coisas da vida. Se

    os erros forem insignificantes, timo. Se no forem, corremos o risco de fazer inferncias

    incorretas a partir de nossos resultados experimentais, e possivelmente chegar a uma

    resposta falsa para o nosso problema. Para evitar esse final infeliz, precisamos saber como

    levar na devida conta os erros experimentais. Isso importante no s na anlise do resulta-

    1 Calma, companheiros qumicos. Sabemos muito bem que esta uma preciso absurda para umaanlise volumtrica que se preze. O exagero nos erros est sendo cometido no interesse da didtica.

    11

  • do final, mas tambm - e principalmente - no prprio planejamento do experimento, como jdissemos. No existe anlise que possa salvar um experimento mal planejado.

    Suponhamos que na titulao do vinagre nosso qumico se distraia e se esquea de

    acrescentar o indicador (fenolftalena, como sabemos, porque o ponto de equivalncia vai cairem pH bsico). A conseqncia que a viragem no vai ocorrer nunca, no importa quantabase seja adicionada. Isso evidentemente um erro dos grandes, que os estatsticos carido-samente chamam de grosseiro. Os responsveis pelo experimento costumam usar outros

    adjetivos, que no ficam bem num livro de famlia.

    A estatstica no se ocupa desses erros. Alis, ainda no foi inventada a cincia

    capaz de trat-los. Num caso desses no h o que fazer, exceto aprender a lio e prestar

    mais ateno ao que se faz, para no reincidir. Todos cometemos enganos. O experimentadorconsciencioso deve fazer o possvel para comet-los cada vez menos.

    Imaginemos agora que acabou o estoque de fenolftalena e o qumico decide usar

    outro indicador que esteja disponvel. O vermelho de metila, por exemplo. Como a faixa deviragem do vermelho de metila fica em pH abaixo de sete, o ponto final da titulao vai

    ocorrer antes que todo o cido actico tenha sido neutralizado, e com isso o vinagre parecer

    ter uma concentrao inferior verdadeira. Se vrias amostras forem tituladas dessa ma-

    neira, em todas elas o valor encontrado para a concentrao de cido actico ser inferior ao

    valor real, por causa da viragem prematura. Nosso qumico estar cometendo agora somente

    erros sistemticos, isto , erros que afetam o resultado sempre na mesma direo, seja paramais, seja para menos. Usando vermelho de metila ao invs de fenolftalena, sempre obte-remos uma concentrao de cido menor que a verdadeira, nunca maior.

    fcil imaginar outras fontes de erros sistemticos: o padro primrio pode estaradulterado, a balana pode estar descalibrada, a pipeta pode ter sido aferida erroneamente,

    quem est titulando pode olhar o menisco de um ngulo incorreto, e assim por diante. Cada

    um desses fatores exercer individualmente sua influncia sobre o resultado final, fazendo-o

    tender para uma certa direo.

    Com um pequeno esforo, os erros sistemticos tambm podem ser evitados. Uma

    vez que todos os instrumentos estejam funcionando perfeitamente, s seguir risca o pro-cedimento estipulado. Por exemplo, se para voc usar fenolftalena, use fenolftalena mes-

    mo, e ponto final.

    Depois de certificar-se de que todos os erros sistemticos foram eliminados, e alm

    disso prestando muita ateno no procedimento, nosso persistente qumico decide titular

    duas amostras retiradas do mesmo lote de vinagre. Como tudo no processo agora est sob

    12

  • controle, natural esperar que as duas titulaes produzam o mesmo resultado, j que setrata do mesmo vinagre. Ao comparar os dois valores encontrados, porm, o qumico verifica

    que, apesar de bem parecidos, eles no so idnticos. Isso s pode significar que nem tudoestava realmente controlado. Alguma fonte de erro, ainda que aparentemente pequena,

    continua afetando os resultados.

    Para investigar esses erros, o qumico resolve ento fazer vrias titulaes em

    outras amostras retiradas do mesmo lote. Os resultados obtidos em 20 titulaes so mos-

    trados na Tabela 2.1 e tambm na Figura 2.1.

    Examinando os resultados das vinte titulaes repetidas, percebemos que:

    Os valores obtidos flutuam, mas tendem a concentrar-se em torno de um certo valor in-

    termedirio.

    A flutuao em torno do valor central ocorre aparentemente ao acaso. Sabendo que de-

    terminada titulao resultou num valor abaixo da mdia, por exemplo, no conseguimos

    prever em que direo se deslocar o valor da prxima titulao, nem de quanto ser o

    seu desvio em relao mdia.

    Parece que a amostra est mesmo fora da especificao, j que a maioria dos valoresdeterminados est abaixo de 4%.

    Tabela 2.1 Resultados de vinte titulaes feitas no mesmo lote de vinagre.

    Titulao nQ Concentrao (%) Titulao nQ Concentrao (%)

    1 3,91 11 3,96

    2 4,01 12 3,85

    3 3,61 13 3,67

    4 3,83 14 3,83

    5 3,75 15 3,77

    6 3,91 16 3,51

    7 3,82 17 3,85

    8 3,70 18 4,04

    9 3,50 19 3,74

    10 3,77 20 3,97

    13

  • OUiZU1~dO as coisas funcionam normairnente

    Situaes como esta so corriqueiras nas mais variadas determinaes experimen-

    tais. Por mais que a gente tente controlar todas as variveis, algumas fontes de erro sempre

    terminam permanecendo. Alm disso, esses erros, que em geral so pequenos, se manifes-

    tam de forma aparentemente aleatria, como na segunda concluso acima. Ora alteram o re-

    sultado para mais, ora para menos, mas o seu efeito parece se dar ao acaso.

    Consideremos a titulao. Mesmo que o procedimento experimental seja rigorosa-mente obedecido e todas as operaes sejam feitas com todo o cuidado, sempre existiro flu-tuaes imprevisveis. Uma pequena variao no ngulo de leitura da bureta, uma gotinha

    que fica na pipeta, uma tonalidade diferente na viragem, e l vai o resultado se modificar.

    Como no conseguimos controlar essas variaes, no podemos saber em que direo o resul-

    tado ser alterado. Atuando em conjunto, essas perturbaes provocaro erros que parecemdevidos ao acaso, e por isso so chamados de aleatrios.

    4,1

    O4,0 r.

    O3,9 () o

    ~ O O O OOo 3,8

    lct'S O O~'E 3,7 0Q)u Oco 3,6 ()

    3,5 ()

    3,4o 5 10 15 20

    Titulao n-

    Figura 2.1 Resultados de vinte titulaes feitas na mesma amostra devinagre.

    Basta refletir um pouco para ver que impossvel controlar rigidamente todos os

    fatores envolvidos num experimento, por mais simples que seja. Conseqentemente, qual-quer determinao experimental estar afetada, em maior ou menor grau, por erros aleat-

    rios. Se queremos chegar a concluses sensatas, esses erros precisam ser levados em conta.

    por isso, entre outros motivos, que precisamos de estatstica.2

    2 Erro, neste terceiro sentido, no deve ser entendido como um termo pejorativo, e sim como umacaracterstica com a qual teremos de conviver.

    14

  • Exerccio 2.1Pense num experimento simples e procure identificar alguns dos fatores que impedem o seuresultado de ser obtido rigorosamente sem erro.

    2.2 Populaes, amostras e distribuies

    o primeiro passo para tratar estatisticamente os erros aleatrios admitir alguma hiptese

    sobre sua distribuio. O mais comum, quando se trata de medies, supor que a distri-

    buio dos erros gaussiana ou, como tambm chamada, normal. Nesta seo vamosdiscutir em termos prticos essa hiptese e suas importantes conseqncias, partindo do

    seguinte problema:

    Com quantos gros se faz uma feijoada?

    Evidentemente a resposta depende, entre outras coisas, do tamanho da feijoada.Vamos admitir, de sada, que a nossa receita leva um quilo de feijo. Assim o problema setransforma em descobrir quantos caroos existem nessa quantidade da leguminosa.

    Uma possvel soluo seria contar todos os caroos, um por um. Ela ser descartada

    desde j, porque estamos interessados numa abordagem estatstica da questo. Adotaremosuma soluo alternativa, que descobrir primeiro quanto pesa um caroo, e em seguida

    dividir 1.000 g por esse valor. O resultado da diviso dar o nmero de caroos contidos em

    um quilo.

    Exerccio 2.2Tente adivinhar quantos caroos existem em um quilo de feijo preto. bvio que este no omtodo recomendado para resolver nosso problema (a no ser que voc tenha poderesparapsicolgicos), mas seu palpite servir para um teste estatstico, mais adiante.

    Pesando numa balana analtica um caroo retirado ao acaso de um pacote de feijopreto, os autores obtiveram o valor 0,1188 g. Pesando um segundo caroo, tambm escolhido

    ao acaso, encontraram 0,2673 g. Se todos os caroos fossem iguais ao primeiro, haveria 1.000

    g/0,1188 g, ou cerca de 8.418 caroos no quilo de feijo. Se fossem como o segundo, esse n-mero cairia para 3.741. Qual desses valores a resposta que procuramos?

    Em princpio, nenhum dos dois. Como o peso varia de um caroo para outro, no de-

    vemos usar pesos individuais nas nossas contas, e sim o peso mdio do conjunto de todos oscaroos. Para obter o peso mdio, s dividir o peso total do pacote de feijo (1 kg) pelo n-mero de caroos que ele contm. Infelizmente isso nos traz de volta estaca zero: para des-

    15

  • UUian:QO as coisas fl.HlCionam normahrH:~nte

    cobrir, com esse mtodo, quantos caroos existem em um quilo de feijo, precisamos saberprimeiro... quantos caroos existem em um quilo de feijo.

    Se todos os caroos fossem idnticos, o peso mdio seria igual ao peso de um caroo

    qualquer. Era s pesar um deles que a questo estaria resolvida. O problema que, como

    vimos, o peso varia de caroo para caroo. Mais que isso, varia - vejam s - de modo impre-visvel. Quem poderia adivinhar que, tendo retirado do pacote um caroo com 0,1188 g, agente iria encontrar logo depois um outro pesando exatamente 0,2673 g?

    Apesar de no sabermos prever qual ser o peso de um caroo extrado ao acaso,

    podemos usar o bom senso para estabelecer alguns limites. Por exemplo: o peso no pode ser

    inferior a zero, e evidentemente deve ser muito menor que um quilo. Tambm no deve

    flutuar muito. Existem caroos maiores e caroos menores, mas s olhar para um pacote defeijo para ver que a maioria tem mais ou menos o mesmo tamanho. Ou seja, estamos numasituao parecida com a da titulao. Os valores individuais flutuam, mas flutuam em torno de

    um certo valor central. Agora, porm, a variao se deve ao elemento de acaso presente na

    escolha dos caroos, e no mais a problemas de medio ou instrumentao.

    O conjunto de todos os valores possveis numa dada situao o que se chama emestatstica de populao. O alvo de qualquer investigao experimental sempre uma

    populao. Nosso objetivo, ao coletar e analisar os dados, chegar a concluses sobre ela.

    importante definir claramente, em qualquer caso, qual a populao de queestamos falando. Muitas vezes, por incrvel que parea, nem isto est suficientemente claro

    para o pesquisador, que corre ento o risco de estender suas concluses a sistemas mais

    amplos do que os realmente estudados pelo experimento. Na nossa abordagem "gravim-

    trica" do problema dos feijes, por exemplo, a populao o conjunto dos pesos individuais detodos os caroos do pacote. A resposta que procuramos se refere ao pacote como um todo,

    mesmo que os caroos no sejam investigados um por um. E, a menos que a gente introduzaalguma hiptese a mais (como, por exemplo, que o pacote representativo de toda uma co-lheita), se refere a esse pacote em particular, e s a ele.

    Pesando individualmente todos os caroos no pacote, teramos a distribuio exata

    dos pesos na populao. Poderamos ento calcular a verdadeira mdia populacional, que se-

    ria o peso mdio, correto, de um caroo no pacote. No entanto, se j descartamos a idia decontar todos os caroos, porque agora iramos pes-los? Evidentemente a soluo no vir

    por a.

    Ao invs de nos preocuparmos com a verdadeira mdia, que s poderamos descobrir

    examinando todos os caroos, tentaremos nos contentar com uma estimativa, calculada a

    16

  • Catutuh12

    partir de apenas alguns deles, isto , a partir de uma amostra da populao. Se a amostra

    for suficientemente representativa, a mdia amostraI dever ser uma boa aproximao da

    mdia populacional, e poderemos us-la para concluir alguma coisa sobre a populao.

    Populao: Qualquer coleo de indivduos ou valores, finita ou infinita.

    Amostra: Uma parte da populao, normalmente selecionada com oobjetivo de se fazer inferncias sobre a populao.

    Exerccio 2.3No exemplo dos feijes a populao finita: o nmero total de caroos pode ser grande, mas limitado. O conjunto de todas as concentraes que podem em princpio ser obtidas natitulao de uma dada amostra constitui uma populao finita ou infinita? (Note a expresso"em princpio". Imagine que possvel fazer quantas titulaes voc quiser, sem correr o risco

    de esgotar os estoques da amostra e dos reagentes.)

    Para que a amostra seja uma representao realista, no tendenciosa, da populaocompleta, necessrio que seus elementos sejam escolhidos de forma rigorosamentealeatria. No caso dos feijes, por exemplo, preciso que a chance de um caroo ser pesadoseja exatamente a mesma para todos eles. Depois de escolher um caroo ao acaso e pes-lo,devemos coloc-lo de volta no pacote e mistur-lo aos outros, para que volte a ter uma

    chance igual deles de ser escolhido. Se no tomarmos essa precauo, a populao se modi-

    fica medida que os caroos so retirados e a amostra no poder mais representar de forma

    fidedigna a populao original. Esta condio muito importante na prtica, porque as

    inferncias estatsticas sempre supem que as amostras so representativas da populao.

    Por isso, ao realizar um experimento, devemos sempre tomar cuidado para coletar os dados

    de modo que a hiptese de aleatoriedade seja, se no rigorosamente, pelo menos aproxima-damente obedecida.

    ,. Amostra representativa: Apresenta as caractersticas relevantes da populaoI na mesma proporo em que elas ocorrem na prpria populao.:. Amostra aleatria: Amostra de N valores ou indivduos obtida de tal forma que

    todos os possveis conjuntos de N valores na populao tenhama mesma chance de ser escolhidos.

    17

  • as coisas flH1cionam norma~mente

    2.2 (a) Como descrever as caractersticas da amostra

    A Tabela 2.2 mostra os pesos individuais de 140 caroos retirados aleatoriamente de um

    pacote contendo um quilo de feijo preto. Examinando com ateno esses dados, podemosconfirmar nossa expectativa de uma flutuao mais ou menos restrita. O maior valor obser-

    vado 0,3043 g (quinto valor na penltima coluna), o menor 0,1188 g (o primeiro de todos),e a maioria dos caroos parece ter um peso ao redor de 0,20 g.

    Tabela 2.2 Pesos de caroos extrados aleatoriamente de um pacote de 1 kg de feijo preto(em gramas).

    0,1188 0,2673 0,1795 0,2369 0,1826 0,1860 0,2045

    0,1795 0,1910 0,1409 0,1733 0,2146 0,1965 0,2326

    0,2382 0,2091 0,2660 0,2126 0,2048 0,2058 0,1666

    0,2505 0,1823 0,1590 0,1722 0,1462 0,1985 0,1769

    0,1810 0,2126 0,1596 0,2504 0,2285 0,3043 0,1683

    0,2833 0,2380 0,1930 0,1980 0,1402 0,2060 0,2097

    0,2309 0,2458 0,1496 0,1865 0,2087 0,2335 0,2173

    0,1746 0,1677 0,2456 0,1828 0,1663 0,1971 0,2341

    0,2327 0,2137 0,1793 0,2423 0,2012 0,1968 0,2433

    0,2311 0,1902 0,1970 0,1644 0,1935 0,1421 0,1202

    0,2459 0,2098 0,1817 0,1736 0,2296 0,2200 0,2025

    0,1996 0,1995 0,1732 0,1987 0,2482 0,1708 0,2465

    0,2096 0,2054 0,1561 0,1766 0,2620 0,1642 0,2507

    0,1814 0,1340 0,2051 0,2455 0,2008 0,1740 0,2089

    0,2595 0,1470 0,2674 0,1701 0,2055 0,2215 0,2080

    0,1848 0,2184 0,2254 0,1573 0,1696 0,2262 0,1950

    0,1965 0,1773 0,1340 0,2237 0,1996 0,1463 0,1917

    0,2593 0,1799 0,2585 0,2153 0,2365 0,1629 0,1875

    0,2657 0,2666 0,2535 0,1874 0,1869 0,2266 0,2143

    0,1399 0,2790 0,1988 0,1904 0,1911 0,2186 0,1606

    18

  • Fica mais fcil interpretar os dados se dividirmos a faixa total dos pesos em inter-

    valos menores e contarmos os caroos situados dentro de cada intervalo. Com os valores

    extremos que observamos, a faixa 0,10-0,32 g suficiente para acomodar todos os valores da

    Tabela 2.2. Dividindo-a em intervalos de largura igual a 0,02 g e atribuindo cada peso

    medido ao intervalo apropriado, obtemos os resultados que aparecem na Tabela 2.3. Percor-

    rendo a coluna do meio, verificamos imediatamente que os intervalos ao redor de 0,20 g so

    mesmo os que contm mais caroos.

    Dividindo o nmero de caroos em um certo intervalo pelo nmero total de caroos

    pesados, obtemos a freqncia relativa correspondente a esse intervalo. No intervalo 0,26 -0,28 g, por exemplo, foram observados sete caroos, de um total de 140. A freqncia relativa

    portanto 7 + 140, ou 0,050. Isso significa que 5% dos pesos medidos ficaram entre 0,26 e

    0,28 g.

    Tabela 2.3 Distribuio dos pesos de 140 caroos extrados aleatoriamente de um pacote de1 kg de feijo preto.

    Intervalo (g) N de caroos Freqncia(*)

    0,10 - 0,12 1 0,007

    0,12 - 0,14 4 0,029

    0,14 - 0,16 11 0,079

    0,16 - 0,18 24 0,171

    0,18 - 0,20 32 0,229

    0,20 - 0,22 27 0,193

    0,22 - 0,24 17 0,121

    0,24 - 0,26 15 0,107

    0,26 - 0,28 7 0,050

    0,28 - 0,30 1 0,007

    0,30 - 0,32 1 0,007

    Total 140 1,000

    (*) Nmero de caroos no intervalo dividido pelo nmero total de caroos, 140.

    19

  • vuanoo as coisas func~onam norma~mente

    As freqncias calculadas para todos os onze intervalos aparecem na ltima coluna

    da Tabela 2.3. prefervel analisar a distribuio dos pesos dos caroos em termos de fre-qncias, porque as distribuies estatsticas tericas so distribuies de freqncias, no

    de nmeros absolutos de observaes. Conhecendo as freqncias, podemos determinar as

    probabilidades de que certos valores de interesse venham a ser observados. Com essas pro-

    babilidades podemos ento testar hipteses sobre a populao, como veremos logo mais.

    Exerccio 2.4Use os dados da Tabela 2.3 para confirmar que 54,3% dos caroos observados tm peso entre

    0,18 g e 0,24 g.

    Qualquer conjunto de dados fica mais fcil de analisar se for representado grafica-mente. No grfico tradicional para uma distribuio de freqncias, cada intervalo repre-

    sentado por um retngulo, cuja base coincide com a largura do prprio intervalo e cuja rea idntica, ou pelo menos proporcional, sua freqncia. A figura geomtrica obtida dessa

    forma chamada de histograma Como a soma de todas as freqncias tem de ser igual a um

    (isto , a soma de todas as percentagens tem de dar 100%), a rea total do histograma tam-bm igual a um, quando a rea de cada retngulo for igual freqncia do intervalo cor-

    respondente. A Figura 2.2 mostra um histograma das freqncias da Tabela 2.3. Para

    0.28

    0.24

    0.20

    tU 0.16'uc

    cO):::Jo-O) 0.12Li:

    0.08

    0.04 .

    0.000,11 0,15 0,19 0,23

    Peso (g)0,27 0,31

    Figura 2.2 Histograma dos pesos de 140 caroos extrados aleatoriamente de umpacote de 1 kg de feijo preto. O significado dos smbolos explicado no texto.

    20

  • facilitar a comparao com os dados da tabela, fizemos a altura de cada retngulo, e no a

    sua rea, igual freqncia do intervalo. Isso no altera o aspecto geral do histograma, jque as bases dos retngulos so todas iguais.

    As vantagens da representao grfica so evidentes. A concentrao dos pesos

    dos caroos em torno do valor 0,20 g percebida imediatamente, assim como o escassea-

    mento progressivo dos dados medida que nos afastamos desse valor, em ambas as dire-

    es. Tambm podemos notar uma simetria na distribuio: a parte que fica direita da

    regio central mais ou menos a imagem especular da parte que fica esquerda. Essa

    caracterstica seria muito difcil de perceber se a representao dos dados se limitasse

    Tabela 2.2.

    Fica portanto o conselho: quando temos um conjunto de dados para analisar, dese-nhar um grfico uma das primeiras coisas que devemos fazer. Esta uma regra geral da

    estatstica, equivalente ao velho ditado que diz que uma imagem vale mil palavras.

    Exerccio 2.5Construa um histograma para os dados da Tabela 2.1. A literatura em geral recomenda

    que o nmero de barras seja aproximadamente igual raiz quadrada do nmero totalde observaes. Como a tabela tem 20 valores, seu histograma deve ter 4 ou 5 barras.Prefira cinco, que um nmero mpar, e lhe permitir enxergar melhor possveis

    simetrias.

    o histograma da Figura 2.2 uma representao grfica de todos os 140 valores

    numricos da nossa amostra. Suas caractersticas bsicas so

    a localizao do conjunto de observaes numa certa regio do eixo horizontal;

    sua disperso, ou espalhamento, ao longo dessa regio.

    Estas caractersticas podem ser representadas numericamente, de forma abreviada,por vrias grandezas estatsticas. As mais usadas nas cincias fsicas, onde as variveis nor-

    malmente assumem valores numa faixa contnua, so a mdia aritmtica e o desvio padro,respectivamente.

    A mdia aritmtim de um conjunto de dados, que uma medida da sua localizao,ou tendncia central, simplesmente a soma de todos os valores, dividida pelo nmero totalde elementos no conjunto. Este o conceito de mdia que utilizaremos neste livro. Daqui emdiante nos referiremos a ele empregando apenas o termo "mdia", ficando o adjetivo "arit-mtica" subentendido.

    21

  • QuandO as coisas funcionam norma~mente

    o valor mdio numa amostra costuma ser indicado por uma barra colocadasobre o smbolo que representa os elementos da amostra. Se usarmos o smbolo x para

    representar o peso de um caroo, a mdia no nosso exemplo ser representada por x, e

    dada por

    x = _1_ (0,1188 + 0,2673 + ... + 0,1606 )140

    = 0,2024 g.

    Com esse valor3 podemos estimar que o quilo de feijo contm cerca de 1.000 g +0,2024 g/caroo = 4.940 caroos. Essa estimativa, no entanto, foi obtida a partir da obser-

    vao de apenas 140 caroos, isto , menos de 3% do total, supondo-se que haja mesmo cercade 5.000 caroos no pacote. Por isso, no deve corresponder ao valor exato. Trata-se apenas

    de uma mdia amostrai, e no da mdia populacional. Veremos adiante como proceder para

    estimar sua incerteza.

    MdiaAmostraJ:

    1 NX = - LXi

    N i=l

    Xi =i - simo valorN =Nmero total de valores na amostra

    (2.1)

    Para obter nossa medida do espalhamento das observaes em torno da mdia, que

    o desvio padro, primeiro calculamos a diferena, ou desvio, de cada valor individual em re-

    lao mdia amostraI:

    Em seguida somamos os quadrados de todos os desvios e dividimos o total por N - 1. Oresultado dessas operaes a varincia do conjunto de observaes, representada pelo sm-bolo 8 2 :

    3 O costume calcular a mdia com uma casa decimal a mais que os dados originais. No nossoexemplo, com quatro algarismos significativos, isso no tem importncia prtica.

    22

  • Varincia anwstral:

    2 1 ~ 2 1 ~( -)2V(X) =8 =-- ~di =-- k..J Xi- XN -1 i=l N -1 i=l

    Xi = i - simo valorN =Nmero total de valores na amostrax =Mdia amostraI

    (2.2)

    Note que a varincia uma espcie de mdia dos quadrados dos desvios, s que o

    denominador no o nmero total de observaes, N, e sim N -1. Para entender a razodessa mudana, devemos lembrar que as observaes originais, obtidas por amostragem

    aleatria, eram todas independentes. Mesmo conhecendo os pesos de todos os 139 primeiros

    caroos, no teramos como prever exatamente qual seria o peso do prximo caroo, o 140.

    Usando a linguagem da Estatstica, dizemos que esse conjunto tem 140 graus de liberdade. um grupo de 140 valores totalmente independentes, em que um valor individual qualquerno depende dos valores restantes.

    Com os desvios a situao um pouco diferente. Vejamos o que acontece quandosomamos os valores de todos eles (os somatrios todos so feitos de i = 1 at i = N ):

    Ldi = L(xi -x)= LXi - LX = LXi -Nx.i i i i i

    Lembrando que a mdia definida por fi =~ f Xi , podemos substituir o termo N fi peloN i=l

    somatrio L Xi , e portantoi

    (2.3)

    Ou seja: os 140 desvios no so todos independentes. Se conhecermos 139 deles, o valorque falta estar automaticamente determinado: aquele que torna o total igual a zero.

    A restrio expressada pela Equao 2.3, que vem do clculo da mdia, retira um grau

    de liberdade do conjunto de desvios. J que, dos N desvios, s N -1 podem flutuaraleatoriamente, natural que o denominador na definio da varincia seja N -1, eno N.

    O conceito de grau de liberdade muito importante. Mais tarde veremos exemplosem que vrias restries como esta so impostas a um determinado conjunto de valores. Sehouver p restries diferentes, o nmero de graus de liberdade se reduzir de N, o total de

    23

  • elementos do conjunto, para v = N - p. Esse ltimo valor que ser usado como denomina-dor, numa mdia quadrtim semelhante Equao 2.2.

    Em nossa amostra, onde x = 0,2024 g, a varincia , de acordo com a Equao 2.2,

    S 2 =_1_ [(0,1188 _ 0,2024)2 + (0,2673 _ 0,2024)2139

    + ... + (0,1606 -0,2024)2]== 0,0132g 2

    Enquanto a mdia tem as mesmas unidades que as observaes originais, as unidades da

    varincia so, pela prpria definio, o quadrado das unidades de partida. Para que as

    medidas de disperso e de posio tenham as mesmas unidades, costumamos substituir a

    varincia pela sua raiz quadrada, que chamada de desvio padro. No nosso exemplo, o

    desvio padro

    s = ~(O,00132 g2 ) = 0,0363 g .

    Desvio padro amostraI:~~~-~---'~~~~1

    : ~ :

    I : ~ ..: ~.::: ~ ~.:.: 1S 2 =Varincia das observaes na amostra

    (2.4)

    Exerccio 2.6Calcule a mdia e o desvio padro dos dez primeiros valores da Tabela 2.2 (de 0,1188 g at0,1409 g).

    o desvio padro geralmente usado para definir intervalos em torno da mdia4 .

    Em nossa amostra de 140 caroos, por exemplo, os limites do intervalo definido por um

    desvio padro em torno da mdia so 0,2024 0,0363, ou 0,1661 g e 0,2387 g. A regio

    compreendida entre esses dois valores (Figura 2.2) corresponde a 66,6% da rea totaldo histograma, o que significa que nela caem dois teros de todos os pesos observados.

    J a regio definida por dois desvios padro tem como limites 0,1298 g e 0,2750 g, e

    contm 96,8% da rea total. Dentro de certas suposies, que discutiremos adiante,

    4 O desvio padro costuma ser calculado com duas casas decimais a mais que os dados de partida.Aqui tambm no estamos nos importando com esse detalhe.

    24

  • esses intervalos amostrais podem ser utilizados para testar hipteses a respeito da

    populao.

    Estas contas por extenso foram feitas a bem da didtica. Voc no deve preocupar-se

    com a perspectiva de calcular somatrios interminveis para poder determinar mdias e

    desvios padro. Qualquer calculadora cientfica j vem da fbrica programada para realizartodas as operaes necessrias. Alm disso, existem vrios programas para microcomputado-

    res, de fcil acesso, capazes de realizar no s estes como muitos outros clculos estatsticos.

    Quanto mais cedo voc aprender a usar um desses programas, melhor. A estatstica lheparecer bem mais leve.

    Exerccio 2.7Calcule a mdia e o desvio padro do conjunto de valores da Tabela 2.1 e determine os limitesdo intervalo.definido por dois desvios padro em torno da mdia. Compare com o intervalo de

    confiana dado no texto para os valores da titulao.

    Os valores x = 0,2024 g e 8 = 0,0363 g foram obtidos a partir dos 140 pesos indi-

    viduais e portanto representam a amostra: so estimativas amostrais. Os valores que nos

    interessam, porm, so os parmetros populacionais. Queremos saber quantos caroosexistem em todo o quilo de feijo, no numa pequena amostra.

    Os estatsticos costumam empregar smbolos latinos para representar valores amos-

    trais, reservando o alfabeto grego para os parmetros populacionais. Seguindo essa con-

    veno, vamos representar a mdia e o desvio padro populacionais do nosso exemplo pelas

    letras gregas J.1 e 0', respectivamente. O que podemos inferir a respeito desses valores, dis-

    pondo apenas dos valores amostrais x e 8?

    2.3 A distribuio normal

    Suponhamos que os caroos cujos pesos aparecem na Tabela 2.2 sejam separados do restodo pacote, e passem a ser tratados como uma minipopulao de 140 elementos. J vimos,

    na Tabela 2.3, que 5% desses elementos pesam entre 0,26 g e 0,28 g. Isso nos permite

    dizer que a probabilidade de retirarmos aleatoriamente um caroo com o peso na faixa

    0,26 - 0,28 g exatamente 5%. Temos condies de fazer essa afirmao porque conhe-cemos a distribuio exata das freqncias dos pesos nessa pequena populao. Podera-

    mos fazer o mesmo com um caroo retirado ao acaso do pacote de um quilo, ou seja, da pr-pria populao original, se conhecssemos exatamente a distribuio populacional, e no

    25

  • UUiH1:00 as co~sas funcionam normzdrnente

    somente a amostraI. Infelizmente, para isso seria necessrio pesar todos os caroos, um

    por um.

    Imagine agora que tivssemos nossa disposio um modelo que fosse adequadopara a distribuio dos pesos de todos os caroos do pacote. Nesse caso, no precisaramos

    mais pesar cada caroo para fazer inferncias sobre a populao. Poderamos tirar nossas

    concluses do prprio modelo, sem ter de fazer nenhum esforo experimental a mais.

    Esta idia - usar um modelo para representar uma dada populao - o tema

    central deste livro. Ela estar presente, implcita ou explicitamente, em todas as tcnicas

    estatsticas que vamos discutir. Mesmo que em certos casos a gente no diga expressamente

    qual o modelo adotado, pelo contexto voc saber do que estamos falando. claro que nossasinferncias a respeito da populao s podero estar corretas se o modelo escolhido for

    vlido. Em qualquer situao, porm, o procedimento que devemos seguir ser sempre o

    mesmo:

    Postular um modelo para representar os dados extrados da populao na qual estamos

    interessados;

    Verificar se essa representao satisfatria;

    Nesse caso, tirar as concluses apropriadas; caso contrrio, trocar de modelo e tentar

    novamente.

    Um dos modelos estatsticos mais importantes - talvez o mais importante - a

    distribuio normal (ou gaussiana), que o famoso matemtico Karl F. Gauss props no inciodo sculo XIX, para calcular probabilidades de ocorrncia de erros em medies. Tantos

    foram - e continuam sendo - os conjuntos de dados que podem ser bem representados peladistribuio normal, que ela passou a ser considerada o comportamento natural de qualquer

    tipo de erro experimental: da o adjetivo normal. Se alguma vez se constatasse que adistribuio dos erros no seguia uma gaussiana, a culpa era jogada na coleta dos dados.Depois ficou claro que existem muitas situaes experimentais em que a distribuio nor-

    mal de fato no " vlida, mas ela permanece sendo um dos modelos fundamentais da

    estatstica.

    Muitos dos resultados que apresentaremos daqui em diante s so rigorosamente

    vlidos quando os dados obedecem distribuio normal. Na prtica, isto no uma res-

    trio muito sria, porque quase todos os testes que veremos continuam eficientes na pre-

    sena de desvios moderados da normalidade.

    26

  • 2.3 (a) Como calcular probabilidades de ocorrncia

    Uma distribuio estatstica uma funo que descreve o comportamento de uma varivel

    aleatria. Uma varivel aleatria uma grandeza que pode assumir qualquer valor dentro

    do conjunto de valores possveis para o sistema a que ela se refere, s que cada valor dessestem uma certa probabilidade de ocorrncia, governada por uma determinada distribuio de

    probabilidades. Se tivermos como descobrir ou estimar qual essa distribuio, poderemoscalcular a probabilidade de ocorrncia de qualquer valor de interesse. Ou seja: teremos umamodesta bola de cristal estatstica, que poderemos usar para fazer previses. Logo mais

    veremos como fazer isso com a distribuio normal.

    A distribuio normal uma distribuio oontnua, isto , uma distribuio em que a

    varivel pode assumir qualquer valor dentro de um intervalo previamente definido. Para

    uma varivel normalmente distribuda, o intervalo (-00 +00), o que significa que ela podeassumir, pelo menos em princpio, qualquer valor real.

    Uma distribuio contnua da varivel x definida pela sua densidade de

    probabilidade f(x), que uma expresso matemtica contendo um certo nmero deparmetros. Na distribuio normal os parmetros so, por definio, apenas dois: a mdia ea varincia populacionais (Equao 2.5).

    Para indicar que uma varivel aleatria x se distribui normalmente, com mdia J1 e

    varincia (J"2, empregaremos a notao x ::: N (JI, (J"2 ), onde o sinal ::: pode ser lido como"distribui-se de acordo com". Se x tiver mdia zero e varincia igual a um, por exemplo,

    escreveremos x ~ N (0,1). Nesse caso, diremos tambm que x segue a distribuio normalpadro (ou padronizada).

    Distribuio lrormal:

    -(x-J1f1 --f(x )dx - r:::- e 20" 2 dxa...;2n

    f(x )=Densidade de probabilidade da varivel aleatria xJ.1 = Mdia populacional

    a 2 =Varincia populacional

    27

    (2.5)

  • Quando as coisas funcJonam norma~mente

    A Figura 2.3 mostra a famosa curva em forma de sino que o grfico da densidade

    de probabilidade de uma distribuio normal padro,

    _x 21 -f(x)= - e 2 5 (2.5a)

    Note que a curva perfeitamente simtrica em torno do ponto central, que a

    mdia J..l (aqui, igual a zero). O valor da densidade mximo sobre a mdia, e cairapidamente quando nos afastamos dela, em ambas as direes. A trs desvios padro

    de distncia da mdia, a densidade de probabilidade praticamente reduz-se a zero.

    So caractersticas parecidas com as que vimos no histograma dos 140 caroos, na

    Figura 2.2.

    O produto f(x )dx , por definio, a probabilidade de ocorrncia de um valor davarivel aleatria no intervalo de largura dx em torno do ponto x. Em termos prticos, isso

    significa que, ao extrairmos aleatoriamente da populao um valor de x, as chances de que

    esse valor esteja no intervalo de largura infinitesimal que vai de x a x + dx so dadas porf(x )dx . Para obter probabilidades correspondentes a intervalos finitos, que so os nicoscom sentido fsico, temos de integrar a densidade de probabilidade entre os limites

    apropriados. A integral a rea sob a curva f(xJ entre esses limites, o que equivale a dizerque a Figura 2.3 tambm um histograma. Como a varivel aleatria agora contnua, as

    probabilidades passam a ser calculadas por integrais, e no mais por somatrios. Essa

    formulao terica torna automaticamente nula a probabilidade de se observar

    exatamente (no sentido matemtico do termo) um determinado valor, j que issocorresponderia a fazer dx igual a zero. Para uma distribuio contnua, portanto, no fazdiferena se o intervalo de que estamos falando aberto ou fechado. A probabilidade de

    que a ::::; x ::::; b igual probabilidade de que a < x < b:

    bP(a < x < b) = P(a ::::; x ::::; b) = f f( xJdx

    a

    = Probabilidade de que o valor da varivel aleatria de densidade deprobabilidade f(xJ seja observado no intervalo [a, b].

    28

  • 0,6

    0,5

    0,4

    ~ 0,3~

    0,2

    0,1

    0,0-4 -3 -2 -1

    2 3 4

    X

    Figura 2.3 Distribuio de freqncias de uma varivel aleatria x ~ N(O, 1).Note que x o afastamento em relao mdia (que zero), em nmero dedesvios padro.

    Como vemos na Figura 2.3, a maior parte da rea sob uma gaussiana est contida no

    intervalo definido por um desvio padro em torno da mdia, e praticamente toda ela est

    situada entre J1 - 30' e J1 + 3a . Para obter os valores numricos correspondentes a esses

    fatos, integramos, entre os limites apropriados, a expresso de f(x) dada pela Equao 2.5:

    ji+aP(u - a < x < J1 + a) = f f( x )dx = 0,6826 (isto , 68,26%);

    ji-a

    ji +3aP(u - 3a < x < J1 + 3a) = f f(x)dx = 0,9973 (99,73%).

    ji-3a

    Calculando integrais semelhantes, podemos obter as probabilidades correspondentes a

    quaisquer limites de interesse. Na prtica, felizmente, no precisamos calcular integral

    nenhuma, porque podemos consultar na Tabela A.l (pgina 392) os valores das integraispara vrios intervalos de uma varivel z ~ N (O, 1 ). Apesar de corresponderem distribuio padro, com mdia zero e varincia um, esses valores podem ser usados para

    fazermos inferncias a respeito de qualquer distribuio normal.

    Para explicar como se utiliza a Tabela A.l, precisamos introduzir o conceito de padro-

    ~o. Por definio, padronizar uma varivel aleatria x de mdia J1 e varincia a 2 cons-truir a partir dela uma nova varivel aleatria z, cujos valores so obtidos subtraindo-se decada valor de x a mdia populacional e dividindo-se o resultado pelo desvio padro:

    29

  • Varivel1Wrmalpadronizada:

    zx-J.1

    a(2.6)

    x = Varivel aleatria com distribuio Neu, (j2)z = Varivel aleatria com distribuio N(O,l)

    Para dar um exemplo, vamos admitir que o peso de um caroo de feijo se distribuanormalmente, com J.1 = 0,2024 g e a = 0,0363 g. Com isto estamos fazendo duas suposies

    questionveis:

    Que os pesos seguem uma distribuio normal;

    Que os parmetros populacionais so iguais aos valores que calculamos para a amostra.

    Na verdade, estamos tentando descrever os dados experimentais com nosso primeiro modelo.

    Chegar a hora de nos perguntarmos se ele adequado. Por enquanto, vamos admitir quesim.

    o peso padronizado ser simplesmente, de acordo com a Equao 2.6,

    x - 0,2024gz =-----

    0,0363g

    onde x o peso de um caroo. Como o numerador e o denominador tm as mesmas unidades,

    z adimensional.

    o valor numrico de z representa o afastamento do valor de x em relao mdia

    populacional J.1, medido em desvios padro, o que fica claro quando reescrevemos a Equao

    2.6 como x = J.1 + za . Fazendo z = - 2 , por exemplo, temos x = J.l. - 2a , ou seja, o valor dex est dois desvios padro abaixo da mdia. No nosso exemplo, o peso do caroo

    correspondente a z = - 2 seria x =0,2024g - 2 x 0,0363g =0,1298 g .

    Exerccio 2.8Use os resultados do Exerccio 2.7 para padronizar (no sentido estatstico que acabamos dever) o resultado de uma titulao. Que concentrao seria obtida numa titulao cujoresultado estivesse 2,5 desvios padro acima da mdia?

    o efeito da padronizao torna-se evidente quando utilizamos a definio de varivelpadronizada para substituir x por z, na expresso geral da distribuio normal. Da Equao

    30

  • 2.6 temos x = J.1 + z(J , como j vimos, e conseqentemente dx = (J dz . Substituindo estasduas expresses na Equao 2.5, temos

    -(/l+za-/lff(x )dx = ~ e 2(}"2 a dz .

    (Jv2n

    Com a eliminao de J.1 e (J , essa expresso se reduz a_Z2

    1 -f(z )dz = r;;- e 2 dz ,'\j2n

    onde escrevemos f(z )dz do lado esquerdo, porque a expresso agora uma funo de z, e node x. A equao ficou idntica Equao 2.5a. A padronizao simplesmente alterou a escalae deslocou a origem do eixo da varivel aleatria, transformando a varivel original x, que se

    distribua de acordo com N (Jl, ( 2 ), numa nova varivel z que segue a distribuio padro,z ::::: N (O, 1 ). Como essa transformao no depende dos valores numricos de J.1 e de (J,sempre poderemos usar a distribuio normal padro para discutir o comportamento de uma

    distribuio normal qualquer.

    2.3 (b) Como usar as caudas da distribuio normal padro

    A Tabela A.l contm, para valores de z que vo de 0,00 a 3,99, o que se chama de rea dacauda ( direita) da distribuio normal padro. A primeira coluna d o valor de z at aprimeira casa decimal, enquanto a linha superior da tabela d a segunda casa. Para saber a

    rea da cauda correspondente a um certo z temos de procurar na tabela o valor localizado na

    interseo da linha e da coluna apropriadas. O valor correspondente a z = 1,96, por exemplo,

    est na interseo da linha referente a z = 1,9 com a coluna encabeada por 0,06. Esse

    valor, 0,0250, a frao da rea total sob a curva que est localizada direita de z =1,96. Como a curva simtrica em torno da mdia, uma rea idntica est situada

    esquerda de z = - 1,96 na outra metade da gaussiana (Figura 2.4). A soma dessas duascaudas, a da direita e a da esquerda, d 5% da rea total. Da conclumos que os 95%restantes esto entre z =- 1,96 e z = 1,96. Se extrairmos aleatoriamente um valor de z, h

    uma chance em cada vinte (5%) de que esse valor fique abaixo de - 1,96, ou acima de 1,96.Nas outras dezenove vezes a probabilidade de que ele esteja no intervalo [-1,96, 1,96].

    Aceitando o modelo normal como uma representao adequada da distribuio popu-lacional dos pesos dos caroos, podemos usar a Tabela A.l, juntamente com os valores dos

    31

  • uu~an~ao as coisas funcionam normalmente

    parmetros amostrais, para responder a questes sobre a probabilidade de ocorrncia de

    valores de interesse. Por exemplo:

    Qual a probabilidade de um caroo retirado ao acaso pesar entre 0,18 g e 0,25 g?

    Em primeiro lugar, precisamos padronizar os valores dos pesos:

    z = O,18g - 0,2024g = _621 00363 ', g

    z = O,25g - 0,2024g =1 312 00363 ', g

    Com isto a pergunta no se refere mais aos pesos, e sim a z. O que queremos saber agora

    "qual a probabilidade de z cair no intervalo [-0,62, 1,31 ]?"

    432o-1

    r",/ : \.... /" \/ \

    / \ \

    I \ .l .... \ ..: ...: \

    ....... /. ..... \ ...../ \I \/ \

    .. .. 1". .. A .. I \

    ! \I \

    ..:../. .. ... ....\.. i .....

    -2

    0.6

    0.5

    0.4

    ~ 0.3~

    0.2 .

    0.1

    0.0-4 -3

    z

    Figura 2.4 Intervalo simtrico em torno da mdia, contendo 95% da rea totalsob a curva da distribuio normal padro.

    Essa probabilidade corresponde rea situada entre os limites indicados pela seta

    na Figura 2.5. Ela a rea total, que um, menos as reas das duas caudas, a que fica

    acima de 1,31 e a que fica abaixo de - 0,62. A da direita podemos ler diretamente na Tabela

    A.l, procurando o valor correspondente a z = 1,31, que 0,0951. A rea da cauda daesquerda no pode ser tirada diretamente da tabela, porque ela no contm valores

    negativos. No entanto, por causa da simetria da curva, a rea que fica abaixo de - 0,62 temde ser igual que est localizada acima de 0,62. Encontramos assim o valor 0,2676.

    32

  • 0.6

    0.5

    0.4

    ~ 0.3

    0.2

    0.1

    0.0-4 -3 -2 -1 O

    z

    3 4

    Figura 2.5 rea correspondente a P(-0,62 < z < 1,31).

    Subtraindo da rea total as reas das duas caudas, temos finalmente a probabili-

    dade desejada: (1,0 - 0,0951 - 0,2676) = 0,6373. A resposta nossa questo inicial, portanto, que 63,73% dos caroos (cerca de dois teros) devem pesar de 0,18 g a 0,25 g. No devemosnos esquecer, porm, de que essa resposta se baseia na validade de nossas duas suposies: a

    de que a distribuio dos pesos dos caroos normal e a de que os parmetros populacionais

    so iguais aos valores amostrais.

    Exerccio 2.9(a) Qual a probabilidade de um caroo pesar mais de 0,18 g?(b) Defina os pesos limites de um intervalo que contenha 95% dos caroos.(c) Sua resposta para o Exerccio 2.2 pode ser transformada numa estimativa do peso mdio

    de um caroo. Com base no que vimos at agora, quais as chances de voc encontrar um

    caroo com um peso maior ou igual a esse?

    Exerccio 2.10A rea da cauda esquerda de um ponto chamada de probabilidade cumulativa desse ponto,e representa a probabilidade de que o valor observado para a varivel aleatria seja nomximo igual ao valor definido pelo ponto. As probabilidades cumulativas vo ser utilizadas

    no prximo captulo, quando fizermos anlises baseadas nos chamados grficos normais. Usea Tabela A.l para calcular as probabilidades cumulativas dos seguintes valores numadistribuio normal:

    (a) - 00; (b) J.1; (c) J.1- a; (d) J.1 + a; (e) + 00.Que aspecto deve ter a curva de probabilidades cumulativas de uma distribuio normal?

    33

  • OUiZU1(10 as coisas ftH1Cionam normalmente

    o histograma da Figura 2.2 tem uma aparncia bastante simtrica. primeiravista, no d para perceber nele nada que realmente contradiga a hiptese de que a amostra

    tenha vindo de uma populao normal.

    Uma maneira de testar quantitativamente se essa hiptese adequada comparar

    as freqncias observadas com as freqncias previstas pela teoria. Como nossa amostra

    consiste em um nmero razovel de observaes (140), podemos imaginar que ela seja umaboa aproximao da distribuio populacional dos pesos dos caroos de feijo. Se a populao-os pesos de todos os caroos no pacote de 1 kg - se desviar muito da normalidade, devemos

    ter condies de descobrir alguma evidncia desse comportamento nas freqncias amos-

    trais. Ou seja, elas devem afastar-se das freqncias previstas pela distribuio normal.

    Usando os valores amostrais x = 0,2024 g e s = 0,0363 g para determinar os limites

    dos intervalos [x - s, x + s], [x - 2s, x + 2s] e [x - 3s, x + 3s], verificamos que elescorrespondem, respectivamente, a 66,6%, 96,8% e 100% da rea total do histograma

    amostraI. Para uma varivel aleatria realmente normal, os intervalos populacionais

    correspondentes, Lu - a, /1 + a], [/1 - 20", /1 + 2a] e [/1 - 3a, J1 + 3a], contm 68,3%, 95,4% e99,7% de todas as observaes. Esses valores esto em tima concordncia com os valores

    amostrais. A pior diferena no chega a 2%. A julgar por isso, podemos continuar aceitandoa distribuio normal para descrever nossa amostra. A comparao, porm, subjetiva. Noespecificamos de quanto deveria ser a diferena para que passssemos a rejeitar a hiptesenormal.

    A discusso de critrios mais objetivos foge ao mbito deste livro. No captulo 5 apre-sentaremos um teste alternativo, em que precisaremos decidir se determinado grfico sufi-

    cientemente retilneo. Como teremos de tomar a deciso olhando a disposio dos pontos no

    grfico, esse teste tambm encerra sua carga de subjetividade, e desse ponto de vista norepresenta um avano em relao ao primeiro.

    2.3 (C) Porque a distribuio normal to importante?

    Felizmente existe uma boa razo para no nos preocuparmos demais com a ausncia (nestelivro) de um teste rigoroso para verificar se a distribuio normal: as tcnicas estatsticasque apresentaremos so robustas em relao a desvios da normalidade. Mesmo que a popu-lao de interesse no se distribua normalmente, as tcnicas podem ser usadas, porque con-

    tinuam aproximadamente vlidas.

    34

  • Essa robustez vem, em ltima anlise, do teorema do limite central, um dos teo-remas fundamentais da estatstica, que diz essencialmente o seguinte:

    Se a flutuao total numa certa varivel aleatria for o resultado da soma das

    flutuaes de muitas variveis independentes e de importncia mais ou menos igual,

    a sua distribuio tender para a normalidade, no importa qual seja a natureza dasdistribuies das variveis individuais.

    o exemplo clssico das implicaes do teorema do limite central o jogo de dados. Adistribuio das probabilidades de observarmos um certo nmero de pontos, jogando umdado no viciado, mostrada na Figura 2.6(a). Os valores possveis so os inteiros de 1 a 6, claro, e se o dado for honesto todos eles tm as mesmas chances de ocorrer, levando a uma

    distribuio que no tem nada de normal.

    Suponhamos agora que sejam jogados cinco dados, ao invs de um, ou que o mesmodado seja jogado cinco vezes consecutivas, e a mdia dos cinco valores observados seja cal-culada. Essa mdia uma funo de cinco variveis aleatrias, cada uma se distribuindo

    independentemente das demais, j que o valor observado para um certo dado ou jogada noafeta os valores observados para os outros. Alm disso, o nmero de pontos de cada dado

    contribui com o mesmo peso para o resultado final - nenhuma das cinco observaes mais

    importante que as outras quatro. As duas premissas do teorema do limite central, (1) flu-tuaes independentes e (2) de igual importncia, so portanto satisfeitas, e o resultado apa-rece na Figura 2.6(b): a distribuio das mdias j se parece com a distribuio normal.Quando o nmero de observaes que compem o resultado final cresce, a tendncia para anormalidade torna-se mais pronunciada, como mostra a distribuio da mdia dos pontos dedez dados [Figura 2.6(c)].

    Muitas vezes, o erro final de um valor obtido experimentalmente vem da agregao

    de vrios erros individuais mais ou menos independentes, sem que nenhum deles seja domi-nante. Na titulao, por exemplo, lembramos o erro de leitura na bureta, o erro causado por

    uma gota que fica na pipeta, o erro devido a uma tonalidade diferente no ponto final, e assim

    por diante. Com os caroos de feijo mais ou menos a mesma coisa: o peso de cada umdepende do grau de desidratao, da ao das pragas, da prpria carga gentica do feijo,etc. A priori, no temos motivo para imaginar que esses erros - tanto nos feijes quanto natitulao - sigam distribuies normais, mas tambm no devemos supor que eles sejamdependentes uns dos outros, ou que um deles seja muito mais importante que os demais. Oteorema do limite central nos diz ento que o erro final se distribuir de formaaproximadamente normal, e tanto mais normal quanto mais numerosas forem as fontes de

    35

  • Quando as coisas funcionam norma~mente

    erros individuais. Como situaes desse tipo so muito comuns na prtica, podemos nos dar

    por satisfeitos com a hiptese normal na maioria dos casos, e deixar para fazer testes mais

    sofisticados quando existir muita evidncia em contrrio. Talvez o teorema do limite central

    explique o entusiasmo de 8ir Francis Galton, o inventor da regresso linear: "Dificilmenteexistir algo to impressionante para a imaginao como a admirvel forma da ordem

    csmica expressa pela Lei da Freqncia do Erro (isto , a distribuio normal). Se os gregosa tivessem conhecido, certamente a teriam personificado e endeusado."

    I I I I I I.2 3

    (a) Um dado4 5 6

    (b) Cinco dados

    ____......",.........11.......11&_11........11 ......-...-_2 3 4 5 6

    (c) Dez dados

    Figura 2.6 Distribuio de freqncias para um jogo de dados no viciados.

    2.3 (d) Como calcular um intervalo de confiana para a mdiao principal motivo para querermos um modelo a perspectiva de us-lo para fazer infe-

    rncias sobre os parmetros populacionais. Esqueamos por um momento que foram pesados

    140 caroos. Suponhamos q