306

Click here to load reader

Estatística Básica - A Arte de Trabalhar com Dados.pdf

Embed Size (px)

Citation preview

  • ~~tstica Bsica

  • Estatstica Bsica A ARTE DE

    TRABALHAR COM DADOS

  • Estatstica Bsica A ARTE DE

    TRABALHAR COM DADOS

    JOO ISMAEL D. PINHEIRO SONIA BAPTISTA DA CUNHA

    SANTIAGO RAMREZ CARVAJAL GASTO COELHO GOMES

    AMPU

  • 2009, Elsevier Editora Ltda.

    Todos os direitos reservados e protegidos pela Lei 9.610 de 19/02/1 998. Nenhuma parte deste livro, sem autorizao prvia por escrito da editora, poder ser reproduzida ou transmitida sejam quais forem os meios empregados: eletrnicos, mecnicos, fotogrficos , gravao ou quaisquer outros.

    Copidesque: Adriana Kramer Editorao Eletrnica: Estdio Castellani Reviso Grfica: Marco Antnio Corra

    Projeto Grfico Elsevier Editora Ltda. Conhecimento sem Fronteiras Rua Sete de Setembro, 111 /16 andar 20050-006 -Centro- Rio de Janeiro - RJ - Brasil

    Rua Quintana, 753 - 8 andar 04569-011 - Brooklin- So Paulo- SP- Brasil

    Servio de Atendimento ao Cliente 0800-0265340 sac@ elsevier.com. br

    ISBN 978-85-352-3030-7

    Nota: Muito zelo e tcnica foram empregados na edio desta obra. No entanto, podem ocorrer erros de digitao, im-presso ou dvida conceitual. Em qualquer das hipteses, solicitamos a comunicao ao nosso Servio de Atendimento ao Cliente, para que possamos esclarecer ou encaminhar a questo.

    Nem a editora nem o autor assumem qualquer responsabilidade por eventuais danos ou perdas a pessoas ou bens, originados do uso desta publ icao.

    CIP-Brasil. Catalogao-na-fonte . Sindicato Nacional dos Editores de Livros, RJ

    E82 Estatstica bsica : a arte de trabalhar com dados I Joo Ismael O. Pinheiro ... [et ai.].- Rio de Janeiro : Elsevier, 2009.

    il.

    Contm exerccios Apndice Inclui bibliografia ISBN 978-85-352-3030-7

    1. Estatstica. 2. Estatstica matemtica. I. Pinheiro, Joo Ismael O.

    08-4470. COO: 519.5 COU: 519.2

  • Prefcio

    Este livro rene o resultado da experincia de trs professores da UFRJ e da coordena-dora do Treinamento em Mtodos Estatsticos e suas Aplicaes, tambm oferecido pela UFRJ, todos eles com longa dedica> ao ensino de qualidade. Tive ocasio de acompanhar a atividade de cada um, na pesquisa, no laboratrio, na criao de novas formas de comunicao. Desse trabalho surgiu agora um texto abrangente, que apre-senta, de forma ao mesmo tempo clara e correta, os delicados conceitos fundamentais das teorias das Probabilidades e da Inferncia Estatstica. Merece especial destaque a presena de alguns tpicos da mais alta relevncia prtica. Por exemplo, a disponibili-zao de tcnicas exploratrias para a identificao de observaes discrepantes e assi-metrias. O tratamento desse tpico logo no captulo inicial, assim como o dos modelos de regresso, no captulo seguinte, coloca o leitor diante dos conceitos que estruturam a matria e o habilitam a avanar com segurana pelos aspectos que tornam a Estatstica to interessante. O livro inclui um nmero considervel de exerccios desafiadores. A parte desses exerccios que acompanhada de solues as desenvolve cuidadosa e deta-lhadamente. um produto que tenho grande satisfao de recomendar para estudantes de todas as inmeras reas de aplicao de Probabilidades e Estatstica.

    ANNIBAL PARRACHO SANT'ANNA

  • Carta aos leitores

    Talvez voc seja uma pessoa que no gosta muito de Matemtica, e menos ainda de Estatstica. Isso no problema. Ainda assim, gostaramos de tentar convenc-lo a estu-dar pelo nosso livro. Ns o escrevemos pensando justamente em voc. Nossa preocupa-o foi, o tempo todo, tornar a leitura do material terico menos rida e menos fria.

    Nesse sentido, para cada captulo do livro, adotamos a estratgia de:

    Comear com a lista dos conceitos a serem introduzidos no captulo. Abrir a discusso sempre com uma situao concreta, em que o material terico a

    ser estudado contenha mtodos estatsticos teis para uma abordagem quantitati-va do problema.

    Quando julgamos pertinente, estabelecer um paralelo da teoria com tais situaes concretas.

    Evitar desenvolvimentos de natureza puramente abstrata (tais como demonstra-es matemticas), porm mantendo o nvel de rigor que nos pareceu adequado, dado o contedo a ser apresentado.

    Complementar a teoria com vrios exemplos, relativos a diferentes reas de apli-cao da Estatstica, bem como a questes da vida cotidiana. Cada exemplo fina-lizado por um marcador.

    Concluir com um resumo do material apresentado no captulo. Finalmente incluir uma relao de exerccios resolvidos e exerccios propostos,

    tambm procurando abranger vrias reas do conhecimento em que a Estatstica seja considerada uma ferramenta til.

    O material terico deste livro pode ser dividido em trs partes:

    Anlise Explora tria (Captulos 1 e 2) Clculo de Probabil idades (Captulos 3, 4 e 5)

    Inferncia Es tats ti ca (Captulos 6, 7 e 8). Ao final h Lamb ' m um apndice, no qua l inclumos, resumidantcnt e, alguns oncci-to~ t resultados matem ti cos que sao uti lizados no texto . No sitc www . lsevicr.com.br

  • VIII ESTA TiSTICA B I A f':L',EVIEH

    -+Univers itrios -+ Cs tats ti a -+ Es tats ti ca Bs i a A ute dt trabalhar com d::ldos Contedos E tras, voc enco ntrar: Dcmo nstracs d algun" n .,uJta lo" te(,riro", Pla-n ilha com conj untos de dados em Exce l, Respos tas s p -rgunta~ lo tex to , 5olur)es de alguns exerc.cios propostos.

    Gos taramos de agradecer pelo trabalho competente e cuidadoso de Cristina Pimen -ta de Mello Spineti , que colaborou na reviso dos exemplos e dos exerccios des te livro.

    Mas, afinal, como a Estatstica pode ser til aos leitores, mesmo que estes no sejam da rea quantitativa?

    A Estatstica pode ser vista como uma importante ferramenta de uso generalizado nas mais variadas reas do conhecimento .

    Apresentamos brevemente a seguir alguns exemplos de questes da vida real em que o uso dos mtodos estatsticos se revela importante na obteno de respostas adequadas.

    Fornecendo subsdios para uma poltica de melhoria das condies sanitrias

    Florence Nightingale foi a fundadora, em 1860, da primeira escola de enfermagem do mundo. Sempre teve a preocupao de melhorar as condies de atendimentos aos doentes. Durante a guerra da Crimia, entre 1854 e 1856, ela integrou o corpo de enfer-magem britnico na Turquia, onde ficou famosa por seu trabalho pioneiro destinado ao tratamento de feridos de guerra. Ela observou, durante a guerra, que o nmero de mor-tes ocasionadas pelas ms condies sanitrias dos acampamentos e dos hospitais de campanha foi maior que as ocorridas em combate. Usando tabelas e grficos , mormente grficos setoriais , ou de "pizza", ela conseguiu convencer as autoridades encarregadas da administrao hospitalar da necessidade de melhorar as condies sanitrias , o que redundou numa dramtica diminuio no nmero de mortes. A utilizao de grficos de "pizza" - como os estudados no Captulo 1- foi suficiente para mostrar que as mor-tes devidas s ms condies sanitrias superavam as ocorridas no campo de batalha, ajudando na d.eciso de elaborar uma poltica de melhoria dessas condies.

    Ocorrncia de sinistros em determinados turnos de trabalho Constatou-se que, inesperadamente, houve um inusitado aumento no nmero de

    bitos em um determinado hospital. Os nmeros ultrapassavam em muito a quantida-de de mortes ali comumente registradas. Foi feito um levantamento de dados com o ob-jetivo de estabelecer um padro para os diversos bitos. Para cada um dos ltimos meses, foi calculada a mdia de bitos dirios por turno da equipe de enfermagem, e a anlise dos dados observados revelou que, em alguns turnos, a mdia de bitos era su-perior em pelo menos trs vezes mdia dos demais turnos. Com essa constatao, pas-sou-se a analisar a composio da equipe de cada turno. Observou-se ento que as mdias que fugiam aos padres coincidiam com os turnos de um determinado enfermei-ro. A comparao entre o nmero de bitos ocorridos no turno desse enfermeiro e nos outros turnos forneceu indcios da culpabilidade desse profissional.

    Aqui, novamente, as tcnicas estatsticas utilizadas seriam aquelas que constam dos Captulos 1 e 2 deste livro.

  • CARTA AOS LEITORES IX ElSEVIER

    Deteco de fraudes no Imposto de Renda Suspeita-se que, ao preencher a sua declarao anual do Imposto de Renda, muitos

    contribuintes praticam a chamada sonegao ou evaso fiscal. Ou seja, eles "omitem" rendimentos de fato auferidos e "acrescentam" gastos inexistentes, visando pagar me-nos imposto. claro que o fisco pode lanar mo de informaes individuais existen-tes em outros cadastros e cruz-las com as declaraes de renda dos indivduos. Assim, por exemplo, pode ficar caracterizado como evidente que a renda declarada por uma pessoa incompatvel com a sua variao patrimonial. Atravs de anlises estatsticas desses dados, possvel elaborar um sistema eficaz de "malha", capaz de detectar com bastante preciso a ocorrncia de tais infraes legislao tributria. A discusso apresentada no Captulo 1 sobre identificao de outliers, embora s permi-ta abordar essa questo em um nvel superficial, pode viabilizar que seja dado um pri-meiro passo nessa direo .

    Teste para diagnosticar a presena de uma doena A pesquisa na rea mdica desenvoive freqentemente testes para a deteco de deter-

    minadas enfermidades. Ocorre que esses tes~es no so infalveis. Quando se aplica um teste a uma pessoa, o resultado pode ser positivo e, mesmo assim, a doena pode estar au-sente. Assim como o resultado pode ser negativo, embora a doena esteja presente.

    Para lidar com esse tipo de questionamento, a Bioestatstica criou conceitos como os de Sensibilidade (probabilidade de o teste dar positivo, quando a doena est presente), Especificidade (probabilidade de o teste dar negativo, quando a doena est ausente), Poder Preditivo (Positivo e Negativo) de um teste. Quanto mais sensvel e mais espec-fico for o teste, maior ser a sua capacidade de levar a diagnsticos corretos. Mesmo em sua verso mais simples, conceitos como os citados anteriormente se utilizam da noo bsica de probabilidade condicional e esto interligados pelo chamado Teorema de Bayes (ver Captulo 3).

    rea de Recursos Humanos -Irregularidades no processo de seleo O setor de recrutamento e seleo da rea de Recursos Humanos de uma empresa

    realizou um processo de seleo para o preenchimento de vagas. No exame de seleo foi aplicada uma prova de mltipla escolha com 80 perguntas, cada uma delas admitin-do cinco opes de resposta: a, b , c, d, e. Houve uma denncia de "cola" durante a apli-cao da prova. Como a Estatstica poderia ajudar a verificar se realmente h indcios de "cola"?

    Atravs da teoria de probabilidade (Captulo 3) pode-se avaliar quo pequena a chance de dois ou mais candidatos , exclusivamente por acaso , marcarem respostas iguais na maior parte das questes (por exemplo, em 60 questes), quando entre elas houver um nmero no desprezvel de respostas erradas - digamos, 10 erradas. (ver o Exerccio Resolvido 1 do Captulo 3) .

    imulao do funcionamento de um porto de importao e exportao H determi JJ adas ca tego ri as de rrob l 111 as de na tureza p rohabils ti a cujo tratamen-

    to analtico torna-se quase imprati cve l, mes mo qua ndo a co mple idadr do problema

  • X ESTATISTICA BSICA ELSEVIER

    ainda no to grande. Alguns exemplos seriam os problemas de formao de filas , ge-rncia de estoques etc. Felizmente tais problemas podem ser abordados atravs de uma metodologia chamada Simulao por Monte Carlo , que usa a gerao de nmeros alea-trios no computador.

    Para exemplificar, consideremos o funcionamento de um porto de importao e ex-portao. Cada navio que chega entra numa fila de espera, manobra , atraca, descarre-gado, abastecido, sofre manuteno , recarregado, desatraca, manobra novamente e finalmente parte para seu prximo destino . Atravs da Simulao, tudo se passa como se o pesquisador pudesse se sentar em um ponto de observao e ir registrando cada uma dessas ocorrncias, muitas delas simultneas, e sua evoluo ao longo do tempo. Isso pode ser feito programando devidamente o gerador para sortear nmeros aleat-rios segundo diferentes leis de probabilidade, vistas nos Captulos 4 e 5.

    Pesquisa de Clima Organizacional Uma empresa tem observado a ocorrncia de atos de vandalismo por parte de alguns

    dos seus empregados. Por que isso estaria acontecendo? Visando melhor conhecer as opinies do seu corpo de empregados sobre o dia-a-dia na empresa, a diretoria enco-menda a uma empresa de consultoria a elaborao de uma Pesquisa de Clima Organiza-cional. Para isso elaborado um questionrio abordando temas, tais como: benefcios, condies de trabalho, treinamento, questes de segurana, comunicao interna etc. Seleciona-se uma amostra de empregados a serem entrevistados. A expectativa da dire-toria , atravs dessa pesquisa, obter subsdios para a implantao de medidas que ve-nham a aperfeioar o relacionamento entre os empregados e a empresa, o que poder resultar em melhorias no seu processo produtivo.

    O material apresentado nos Captulos 2, 6 e 8 trata de algumas das questes aqui le-vantadas.

    Pesquisa eleitoral Ao longo dos meses que precedem a realizao de uma eleio, o noticirio dos mei-

    os de comunicao costuma estar fervilhando de novidades a respeito das preferncias do eleitorado. Nesse sentido, as pesquisas eleitorais so um importante instrumento de que se dispe para "fotografar com nitidez" a realidade eleitoral em um dado momento da campanha.

    ento inevitvel que o leigo, ctico e desconfiado pergunte: "Se a populao composta de milhes de eleitores, como possvel obter estimativas confiveis do percentual de eleitores que pretendem votar em cada candidato com base em apenas al-gumas milhares de entrevistas? "

    A Teoria da Amostragem (brevemente introduzida no Captulo 6) nos garante que isso perfeitamente possvel, desde que a pesquisa eleitoral obedea a um planejamento srio e cuidadoso e a critrios de qualidade rigorosos na execuo de todas as etapas do proces-so. Ou seja, havendo competncia, neutralidade e lisura por parte de quem faz a pesquisa, ela pode realmente fornecer estimativas precisas das intenes de voto do eleitorado.

    Esse tipo de pesquisa se baseia em uma amostra , e no na populao inteira. Ento, por mais criterioso que tenha sido o procedimento de seleo dos entrevistados, no se

  • CARTA AOS LEITORES XI

    podem esperar estimativas absolutamente corretas dos percentuais relativos aos diver-sos candidatos. Ou seja , inevitvel a existncia de erros de estimao. Em particular, podem ser obtidos intervalos de confiana para os percentuais de inteno de voto de cada candidato (ver Captulo 7).

    Entretanto, h um diferencial importante entre a pesquisa eleitoral e a maioria dos demais tipos de pesquisa de opinio. No caso da pesquisa eleitoral, sempre haver uma eleio para comprovar se a previso da "boca de urna" estava correta ou no.

    A Lingstica, a Fonoaudiologia e a Estatstica unidas no diagnstico de crianas dislxicas

    Existe uma hiptese de que as crianas com dislexia tm problema de acesso s pala-vras, porque elas tm dificuldade com suas representaes sonoras. Essa hiptese se sustenta em evidncias obtidas atravs de testes de nomeao de palavras a partir de fi-guras. O esperado que, nesses testes, as crianas com desenvolvimento normal e da mesma faixa etria, o chamado grupo controle, apresentem alto ndice de acerto .

    Foi aplicado um teste de nomeao a nove crianas dislxicas. Esse teste envolvia 36 palavras, sendo:

    nove dissilbicas e com alta freqncia de uso; nove dissilbicas e com baixa freqncia de uso; nove polissilbicas e com alta freqncia de uso; nove polissilbicas e com baixa freqncia de uso.

    Os resultados revelaram que a dificuldade da criana dislxica est associada princi-palmente ao efeito da freqncia de uso, e no ao efeito do tamanho da palavra na recu-perao da sua forma sonora. Outro resultado interessante o que compara a proporo de acertos da primeira resposta com a proporo de acertos aps a apresenta-o de "dicas" semnticas e fonolgicas para que a criana recupere a forma sonora da palavra. Essa diferena evidencia que a criana dislxica no tem problema para repre-sentar em sua mente a forma sonora das palavras, mas pode apresentar dificuldade para acessar essa memria, quando deseja compreender ou se expressar verbalmente.

    Aqui foram usados testes de hiptese, abordados no Captulo 8, para comparar os desempenhos dos dois grupos: o das crianas dislxicas e o grupo de controle.

    gua contaminada O seguinte fato narrado no filme O despertar de uma paixo (The painted veil) , basea-

    do em uma obra de W. Somerset Maugham. Na China de 1925, um bacteriologista bri-tnico foi enviado ao povoado de Mei-Tan-Fu , situado beira de um afluente do rio Yangtz , assolado por uma epidemia de clera. Ele observou , surpreso, que enquanto a populao de Mei- Tan-Fu estava quase toda doente, com um grande nmero de bitos decorrentes da enfermidade, no povoado vizinho, situado rio acima, o nmero registra-do de doentes e casos de bitos era quase insignificante. Uma anlise da gua do rio frente dos do is povoados mostrou que a gua bebida pelos habitantes de Mei -Tan-Fu es-tava contaminada , ao contr ri o do que ocorria com a gua consumida pelo povo rio aci-ma . Descobriu-se que a razo di sso era a exist.n ia de um ce mitrio beira do rio, entre

  • XII ESTA TiSTICA BSICA ELSEVIER

    as duas localidades. A erradicao do cemitrio no foi possvel devido s crenas dos nativos, para os quais a gua purificava os espritos dos mortos. A soluo encontrada foi impedir o consumo da gua do rio extrada em frente aMei-Tan-Fu e a construo de um engenho para extrair gua rio acima, e transport-la quela localidade. A simples comparao entre os casos de clera observados nos dois povoados ribeirinhos levou a aes que permitiram desvendar o aparente mistrio do surto de clera.

    Nesse caso, uma forma possvel de se constatar a diferena entre os dois povoados, em termos da qualidade da gua, seria, por exemplo, a coleta de amostras (a serem ana-lisadas quimicamente) em ambos os locais, e a posterior comparao entre elas atravs de um teste de hiptese (ver Captulo 8).

    Amigo leitor, esperamos que este livro contribua para que voc goste mais da Estats-tica, a cincia que, pela sua beleza e ampla aplicabilidade aos mais diversos ramos do conhecimento, escolhemos tornar o centro da nossa atividade profissional.

    Boa viagem pelo mundo da Estatstica, a arte de trabalhar com dados!

    OS AUTORES Rio de janeiro, setembro de 2008.

  • Sumrio

    CAPTULO l ANLISE EXPLORATRIA PARA UMA VARIVEL

    1.1 Introduo 1.2 Populao e Amostra 1.3 Tipologia das Variveis 1.4 Distribuies de Freqncias- Tabelas e Grficos 1.5 Medidas de Centralidade para Variveis Quantitativas 1.6 Medidas de Disperso para Variveis Quantitativas 1. 7 O Conceito de Resistncia de uma Medida 1.8 Identificao de Discrepncias em Variveis Quantitativas 1.9 Box Plot para Variveis Quantitativas Resumo do Captulo 1 Exerccios Resolvidos Exerccios Propostos

    CA PTULO 2 ESTUDANDO A RELAO ENTRE DUAS VARIVEIS

    2.1 Relao entre Variveis Qualitativas - Tabelas de Contingncia 2.2 Correlao entre Variveis Quantitativas 2.3 O Ajuste da Reta de Regresso por Mnimos Quadrados Resumo do Captulo 2 Exerccios Resolvidos Exerccios Propostos

    C APfTULO 3 INTRODU O AO CLCULO DE PROBABILIDADES

    3.1 Alguns Con ceitos FundamenLais 3.2 Propriedades 13sica da Probabi lidade 3.3 Probabi lidad oncli ional e tnd epencl ncia de Even tos 3.4 Somar ou Mu ltipli car Probabi lidades? Resumo do apt ulo 3

    1 2 3 5 8

    16 18 24 25 27 29 30 37

    42 43 48 54 58 59 64

    70 71 74 7 79 87

  • XIV ESTATSTICA BSICA ELSEVIER

    Exerccios Resolvidos 88 Exerccios Propostos 92

    CAPTULO 4 VARIVEIS ALEATRIAS 95

    4.1 Introduo 96 4.2 Tipos de Variveis Aleatrias 97 4.3 O Caso Discreto 98 4.4 O Caso Contnuo llO 4.5 A Distribuio Normal 119 Resumo do Captulo 4 126 Exerccios Resolvidos 128 Exerccios Propostos 130

    CAPTULO 5 VARIVEIS ALEATRIAS MULTIDIMENSIONAIS 134

    5.1 O Caso de Duas Variveis Aleatrias Discretas 135 5.2 Independncia de Variveis Aleatrias 140 5.3 Propriedades das Medidas de Centralidade, de Disperso e de

    Interdependncia 14 3 Resumo do Captulo 5 146 Exerccios Resolvidos 14 7 Exerccios Propostos 151

    CAP T U LO 6 AMOSTRAGEM: UMA PONTE ENTRE PROBABILIDADE E INFERNCIA 155

    6.1 O Teorema Central do Limite 156 6.2 Aproximao da Binomial pela Normal 162 6.3 Amostragem Aleatria Simples 164 6.4 Ar~wstral versus Populacional 166 6.5 A Abordagem dos Problemas Reais Atravs da Inferncia Estatstica 167 Resumo do Captulo 6 168 Exerccios Resolvidos 168-Exerccios Propostos 172

    CAPTULO 7 ESTIMAO DE PARMETROS 175

    7.1 Parmetro, Estimado r e Estimativa 176 7.2 Estimador Pontual da Mdia Populacional 178 7.3 Estimao Pontual da Varincia e do Desvio-padro Populacionais 184 7.4 Estimao Pontual da Proporo Populacional 186 7.5 Vis, Varincia e Erro Quadrtico Mdio de um Estimador 190 7.6 As Verses Amostrai e Populacional de Vrios Conceitos 194 7. 7 Estimao por Intervalo 195 Resumo do Captulo 7 202 Exerccios Resolvidos 204 Exerccios Propostos 208

  • CAPTULO 8 TESTES DE HIPTESE

    8.1 Conceitos Bsicos 8.2 Esclarecendo Melhor Alguns Conceitos 8.3 Rotina para Obteno do Critrio de Deciso 8.4 Teste para a Mdia Populacional 8.5 O Conceito de Nvel Crtico 8.6 O Poder do Teste 8.7 Teste para Propores 8.8 Testes para Comparao de Duas Mdias 8.9 Testes para Comparao de Vrias Mdias 8.10 Testando a Independncia entre Duas Variveis Resumo do Captulo 8 Exerccios Resolvidos Exerccios Propostos

    APNDICE I FUNDAMENTOS MATEMTICOS

    I. Somatrios 2. Noes de Anlise Combinatria 3. Mdulo de um Nmero Real 4. Funo 5. O Nmero "e" e a Funo Exponencial 6. Logaritmos

    APNDICE li TABELAS DE PROBABILIDADE

    Tabela I: Distribuio Normal Padro Acumulada Tabela 11: Distribuio t de Student Tabela Ill: Distribuio F de Fisher-Snedecor Tabela IV: Distribuio Qui-quadrado

    GLOSSRIO REFERNCIAS BIBLIOGRFICAS RESPOSTAS DOS EXERCCIOS PROPOSTOS

    SUMRIO XV

    212 213 215 219 220 223 226 228 231 239 247 252 255 265

    271 271 272 273 274 275 277

    278 278 279 280 281

    282 285 286

  • CAPTULO

    ANLISE EXPLORATRIA PARA UMA VARIVEL

    CONCEITOS A SEREM INTRODUZIDOS NESTE CAPTULO: Populao e amostra Observaes e vriveis Varivel qualitativa x varivel quantitativa Tabela de freqncias Grfico de barras e grfico de setores Histograma e grfico ramo-folha Mdia, mediana e moda Varincia, desvio-padro, coeficiente de variao e distncia

    interquartil Resistncia de uma medida Valores discrepantes (Outliers) Box plot

    Diego e Walter trabalhavam, havia muitos anos, na fbrica de camisas masculinas Colarinho Branco. Um dia, o gerente de produo pediu demisso para ir trabalhar numa empresa multi-nacional do ramo. O dono da Colarinho Branco, Sr. Paulo, chamou ento seus dois experientes empregados para comunicar-lhes que um deles seria o novo gerente de produo. Contudo, dis-se-lhes que essa escolha dependeria de um pequeno teste ao qual ambos seriam submetidos. Ele pediu a cada um dos dois que:

    selecionasse amostras de 200 homens adultos; medisse a circunferncia do pescoo de cada indivduo dessas amostras; apresentasse por escrito um relatrio com as suas concluses.

    Logo no segundo dia aps ter comeado as medies, Walter compareceu sorridente perante Sr. Paulo paro apresentar o seu trabalho. Ele no tinha mais dvidas de que seria o escolhido.

  • 2 ESTA TiST ICA BSICA ELSEVIER

    Passaram-se mais um, dois, trs dias, e somente quatro dias depois Diego entregou o seu traba-lho. No quinto dia, o dono da empresa anunciou: Diego ser o novo gerente de produo.

    Walter no conseguia entender o porqu da escolha, que ele considerava injusta, e (oi inter-pelar o Sr. Paulo. Exps os seus motivos e lembrou que tinha entregado o seu trabalho quatro dias antes de Diego.

    O Sr. Paulo ento, calmamente, o chamou ao seu lado e mostrou-lhe os dois trabalhos. O relat-rio de Walter estava caprichado sim, com as pessoas ordenadas alfabeticamente e seus respecti-vos tamanhos de colarinho. "Bonito o teu trabalho", (alou o Sr. Paulo, "s que de nada me serve." A seguir mostrou o relatrio que Diego tinha apresentado. As pessoas no estavam ordenadas alfa-beticamente, mas por tamanho de colarinho. "Voc v", (alou o dono, "agora eu sei quais so os ta-manhos extremos, o menor e o maior." "Alm disso", e mostrou-lhe uma tabela de freqncias apresentada por Diego, "posso ver _imediatamente qual o tamanho de colarinho que tenho de fa-bricar em maior quantidade e as propores correspondentes aos outros tamanhos." A seguir mos-trou um histograma em que daramente podia ser vista a distribuio dos diversos tamanhos de colarinhos. E ainda tinha mais. No seu trabalho, Diego tinha calculado o tamanho mdio dos colari-nhos, o seu desvio-padro e tinha feito um gr(lco de caixas (box-plot), no qual sobressaam nitida-mente os quartis inferior e superior e a mediana para a amostra de colarinhos.

    Walter ficou admirado com o trabalho de Diego. Percebeu que todas as informaes apre-sentadas por ele eram de (ato relevantes para a produo de camisas. Diante de tantas evi-dncias, ele aceitou as explicaes do Sr. Paulo e foi cumprimentar o colega recm-promovido. No dia seguinte, inscreveu-se em um treinamento em Mtodos Estatsticos que em breve seria oferecido por uma conceituada universidade.

    No caso relatado, Diego apresentou um trabalho muito mais completo que o de Walter, gra-as ao seu conhecimento das tcnicas de Anlise Exploratria de dados, como as que sero apre-sentados nesta obra.

    1. 1 INTRODUO O que analisar dados?

    Aqui esto algumas possibilidades de resposta a essa pergun ta: Analisar dados .. .

    identificar comportamentos mdios, comportamentos discrepantes, comparar com-portamentos, investigar a interdependncia entre variveis, revelar tendncias etc.

    a partir de uma massa de dados, e com o auxlio dos recursos computacionais, se-parar o que essencial (estrutura) do que eventual (rudo) .

    resumir, de forma eficiente, a informao contida nos dados e assim permitir que, atravs desse conhecimento, as decises sejam tomadas de forma mais consciente.

    O que Anlise Exploratria? Trata-se de um conjunto de tcnicas de tratamento de dados que, sem implicar em

    uma fundamentao matemtica mais rigorosa, nos ajuda a fazer uma sondagem do ter-reno, ou seja, tomar um primeiro contato com a informao disponvel.

  • ANLISE EXPLORATRIA PARA UMA VARIVEL 3

    Supostamente, os dados "esto tentando nos dizer algo" a respeito do tema que estamos investigando. Como extrair e resumir a informao que est contida nos dados? Como de-vemos usar essa informao para obter mais familiaridade com o problema a ser abordado?

    No filme Depois daquele beijo (Biow up), de M. Antonioni ( 1966), um clssico do cinema, um fotgrafo amador se encanta pela graciosidade de uma jovem e resolve segui-la em seu pas-seio pelas ruas da cidade, registrando tudo com fotos e mais fotos dos mais variados ngulos. Em determinado momento, ela vai ao encontro de um homem em um parque muito arborizado. O casal corre feliz pelos campos, se abraa e se beija longamente, e tudo isso registrado pela c-mera do incansvel fotgrafo.

    Mais tarde, de volta ao seu estdio, ele se dedica ao trabalho de revelar cada uma das ima-gens (no era chegado ainda o tempo das fotos digitais), e esse exame minucioso, cheio de am-pliaes de detalhes aqui e ali, acaba por sugerir que, no meio da mata, h um corpo cado no cho (talvez um cadver), o que poderia ser indcio de um crime, descoberto inteiramente por acaso. Convm ressaltar que essa descoberta s foi possvel devido ao fato de o fotgrafo ter exa-minado (explorado) mais detalhadamente o material (dados) que ele tinha fotografado.

    Mal c9mparando, s vezes assim que descobertas so realizadas quando usamos as tcni-cas da Anlise Exploratria para extrair a informao relevante de um conjunto de dados.

    Essas tcnicas freqentemente nos levaro construo de tabelas e, sobretudo, de grficos que pretendem facilitar a nossa compreenso do fenmeno em estudo, apelan-do para o poder de visualizao do ser humano. Esse o assunto a ser abordado nos Ca-ptulos 1 e 2 deste livro.

    O que vem depois da Anlise Exploratria? Uma vez de posse das "pistas" a respeito do tema em estudo que nos foram forneci-

    das pela Anlise Exploratria, podemos partir para a chamada Inferncia, em que sero aplicados aos dados mtodos estatsticos mais sofisticados, cuja fundamentao mate-mtica est no Clculo de Probabilidades.

    Nessa segunda fase da anlise, que ser abordada a partir do Captulo 3, veremos:

    como formular um modelo probabilstico que pretende descrever matematica-mente o fenmeno de interesse (Captulos 3, 4 e 5);

    como adentrar no mundo da Inferncia Estatstica, aprendendo a lidar com o con-ceito de Amostragem e, em particular, com grandes amostras (Captulo 6) ;

    como estimar os parmetros de um modelo probabilstico, fazendo uma espcie de calibrao ou a jus te fino (Captulo 7) ;

    como testar hipteses comportamentais acerca do assunto em considerao ( Ca-ptulo 8) .

    1.2 POPULAO E AMOSTRA A palavra "populao", na s ua acepo mais omum , representa o o njunto dos ha-

    bitanles d u m pas ou de um a dada regio. Em Estatlstica , o termo u ado em um sen-

  • 4 ESTATSTICA BSICA ELSEVJER

    tido mais amplo . Diremos que populao (ou universo) o conjunto de todos os elementos (pessoas ou objetos) cujas propriedades o pesquisador est interessado em estudar. Essas propriedades podem ser: o resultado de uma medio, um atr]buto quali-tativo, um ndice etc. Por exemplo: cor de olhos, estatura, tempo de reao ele.

    Quando feito um levantamento completo sobre uma determinada populao, ou seja, contemplando cada um dos seus elementos, temos o que se chama de um censo.

    Em termos do nmero dos elementos que compem a populao, ela pode ser classi-ficada como finita ou infinita. Os empregados de uma empresa, as agncias de um ban-co, as ruas de uma cidade etc. so exemplos de populaes finitas. j os pontos de uma linha, o conjunto dos nmeros reais etc. constituem populaes infinitas.

    Pela prpria natureza dos exemplos anteriores, vemos que, nas situaes mais con-cretas do mundo real, estamos sempre lidando com populaes finitas. Por outro lado , as populaes ditas infinitas resultam de uma abordagem mais abstrata da realidade.

    Quando uma populao, embora finita, muito grande, ela tratada, na prtica, como se fosse infinita.

    Se uma populao infinita, ou finita mas muito grande, torna-se impossvel ou im-praticvel a realizao do censo. Em tais casos, em vez disso, examina-se somente uma pequena parte da populao que chamamos de amostra.

    Uma amostra dita representativa da populao se a partir de sua anlise podem ser obtidas concluses vlidas sobre a populao. Para tanto necessrio que a amostra seja extrada de acordo com regras bem definidas. claro que, se a populao da qual a amos-tra retirada muito homognea, essa preocupao no to importante, pois, ento, qualquer tipo de amostragem nos levaria inapelavelmente ao mesmo resultado. o que ocorre, por exemplo, quando se extrai uma amostra de um fluido. Umas poucas gotas podem ser suficientes para dar a informao desejada, como acontece em um exame de sangue. Entretanto, quando o material de que est composta a populao muito hete-rogneo, como freqentemente ocorre em situaes de interesse prtico, a maneira como essa amstra selecionada um assunto da maior relevncia. Nesses casos, muito importante o uso de tcnicas que nos garantam a obteno de amostras dignas de confiana.

    Para finalizar essas consideraes iniciais sobre os conceitos de populao e amos-tra, cabe aqui um comentrio de ordem prtica.

    Em determinadas situaes concretas perfeitamente vlido encararmos a popula-o disponvel como uma amostra representativa de uma populao maior.

    Por exemplo:

    A populao de todos os pacientes que, num determinado momento, esto inter-nados em um grande hospital de Cardiologia, para efeitos prticos, pode ser enca-rada como uma amostra representativa da populao de todos os pacientes que so-frem de distrbios cardacos.

    A populao dos alunos inscritos na disciplina Estatstica de um determinado cur-so de graduao, para efeitos prticos, pode ser vista como uma amostra represen-tativa da populao de todos os alunos desse curso que cursaram essa disciplina ao longo de um perodo de , digamos , cinco anos.

  • ANLISE EXPLORATRIA PARA UMA VARIVEL 5

    Sendo assim, se os seus dados a princpio lhe parecem representar toda uma popula-o, talvez valha a pena perguntar a si mesmo se , na verdade, seu propsito no seria ex-trapolar as concluses a que voc eventualmente chegar para uma realidade maior. Se for esse o caso , os dados devem ser encarados como uma amostra e no uma populao.

    Podemos resumir esses conceitos no quadro a seguir:

    Populao: Coleo completa de todos os elementos que so objeto de nosso estudo. Censo: Exame de todos os elementos da populao. Amostra: Subconjunto de elementos selecionados da populao segundo regras bem definidas.

    1.3 TIPOLOGIA DAS VARIVEIS Quando feito um levantamento de dados a respeito de um determinado assunto, eles

    costumam ser representados em uma tabela de dados brutos como a tabela a seguir, na qual cada linha corresponde a uma observao e cada coluna corresponde a uma varivel.

    As observaes tambm so s vezes chamadas de indivduos, sujeitos, objetos, ca-sos, unidades amostrais etc. As variveis tambm costumam ser referidas como atribu-tos, caractersticas, propriedades etc.

    EXEMPLO 1.1 Imveis venda ATa bela l.l a seguir mostra os dados brutos de uma amostra de 2 7 imveis anuncia-

    dos para venda nos anncios classificados de um jornal. TABELA 1.1 Amostra sistemtica, de 20 em 20, dos imveis anunciados para venda nos anncios classificados de um jornal

    N!!. da Obs. Bairro Tipo N!!. de quartos Preo* I Barra Apto. 2 165 2 Barra Apto. 3 240 3 Barra Cobt. - 158 4 Barra Sala - 150 5 Bota fogo Apto. 2 59 6 Catete Apto. I 54 7 Centro Sala - 35 8 Copacabana Apto. 2 83 9 Copacabana Apto. 3 180

    lO Copacabana Apto. 4+ 85 li Flamengo Apto. I 58 12 Flamengo Cobt. - 120 13 Gvea Apto. 4+ 250 14 lpanema Apto. 3 130 15 jaca1epagu Apto. 3 90 16 Lagoa Apto. 2 130 17 Lara njeir-as Aeto. 2 68 18 La,anjeiiCJS Apto. 4+ 360 19 LeiJion Aplo. 3 300

  • 6 ESTATSTICA BSICA ELSEVfER

    N9. da Obs. Bairro Tipo NQ de quartos Preo* 20 I eblon Apto. 4+ 600 21 Maracan Apto. 3 137 22 Recreio Cobt - 240 23 So Cont-ado Casa 4+ 650 24 Tijuca Apto. 2 49 25 Tijuca Apto. 2 95 26 Tijuca Casa 4+ 170 27 Vila Isabel Apto. 2 57

    * em unidades monetrias (u.m.)

    Nesse exemplo cada observao um imvel, e cada varivel um atributo dos im-veis (bairro, tipo, nmero de quartos, preo).

    As variveis, de uma forma geral, podem ser classificadas em tipos, conforme o se-

    guinte:

    Varivel {

    Nominal Qualitativa

    Ordinal

    {Discreta

    Quantitativa Contnua

    Varivel qualitativa nominal ou categrica- seus valores possveis so diferentes categorias no-ordenadas, em que cada observao pode ser classificada. Exem-plos: raa, nacionalidade, rea de atividade. Varivel qualitativa ordinal- seus valores possveis so diferentes categorias or-denadas, em que cada observao pode ser classificada. Exemplos: classe social, nvel de inst;ruo. Varivel quantitativa discreta- seus valores possveis so em geral resultados de um processo de contagem. Exemplos: nmero de filhos, nmero de sries escola-res cursadas com aprovao. Varivel quantitativa contnua- seus valores possveis podem ser expressos atra-vs de nmeros reais e varrem uma escala contnua de medio. Exemplos: renda mensal, peso, altura.

    PERGUNTA: Como voc classificaria por tipo cada uma das variveis da Tabela l.l ?

    EXEMPLO 1.2: Pesquisa antropomtrica A Tabela 1.2 a seguir apresenta um conjunto de dados brutos de uma pesquisa antro-

    pomtrica realizada com mulheres cuja idade est acima de 60 anos. Este conjunto de dados ser usado ao longo de todo este captulo para exemplificar vrios dos conceitos a serem aqui estudados.

  • ldent Categ. Idade !DI A 61 102 s 69 103 s 61 104 s 71 105 A 63 106 s 71 107 s 72 108 s 68 109 A 66 !DI O s 69 ID 11 s 72 1012 s 67 1013 s 63 1014 s 66 1015 s 63 1016 A 63 1017 A 60 1018 A 67 1019 A 71 1020 A 63 1021 A 60 1022 A 69 1023 A 64 1024 A 63 1025 A 66 1026 A 71 1027 A 64 1028 A 70 1029 A 63 1030 A 66 1031 A 64 1032 A 69 1033 A 69 1034 s 64 1035 s 63 1036 s 72 1037 s 73 1038 s 68 1039 s 71 10 40 s 72 104 1 A 69 /042 s 68 1043 c 68 .) /044 s 73 /LAS s 79

    ANLISE EXPLORATRIA PARA UMA VARIVEL

    TABELA 1.2 Pesquisa antropomtrica: amostra de 45 mulheres idosas acima de 60 anos

    Peso Altura IMC Classe Cintura (kg) (em) (kg/m2) IMC (em) 58,2 54,0 24,5 normal 87 63,0 52,0 27,3 sob repeso 89 70,1 58,0 28,1 sobrepeso 106 73,2 56,0 30,1 sobrE1l_eso 110 58,6 52,0 25,4 sob repeso 99 77,0 60,0 30,1 sobrepeso 125 76,2 65,0 28,0 sobrepeso 115 59,8 60,0 23,4 normal 85 64,3 55,0 26,8 sobrepeso 100 52,1 51,0 22,8 normal 74 62,0 56,0 25,5 sobrepeso 90 52,1 51,0 22,8 normal 76 58,0 57,0 23,5 normal 80 55,0 54,0 23,2 normal 78 50,1 57,0 20,3 normal 72 57,9 60,0 22,6 normal 78 58,2 !56,0 23,9 normal 80 56,2 152,0 24,3 normal 76 68,6 159,0 27,1 sob repeso 106 51 ,O 150,0 22,7 normal 71 53,4 150,0 23,7 normal 76 61,3 154,0 25,8 sobrepeso 89 53,2 158,0 21,3 normal 73 54,6 150,0 24,3 normal 80 56,2 52,0 24,3 normal 84 60,3 56,0 24,8 normal 82 54,7 58,0 21,9 normal 76 60,0 60,0 23,4 normal 81 51,3 54,0 21,6 normal 76 50,0 53,0 21,4 normal 76 49,8 50,0 22,1 normal 72 55,2 56,0 22,7 normal 81 58,2 60,0 22,7 normal 78 51,6 56,5 21,1 normal 76 62,7 53,0 26,8 sobrepeso 90 75 ,6 65,0 27,8 sobrepeso 98 65,2 54,0 27,5 sobrepeso 96 61,8 52,0 26,7 sobrepeso 82 64,3 50,0 28,6 sobrepeso 78 59,2 53,0 25,3 sobrepeso 73 63,4 63,0 23,9 notmal 93 66,0 60,0 25 ,8 sobrepeso 90 61,7 58,0 24,7 IIOI"ma / 90 68,2 55 ,0 28,4 sobt"epeso 107 60, I 60,0 735 ll OIITll l 92

    Quadril Classe (em) RCQ RCQ 109 0,80 MR 104 0,86 GR 123 0,86 GR 122 0,90 GR 121 0,82 MR 132 0,95 GR 125 0,92 GR 103 0,83 MR 120 0,83 MR 83 0,89 GR

    111 0,81 MR 90 0,84 MR

    102 0,78 MR 96 0,81 MR 81 0,89 GR 90 0,87 GR

    108 0,74 PR 95 0,80 MR

    117 0,91 GR 83 0,86 GR 89 0,85 MR

    106 0,84 MR 86 0,85 MR

    108 0,74 PR 110 0,76 PR 99 0,83 MR 95 0,80 MR

    104 0,78 MR 89 0,85 MR 87 0,87 GR

    106 0,68 PR 98 0,83 MR 90 0,87 GR 87 0,87 GR

    103 0,87 GR 110 0,89 GR 110 0,87 GR 93 0,88 GR 89 0,88 GR 82 0,89 GR

    120 0,78 MR 11 7 0.77 PR 11 6 0,78 MR 120 0,89 GR 11 0 0,84 MR

    7

  • 8 ESTATSTICA BSICA ELSEVIER

    Neste exemplo cada observao (ou indivduo) uma mulher acima de 60 anos, e as variveis (ou caractersticas) so:

    - Categoria, sendo A= ativa e S =sedentria - Idade, em anos - Peso, medido em kg - Altura, medida em em - ndice de Massa Corporal (IM C), que a seguinte razo: peso/ (altura em metros) 2 - Classe segundo o IMC: normal ou sobrepeso - Circunferncia da cintura, medida em em - Circunferncia do quadril, medida em em - Relao cintura/quadril (RCQ), adimensional - Classe segundo a RCQ, sendo PR =pequeno risco, MR =mdio risco e GR =grande

    risco.

    A primeira coluna mostra apenas um cdigo de identificao de cada idosa. Neste exemplo temos:

    - 1 varivel qualitativa nominal: categoria - 2 variveis qualitativas ordinais: classe IMC e classe RCQ - 1 varivel quantitativa discreta: idade - 6 variveis quantitativas continuas: peso, altura, IMC, cintura, quadril e RCQ

    OBSERVAO: Apesar de Idade ser uma contagem de tempo e o tempo ser algo eminente-mente contnuo (o tempo no pra ... ), aqui estamos considerando a idade em anos, que a "parte inteira do tempo de vida". Por isso a Idade foi considerada como uma varivel do tipo discreta.

    1.4 DISTRIBUIES DE FREQNCIAS- TABELAS E GRFICOS

    Para melhor descrever o comportamento de uma varivel comum apresentar os va-lores que ela assume organizados sob a forma de tabelas de freqncias e grficos.

    Na construo de tabelas de freqncia e grficos, as variveis so tratadas de forma diferente de acordo com o tipo, conforme veremos nas sees a seguir.

    1.4.1 Tabelas de Freqncias para Variveis Qualitativas Em uma tabela de freqncias para uma varivel qualitativa:

    cada linha corresponde a um valor possivel da varivel; atravs de um processo de contagem so obtidos os valores que constam na coluna de

    freqncias da tabela. O resultado dessa contagem a chamada freqncia absoluta; a partir das freqncias absolutas podem ser tambm calculadas freqncias rela-

    tivas, usualmente apresentadas sob a forma de percentuais.

    EX EMPLO 1.3: Categoria e classe da relao cintura-quadril As tabelas de freqncias para as variveis Categoria e Classe RCQ do Exemplo 1.2

    so as seguintes:

  • ANLISE EXPLORATRIA PARA UMA VARIVEL 9

    TABELA 1.3 Freqncia e percentual das 45 idosas, segundo a categoria

    Categoria Freqncia Percentuais Ativa 22 48,89 Sedentria 23 51,11 Total 45 100,00

    TABELA 1.4 Freqncia e percentual das 45 idosas, segundo a classe de RCQ Classe RCQ Freqncia Percentuais Pequeno Risco 5 11 , 11 Mdio Risco 20 44,44 Grande Risco 20 44.44 Total 45 100,00

    OBSERVAO: Quando a varivel qualitativa ordinal, as linhas devem seguir a ordem dos valores possveis da varivel.

    1.4.2 Grficos de Barras e Grficos de Setores para Variveis Qualitativas

    Com base em uma tabela de freqncias podem ser construdos grficos da distribui-o de freqncias, entre os quais os mais comuns so o grfico de barras e o grfico de setores (popularmente conhecido como grfico de pizza ou de torta).

    No grfico de barras, as categorias so representadas por retngulos dispostos ao longo de um eixo (em geral, o horizontal), e as freqncias ou percentagens, corres-pondentes a cada categoria , so as alturas desses retngulos com relao ao outro eixo (em geral o vertical) .

    J no grfico de setores, os 360 graus do crculo so divididos em vrios setores (fatias) proporcionalmente ao percentual de cada categoria.

    EXEMPLO 1.4: Categoria e classe da relao cintura-quadril (cont.) A partir das Tabelas 1.3 e 1.4 foram construdos os grficos de barras da Figura 1.1 e

    os grficos de setores da Figura 1.2.

    ~- o

  • lO ESTA TISTICA BSICA

    Ativa (48 ,89 Yo) -~-

    Sedentria (51 , 11 %) Categoria

    PR(11 , 11%)

    GR (44,44%) Classe RCO

    I ~ LSEVJER

    Figura 1.2 Grficos de setores, correspondentes aos percentuais de idosas, segundo a categoria e a classe RCQ.

    EXERCITANDO: Construa a tabela de freqncias, o grfico de barras e o grfico de se-tores para a varivel classe IM C.

    EXEMPLO 1.5: O problema mais grave do estado do Rio de Janeiro Consideremos agora uma pesquisa por amostragem feita em 1986 junto populao

    do Estado do Rio de Janeiro. Foram ouvidas 1.230 pessoas que, entre outras coisas , apontaram qual era, na sua opinio, o problema mais grave do Estado naquele momen-to. Com base nos dados brutos, foi obtida a tabela a seguir.

    TABELA 1.5 Freqncias e percentuais dos 1.230 respondentes da pesquisa junto populao do Estado do Rio de Janeiro em 1986, segundo o problema mais grave do Estado

    Problema mais grave do Estado Freqncias Percentuais Segurana I Violncia 360 29,27 Educao 160 13,01 Saqe 152 12,36 Saneamento 118 9,59 Alimentao/Fome/Pobreza 73 5,93 Transporte 63 5,12 Outros 304 24,72 Total 1230 100,00

    fonte: Pesquisa de Opinio sobre as Eleies do Rio de Janeiro 1986. I BASE I SERPRO I IM-UFRJ.

    Foram construdos o grfico de barras na Figura 1.3 e o grfico de setores (ou grfico "pizza") na Figura 1.4.

  • ANLISE EXPLORATRIA PARA UMA VARIVEL I I

    o M

    E Cl> Ol o !9 (\J c: Cl> 2 Cl> c.. o

    .....

    ';/2. o lO

    o Segur Educ Sade Saneam Fome Transp Outros

    Fonte: Pesquisa de Opinio sobre as Eleies do Rio de Janeiro 1986. I BASE I SERPRO/IM-UFRJ .

    FIGURA 1.3 Grfico de barras dos perr:entuais de respondentes da pesquisa sobre o "problema mais grave do Estado".

    Segur (29,27%)

    Sade (12,36%)

    Transp (5, 12%)

    Saneam (9,59%)

    Fonte: Pesquisa de Opinio sobre as Eleies do Rio de Janeiro, 1986. BASE I SERPRO /IM-UFRJ.

    FIGURA 1.4 Grfico de setores correspondente dos percentuais de respondentes da pesquisa sobre o "problema mais grave do Estado".

    OBSERVAES SOBRE CADA TIPO DE GRFICO:

    O grfico de setores, por no implicar uma ordenao das categorias, mais apropria-do para as variveis qualitativas nominais (como a que foi considerada no exemplo an-terior). Enquanto isso, o grfico de barras , em que as categorias esto naturalmente ordenadas, mais apropriado para as variveis qualitativas ordinais. Para representar a distribuio de freqncias de uma varivel atravs de um grfico de setores importante que a varivel no possua muitas categorias, pois isso dificulta a visualizao das propores.

    1.4.3 Tabelas de Freqncias para Variveis Quantitativas No caso de varivel quantitativa discreta com um pequeno nmero de valores poss-

    veis (por exemplo : nmero de filhos), a construo de uma tabela de freqncia segue os mesmos moldes do que foi vi LO para variveis qualitativas.

    Quando trabalhamos com uma varivel quanti tativa discreta com um grande nme-ro de valores posswis ou com uma varive l quanl i tal iva CO itt.nua , para avaliarmos sua

  • 12 ESTATSTICA B I A ELSEVfER

    dis tribuio atravs de urna Labda el e frcqi'nc ias, lt>s co m a mesma amplitude) . Ao adotar e ~se proc dim enlo, o probl ema s tnrna muito '>P me-lhante ao caso de variveis quali. tativas.

    EXEMPLO 1.6: Idade e ndice de m assa corporal Voltemos ento Tabela 1.2 de dados brutos. Foi visto que nes te exemplo temos

    uma varivel discreta com muitos valores possveis (idade em anos) e seis vari veis quantitativas contnuas. Vamos construir a tabela de freqncias para as variveis ida-de e ndice de Massa Corporal.

    No caso da varivel Idade, o menor valor 60, e o maior 79. Portanto , vamos dividir o intervalo [60, 80], que contm todos os valores observados da varivel considerada , em subintervalos de amplitude 5 (fechados esquerda e abertos direita) e contar o n-mero de ocorrncias em cada um deles, como na Tabela 1.6.

    TABELA 1.6 Freqncias e percentuais das faixas etrias para o grupo de idosas

    Faixa Etria Freqncia Percentuais

    60\- 65 16 35,56 65\- -70 16 35,56 70 j- 75 12 26,67 75\- 80 I 2,22

    Total 45 100,00

    Para a varivel IMC, o menor valor 20,3, e o maior 30,1. Portanto, vamos dividir o intervalo [20,0; 32,5], que contm todos os valores observados da varivel considera-da, em subinte~alos de amplitude 2,5 (fechados esquerda e abertos direita) e contar o nmero de ocorrncias em cada um deles, como na Tabela 1.7.

    TABELA I. 7 Freqncias e percentuais das faixas de IMC para o grupo de idosas

    IMC Freqncia Percentuais 20,0 \- - 22.5 7 15,56 22,5 \- - 25,0 20 44.44 25,0 1- - 27.5 li 24.44 27,5 1- - 30,0 5 li' li 30,0 1- - 32.5 2 4.44

    Total 45 100,00

    EXERCITANDO: Construa uma tabela de freqncias para a varivel Relao Cintu-ra-quadril.

    EXEMPLO 1.7: Telefonia fixa per capita A Tabela 1.8 de dados brutos reporta o nmero de linhas telefnicas por mil habitan-

    tes em cada estado do Brasil, em 2001.

  • ANLISE EXPLORATRIA PARA UMA VARIVEL

    TABELA 1.8 Telefonia fixa per capita em cada estado do Brasil em 200 I (em linhas telefnicas por 1.000 habitantes)

    Ao-e 183,8 Maranho 86,1 Rio de Janeiro Alagoas 125,4 M. Grosso 199,6 R. G. Norte Amap 193,3 M. G. Sul 235,3 R G. Sul Amazonas 162,0 M. Gerais 218,6 Rondnia Bahia 142,3 Par 128,0 Roraima Cear 140,6 Paraba 125,4 S. Catarina D. Federal 456,8 Paran 244,2 S. Paulo E .S. 228,7 Pernambuco 147,8 Sergipe Gois 231,4 Piau 118,2 Tocantins

    Fonte: Almanaque Abril 2002.

    347,5 ISO, I 236,9 214,6 214,1 257,3 362,8 140,7 113,8

    13

    No que se refere ao exemplo aqui considerado, o menor valor 86 (MA), e o maior valor 457 (DF). Portanto, vamos dividir o intervalo [50;500], que contm todos os va-lores observados da varivel considerada, em subintervalos de amplitude 50 (fechados esquerda e abertos direita) e contar o nmero de ocorrncias em cada um deles, como na Tabela 1.9.

    TABELA 1.9 Tabela de freqncias para a telefonia fixa per capita em 200 I (em linhas telefnicas por 1.000 habitantes)

    Classe Freqncia Percentual 501- 100 I 3,70

    100 I- ISO 9 33,33 ISO I- 200 5 18,52 2001-250 8 29,63 2501- 300 I 3,70 3001- 350 I 3,70 350 1--400 I 3,70 4001-450 o 0,00 4501-500 I 3,70

    Total 27 100,00 Fonte: Almanaque Abril 2002.

    1.4.4 Histogramas e Diagramas Ramo-Folha para Variveis Quantitativas

    De forma similar ao grfico de barras, no histograma os intervalos de classe da vari-vel considerada so marcados em um eixo e as freqncias (ou percentuais) no outro eixo. Se os intervalos estiverem no eixo horizontal e as freqncias no eixo vertical, di-zemos que um histograma vertical, caso contrrio, o histograma ser denominado ho-rizontal.

    No caso, por exemplo, de um histograma vertical, a largura das barras proporcional amplitude do intervalo, e a altura proporcional freqncia (ou ao percen tual) . Qu al-quer que seja o hisLOgrama, vert ical ou hori zo nLal , no exis te espao enlre a barras.

  • 14 ESTATSTICA BSICA ELSEVJER

    EXEMPLO 1.8: Idade e ndice de massa corporal ( cont.) A partir das Tabelas 1.6 e 1. 7, podem ser constru dos os grficos da Figura 1.5, asa-

    ber, os histogramas das variveis Idade e IMC consideradas no exemplo com os dados antropomtricos.

    (/) cu

    O o-co > ....

    cu (/) .o o cu -o e cu E

    ::J z

    o C\J

    LO .....

    o .....

    LO

    o

    60 65 70 75 80

    IDADE

    (/) o cu C\J lO o-

    ~ ~ cu (/) .o o o ..... cu -o e LO cu E

    ::J z o

    20 24 28 32

    IMC

    FIGURA 1.5 Histogramas das variveis Idade e ndice de Massa Corporal (IMC)

    Um outro grfico que tambm costuma ser utilizado para tratar o caso de uma vari-

    vel quantitativa o grfico ramo-folha, cuja construo feita atravs de uma seqn-cia de passos a serem percorridos, como no exemplo a seguir.

    EXEMPLO 1.9: Novamente a idade Consideremos a varivel Idade do exemplo anterior. Para obter o grfico ramo-folha:

    a) O primeiro passo escolher os ramos a partir dos quais sero colocadas as fo-lhas. O primeiro ramo corresponder a todos os valores entre 60 e 64, o segundo a todos os valores entre 65 e 69, o terceiro a todos os valores entre 70 e 7 4, e as-sim por. diante.

    6 6 7 7 8

    FIGURA 1.6 Ramos (dezenas) a serem usados na construo do grfico ramo-folha da idade

    b) Em seguida, localizaremos cada observao como uma folha (no caso igual ao nmero da unidade) no ramo correspondente. Assim, por exemplo, a idade de 61 anos ser representada pela folha l no primeiro ramo 6, a idade de 69 anos pela folha 9 no segundo ramo 6, e assim por diante.

    c) Por ltimo, ordenamos crescentemente as folhas dentro de cada ramo.

    O resultado obtido est na Figura 1. 7.

  • ANLISE EXPLORATRIA PARA UMA VARIVEL

    Ramos Folhas 6 0011333333334444 6 6666778888999999 7 011111222233 7 9 8

    Freqncias 16 16 12 1 o

    FIGURA 1.7 Grfico ramo-folha para a Idade.

    EXEMPLO 1. 10: Novamente telefonia fixa per capita

    15

    Voltemos agora ao conjunto de dados sobre o nmero de linhas telefnicas por mil habitantes em cada estado do Brasil, que consta na Tabela 1.8 de dados brutos.

    A partir da Tabela de Freqncias 1.9 pode ser construdo o grfico da Figura 1.8, o Histograma da varivel nmero de linhas telefnicas por mil habitantes ali considerada.

    o

    cn CX) Q)

    10 o. co 2: Q)

  • 16 ESTATSTICA BSICA ELSEVIER

    O primeiro ramo corresponder a todos os valores entre O e 99, o segundo a to-dos os valores entre 100 e 199, e assim por diante.

    b) Em seguida, desprezando a unidade e a primeira casa dec imal, localizaremos cada observao como uma folha (no caso, igual ao nmero de dezenas) no ramo correspondente. Assim, por exemplo, o Acre ser representado pela folha 8 no ramo 1, Alagoas pela folha 2 no ramo 1, o Amap pela folha 9 no ramo 1 etc.

    c) Por ltimo, ordenamos crescentemente as folhas dentro de cada ramo. O resultado obtido est na Figura 1.10.

    Frequncia Absoluta o 8 1 1 11222444456899 14 2 111233345 9 346 2 4 5 1 5 o

    Fonte: Almanaque Abril 2002.

    FIGURA 1.1 O Grfico ramo-folha para o nmero de linhas telefnicas por 1.000 habitantes em cada estado do Brasil.

    OBSERVAO SOBRE HISTOGRAMA E RAMO-FOLHA: Se a forma de dividir o intervalo de valores em subintervalos e a maneira de escolher os ramos forem as mesmas (ou equivalentes), o grfico ramo-folha e o histograma so pra-ticamente a mesma figura . Note que isso aconteceu no caso da varivel idade (dados an-tropomtricos), mas no ocorreu no caso da varivel nmero de linhas telefnicas por 1.000 habitantes. Entretanto, o ramo-folha mais informativo porque o valor numri-co de cada observao no totalmente perdido. No caso da idade, toda a informao numrica foi preservada, e no caso do nmero de linhas telefnicas por mil habitantes preservaram-se os valores at a dezena.

    1.5 MEDIDAS DE CENTRALIDADE PARA VARIVEIS QUANTITATIVAS

    Para uma dada varivel quantitativa, uma medida de centralidade um "valor tpi-co" em torno do qual se situam os valores daquela varivel.

    H vrias formas de se definir uma medida de centralidade: a mdia aritmtica a me-' diana e a moda so as mais conhecidas entre elas.

    Sejam x1, x2, .... Xn os valores observados da varivel considerada.

    A mdia aritmtica dos dados definida por

  • ANLISE EXPLORATRIA PARA UMA VARIVEL 17 ELSEVIER

    Sejam Xm ::::; x(2) ::::; ... ::::; xcn) os mesmos valores que compem a amostra, porm dispostos em ordem crescente.

    A mediana dos dados

    Mediana (x) = {valor da observao de posio central, se n mpar mdia dos valores das duas observaes de posio central, se n par

    A moda dos dados aquele valor da amostra que ocorre com maior freqncia.

    Neste livro, ser dada uma nfase maior ao conceito de mdia e, em segundo l':lgar, ao conceito de mediana.

    EXEMPLO 1.1 1: Caractersticas contnuas do conjunto de idosas Retomando o conjunto de ddos antropomtricos sobre as 45 mulheres com mais de

    60 anos (Tabela 1.2) , para a varivel Idade: A 'd ' ' - 61 +69+. .. +79 67 20 me 1a e x = , anos.

    45 Como n = 45 mpar, o valor correspondente observao de posio central o

    de ordem 23 . Ento, para se calcular a mediana, o primeiro passo ordenar as 45 observaes: 60, 60, 61, 61, 63 , .. . ' 72, 72, 73, 73, 79 Neste exemplo , a idade mediana 68 anos. Isso significa que nessa amostra de 45 mulheres, metade delas tem menos de 68 anos e a outra metade tem mais de 68 anos.

    A moda 63 anos, o valor da idade que ocorre com maior freqncia nessa amos-tra (a saber, oito vezes) .

    A tabela a seguir contm o valor da mdia e da mediana para algumas das variveis quantitativas desse conjunto de dados:

    TA BELA 1.1 O Mdia e mediana das variveis quantitativas - dados antropomtricos

    Varivel Unidade Mdia Mediana Idade anos 67,20 68,00 Cintura em 86,36 82,00 Quadril em 103,09 104,00 RCQ - 0,84 0,85

    EX MPLO 1. 12: Telefonia fixa per capita (cont.)

    Voltando ao caso da varivel nmero de lin has telefnicas por 1.000 habitante n o estados do Bra~il , a mdia

    183 H-+ J 25,4-f ... -f JIJ,8 2()0 I u o I ' I I 1'4 . I 0()0 I b . X= - __2. - - ' no lll1as (('e 0 1\I ClS por .. 1l ll ant S. 27

  • 18 ESTATSTICA BSICA ELSEVIER

    Ou seja, aqui o valor 200 ,l88linhas telefnicas por mil habitantes a mdia aritm-tica dos 27 valores dessa varivel, cada um correspondente a um estado do Brasil. Po-rm, no caso especfico deste exemplo cabe um esclarecnento . Sabemos que cada um dos valores individuais da varivel considerada j foi calculado como um quociente en-tre 1.000 vezes o nmero de linhas telefnicas e a populao do estado. Sendo assim, para calcularmos um ndice nacional do nmero de linhas telefnicas por mil habitan-tes, o mais natural seria dividirmos mil vezes o nmero total de linhas telefnicas em todo o Brasil pela populao total do pas. Essa forma de calcular certamente nos levaria a um resultado diferente, a saber, 238,810 linhas telefnicas por mil habitantes.

    Calculemos agora a mediana. Como n = 27 mpar, a mediana neste caso a observao de ordem 14 na amostra

    ordenada, a saber, Mediana(x) = 193,3 linhas telefnicas por 1.000 habitantes. Pode-mos, portanto, afirmar que, no ano de 2001, em metade dos estados do Brasil havia me-nos de 193,3 linhas telefnicas por 1.000 habitantes, e na outra metade havia mais de 193,3 linhas telefnicas por 1.000 habitantes.

    EXEMPLO 1.13: Imveis venda (cont.) Considere agora o exemplo dos dados da Ta bela 1.1. A moda da varivel nmero de

    quartos igual a 2, o valor mais freqente.

    1.6 MEDIDAS DE DISPERSO PARA VARIVEIS QUANTITATIVAS Uma medida de disperso para uma varivel quantitativa um indicador do grau de

    espalhamento dos valores da amostra em torno da medida de centralidade.

    EXEMPLO 1.14: O que a disperso de uma varivel quantitativa? Vamos comparar os seguintes conjuntos de dados:

    TABELA 1.1 I Quatro conjuntos de dados hipotticos Conjunto I: 4 4 4 lO 16 16 16 Conjunto 2: 4 6 8 lO 12 14 16 Conj-unto 3: 7 8 9 lO li 12 13 Conjunto 4: lO lO lO lO lO lO lO

    3 3

    C/) ~ 2 z :::> "") z o 3 (.)

    4 7

    4 6 8 10 12 14 16

    FIGURA 1.1 I Os conjuntos de dados exibidos graficamente.

  • ANLISE EXPLORATRIA PARA UMA VARIVEL 19 ELSEVIER

    Pode ser observado que o ponto central dos quatro conjuntos igual a 10. De fato:

    C . t 1 -- 4 + 4 + 4 + 10 + 16 + 16 + 16 70 10 OnJUn O ____., X - =- = 7 7

    C . 2 - 4+6+8+10+12+14+16 70 10 OnJUnto ____., X = =- = 7 7

    C . 3 - 7 +8 +9 + 10 + 11 + 12 + 13 70 10 OnJUnto ____., X = = - = 7 7

    C . 4 - 10 + 10 + 10 + 10 + 10 + 10 + 10 70 10 OnJUnto ____., X = =- = 7 7

    Observa-se tambm que:

    todas as observaes do conjunto 4 so exatamente iguais ao ponto central; no conjunto 3 os dados esto um pouco mais dispersos em relao a 10; no conjunto 2, mais ainda; finalmente, o conjunto 1 aquele em que h a maior disperso em torno da mdia .

    H diferentes formas de se medir a disperso de uma varivel quantitativa. Aqui sero

    vistas a varincia, o desvio-padro, o coeficiente de variao e a distncia interquartil.

    A varincia calculada por n

    ""(xl. - x? L 2 -2 Li _ X 1. -nx 52 = ..:,.i =-=-1--~-n-1 n-1

    EXEMPLO 1.15: Calculando a varincia Clculo da varincia para cada um dos conjuntos do Exemplo 1.14:

    2 (4-10)2 +(4-10)2 + ... +(16-10)2 +(16-10)2 Conjunto 1 ____., S = --------------------

    7-1

    (-6/ +(-6)2 + .. . +(6)2 +(6)2 =6 x 36 =36

    Conjunto 2 ____., 52 = 18,67 Conjunto 3 ____., 52 = 4 ,67 Conjunto 4 ____., 52 = O

    6 6

    O desvio-padro a raiz quadrada positiva da varincia, ou seja,

  • r

    20 ESTATISTICA B I A FLSEVlER

    EXEMPLO 1. 16: Ca.lcul. ndo o dPsvio p:adr;iu lculo do desvio-padro para cada um el os mj unlos lo Fxernplo I . 14:

    Conjun to 1 ~ S = 36 = 6 Conjunto 2 ~ S = ..)18,67 = 4 ,32 Conjunto 3 ~ S = ..)4,67 = 2,1 6 Conjunto 4 ~ S = JO =O

    O coeficiente de variao o quociente entre o desvio-padro e a mdia: s

    cv=--

    X

    EXEMPLO 1.17: Mes e seus filhos recm -nascidos Os dados a seguir representam o peso em quilograma de cinco mes e de seus respec-

    tivos bebs recm-nascidos:

    TABELA 1.12 Pesos de cinco mes e seus respectivos bebs

    Peso da me 52,3 52,5 53 53,5 54 Peso do recm-nascido 2.3 2,5 3 3,5 4

    TABELA 1.13 Mdia, varincia e desvio-padro dos pesos das mes e dos bebs

    Varivel Mdia Varincia Desvio-padro Peso da me 53,06 0,493 0,702 Peso do recm-nascido 3,06 0,493 0,702

    Pode-se ver que as duas variveis tm desvios-padro iguais, embora as mdias se-jam bem diferentes . Sendo assim, para poder evidenciar o fato de que , em termos relati-vos, o peso do beb varia muito mais que o peso da me, o melhor aqui adotarmos uma medida de disperso relativa, como o coeficiente de variao:

    Tabela 1.14 Coeficiente de variao dos pesos das mes e dos bebs

    Varivel Coe{lciente de variao Peso da me 0,009 Peso do recm-nascido 0,161

    PERGUNTA: Qual o coeficiente de variao dos quatro conjuntos de dados do Exemplo 1.14?

    Sejam Xcn s x(2) s .. . s xCn) os dados dispostos em ordem crescente. J vimos que a mediana um valor tal que m etade dos dados menor que ele , e me-

    tade dos dados maior que ele.

  • ANLISE EXPLORATRIA PARA UMA VARIVEL 21 ELSEVlER

    Analogamente , os trs quartis so valores que dividem os dados em quatro grupos, cada um deles contendo l/4 do tamanho total da amostra.

    O primeiro quartil Ql tem l/4 dos dados abaixo dele e 3/4 dos dados acima dele. O terceiro quartil Q3 tem 3/4 dos dados abaixo dele e l/4 dos dados acima dele. O segundo quartil Q2 a prpria mediana. A distncia interquartil dada por DIQ = Q3- Ql.

    EXEMPLO 1.18: Calculando a distncia interquartil Determinemos agora a distncia interquartil para cada um dos conjuntos do Exem-

    plo 1.14.

    TABELA 1.15 Clculo do IIQ para cada um dos conjuntos do Exemplo 1.14 Conjunto de dados Ql Q2 Q3 D/Q=Q3-Q/

    I 4 lO 16 12 2 7 lO 13 6 3 8,5 lO 11,5 3 4 lO lO lO o

    Fica ento confirmada a nossa constatao de que a disperso dos dados vai diminu-indo do conjunto l at o conjunto 4.

    Algumas observaes sobre as medidas de disperso:

    l. No difcil observar que quanto mais dispersos estiverem os dados maiores tendem a ser a varincia 52 , o desvio-padro S, o coeficiente de variao cv e a distncia interquartil DIQ.

    2. A unidade da varincia o quadrado da unidade dos dados. Por exemplo, se os da-dos forem medidos em metros, a unidade da varincia ser metro ao quadrado. Conseqentemente, a unidade do desvio-padro a mesma dos dados originais.

    3. Talvez, diante da tarefa de propor uma medida de disperso, a idia mais natural fosse calcular a mdia aritmtica dos desvios xi - x. Porm fcil ver que essa no seria uma boa idia , j que essa mdia aritmtica seria sempre nula.

    4. Outra opo de medida de disperso seria ento a mdia aritmtica dos mdulos n

    Llxi -xl dos desvios, ou seja, i =l . Entretanto, ela no muito usada na prtica,

    n

    uma vez que no to fcil se estabelecerem as propriedades matemticas de uma medida definida com o uso da funo valor absoluto.

    5. A soluo para essa questo vem ento atravs do conceito de varincia. Ao ele-varmos ao quadrado previam ente os desvios x i - x, no c lculo do somatrio li -vramo-nos do cancelamento men ionado anteri ormente . A c plica

  • 22 ESTA TISTICA BSI A EL~EVIFR

    ral) depen lc de resultados qu so se ro v i ~ ! os m ai "> a l ianl r no ( ,aptulo 7. L:, fi -nalment , para voltar unidad - origin d, cx trafmos a ra iz quadrada obtendo o desvio-padro.

    6. A n1dia e. o desvio-padro so possivelmente as duas m didas mais omum e.nte utilizadas na prtica. Porm, enquanto a mdia aritm ti ca uma medida nor-malmente muito conhecida de todos, o mesmo no acontece com o d s-vio-padro. Assim sendo , como podemos interpretar a magnitude de um deter-minado valor de S que tenha sido calculado a partir dos dados? Est grande? Est pequeno? O conceito de. coeficiente de variao (uma grandeza adimensional,j que Se x se expressam na mesma unidade) nos fornece uma forma natural de re-solver esse "impasse"!

    EXEMPLO 1. 19: Dados antropomtricos revisitados No conjunto de dados antropomtricos sobre. as 45 mulheres idosas, para a varivel

    Idade temos:

    Varincia:

    52 = (612 + 69 2 + ... + 79 2 )- 45 X 67,20 2

    45-1

    Desvio-padro:

    S = .J17,48 = 4,18 anos.

    = 17,48 anos2 .

    Note que esse um valor relativamente pequeno para o desvio-padro (por exemplo, quando comparado com a mdia= 67,20 anos) , o que indica que a idade no varia mui-to entre as pessoas desse grupo.

    Coeficiente de variao:

    cv = 4

    ,18 =0 0622 67,20 '

    Isso quer dizer que o desvio-padro da Idade corresponde a 6,22% da mdia dessa varivel.

    Quartis e distncia interquartil: Na amostra ordenada, o primeiro quartil o valor que corresponde observao de . 1 +23 posio = 12. Portanto, Q1 = 63 anos.

    2 O . '1 ' 1 d b - d . - 23 + 45 3 terceiro quarti e o va or a o servaao e. posiao = 4. Portanto , Q3 = 71

    anos. 2

    DIQ = 71 - 63 = 8 anos ..

    Isso significa que. aproximadamente 50% das mulheres dessa amostra tm suas ida-des entre 63 e 71 anos.

  • ANLISE EXPLORATRIA PARA UMA VARIVEL 23 El...SEVIER

    A seguir apresentamos sob a forma de uma tabela os valores da varincia, do des-vio-padro, do coeficiente de variao e do intervalo interquartil para cada uma das va-riveis quantitativas desse conjunto de dados:

    TABELA 1.16 Medidas de disperso para as variveis quantitativas - dados antropomtricos

    Varincia Coeftc. de variao Distncia Varivel Unidade (unidade2) Desvio-padro ( adimensional) interquartil IDADE anos 17,48 4,18 0,0622 8,00 PESO kg 51 ,16 7,15 0,1192 8,70 ALTURA em 16,01 4,00 0,0257 6,00 IMC kg/m2 6,10 2,47 0,0999 3,91 CINTURA em 163,64 12,79 0,1481 16,00 QUADRIL em 185,08 13,60 O, 1319 21 ,00 RCQ - 0,00291 0,0540 0,0644 0,073

    EXEMPLO 1.20: Telefonia fixa per capita revisitada

    Voltemos ao exemplo dos dados da Tabela 1.8, sobre o nmero de linhas telefnicas por mil habitantes. Aqui, temos:

    Varincia:

    52 = (184-200,19)2 +(125-200,19)2+ .. . +(114-200,19)2 = 27-1

    = 7129,607 (linhas telefnicas )2

    1.000 habitantes

    Desvio-padro:

    (184- 200,19)2 + (125- 200,19)2 + ... +(114- 200,19/ 5= =

    = 84 4 3 7 linhas telefnicas ' 1.000 habitantes

    Coeficiente de variao:

    cv = 84,437 = 0,422 200,19

    27-1

    Ou eja, o desvio-padro do nmero de linhas telefnicas por miJ habitantes repre-senta pouco menos de 50% da mdia dessa varivel.

    Quarris di s tn ia in terquartil : A mediana ' a ob.'iC rva~o de ord em 14- na arn ost ra ordenada. O primeiro quutil Q1

    r-st a I ti t io camin l10 en tre as ob~c rva(c~ lc ord ' lll I c 1 +

  • 24 ESTA TiSTICA B ICA ELSEVIEH

    l + 14 omo == 7,r:::, Q I a mdi t arit mCt i ' r\ Cl l lrc Xrn J 40,(> e x 0.,1 - 140 ,7. l .ogo ,

    2 Ql = 140,65.

    Analogamente, Q3 = 1/2 [x (2o) + x (21) ] = 1/2 [23 1 ,4 + 235,3 1 = 23 3,3 Logo, DIQ = 233,35 - 140,65 = 92,70 linhas telefni cas.

    1.000 habitantes

    Isso quer dizer que, no ano de 2001 , em cerca de metade dos estados do Brasil o n-mero de linhas telefnicas por 1.000 habitantes estava entre 140,65 e 233,35.

    1.7 O CONCEITO DE RESISTNCIA DE UMA MEDIDA Diz-se que uma medida de centralidade ou de disperso resistente quando ela

    pouco afetada pela presena de observaes discrepan tes . claro ento que as medidas mais resistentes so mais convenientes que as menos resisten tes.

    Entre as medidas de centralidade, a mdia aritmtica bem menos resistente que a mediana.

    Por outro lado, entre as medidas de disperso , o desvio-padro bem menos resis-tente que a distncia interquartil.

    EXEMPLO 1.21: Medidas resistentes e medidas no-resistentes Consideremos novamente o nmero de linhas telefnicas por mil habitantes em

    cada estado do Brasil. Basta olhar para o ramo-folha dessa varivel para perceber que o valor 456,8, correspondente ao Distrito Federal, destoa dos demais . O que, alis , no deve ser surpresa para ningum!

    Para comprovarmos essas afirmaes, vamos eliminar dos dados esse valor, e ento recalcular os valores das quatro medidas mencionadas anteriormente.

    TABELA 1.17 Nmero de linhas telefnicas por 1.000 habitantes- Efeito da excluso de uma observao discrepante sobre o clculo de medidas de centralidade e de disperso

    Medida Amostra Completa Amostra Expurgada N2 de observaes 27 26

    Mdia 200,20 190,33 Mediana 193,3 188,6

    Desvio-padro 84,44 68,41 Distncia lnterquarti l 92,7 90,2

    Como podemos observar, aps a excluso da observao discrepante:

    A mdia diminuiu em aproximadamente 10 unidades, enquan to a mediana caiu em apenas 5 unidades (metade).

    O desvio-padro diminuiu de aproximadamente 16 unidades, enquanto a distn-cia interquartil caiu em apenas 2,5 unidades (menos de um sexto) .

  • ANLISE EXPLORATRIA PARA UMA VARIVEL 25

    Curiosidade: Suponha que tivesse havido um erro de digitao de modo que o valor 456,8 correspon-dente ao Distrito Federal passasse a ser 4568. Verifique qual seria a variao em cada uma dessas quatro medidas, sempre comparando a amostra completa com a amostra expurgada. Extraia suas concluses.

    importante ressaltar que , embora a mdia seja menos resistente, na prtica ela cos-tuma ser usada muito mais freqentemente do que a mediana, porque suas proprieda-des matemticas so mais facilmente demonstrveis.

    1.8 IDENTIFICAO DE DISCREPNCIAS EM VARIVEIS QUANTITATIVAS

    Eventualmente em uma massa de dados h valores que foram coletados em condi-es anormais (falha de equipamento, queda de energia, erro do operador, erro de leitu-ra, erro de digitao etc.) . Esses valores, principalmente quando esto muito afastados dos demais (para mais ou para menos), infelizmente podem afetar de forma substancial o resultado das anlises estatsticas. So as chamadas observaes discrepantes ou outliers. Assim sendo, til que tenhamos disponvel um critrio de deteco de obser-vaes discrepantes. Uma vez detectada a presena de uma observao discrepante, po-der ser tomada a deciso de repetir aquele experimento, ou meramente expurgar aquele dado da amostra (ou at mesmo mant-lo, se for encontrada uma explicao plausvel para aquela discrepncia ... ) .

    Um critrio bastante utilizado para a identificao de observaes discrepantes que se baseia em medidas pouco resistentes apontar toda observao que estiver fora do intervalo (x- 3 S; x + 3 S).

    Um segundo critrio tambm muito usado que se baseia em medidas mais resisten-tes para a identificao de observaes discrepantes apontar qualquer valor abaixo

    da cerca inferior= Ql - 3 x DIQ ou acima da cerca superior= Q3 + 3 x DIQ. 2 2

    EXEMPLO 1.22: Dados antropomtricos- H discrepncias? No caso do arquivo com dados antropomtricos, vamos analisar a eventual presena

    de observaes discrepantes no caso das variveis idade (em anos) e peso (em kg). Para usar o primeiro critrio , que se baseia em mdia e desvio-padro, vamos montar

    a seguinte tabela de resultados: TABELA 1.1 8 Intervalos de no-discrepncia baseados em x 35- dados antropomtricos

    Varivel Mdia (x) Desvio-padro (S) x- 3S x + 3S IDADE 67,2 4,18 54,66 79,74 PESO 59,99 7, 15 38,54 81,44 ALTURA 155,68 4 143,68 167,68 111C 24,72 2,47 17,3 1 32, 13 Cll JTURA 86,36 12,79 '1 7,99 12LJ ,73 (JUADRIL 103,09 13,6 62,29 143,89 RCQ 0,8'1 U,OS 0,69 0,99

  • 26 EST ATISTICA BSICA ELSEVIER

    Enquanto i.s o, para o segundo critrio, ba cado nos quarLi da va ri v 1, mon taremos esta outra tabela:

    TA BELA 1.19 Intervalos de no-discrepncia baseados em quartis - dados antropomtricos

    Varivel Q/ QJ 0/Q Q/ -1,50/Q QJ+/ ,50/Q IDADE 63 7 1 8 5 1 83 PESO 54,7 63,4 8,7 41 ,65 76,45 ALTURA 152 158 6 143 167 IMC 22,85 26,76 3,91 16,985 32,625 CINTURA 76 92 16 52 116 QUADRIL 90 111 21 58,5 142,5 RCQ 0,8 0,87 0,07 0,695 0,975

    Os valores ordenados (em cinco colunas) da varivel Idade so:

    60 63 66 69 7 1 60 63 66 69 71 61 63 67 69 72 61 64 67 69 72 63 64 68 69 72 63 64 68 70 72 63 64 68 71 73 63 66 68 71 73 63 66 69 71 79

    As conclusG>es podem ser resumidas na tabela a seguir:

    TABELA 1.20 Identificao dos outliers da varivel Idade - dados antropomtricos Critrio Cerca Inferior Cerca Superior Outliers x 3S 54,66 79,74 No h

    Q 1-1 ,5DIQ, Q3+ I ,5DIQ 51 83 No h

    Os valores ordenados (em cinco colunas) da varivel Peso so:

    49,8 53,4 58,2 61,3 65,2 50 54,6 58,2 61,7 66 50,1 54,7 58,2 61,8 68,2 51 55 58,6 62 68,6 5 I ,3 55,2 59,2 62,7 70,1 51,6 56,2 59,8 63 73,2 52,1 56,2 60 63,4 75,6 52, I 57,9 60, I 64,3 76,2 53,2 58 60,3 64,3 77

    As concluses podem ser resumidas na tabela a seguir:

  • ANLISE EXPLORATRIA PARA UMA VARIVEL 27

    TABELA 1.21 Identificao dos outliers da varivel Peso - dados antropomtricos

    Critrio Cerca Inferior Cerca Superior Outliers X 3S 38,54 81,44 No h

    QI-1 ,5DIQ, Q3+1 ,5DIQ 41,65 76,45 77

    EXEMPLO 1.23: Telefon ia fixa per capita- H discrepncias? Para o nmero de linhas telefnicas por 1.000 habitantes nos estados do Brasil: Como x = 200,19 e S = 84,44, o intervalo x 3S (-53,13; 453,51). Ento, o valor 456,8 (Distrito Federal) seria discrepante. Quanto ao outro critrio, temos Q1= 140,6, Q3 = 233,3 e DIQ = 92,7.

    3 3 Logo, Q1-- x DIQ = 1,5 e Q3 +- x DIQ = 372,5. 2 2

    Novamente aqui o valor correspondente ao Distrito Federal ( 456,8) seria considera-do suspeito.

    CONSIDERAES SOBRE A SIMETRIA DO PERFIL DE FREQNCIAS: a) Convm observar que ambos os critrios aqui apresentados, pela prpria forma

    como foram propostos, pressupem .que a distribuio de freqncias (repre-sentada pelo histograma ou pelo grfico ramo-folha) dos dados simtrica com relao medida de centralidade adotada (mdia ou mediana).

    b) Se, para a varivel em exame, a distribuio de freqncias for muito assimtrica ( mais comum o caso de assimetria para a direita), um expediente til aplicar uma transformao varivel original (por exemplo: raiz quadrada, logaritmo etc.) e depois usar o critrio para deteco de observaes discrepantes para a varivel j transformada.

    1.9 BOX PLOT PARA VARIVEIS QUANTITATIVAS O box plotou desenho esquemtico um grfico que se costuma u tilizar para sinte-

    tizar em uma mesma figura vrias informaes relativas distribuio de uma determi-nada varivel quantitativa:

    a) Inicialmente traado um eixo vertical no qual sero representados os valores da varivel considerada.

    b) Depois se desenha um retngulo cuja base inferior corresponde posio do primeiro quartil Q1 e cuja base superior corresponde posio do terceiro quartil Q3. A posi-o da mediana indicada por um trao horizontal no interior desse retngulo.

    c) Em seguida so traados dois segmentos de reta verticais, em que um deles vai desde o ponto mdio da base inferior do retngulo at a posio da menor obser-vao no-discrepante, e o outro vai desde o ponto mdio da base superior do re-tngulo at a posio da maior observao no-discrepante.

    d) Cada uma das observaes discrepantes explicitada (c, mui tas vezes , devida-rntnLe rotulada) no grfi co.

    Obstrve que nes ta figura a dimenso horizo nt al no tem qualqtH.: r signifi cado.

  • 28 ESTATSTICA BSICA

    EXEMPLO 1.24: Idade e ndice de massa corporal

    o I'-

    l!) co

    o co

    I I I I ~

    IDADE

    Rl -

    g -

    ~ -

    ~-

    ~ -C\J C\J

    o C\J

    co

    I I I I I I I I

    B I I I I I ~

    IMC

    FIGURA 1.12 Box plots das variveis Idade e IMC no exemplo com dados antropomtricos

    ELSEVIER

    Vemos que, em ambos os casos, o Box plot mostra que existe uma certa simetria na distribuio de freqncias da varivel considerada (principalmente para o IMC). E tambm que em ambos os casos no h outlers.

    EXEMPLO I :2s: Telefonia fixa per capita

    J para o exemplo do Nmero de linhas telefnicas por mil habitantes, temos a situa-o exibida na Figura 1.13 a seguir.

    o o -l!)

    o o-"

  • ANLISE EXPLORATRIA PARA UMA VARIVEL 29

    Neste caso j vimos que h uma certa assimetria para a direita na distribuio de fre-qncias da varivel Nmero de linhas telefnicas por 1.000 habitantes. No por aca-so que o outlier apontado (DF) um valor considerado "anormalmente alto" . Essa concluso possivelmente se modificaria se aplicssemos previamente aos dados uma transformao simetrizante.

    RESUMO DO CAPTULO I No estudo de Tcnicas Estatsticas os trs termos a seguir aparecem com muita

    frequncia: Populao- o conjunto de todos os elementos (pessoas ou objetos) cujas propriedades o pesquisador est interessado em estudar. Censo- um levantamento completo sobre uma determinada populao, ou seja, contemplando cada um dos seus elementos. Amostra- um subconjunto de elementos selecionados da populao segundo regras bem definidas. muito importante o uso de tcnicas que nos garantam a obteno de amostras representativas da populao.

    Anlise Exploratria um conjunto de tcnicas de tratamento de dados que, sem implicar uma fundamentao matemtica mais rigorosa, nos ajuda a tomar um primeiro contato com a informao disponvel.

    Em um levantamento de dados a respeito de um determinado assunto, eles cos-tumam ser representados em uma tabela de dados brutos.

    Em uma tabela de dados brutos, cada linha corresponde a uma observao e cada coluna corresponde a uma varivel.

    As variveis podem ser: Qualitativa nominal ou categrica- seus valores possveis so diferentes cate-gorias no-ordenadas. Qualitativa ordinal- seus valores possveis so diferentes categorias ordenadas. Quantitativa discreta- seus valores possveis so resultados de um processo de contagem. Quantitativa contnua- seus valores possveis podem ser expressos atravs de nmeros reais.

    Para descrever o comportamento de uma varivel comum apresentar os valo-res que ela assume organizados sob a forma de tabelas de frequncia e grficos.

    Os grficos mais comuns para representarem variveis qualitativas so os grfi-cos de barras e os grficos de setores. Para as variveis quantitativas, os mais usados so os histogramas, os diagramas ramo-folhas e os boxplots.

    Para uma dada vari vel quantilativa , uma medida de centrahdade um "valor tpi o" em torno do qua l se 'iluam os va]ores daquela varivel. As m c~did as de centra l idad -' rn ai conh ecidas so: a mdia aritm t ica , '\ media-na (' a moda. U1na medida de di -. persao para !lllla vari:1vcl quant i tal iv:t c um indicador lo grau dt tspallt l ra (' 111 torno da ntcdida de re ntralidadc

  • 30 ESTATSTICA BSICA ELSEVJER

    As medidas de disperso mais conhecidas so: a varincia , o desvio-padro , o coeficiente de variao e a distncia interquartil.

    Uma medida de centralidade ou de disperso resis tente quando ela pouco afetada pela presena de observaes discrepan tes .

    Entre as medidas de centralidade, a mediana mais resistente que a m.dia arit-mtica. Entre as medidas de disperso , a distncia interquartil mais resisten-te que o desvio-padro.

    Observaes discrepantes ou outliers so observaes cujos valores esto mui-to afastados dos demais (para mais ou para menos). Essas observaes podem afetar de forma substancial o resultado das anlises estatsticas.

    O box plotou desenho esquemtico um grfico que se costuma utilizar para sintetizar em uma mesma figura vrias informaes relativas distribuio de uma determinada varivel quantitativa. Nele tambm so representadas as ob-servaes discrepantes.

    EXERCCIOS RESOLVIDOS l.l_R) Varivel mais constante e varivel vezes constante

    Considere o conjunto de dados a seguir: Obs. X y z

    I I 2 4 2 2 4 5 3 3 6 6 4 4 8 7 5 5 lO 8

    a) Para cada uma das variveis X, Y, Z, calcule: mdia, varincia, desvio-padro, coeficiente de variao (cv), mediana (Q2), Q1, Q3 , DIQ=Q3-Ql.

    b) Faa um grfico, como o da Figura 1.11, localizando no eixo horizontal (gradua-do de 1 a 10) as coordenadas dos pontos e no eixo vertical trs nveis: X, Y e z. Analise visualmente a relao entre as trs variveis em termos de centralidade e disperso.

    c) Verifique que relao matemtica existe entre as variveis Y e X e faa o mesmo com relao s variveis Z e X. Em seguida, verifique que relao matemtica existe entre os valores das medidas de centralidade e de disperso relativas s va-riveis Y e Z e as mesmas medidas para X.

    d) Como se poderia generalizar as constataes do item (c) para o caso de variveis do tipo Y =eX e Z = c+X?

    Soluo: (a) Exemplifiquemos os clculos para a varivel Y:

    Mdia: y=2+4+6+8+10=6 5

  • ANLISE EXPLORATRIA PARA UMA VARIVEL 31 ELSEV:IER

    2 (2 2 +42 +6 2 +8 2 +102 )-5x62 s = = 10 y 5-1

    Varincia:

    Desvio-padro: Sv = JlO = 3,16 Coeficiente de variao: cv = 3 ,1 6 =o 53

    y 6 ' Mediana: Dados ordenados:

    Posio: 1 2 3 4 5 Valor: 2 4 6 8 10

    Posio(Q2) = 1 + 5 = 3 2

    Q2(Y) = y(3) = 6

    1.Q quartil: Posio(Ql) = 1 + 3 = 2 Ql(Y) = YC2l = 4 2

    32 quartil: Posio(Q3) = 3 + 5 = 4 Q3(Y) = Y

  • 32 ESTA TiST ICA BSICA ELSEVJER

    Is o quer diz r que, quando mu lt ipli :arnos um ~ t vari vrl por 2, l nd ;:t ~ a~ mPddas aqui con i.cleradas tamh m ri cam multip li adas por 2, exce to: a varin ia , quP fi a mul-tiplicada por 4 ; e o codici-nlt de varia o, qu ~ pcrman -ce JJ ' Iterado .

    Mdia(Z) = 6 = 3 + 3 = 3 + Mdia(X) Varincia(Z) = 2,5 = Varinci.a(X) DPadro (Z) = 1,58 = DPadro (X)

    1,58 s Coef. var.(Z) = 0,26 = -- = _ x_ 3 + 3 3 + x

    Mediana(Z) = 6 = 3 + 3 = 3 + Mediana(X) Ql(Z) = 5 = 3 + 2 = 3 + Ql(X) Q3 (Z) = 7 = 3 + 4 = 3 + Q3(X) DIQ(Z) = 2 = DIQ(X)

    Isso quer dizer que, quando somamos 3 unidades a uma varivel, a mdia e os 3 quar-tis (Q1, Q2 e Q3) tambm aumentam de 3 unidades. j a varincia, o desvio-padro e a DIQ no se alteram.

    d) Se Y = c.X, temos:

    Se Z =c+ X:

    Mdia(Y) = c. Mdia(X) Varincia(Y) = c2 . Varincia(X) DPadro (Y) = lei . DPadro (X) Coef. var. (Y) = Coef. var. (X) Mediana(Y) = c.Mediana(X) Q1(Y) = c.Q1(X) Q3 (Y) = c.Q3(X) DIQ(Y) = lci .DIQ(X) Mdia(Z) =c+ Mdia(X) Varincia(Z) = Varincia(X) DPadro (Z) = DPadro (X) Coef. var. (Z) = = Coe f. var. (X)

    c+x ~ + 1 X

    Mediana(Z) =c+ Mediana(X) Q1 (Z) =c+ Ql(X) Q3 (Z) = c+ Q3(X) DIQ(Z) = DIQ(X)

    1.2_R) Tempo de permanncia em hospital- Anlise diretamente a partir da distri-buio de freqncias

    H determinadas situaes em que no se tem acesso aos dados individuais, mas est disponvel uma distribuio de freqncias da varivel de interesse, como na tabela a seguir.

  • ANLISE EXPLORATRIA PARA UMA VARIVEL 33 ELSEVIER

    TABELA - Distribu io de fr-eqncias do tempo de permanncia na ltima internao referente a uma amost ra de pacientes do Hospital Esprita de Po rto Alegre nos quatro primeiros meses de 1996

    Permanncia (dias) Ponto mdio (xj) Freqncia simples (C) O a lO 5 70 lO a 20 15 69 20 a 30 25 90 30 a 40 35 43 40 a 50 45 43 50 a 60 55 31 60 a 70 65 16 70 a 80 75 7 80 a 90 85 o

    90 a 100 95 I Total 370

    Fonte: Jornal Brasileiro de Psiquiatria - Setembro de 1999.

    Como determinar as medidas de centralidade e de disperso em uma tal situao?

    Soluo: Para simplificar, vamos considerar que, para todas as observaes que pertencem a

    uma determinada classe (intervalo) , o valor da varivel exatamente igual ao ponto mdio daquele intervalo.

    Portanto, para obter valores aproximados para a mdia e o desvio-padro usam-se as expresses a seguir:

    t ~ xj - j=l X = -=-----

    ( tf. x J2

    t f. x2 - j=l J J j=I J J n S=

    n n-1

    onde J o nmero total de classes da tabela e para cada classej , j = l ,2, ... J, ~ a freqncia absoluta de observaes naquela classe xj o ponto mdio do intervalo considerado

    No caso do exemplo anterior, temos ento

    __ 70 x 5+69 x l5+. .. +l x 95 _ 8

    d . X- - 2 ,22 laS

    370

    -L 69 ] 5/. ) 952 ) (70 X 5 -1- 69 X 15-1-.. . -1- 1 X 95)2

    (70 '/ 5 + '/ -1- ... -1- X -S=-

    3 9 ----= 18, 6 lias ____ 370

  • 34 EST ATISTICA BSICA ELSEVJER

    Quanto determinao da mediana e da distncia interquart il , recom nela-se coJn-plementar a tabela original com mais algumas colu nas, conforme esta eqncia de passos:

    1. Construir a partir dos dados uma coluna com as freqncias absolutas acumula-das. Por exemplo: 139 = 70 + 69; 229 = 139 + 90 etc.

    ii. Construir a partir dos dados uma coluna com as freqncias relativas acumula-70 139 das Yi Por exemplo: 0,189 = - ; 0,376 =-etc.

    370 370 111. Montar a tabela a seguir:

    TABELA- Clculos necessrios para a determinao da mediana e dos quartis do tempo de permanncia

    Classe de Permanncia Freq. abs. Freq. abs. N da classe (dias) simples Acumulada

    I O a lO 70 70 2 lO a 20 69 139 3 20 a 30 90 229 4 30 a 40 43 272 5 40 a 50 43 315 6 50 a 60 31 346 7 60 a 70 16 362 8 70 a 80 7 369 9 80 a 90 o 369 lO 90 a I 00 I 370

    Isso quer dizer que:

    Freq. Rei. Acumulada

    0,189 0,376 0,619 0,735 0,851 0,935 0,978 0,997 0,997 1,000

    18,9% dos tempos de permanncia so menores que 10 dias; 3 7,6% dos tempos de permanncia so menores que 20 dias. 61,9% dos tempos de permanncia so menores que 30 dias. 73,5% dos tempos de permanncia so menores que 40 dias. 85,1% dos tempos de permanncia so menores que 50 dias. 93,5% dos tempos de permanncia so menores que 60 dias. 97,8% dos tempos de permanncia so menores que 70 dias. 99,7% dos tempos de permanncia so menores que 80 dias. 100,0% dos tempos de permanncia so menores que 100 dias.

    iv. Determinao do 12 quartil Ql Sabemos que 114 (ou 25%) das observaes deve estar abaixo de Ql.

    Ento, os 25% menores tempos de permanncia devem ser inferiores a Q1 , ou seja, a freqncia relativa acumulada correspondente a Q1 tem de ser igual a 0,25.

    Como 0,189 < 0,25 < 0,376, isso implica que necessariamente Q1 est entre 10 e 20 dias. A figura a seguir ento nos mostra como podemos calcular o valor de Q1 atravs de uma regra de trs:

  • ANLISE EXPLORATRIA PARA UMA VARIVEL 35

    Q1-10 20-10 == . Ento,

    0,25-0,189 0,376-0,189

    Q1 = 10 + (20 -10) X (0,25- 0,189) = 13,26 0,376-0,189

    X

    F r

    10 Ql 20

    0,189 0,25 0,376

    v. Determinao do 2Q quartil Q2 (mediana) Sabemos que 1/2 (ou 50%) das observaes deve estar abaixo de Q2. Ento,

    os 50% menores tempos de permanncia devem ser inferiores a Q2, ou seja, a freqncia relativa acumulada correspondente a Q2 tem de ser igual a 0,50.

    Como 0,376 < 0,50 < 0,619, isso implica que necessariamente Q2 est entre 20 e 30 dias. Analogamente, podemos escrever tambm:

    Q2 = 20 + (30 -20)x (0,50 -0,376) = 25,14 0,619-0,376

    vi. Determinao do 3 quartil Q3 Sabemos que 3/4 (ou 75%) das observaes devem estar abaixo de Q3. Ento,

    os 75% menores tempos de permanncia devem ser inferiores a Q3, ou seja, a freqncia relativa acumulada correspondente a Q3 tem de ser igual a 0,75 .

    Como 0,735 < 0,75 < 0,851 , isso implica que necessariamente Q3 est entre 40 e 50 dias. Analogamente, podemos escrever tambm:

    Q3 = 40 +(50- 40) X (0,75 -0,735) = 41,29 0,851-0,735

    Logo, Mediana= 25,14 dias e DIQ = 41,29-13,26 = 28,03 dias.

    l.3_R) Consumo de protenas em pases europeus Obs.: Este exerccio foi resolvido com o uso do computador.

    A tabela a seguir contm para cada um de vrios pases da Europa, estimativas do consumo dirio de protena em gramas per capta por tipo de alimento.

    Pas Albnia ustria Blgica/Luxemb. Bulgria Tchecoslovquia Dinamarca PJt:rn. Orien1 ai Ftnlndia

    TABELA - Consumo dirio de protena (em gramas per copito) para pases europeus, por tipo de alimento

    Porco e Carne aves Ovos Leite Peixe Cereais Amido l O, I 1,4 0,5 8,9 0,2 42,3 0,6 8,9 14,0 4,3 19,9 2, 1 28,0 3,6

    13,5 9,3 4,1 17,5 4,5 26,6 5,7 7,8 6,0 I ,6 8,3 1,2 56.7 I , I 9,7 li ,4 2,8 12,5 2,0 34,3 5,0

    /0,6 10,8 3,7 25 ,0 9,9 21,9 4,8 8,4 11 ,6 3,7 11 , I 5,4 2{ 6 6,5 9,S 4,9 2,/ 33,7 r:.B r-. ), I

    - - -- --- ..._ --

    Frutas e Nozes vegetais

    5,5 1.7 1,3 4,3 2, 1 4,0 3.7 4,2 I , I 4,0 0.7 2,4 0,8 3.6 1,0 1.4

  • 36 ESTATISTICA BSICA FLSEVfEH

    -- r-

    Por o Frutas Pas Carne a v Ovo L it Peix Cer oi Amido Nozes veg t.ois

    ---~-- - -- ---

    Frana 18,0 9,9 3,3 19,S 'J./ 2f3, I 1,F3 ),4 fJ,5 --

    r--------

    Gi"cia 10,2 3,0 2,8 17,6 5,9 11,! ),2. / ,8 6,S Hungria 5,3 12,4 2,9 9,7 0,3 40, 1 4,0 5,4 1) Irlanda 13,9 10,0 4,7 25,8 2,2 24,0 6) 1,6 2_,r; Itlia 9,0 5, I 2,9 13,7 3,4 36,8 2, 1 4,3 6,7 Holanda 9,5 13,6 3,6 23,4 2.5 22,4 4,2 I ,8 3.7 Noruega 9,4 4,7 2,7 23,3 9,7 23,0 4,6 1,6 2,7 Polnia 6,9 10,2 2,7 19,3 3,0 36, I 5,9 2,0 6,6 Portugal 6,2 3,7 I, I 4,9 14,2 27,0 5,9 4,7 7,9 Romnia 6,2 6,3 I ,5 11 , I 1,0 49,6 3, I 5,3 2,8 Espanha 7, 1 3,4 3, I 8,6 7,0 29,2 5,7 5,9 7,2 Sucia 9,9 7,8 3,5 24,7 7,5 19,5 3,7 1,4 2,0 Sua 13, I 10,1 3, I 23,8 2,3 25,6 2,8 2,4 4,9 Reino Unido 17,4 5,7 4,7 20,6 4,3 24,3 4,7 3,4 3,3 Rssia 9,3 4,6 2,1 16,6 3,0 43,6 6,4 3,4 2,9 Alem. Ocidental 11,4 12,5 4,