284

Click here to load reader

Probabilidade e Estatistica Para Engenharia e Ciencias - Jay L Devore

Embed Size (px)

DESCRIPTION

Livro de estatística e probabilidade voltado para engenheiros

Citation preview

  • "i.Cium. 519.2 D512p Autor: Devore, Jay L. 1945-Ttulo: Probabilidade c estatstica :

    1111111 1111~11111 ~~111111111 13938940 Ac.65978

    BCSO

  • Viso Geral e Estatstica Descritiva

    Introduo

    1

    Os conceitos e mtodos estatsticos no so apenas teis, como tambm indispensveis na compreenso do mundo ao nosso redor. Eles fornecem meios de obteno de novas percepes no que diz respeito ao comportamento de diversos fenmenos que voc en-contrar em seu campo de especializao em engenharia ou cincia.

    A disciplina estatstica nos ensina a fazer julgamentos inteligentes e a tomar decises na presena de incertezas e variaes. Sem incertezas ou variaes, haveria pouca neces-sidade de estatsticos ou mtodos estatsticos. Se cada componente de um determinado tipo tivesse exatamente o mesmo tempo de vida, se todos os resistores produzidos por um determinado fabricante tivessem o mesmo valor de resistncia, se as determinaes de pH de espcimes de solo de um local determinado fornecessem resultados idnticos, e assim por diante, ento uma nica observao revelaria todas as informaes desejadas.

    Uma manifestao interessante das variaes surge ao longo dos testes de desem-penho de emisses em motores automotivos. Os requisitos de custos e tempo do FTP (Federal Test Procedure) impedem seu uso generalizado em programas de inspeo vei-culares. Como resultado, muitas agncias desenvolveram testes mais rpidos e baratos, que, espera-se, reproduzam os resultados do FTP. De acordo com o artigo de jornal "Mo-tor Vehicle Emissions Variability" (J. of the Air and Waste Mgmt. Assoe., 1996: 667-675), a aceitao do FTP como um padro universal leva crena de que medidas repetidas no mesmo veculo tero resultados idnticos (ou quase idnticos). Os autores do artigo aplicaram o FTP a sete veculos caracterizados como "altos emissores". Seguem os resul-tados de um dos veculos:

    HC (gm/milha) CO (gmlmilha)

    13,8

    118

    18,3

    149

    32,2 232

    32,5 236

  • 2 Probabilidade e Estatlstica - Editora Thomson

    A variao substancial nas medidas de HC e CO apresenta dvidas considerveis sobre a sabedoria popular e dificulta a elaborao de avaliaes precisas sobre nfveis de emisso.

    Como as tcnicas estatfsticas podem ser usadas para obter informaes e tirar con-cluses? Suponha, por exemplo, que um engenheiro de materiais tenha desenvolvido um revestimento para retardar a corroso em tubulaes de metal sob circunstncias especifi-cadas. Se esse revestimento for aplicado a diferentes segmentos do tubo, variaes nas condies ambientais e nos prprios segmentos resultaro em uma corroso maior em al-guns segmentos do que em outros. Os mtodos de anlise estatstica podem ser usados nos dados de um experimento como esse para deodir se a quantidade mdia de corroso excede um limite superior especificado de algum tipo ou para prever a quantidade de cor-roso que ocorrer num nico tubo.

    Como alternativa, suponha que o engenheiro tenha desenvolvido tal revestimento acreditando que ser superior quele usado no momento. Um experimento comparativo pode ser efetuado para investigar essa questo, aplicando-se o revestimento atual a al-guns segmentos do tubo e o novo a outros. Isso deve ser feito com cuidado, para que no surJa uma concluso errada. Por exemplo: talvez a quantidade mdia de corroso seja idntica para os dois revestimentos. Entretanto, o novo revestimento pode ter sido apli-cado a segmentos que possuem uma capacidade superior de resistncia corroso e sob condies ambientais menos severas, se comparados aos segmentos e condies do revestimento atual. O investigador provavelmente observaria ento uma diferena cau-sada no pelos prprios revestimentos, mas por variaes externas. A estatfstica oferece mtodos no somente para anlise dos resultados de experimentos depois que foram executados, como tambm sugestes de como os experimentos devem ser executados de forma eficiente para diminuir os efeitos das variaes e ter melhores chances de produzir concluses corretas .

    1.1 I Populaes, amostras e processos Os engenheiros e cientistas esto constantemente expostos a conjuntos de fatos ou dados, tanto em suas car-reiras como em suas atividades dirias. A disciplina estatstica fornece mtodos para organizar e resumir os da-dos para tirar concluses com base em informaes contidas nos dados.

    Uma investigao normalmente enfocar uma coleo bem definida de objetos que constituem uma po-pulao de interesse. Em um estudo, a populao pode consistir em todas as cpsulas de gelatina de um de-terminado tipo produzidas durante um perodo especificado. Outra investigao pode envolver a populao que consiste em todos os indivduos que receberam um diploma de engenharia durante o ano acadmico mais re-cente. Quando as informaes desejadas estiverem disponveis para todos os objetos da populao, temos o que denominado censo. Restries de tempo, dinheiro e outros recursos escassos normalmente tomam um censo impraticvel ou invivel. Em vez disso, um subconjunto da populao- uma amostra - selecionado de uma forma prescrita. Dessa maneira, podemos obter uma amostra de mancais de uma determinada produo como base de investigao da conformidade dos mancais com as especificaes do fabricante; ou podemos selecionar uma amostra dos formandos em engenharia do ano anterior para obter um retorno sobre a qualidade dos currculos.

  • Viso Geral e Estotistico Descri tivo - Joy L. Devore 3

    Normalmente, estamos interessados apenas em certas caractersticas dos objetos de uma populao: o nmero de falhas na superfcie de cada invlucro, a espessura de cada parede da cpsula, o sexo de um formando em engenharia, a idade com que um indivduo se formou etc. Uma caracterstica pode ser categorizada, como sexo ou tipo de defeito, ou pode ter natureza numrica. No primeiro caso, o valor da caracterstica uma cate-goria (por exemplo, feminino ou solda insuficiente), enquanto, no ltimo caso, o valor um nmero (por exem-plo, idade = 23 anos ou dimetro = 0,502 em). Uma varivel qualquer caracterstica cujo valor pode mudar de um objeto para outro na populao. Inicialmente, devemos identificar as variveis com letras minsculas do final do nosso alfabeto. Os exemplos incluem:

    x = marca da calculadora de um estudante y = nmero de defeitos graves em um automvel recentemente fabricado z = distncia de frenagem de um automvel sob condies especificadas

    Os dados resultam da observao de uma varivel ou de duas ou mais variveis simultaneamente. Um conjunto de dados univariado consiste em observaes sobre uma nica varivel. Por exemplo: podemos determinar o tipo de transmisso, automtica (A) ou manual (M), de cada um dentre 10 automveis recentemente comprados em um determinado revendedor, resultando em um conjunto de dados categorizados.

    M A A A M A A M A A

    A amostra a seguir de vida til (horas) de baterias da marca D colocadas em um determinado uso um conjunto numrico de dados univariados:

    5,6 5,1 6,2 6,0 5,8 6,5 5,8 5,5

    Temos dados bivariados quando as observaes so feitas em cada uma de duas variveis. Nosso conjunto de dados pode consistir em um par (altura, peso) de cada jogador de basquete de um time, com a primeira ob-servao como (72, 168), a segunda como (75, 212) e assim por diante. Se um engenheiro determinar o valor de x = vida til do componente e y = motivo de falha do componente, o conjunto de dados resultante ser biva-riado com uma varivel numrica e outra categorizada. Dados multivariados surgem quando so feitas obser-vaes sobre mais de duas variveis. Por exemplo: um mdico pesquisador pode determinar a presso sangnea sistlica, a presso sanginea diastlica e o nivel de colesterol de cada paciente participante de um estudo. Cada observao seria um trio de nmeros, como (120, 80, 146). Em muitos conjuntos de dados multivariados, algu-mas variveis so numricas e outras so categorizadas. Dessa forma, a edio automotiva anual de Consumer Reports fornece valores de tais variveis como tipo do veculo (pequeno, esportivo, compacto, mdio, grande), consumo de combustivel na cidade (milhas/galo), consumo de combustivel na estrada (milhas/galo), tipo de trao (traseira, dianteira, nas quatro rodas) e assim por diante.

    Ramos da estatstica Um investigador que tenha coletado dados pode simplesmente desejar resumir e descrever suas caractersticas importantes. Isso exige a utilizao de mtodos de estatstica descritiva. Alguns desses mtodos so grficos por natureza: a construo de histogramas, boxplots e grficos de disperso so os exemplos principais. Outros mtodos descritivos envolvem o clculo de medidas numricas, como mdias, desvios padro e coeficientes de correlao. A ampla disponibilidade de pacotes de softwares estatsticos facilitou bastante essas tarefas. Os com-putadores so muito mais eficientes que os seres humanos em clculo e na criao de imagens (depois de terem recebido as instrues corretas do usurio). Isso significa que o investigador no tem de perder muito tempo com "trabalho braal" e ter mais tempo para estudar os dados e extrair mensagens importantes. Neste livro sero apresentados resultados de vrios pacotes, como MINITAB, SAS, e S-Plus.

    Exemplo 1.1

    A tragdia que ocorreu com o nibus espacial Challenger e seus astronautas, em 1986, levou a diversos estudos para investigar os motivos da falha da misso. A ateno rapidamente se voltou ao comportamento dos anis de

  • 4 Probabrlldade e Estatfstica - Editora Thomson

    vedao do motor do foguete. Aqui esto os dados resultantes de observaes de x = temperatura do anel de vedao (F) de cada teste de acionamento ou lanamento real do motor do foguete da nave (Presi-dential Commission on the Space Shuttle Challenger Accident, Vol. 1, 1986: 129-131).

    84 49 61 68 60 67 53 67 75

    40 83 72 73 61 70

    67 45 70 57 81 76

    66 70 69 80 63 70 78 52 79 75 76 58

    58 67 31

    Sem nenhuma organizao, difcil ter noo do que pode ser uma temperatura normal ou representativa, se os valores esto altamente concentrados em torno de um ponto ou se esto dispersos, se h lacunas nos dados, que porcentagem dos dados esto na faixa dos 60 e assim por diante. A Figura 1.1 mostra o que chamado de dia-grama caule e folha dos dados, assim como um histograma. Mais adiante sero discutidas a construo e a in-terpretao desses resumos ilustrativos; no momento, desejamos que voc observe como eles comeam a nos mostrar como os valores de temperatura so distribudos ao longo da escala de medida. Alguns desses lana-mentos/acionamentos tiveram sucesso e outros resultaram em falha. No Captulo 13, consideraremos se a tem-peratura teve influncia na probabilidade de um lanamento bem-sucedido.

    E 30 "' "' !l c:

    ~ 20 o "-

    10

    -

    -

    -

    -

    Caule folha da temp N = 36 Unidade da folha = 1 , O

    1 3 1 1 3 2 4 o 4 4 59 6 5 23 9 5 788

    13 6 0113 (7) 6 6777789 16 7 000023 10 7 556689

    4 8 0134

    r--

    f--

    2S 35

    -

    I 45 55

    temp 65 75 85

    7 (>

    Figura 1.1 Um dragrama cau e e folha MIN i/-\o ~:: rustograma dos dados da temperat.;ra do anel de vedao

    Com uma amostra da populao, um investigador freqentemente usaria as informaes da amostra para tirar algum tipo de concluso (fazer uma inferncia de algum tipo) sobre a populao, ou seja, a amostra um meio para chegar a um fim e no o fim em si. As tcnicas de generalizao de uma amostra para uma populao so agrupadas no ramo da nossa disciplina denominado inferncia estatstica.

    Exemolo 1.2

    As investigaes de resistncia de materiais fornecem um campo frtil para a aplicao de mtodos estatsticos. O artigo "Effects of Aggregates and Microfillers on the Flexural Properties of Concrete" (Magazine o f Concrete Research, 1997, p. 81-98) relatou um estudo de propriedades de resistncia de concreto de alto desempenho obti-das pela utilizao de superplsticos e determinados adesivos. A resistncia compresso desse concreto foi

  • Viso Geral e Estotstica Descritiva - joy L Devore 5

    investigada anteriormente, mas no se sabe muito sobre a resistncia flexo (uma medida da capacidade de re-sistncia a falhas decorrentes de flexo). Os dados a seguir sobre resistncia flexo (em megapascal, MPa, onde I Pa (pascal) = I ,45 X I0- 4 psi) foram exibidos no artigo citado:

    5,9 8,2

    7,2 8,7

    7,3 7,8

    6,3 9,7

    8,1 7,4

    6,8 7,7

    7,0 9,7

    7,6 7,8

    6,8 7,7

    6,5 7,0 6,3 11 ,6 11 ,3 11 ,8

    7,9 10,7

    9,0

    Suponha que busquemos uma estimativa do valor mdio da resistncia flexo de todas as vigas que podem ser feitas dessa forma (se considerarmos a populao de todas as vigas, estaremos tentando estimar a mdia da popu-lao). Pode-se mostrar que, com alto nvel de confiana, a resistncia mdia da populao est entre 7,48 MPa e 8,80 MPa. Isso denominado intervalo de confiana ou estimativa por intervalo. De forma alternativa, esses dados podem ser usados para prever a resistncia flexo de uma nica viga desse tipo. Com alto nvel de con-fiana, a resistncia de uma determinada viga exceder 7,35 MPa. O nmero 7,35 denominado Limite inferior de previso.

    Este livro enfoca principalmente os mtodos de apresentao e ilustrao de inferncia estatstica teis ao trabalho cientfico. Os tipos mais importantes de procedimentos inferenciais (estimativa por pontos, teste de hipteses e estimativa por intervalos de confiana) so apresentados nos captulos 6-8 e usados em aplicaes mais avanadas nos captulos 9-16. O restante deste captulo apresenta os mtodos de estatstica descritiva mais usados no desenvolvimento da inferncia.

    Os captulos 2-5 apresentam material da disciplina de probabilidade. Esse material, em suma, faz uma ponte entre as tcnicas descritiva e inferencial. A proficincia em probabilidade leva melhor compreenso de como os procedimentos inferenciais so desenvolvidos e usados, como as concluses estatsticas podem ser traduzidas para a linguagem do dia-a-dia e interpretadas, e quando e onde podem ocorrer ciladas na aplicao dos mtodos. A probabilidade e a estatstica lidam com questes que envolvem populaes e amostras, mas o fazem de "maneira inversa" uma em relao a outra.

    Em um problema de probabilidade, as propriedades da populao, que so objeto de estudo, so assumidas como conhecidas (por exemplo: em urna populao numrica, uma distribuio especificada dos valores da populao pode ser assumida) e as questes relativas a uma amostra proveniente da populao so propostas e respondidas. Em um problema de estatstica, as caractersticas de uma amostra esto disponveis ao investigador e essas informaes permitem que ele tire concluses sobre a populao. A relao entre as duas disciplinas pode ser resumida da seguinte forma: a probabilidade faz suas consideraes da populao para a amostra (raciocnio dedutivo) e a inferncia estatstica faz consideraes da amostra para a populao (raciocnio indutivo). Isso ilustrado na Figura 1.2.

    ~ ~ ..__ Estatstica in rerencii

    Figura 1.2 A retao entre probabutdade e 1nferncta estat1St1ca

    Antes de podermos entender o que uma determinada amostra pode nos dizer sobre a populao, devemos entender a incerteza associada tomada da amostra de uma dada populao. por isso que estudamos proba-bilidade antes de estatstica.

    Como exemplo do contraste entre os focos da probabilidade e da inferncia estatstica, considere o uso de cintos de segurana manuais de dois pontos em carros equipados com cintos automticos de trs pontos. (O ar-tigo "Automobile Seat Belts: Usage Patterns in Automatic Belt Systems," Human Factors, 1998, p. 126-135, re-sume os dados de utilizao.) Em probabilidade, podemos assumir que 50% de todos os motoristas de carros equipados dessa forma em uma determinada rea metropolitana usam regularmente o cinto de dois pontos (uma hiptese sobre a populao), de forma que perguntamos: "Qual a probabilidade de que urna amostra de 100 mo-toristas inclua ao menos 70 que usam regularmente o cinto de dois pontos?" ou "Em uma amostra de tamanho

  • 6 Probabilidade e Estatistca - Edttora Thomson

    100, quantos motoristas podemos esperar que usem o cinto de dois pontos?" Por outro lado, em inferncia estatstica ternos as informaes da amostra disponveis. Por exemplo: uma amostra de 100 motoristas de tais carros revelou que 65 usam o cinto de dois pontos regularmente. Podemos perguntar ento: "Isso fornece evidncia suficiente para a concluso de que mais de 50% de todos os motoristas nessa rea usam regularmente o cinto de dois pontos?" Nesse ltimo cenrio, tentamos usar as informaes da amostra para responder a uma pergunta sobre a estrutura de toda a populao a partir da qual a amostra foi selecionada.

    No exemplo do cinto de dois pontos, a populao est bem definida e concreta: todos os motoristas de car-ros equipados de uma forma em uma determinada rea metropolitana. No Exemplo 1.1, entretanto, est dispo-nvel urna amostra de temperaturas de anis de vedao de uma populao que no existe realmente. Em vez disso, conveniente pensarmos na populao como consistindo de todas as medidas possveis de temperatura que podem ser feitas em condies experimentais similares. Tal populao denominada populao conceitual ou hipottica. H diversas situaes de problemas em que se encaixam questes na estrutura de inferncia es-tatstica pela conceitualizao de uma populao.

    Estudos enumerativos versus analticos W. E. Deming, um influente estatstico norte-americano, fora motriz na revoluo de qualidade do Japo nos anos 50 e 60, apresentou a distino entre estudos enumerativos e estudos analticos. No primeiro, o interesse se foca em uma coleo finita, identificvel e imutvel de indivduos ou objetos que formam uma populao. Uma estrutura de amostragem, isto , uma listagem de todos os indivduos ou objetos a fazerem parte da amostra, est disponvel a um investigador ou pode ser construda. Por exemplo: a estrutura pode ser constituda por todas as assinaturas em uma petio para qualificao de uma determinada iniciativa de voto secreto em uma eleio iminente; uma amostra normalmente selecionada para apurar se o nmero de assinaturas vlidas ex-cede um valor especificado. Como outro exemplo, a estrutura pode conter nmeros de srie de todos os fomos fabricados por uma determinada empresa durante certo perodo de tempo; uma amostra pode ser selecionada para inferir algo sobre a vida til mdia dessas unidades. A utilizao de mtodos inferenciais a ser desenvolvida neste livro razoavelmente no-controversa nesse cenrio (apesar de os estatsticos ainda poderem discutir so-bre que mtodos em particular devem ser usados).

    Um estudo analtico definido, de modo geral, como aquele que no de natureza enumerativa. Esses es-tudos so normalmente executados com o objetivo de melhorar um produto futuro por meio da ao em um processo de algum tipo (por exemplo: recalibragem de equipamentos ou ajuste do nvel de algum insumo, como a quantidade de um catalisador). Freqentemente, os dados podem ser obtidos apenas em um processo existente, que pode diferir do processo futuro em aspectos importantes. Dessa forma, no h uma estrutura de amostragem que relacione os indivduos ou objetos de interesse. Por exemplo: uma amostra de cinco turbinas com um novo design pode ser fabricada e testada em carter experimental para investigar sua eficincia. Essas cinco turbinas podem ser vistas como uma amostra da populao conceitual de todos os prottipos que podem ser fabricados em condies similares, mas no necessariamente como representantes da populao de unidades fabricadas depois que a produo for iniciada. Os mtodos de utilizao de informaes de amostras para obteno de con-cluses sobre a produo futura podem ser problemticos. Algum com experincia na rea de projetos e en-genharia de turbinas (ou de qualquer outra rea relevante para a disciplina) deve ser chamado para julgar se essa extrapolao sensata. Uma boa exposio dessas questes est no artigo "Assumptions for Statistical Infe-rence" de Gerald Hahn e William Meeker (The American Statistician, 1993, p. 1-11).

    Coletando dados A estatstica lida no somente com a organizao e anlise de dados depois de sua coleta, como tambm com o desenvolvimento de tcnicas de coleta. Se os dados no so coletados de forma correta, um investigador pode no ter condies de responder s questes em considerao com um nvel de confiana razovel. Um problema comum que a populao-alvo- a respeito da qual sero tiradas concluses -pode ser diferente da populao da qual se obteve a amostra. Por exemplo: publicitrios podem desejar diversos tipos de informaes sobre os hbitos televisivos de clientes potenciais. As informaes mais sistemticas desse tipo so provenientes de dis-positivos de monitoramento locais em um pequeno nmero de lares nos Estados Unidos. J se presumiu que a

  • Viso Gero! e Estatstico Descritivo - Joy l. Devore 7

    colocao em si desses dispositivos afeta o comportamento dos telespectadores, de forma que as caractersticas da amostra podem ser diferentes daquelas da populao-alvo.

    Quando a coleta de dados exige a seleo de indivduos ou objetos a partir de uma estrutura, o mtodo mais simples de assegurar uma seleo representativa tomar uma amostra aleatria simples. Trata-se de uma amostra em que qualquer subconjunto de tamanho especificado (como uma amostra de tamanho 100) tem a mesma chance de ser selecionado. Por exemplo: se a estrutura consistir em 1.000.000 de nmeros de srie, os nmeros 1, 2, ... at 1.000.000 podem ser colocados em tiras idnticas de papel. Aps coloc-las em uma caixa e mexer bastante, elas podem ser retiradas uma a uma, at que a amostra de tamanho requerido seja obtida. De forma alternativa (e normalmente preferida), uma tabela de nmeros aleatrios ou um gerador de nmeros aleatrios pode ser usado.

    Algumas vezes, os mtodos de amostragem alternativos podem ser usados para facilitar o processo de se-leo, para obter informaes extras ou para aumentar o nvel de confiana das concluses. Um desses mtodos, a amostragem estratificada, exige a separao das unidades da populao em grupos no-passveis de so-breposio e a tomada de uma amostra de cada um. Por exemplo: um fabricante de videocassetes pode desejar informaes sobre a satisfao dos clientes com as unidades produzidas no ano anterior. Se foram fabricados e vendidos trs modelos diferentes, pode ser selecionada uma amostra de cada um dos trs modelos correspon-dentes, o que resultaria em informaes sobre todos os modelos e asseguraria que nenhum deles teve mais ou menos representatividade na amostra inteira.

    Freqentemente, uma amostra de "convenincia" obtida pela seleo de indivduos ou objetos sem aleatoriedade sistemtica. Como exemplo, um grupo de tijolos pode ser empilhado de forma que seja extrema-mente difcil selecionar as peas centrais. Se os tijolos do topo e das laterais forem de alguma forma diferentes dos outros, os dados resultantes da amostra no sero representativos da populao. Um investigador assumir, com freqncia, que essa amostra de convenincia se aproxima de uma amostra aleatria. Nesse caso, o repertrio de mtodos inferenciais do estatstico pode ser usado, o que , entretanto, de julgamento do profis-sional. A maioria dos mtodos discutidos daqui em diante so baseadas em variaes da amostragem aleatria simples, descritas no Captulo 5.

    Os engenheiros e cientistas freqentemente coletam dados executando algum tipo de experimento, o que pode envolver a deciso de como alocar diferentes tratamentos (como fertilizantes ou revestimentos para proteo de corroso) s diversas unidades experimentais (lotes de terra ou segmentos de tubo). Alm disso, um investi-gador pode variar sistematicamente os nveis ou categorias de determinados fatores (como presso ou tipo de ma-terial isolante) e observar o efeito em alguma varivel de resposta (como o resultado de um processo de produo).

    Exemplo 1.3

    Um artigo no New York Times (27 de janeiro de 1987) reportou que o risco de ataques cardacos pode ser reduzido pela ingesto de aspirina. Essa concluso foi baseada em um experimento planejado que envolveu um grupo de controle de indivduos que tomaram um placebo com aparncia de aspirina, mas reconhecidamente in-cuo, e outro que tomou aspirina de acordo com um regime especificado. Os comprimidos foram atribudos aleatoriamente aos grupos para evitar desvios, tornando possvel a utilizao de mtodos probabilsticos para anlise dos dados. Dos 11.034 componentes do grupo de controle, 189 tiveram ataques cardacos posteriormente, enquanto apenas 104 dos 11.037 indivduos do grupo da aspirina tiveram o problema. A taxa de incidncia de ataques cardacos no grupo de tratamento foi cerca de metade da taxa do grupo de controle. Uma explicao pos-svel para esse resultado a variao devida ao acaso: que a aspirina no tem o efeito desejado e que a diferena observada uma variao normal, da mesma forma que jogar duas moedas idnticas normalmente produziria nmeros diferentes de caras. Entretanto, nesse caso, os mtodos inferenciais sugerem que a variao devida ao acaso em si no pode explicar adequadamente a magnitude da diferena observada.

    Exemplo 1 4

    Um engenheiro deseja investigar os efeitos de um tipo de adesivo e de um material condutor na resistncia do contato ao montar um IC (Circuito Integrado) em uma determinada base. Dois tipos de adesivo e dois materiais condutores esto sendo considerados. Duas observaes so feitas para cada combinao - tipo de adesivo/ma-terial condutor - resultando nos dados a seguir:

  • 8 Probabilidade e Estatstica - Editora Thomson

    Tipo de adesivo Material condutor Resistncia observada do contato Mdia

    l 2 2

    I 2 I 2

    82, 77 75, 87 84, 80 78,90

    79,5 81,0 82,0 84,0

    As resistncias de contato mdias so ilustradas na Figura 1.3. Parece que o tipo de adesivo 2 melhora a re-sistncia do contato se comparado ao tipo 1 mais ou menos no mesmo valor, no importando o material condu-tor usado, com a combinao 2, 2 sendo a melhor. Os mtodos inferenciais podem novamente ser usados para julgar se esses efeitos so reais ou simplesmente conseqncia da varincia devido ao acaso.

    Resistncia mdia

    85

    80

    ~ Tipo de adesivo 2

    ...-------- Tipo de adesivo I

    2 Material condutor

    Figura 1.3 ResistnCias de contato md1as no Exemplo 1 4

    Suponha, adicionalmente, que haja dois perodos de cura em considerao e tambm dois tipos de circuito integrado aps o revestimento. H, portanto, 2 2 2 2 = 16 combinaes desses quatro fatores e nosso enge-nheiro no possui recursos suficientes nem mesmo para fazer uma nica observao para cada uma dessas com-binaes. No Captulo 11 veremos como a seleo cuidadosa de uma frao dessas possibilidades normalmente fornecer as informaes desejadas.

    Exerccios I Seo 1.1 (1-9) 1. Fornea uma amostra possvel, de tamanho 4, de cada

    uma das populaes a seguir: a. Todos os jornais dirios publicados nos Estados

    Unidos. b. Todas as empresas listadas na New York Stock Ex-

    change. c. Todos os alunos de sua universidade ou faculdade. d. Todas as mdias, em pontos, dos alunos de sua uni-

    versidade ou faculdade. 2. Para cada uma das populaes hipotticas a seguir, for-

    nea uma amostra plausvel de tamanho 4: a. Todas as distncias que podem resultar quando uma

    bola de futebol arremessada. b. O tamanho das pginas dos livros publicados nos l-

    timos cinco anos. c. Todas as medidas de intensidade de terremotos (es-

    cala Richter) que podem ser registradas na Califrnia durante o prximo ano.

    d. Todos os possveis produtos (em gramas) de urna de-terminada reao qumica feita em um laboratrio.

    3. Considere a populao que consiste em todos os video-cassetes de uma determinada marca e modelo, e enfoque se um videocassete precisa de manuteno durante o tempo de garantia. a. Formule divers,as questes sobre probabilidade basea-

    das em uma amostra de I 00 desses videocassetes. b. Qual questo sobre inferncia estatstica pode ser res-

    pondida ao determinar o nmero de videocassetes que precisam de servio de garantia em uma amostra de tamanho l 00?

    4. a. D trs exemplos diferentes de populaes concretas e trs exemplos diferentes de populaes hipotticas.

    b. Para cada uma de suas populaes hipotticas e concretas, d um exemplo de uma questo sobre probabilidade e um exemplo de uma questo so-bre inferncia estatstica.

    S. Diversas universidades e faculdades instituram progra-mas de Instruo Suplementar (SI), em que um monitor se encontra regularmente com um grupo de estudantes matriculados em um curso para promover discusses

  • sobre o material desse curso e melhorar o domnio da disciplina. Suponha que os estudantes de um grande curso de estatstica (o que mais poderia ser?) so aleato-riamente divididos em um grupo de controle que no participar do SI e um grupo de tratamento que o far. No final do perodo, determinada a pontuao total de cada estudante no curso. a. As pontuaes do grupo de SI so uma amostra da

    populao existente? Caso seja, qual ? Caso con-trrio, qual a populao conceitual relevante?

    b. Qual voc acha que a vantagem de dividir aleatoria-mente os estudantes em dois grupos em vez de deixar cada estudante escolher o grupo do qual participar?

    c. Por que os investigadores no colocaram todos os es-tudantes no grupo de tratamento? Nota: O artigo "Supplemental Instruction: An Effective Component of Student Affairs Programrning" (J. of College Stu-dent Devei., 1997, p. 577-586) discute a anlise de da-dos de diversos programas de SI.

    6. O sistema da CSU (Califomia State University) consiste em 23 campi, de San Diego State, no sul, at Humboldt State, perto da fronteira com Oregon. Um administrador da CSU deseja fazer uma inferncia sobre a distncia mdia entre as cidades natais de seus alunos e seus campi. Descreva e discuta diversos mtodos de amos-tragem que podem ser empregados. Esse estudo seria enumerativo ou analtico? Explique seu raciocnio.

    Viso Geral e Estatstico DescritiVO - Joy L. Devore 9

    7. Certa cidade dividida naturalmente em 10 bairros. Como um avaliador imobilirio deve selecionar uma amostra de casas de uma nica famlia que pode ser usa-da como base para o desenvolvimento de uma equao para previso do valor avaliado a partir de caractersticas como idade, tamanho, nmero de banheiros, distncia at a escola mais prxima e assim por diante? Esse es-tudo enumerativo ou analtico?

    8. A quantidade de fluxo que passa atravs de uma vlvula solenide em um sistema de controle de poluio de um au-tomvel uma caracterstica importante. Foi executado um experimento para estudar como a taxa do fluxo depende de trs fatores: comprimento do ncleo, carga da mola e lar-gura da bobina. Foram escolhidos dois nveis diferentes (alto e baixo) de cada fator e foi feita uma nica observao sobre o fluxo para cada combinao de nveis. a. O conjunto de dados resultante consistiu em quan-

    tas observaes? b. Esse estudo enumerativo ou analtico? Explique

    seu raciocnio. 9. Em um famoso experimento executado em 1882, Michel-

    son e Newcomb fizeram 66 observaes do tempo levado pela luz para percorrer a distncia entre dois locais em Washington, D.C. Algumas das medidas (codificadas de certa forma) foram 31 , 23, 32, 36, -2, 26, 27 e 31. a. Por que essas medidas no so idnticas? b. Esse estudo enumerativo? Por qu?

    1.2 Mtodos tabular e grfico em estatstica descritiva

    A estatstica descritiva pode ser dividida em duas reas gerais. Nesta seo, discutiremos a primeira dessas reas, que representa um conjunto de dados usando tcnicas visuais. Nas sees 1.3 e 1.4, desenvolveremos al-gumas medidas numricas simples para conjuntos de dados. Muitas tcnicas visuais podem ser conhecidas: tabelas de freqncia, folhas de contagem, histogramas, grficos de pizza, grficos de barras, digramas de dis-perso e afins. Aqui enfocamos algumas dessas tcnicas, que so mais teis e relevantes para probabilidade e inferncia estatstica.

    Notaes Algumas notaes gerais facilitaro a aplicao de nossos mtodos e frmulas a uma ampla gama de problemas prticos. O nmero de observaes em uma nica amostra, isto , o tamanho da amostra, normalmente ser re-presentado por n, de forma que n = 4 para a amostra de universidades { Stanford, Iowa State, Wyorning, Rochester} e tambm para a amostra de medidas de pH { 6,3; 6,2; 5,9; 6,5}. Se duas amostras estiverem sendo consideradas simultaneamente, m e n ou n1 e n2 podem ser usados para representar os nmeros de observaes. Portanto, se {29,7; 31,6; 30,9} e {28,7; 29,5; 29,4; 30,3} forem medidas de eficincia trmica para dois tipos de motor diesel, ento m = 3 e n = 4.

    Dado um conjunto de dados que consiste de n observaes de uma varivel x, as observaes indi-viduais sero representadas por xl' x2, x3, , x", . O ndice no tem nenhuma relao com a magnitude de uma

  • 10 Probabilidade e Estatstica - Edttora Thomson

    determinada observao. Dessa forma, x 1 em geral no ser a menor observao do conjunto e xn normalmente no ser a maior. Em diversas aplicaes, x 1 ser a primeira observao coletada pelo investigador, x2 ser a se-gunda e assim por diante. A i-sima observao do conjunto de dados ser representada por x,.

    Diagramas de caule e folha Considere um conjunto de dados numricos x1, x1, , xn, para o qual cada x; consiste de, pelo menos, dois dgi-tos. Uma forma rpida de obter uma representao visual informativa do conjunto de dados construir um dia-grama de caule e folha.

    Etapas de construo de um diagrama de caule e folha

    1. Selecione um ou mais dgitos de liderana para serem o caule. Os dgitos direita desse dgito de liderana sero as folhas.

    2. Relacione os valores de caule possveis em uma coluna vertical. 3. Registre a folha de cada observao ao lado do caule correspondente. 4. Indique as unidades dos caules e das folhas em algum lugar do diagrama.

    Se o conjunto de dados consistir em notas de provas, cada uma entre O e 100, a pontuao de 83 ter caule 8 e folha 3. Para um conjunto de dados de consumo de combustvel de automveis (milhas/galo), todos entre 8,1 e 47 ,8, podemos usar as dezenas como caule, de forma que 32,6 teria uma folha de 2,6. Em geral, recomend-se que o diagrama tenha entre 5 e 20 caules.

    Exemplo 1.5

    O consumo de lcool por alunos de faculdades causa grande preocupao, no apenas para os membros da co-munidade acadmica, como tambm pelas conseqncias potenciais sade e segurana da sociedade em geral. O artigo "Health and Behavioral Consequences of Binge Drinking in Co1lege" (J. of the Ame r Med. As-soe., 1994, p. 1672-1677) relatou em um abrangente estudo de consumo excessivo de lcool em diversos campi nos Estados Unidos. Um episdio de bebedeira foi definido como cinco ou mais bebidas em seqncia para os homens e quatro ou mais para as mulheres. A Figura 1.4 mostra um diagrama de caule e folha de 140 valores de x = ao percentual de estudantes de nvel superior que se embriagam. (Esses valores no foram fornecidos no ar-tigo citado, mas nosso diagrama apresenta-se de acordo com a ilustrao exibida dos dados.)

    A primeira folha na linha do caule 2 1, o que nos informa que 21% dos alunos de uma das faculdades da amostra se embriagavam. Sem a identificao dos dgitos do caule e das folhas no diagrama, no saberamos se a observao do caule 2, folha 1, devia ser lida como 21 %, 2,1% ou 0,21 %.

    o 1 2 3 4 5 6

    4 1345678889 1223456666777889999 0112233344555666677777888899999 111222223344445566666677788888999 00111222233455666667777888899 01111244455666778

    Caule: dfgito das dezenas Folha: dfgito das unidades

    Figura 1.4 D1agrama cau1e e fotna de percemual de alunos que se embnagam em cada uma de 140 faculdades

    Ao criar um diagrama a mo, a organizao das folhas da menor para a maior em cada linha pode tomar muito tempo e essa organizao normalmente contribui pouco ou quase nada para informaes extras. Suponha que as observaes tenham sido relacionadas em ordem alfabtica por nome de escola, da seguinte forma:

    16% 33% 64% 37% 31%

    I

  • Viso Gerol e Estolstico Descritivo - Joy L. Devore 11

    Colocar esses valores no diagrama nessa ordem resultaria no caule 1 tendo 6 como sua primeira folha e o comeo da linha do caule 3 seria

    3 I 371 ... O diagrama sugere que um valor tpico ou representativo est na linha do caule 4, talvez na metade da faixa

    de 40%. As observaes no esto altamente concentradas em tomo desse valor tpico, como estariam se todos os valores estivessem entre 20% e 49%. O diagrama cresce para um nico pico, quando nos movemos para baixo e ento declina: no h lacunas no diagrama. Seu formato no perfeitamente simtrico, parece aumentar mais na direo das folhas inferiores, do que na direo das folhas de cima. Por ltimo, no h observaes distantes da parte principal dos dados (sem outliers, ou seja, pontos fora da curva), como aconteceria se um dos valores fosse 86% em vez de 26%. A caracterstica mais surpreendente dos dados que, na maior parte das fa-culdades, pelo menos um quarto dos alunos se embriaga. O problema do consumo excessivo de lcool nos campi muito mais difundido do que muitos haviam suspeitado.

    Um diagrama de caule e folha transmite informaes sobre os seguintes aspectos dos dados:

    identificao de um valor tpico ou representativo; extenso da disperso ao redor do valor tpico; presena de lacunas nos dados; extenso da simetria na distribuio de valores; nmero e localizao dos bicos; presena de valores fora da curva.

    Exemplo 1.6

    A Figura 1.5 apresenta diagramas de caule e folha para uma amostra aleatria de comprimentos de campos de golfe Gardas) que foram designados pela Golf Magazine entre os mais desafiadores dos Estados Unidos. Entre a amostra de 40 campos, ~ mais curto tem 6.433 jardas de comprimento e o mais longo, 7 .280. Os comprimentos parecem estar distribudos de forma aproximadamente uniforme acima da faixa de valores da amostra. Observe que, aqui, uma escolha de caule de um nico dgito (6 ou 7) ou de trs dgitos (643, ... , 728) resultaria em diagramas no-in-formativos, no primeiro caso porque no haveria caules suficientes, no segundo, porque haveria caules demais.

    Caule: Dgitos de milhares e centenas 64 35 64 33 70 Folha: Dgitos de dezenas e unidades 65 26 27 06 83 Caule e folha do nmero de jardas N = 40 Unidades da f o lha= 10 66 05 94 14 4 64 3367 67 90 70 00 98 70 45 13 8 65 0228 68 90 70 73 50 11 66 019 18 67 0147799 69 00 27 36 04 (4) 68 5779 70 51 05 11 40 50 22 18 69 0023 71 31 69 68 05 13 65 14 70 012455 8 71 013666 72 80 09 2 72 08

    (a) (b)

    Figura 1.5 Dtagramas de laure ~::folha de compnmentos e"1 Jardas de campos de golfe (a) folhas de dvtS dtgttos. (b) dtagrama de MINITAB com folhas truncadas de um d1g1to

    Um diagrama de caule e folha no mostra a ordem em que as observaes foram obtidas, possivelmente ocultando importantes informaes sobre o mecanismo gerador dos dados. Por exemplo: durante um perodo de tempo determinado, a largura de um calo de certa pea feito por uma fresa tende a aumentar em relao ao valor-alvo, indicando um processo "fora de controle". Um grfico de linha com marcadores combina o quadro das observaes ao longo do tempo com um diagrama caule e folha.

  • 11 Probabilidade e EstatstiCa - Ed1tora Thomson

    Exemplo 1.7 Cada observao no diagrama de caule e folha da Figura 1.6 o valor de produo de cerveja dos EUA (milhes de barris) para um trimestre diferente durante o perodo de 1975-1982. O diagrama usa caules repetidos; por

    eJ717f7IV: a k nha 4L para observaes com uma folha "baixa" - O, 1, 2, 3 ou 4 -e as observaes com fo-lhas mais altas so colocadas na linha 4H. O grfico da srie temporal direita mostra tendncia de aumento com o tempo e tambm maior produo nos segundo e terceiro trimestres de um determinado ano do que nos outros dois trimestres (um efeito sazonal).

    Caule: Dgito das dezenas Folha: Dgito das unidades

    5 5H 242330 5L

    7688996 4H 21421414444 4L

    9696656 3H

    Figura 1.6 Um grf co de ltrl"l com mdrcadores de produo de cerveJa dos Estados Unrdos

    Grfico de pontos Um grfico de pontos um interessante resumo dos dados numricos quando esse conjunto razoavelmente pe-queno ou possui relativamente poucos valores distintos. Cada observao representada por um ponto sobre o local correspondente em uma escala de medida horizontal. Quando um valor ocorre mais de uma vez, h um ponto para cada ocorrncia e esses pontos so empilhados verticalmente. Como ocorre com o diagrama de caule e folha, um grfico de pontos fornece informaes sobre localizao, disperso, extremos e lacunas.

    Exemplo 1 S

    A Figura 1. 7 mostra um grfico de pontos para os dados de temperatura de Anel de Vedao apresentados no Exemplo 1.1, na seo anterior. Um valor de temperatura representativo o que se apresenta na metade de 60 ( 0 F) e h grande disperso ao redor do centro. Os dados se estendem mais na extremidade inferior do que na ex-tremidade superior e a menor observao, 31, pode ser claramente descrita como um outlier .

    Temperatura

    30 40 50 60 70 80

    Figura 1.7 Um grf ::o de pontos dos dados de teMperatura do Anel de Vedao (F)

    Se o conjunto de dados discutido no Exemplo 1.8 consistisse de 50 ou I 00 observaes de temperatura, cada uma registrada em dcimos de graus, seria muito mais trabalhoso construir um grfico de pontos. Nossa prxima tcnica melhor adaptvel a tais situaes.

    H"s ogr mas Alguns dados numricos so obtidos por contagem para determinar o valor de uma varivel (o nmero de autua-es de trfego que uma pessoa recebeu no ltimo ano, o nmero de pessoas que chegam para trabalhar durante um determinado perodo), enquanto outros dados so obtidos pela tomada de medidas (peso de um indivduo,

  • Viso Geral e Estatstico Descritivo - joy L. Devore 13

    tempo de reao a determinado estmulo). A recomendao para plotagem de um histograma geralmente dife-rente para esses dois casos.

    DEFINIO Uma varivel discreta se o seu conjunto de valores possveis finito ou pode ser re-lacionado em uma seqncia infinita (em que haja um primeiro nmero, um segundo e assim por diante). Uma varivel contnua se os seus valores possveis consistem de um intervalo completo na reta de numerao.

    L

    Uma varivel discreta x quase sempre resultante de contagem e, nesse caso, O, 1, 2, 3 ... ou algum sub-conjunto desses inteiros so valores possveis . Variveis contnuas surgem da tomada de medidas. Por exemplo: se x o pH de uma substncia qumica, em teoria, x pode ser qualquer nmero entre O e 14: 7.0, 7.03, 7.032 e assim por diante. Claro que, na prtica, h limitaes no que diz respeito ao grau de preciso de qualquer ins-trumento de medida, de forma que podemos no ser capazes de determinar pH, tempo de reao, altura e con-centrao com um nmero arbitrariamente grande de casas decimais. Entretanto, do ponto de vista da criao de modelos matemticos para a distribuio dos dados, til imaginar um intervalo contnuo de valores possveis.

    Considere os dados constitudos de observaes de uma varivel discreta x. A freqncia de qualquer valor particular de x o nmero de vezes em que esse valor ocorre naquele conjunto. A freqncia relativa de um valor a frao ou proporo de vezes em que o valor ocorre:

    nmero de vezes que o valor ocorre freqncia relativa de um valor =

    nmero de observaes do conjunto de dados

    Suponha, por exemplo, que o nosso conjunto de dados consista em 200 observaes de x = o nmero de defeitos graves em um novo carro de certo tipo. Se 70 desses valores x forem 1, ento

    freqncia do valor x = 1: 70

    freqncia relativa do valor x = 1: _2Q_ =o 35 200 '

    A multiplicao da freqncia relativa por 100 fornece a porcentagem. No exemplo dos defeitos, 35% dos carros da amostra apresentaram apenas um defeito grave. As freqncias relativas, ou porcentagens, normal-mente interessam mais do que as freqncias em si. Teoricamente, as freqncias relativas deveriam somar 1, mas, na prtica, a soma pode ser ligeiramente diferente por causa do arredondamento. Uma distribuio de fre-qncia uma tabulao das freqncias e/ou freqncias relativas.

    Construo do histograma para dados discretos

    Primeiro, determine a freqncia e a freqncia relativa de cada valor de x. Depois, marque os va-lores possveis de x em uma escala horizontal. Acima de cada valor, desenhe um retngulo cuja al-tura seja a freqncia relativa (ou a freqncia, como alternativa) daquele valor.

    Essa construo assegura que a rea de cada retngulo seja proporcional freqncia relativa do valor. As-sim, se as freqncias relativas de x = 1 ex = 5 so 0,35 e 0,07, respectivamente, a rea do retngulo acima de 1 ser cinco vezes a rea do retngulo acima de 5.

    Exemplo 1.9

    Quo incomum um jogador que no atinge a bola ou a atinge uma nica vez em um jogo de beisebol da liga principal e com que freqncia uma equipe consegue atingir a bola mais de 10, 15 ou mesmo 20 vezes? A Tabela 1.1 uma distribuio de freqncia do nmero de acertos por equipe, por partida, para todos os jogos de nove sries entre 1989 e 1993.

  • 14 Probabilidade e Estatstica - Editora Thomson

    Tabela 1.1 Distnbuio dE> freqnoa de acertos em JOgos de nove snes

    Nmero de Freqncia Nmero de Freqncia Acertos/Jogo Jogos Relativa Acertos/Jogo Jogos Relativa

    o 20 0,0010 14 569 0,0294 1 72 0,0037 15 393 0,0203 2 209 0,0108 16 253 0,0131 3 527 0,0272 17 171 0,0088 4 1048 0,0541 18 97 0,0050 5 1457 0,0752 19 53 0,0027 6 1988 0,1026 20 31 0,0016 7 2256 0,1 164 21 19 0,0010 8 2403 0,1240 22 13 0,0007 9 2256 0,1164 23 5 0,0003

    10 1967 0,1015 24 1 0,0001 11 1509 0,0779 25 o 0,0000 12 1230 0,0635 26 1 0,0001 13 834 0,0430 27 I 0,0001

    19,383 1,0005

    O histograma correspondente da Figura 1.8 tem um leve aclive para um nico pico e depois tem um de-clive. O histograma se estende um pouco mais do lado direito (em direo aos valores maiores) do que para o lado esquerdo- uma inclinao ligeiramente "positiva".

    A partir das informaes tabuladas ou do histograma em si, podemos determinar o seguinte:

    proporo de jogos com no mximo dois acertos

    De forma similar,

    freqncia freqncia = relativa para + relativa para +

    X = 0 X = 1 = 0,0010 + 0,0037 + 0,0108 = 0,0155

    freqncia relativa para x=2

    proporo de jogos com acertos entre 5 e 10 (inclusive) = 0,0752 + 0,1026 + . .. + 0,1015 = 0,6361

    Isto , cerca de 64% de todos esses jogos tiveram entre 5 e 10 (inclusive) acertos.

    Freqncia relativa

    Figura 1.8 Histograma do nL ero de acertos por JOgo de r ove sem~::.

  • Viso Geral e Estatstico Descrit1vo - Joy L. Devore 15

    A construo de um histograma de dados contnuos (medidas) exige que o eixo das medidas seja subdivi-dido em um nmero aceitvel de intervalos de classe ou classes, de forma que cada observao esteja contida completamente em uma classe. Suponha, por exemplo, que tenhamos 50 observaes de x = consumo de com-bustvel de um automvel (milhas/galo), sendo o menor deles 27,8 e o maior, 31,4. Podemos, ento, usar os limites de classe 27,5, 28,0, 28,5, ... , e 31,5, conforme mostrado abaixo:

    27,5 28,0 28,5 29,0 29,5 30,0 30,5 31 ,O 31,5

    Uma dificuldade potencial que, ocasionalmente, uma observao fica exatamente sobre um dos limites de classe, no estando necessariamente em apenas um intervalo, por exemplo, 29,0. Uma forma de lidar com esse problema usar limites como 27,55, 28,05, ... , 31,55. A adio do dgito de centsimos aos limites de clas-se evita que as observaes estejam exatamente sobre os limites resultantes. Outra abordagem usar as classes 27,5-

  • 16 Probabilidade e Estatfstica - Editora Thomson

    Classe 1-< 3 3-

  • Viso Geral e Estatstico Descritivo - joy L Devore 17

    Construindo um histograma para dados contnuos: classes de larguras diferentes

    Aps determinar as freqncias e as freqncias relativas, calcule a altura de cada retngulo, usando a frmula

    freqncia relativa da classe altura do retng~lo = _....::..._ _______ _

    largura da classe

    As alturas resultantes dos retngulos normalmente so denominadas densidades e a es-cala vertical a escala de densidade. Essa recomendao tambm funcionar quando as larguras das classes forem iguais.

    {a) I I I I I I I I I I ~~~ln r ... , ... ~ .. , ... , I I I I I {b)

    I ....... r ...... Ju I I {c) I I I I I lu ui ~~~I r ... , ... I I I

    Figura 1.10 Seleo de mtervalos de classe para pontos "estendtdos" (a) mUitos mtervalos estre,tos de mesma largua, b) poucos tl"terva os ma,) amplos, (c) l'ltervalos de larguras dtfere'ltes

    Exemplo 1 11

    A corroso das barras de ao da armao um problema srio em estruturas de concreto localizadas em ambien-tes afetados por condies climticas extremas. Por esse motivo, os pesquisadores tm investigado a utHizao de barras de reforo feitas de material composto. Um estudo foi executado para desenvolver diretrizes sobre a aderncia de barras plsticas reforadas com fibra de vidro ao concreto ("Design Recornmendations for Bond of GFRP Rebars to Concrete," J. of Structural Engr., 1996, p. 247-254). Considere as 48 observaes da resistn-cia da aderncia medida:

    11 ,5 12,1 9,9 9,3 7,8 6,2 6,6 7,0 13,4 17,1 9,3 5,6 5,7 5,4 5,2 5,1 4,9 10,7 15,2 8,5 4,2 4,0 3,9 3,8 3,6 3,4 20,6 25,5 13,8 12,6 13,1 8,9 8,2 10,7 14,2 7,6. 5,2 5,5 5,1 5,0 5,2 4,8 4,1 3,8 3,7 3,6 3,6 3,6

    Classe 2-< 4 4-

  • 18 Probabilidade e Estatlstica - Editora Thomson

    0.15 - ;-

    j 0.10 ..

    -,--

    ~005 - -f--

    0.00 -2 4 6 8 12

    Resislnaa

    I 20 30

    Figura 1.11 Um histograma de denstdade em MINITAB dos dados de resistncta aderneta do Exemplo 1 1 1

    Quando as larguras de classe so diferentes, deixar de usar uma escala de densidade gera um grfico com reas distorcidas. Para classes de larguras iguais, o divisor o mesmo em cada clculo de densidade e o clculo adicional simplesmente uma nova escala do eixo vertical (ou seja, os histogramas que usam freqncia rela-tiva e os que usam densidade tero exatamente a mesma aparncia). Um histograma de densidade possui uma propriedade interessante. Ao multiplicar os dois lados da frmula pela largura da classe, teremos

    freqncia relativa = (largura da classe)(densidade) = (largura do retngulo)(altura do retngulo) = rea do retngulo

    Isto , a rea de cada retngulo a freqncia relativa da classe correspondente. Alm disso, como a soma das freqncias relativas deve ser 1,0 (exceto por arredondamento), a rea total de todos os retngulos em um histograma de densidade 1. Sempre possvel desenhar um histograma de forma que a rea seja igual fre-qncia relativa (isso tambm verdade para um histograma de dados discretos) . s usar a escala de densi-dade. Essa propriedade ter um papel importante na criao de modelos de distribuies no Captulo 4.

    Formatos de histogramas Os histogramas podem ter diversos formatos. Um histograma unimodal aquele que possui um aclive para um nico pico e depois um declive. Um histograma bimodal possui dois picos diferentes. A bimodalidade pode ocorrer quando o conjunto de dados consistir em observaes sobre dois tipos bastante diferentes de indivduos ou objetos. Por exemplo: considere um grande conjunto de dados formado por tempos de viagem de automveis entre San Luis Obispo, Califrnia, e Monterey, Califrnia (excluindo tempo de parada para apreciar a vista, comer etc.). Esse histograma mostraria dois picos: um para os carros que tomaram a rota do interior (cerca de 2,5 horas) e outro para os carros que foram pelo litoral (3,5-4 horas). A bimodalidade, entretanto, no acontece automaticamente nessas situaes. A bimodalidade ocorrer no histograma de dados combinados somente se os dois histogramas separados estiverem "distantes" em relao s suas disperses. Assim, um grande conjunto de dados consistindo em alturas de alunos de faculdades no deve resultar em um histograma bimodal porque a al-tura tpica dos homens, cerca de 69 polegadas, no est suficientemente distante da altura tpica das mulheres, cerca de 64-65 polegadas. Um histograma com mais de dois picos denominado multimodal. Claro que o nmero de picos pode depender da escolha dos intervalos de classe, particularmente com um pequeno nmero de observaes. Quanto maior o nmero de classes, maior a probabilidade de a bimodalidade ou de a multi-modalidade se manifestar.

    Um histograma simtrico se a metade esquerda for uma imagem refletida da metade direita. Um histograma unimodal tem inclinao positiva se a cauda direita ou superior for estendida em comparao cauda esquerda ou inferior e inclinao negativa desviar-se para a esquerda. A Figura 1.12 exibe histogramas "ajustados", obtidos pela sobreposio de uma curva ajustada sobre os retngulos, que ilustram as diversas possibilidades.

  • Viso Gerol e Estotstico Descritivo - Joy L Devore 19

    (a) (b) (c) (d)

    Figura 1.12 Hrstogramas ajustados (a) unrmodal Slll'tnco, (b) btModal, (c) desvro postttvo, \d) deSVIO negatiVO

    Dados qualitativos Tanto uma distribuio de freqncia como um histograma podem ser construdos quando o conjunto de dados for de natureza qualitativa (categorizada). Em alguns casos, haver uma organizao natural das classes, por exemplo: calouros, segundanistas, terceiranistas, formandos e graduados, enquanto em outros casos a organiza-o ser arbitrria, por exemplo: catlicos, judeus, protestantes e assim por diante. Com esses dados categori-zados, os intervalos sobre os quais os retngulos sero construdos devem ter a mesma largura.

    Exemplo 1.12

    Cada membro de uma amostra de 120 indivduos proprietrios de motocicletas foi indagado sobre a marca de sua moto. A distribuio de freqncia dos dados resultantes fornecida na Tabela 1.2 e o histograma exibido na Figura 1.13.

    Tabela 1.2 DstPbUI;'\O de frequncia dos dados de mntoccletns Fabricante

    1. Honda 2. Yamaha 3. Kawasaki 4. Harley-Davidson 5. BMW 6. Outro

    0,34

    Freqncia

    41 27 20 18 3

    11 120

    ( I ) (2) (3) (4) (5) (6)

    Figura 1.13 H1stograJT1a aos dados de motoctdetas

    Dados Multivariados

    Freqncia Relativa

    0,34 0,23 0,17 0,15 0,03 0,09 1,01

    As tcnicas apresentadas at agora referem-se exclusivamente a situaes em que cada observao de um conjunto de dados um nico nmero ou uma nica categoria. Os dados, entretanto, freqentemente so de natureza multi-variada. Isto , se obtivermos uma amostra de indivduos ou objetos e em cada um tivermos duas ou mais medidas, cada "observao" consistir em diversas medidas de um indivduo ou objeto. A amostra bivariada se cada obser-vao consistir em duas medidas ou respostas, de forma que o conjunto de dados possa ser representado como (x1, y), ... , (xn, yJ Por exemplo: x pode se referir ao tamanho do motor e y ao seu deslocamento; ou x pode se referir marca da calculadora de um formando e y sua formao acadmica. Nos captulos 11-14, analisaremos con-juntos de dados multivariados desse tipo; assim, adiaremos uma discusso mais detalhada at l.

  • 20 Probabilidade e Estatstica - Editora Thomson

    Exerccios I Seo 1.2 ( 1 0-32) 10. Considere os dados de resistncia de vigas fornecidos

    no Exemplo 1.2. a. Construa um diagrama de caule e folha dos dados. O

    que parece ser um valor de resistncia representa-tivo? As observaes parecem estar concentradas ao redor do valor representativo ou dispersas?

    b. O diagrama parece razoavelmente simtrico ao redor de um valor representativo ou seu formato pode ser descrito de outra forma?

    c. Parece haver valores aberrantes de resistncia? d. Que proporo de observaes de resistncia dessa

    amostra excedem 10 MPa? 11. Cada pontuao do conjunto de notas de um exame a

    seguir est nas dezenas 60, 70, 80 ou 90. Um diagrama de caule e folha com apenas os quatro caules 6, 7, 8 e 9 no forneceria uma descrio muito detalhada da dis-tribuio das pontuaes. Nessas situaes, desejvel usarmos caules repetidos. Aqui podemos repetir o caule 6 duas vezes, usando 6L para pontuaes na parte infe-rior da dezena dos 60 (folhas O, 1, 2, 3 e 4) e 6H para as pontuaes na parte superior da dezena dos 60 (folhas 5, 6, 7, 8 e 9). De forma sirrular, os outros caules podem ser repetidos duas vezes para obtermos um diagrama consistindo em oito linhas. Construa esse diagrama pa-ra as pontuaes fornecidas. Que caracterstica dos dados realada por ele?

    74 89 80 93 64 67 72 70 66 85 89 81 81 71 74 82 85 63 72 81 81 95 84 81 80 70 69 66 60 83 85 98 84 68 90 82 69 72 87 88

    12. Os dados anexos de densidade para diversos tipos de madeira usados em construo foram relatados no ar-tigo "Bolted Connection Design Values Based on Euro-pean Yield Model" (1. of Structural Engr., 1993, p. 2169-2 186): 0,31 0,35 0,36 0,36 0,37 0,38 0,40 0,40 0,40 0,41 0,41 0,42 0,42 0,42 0,42 0,42 0,43 0,44 0,45 0,46 0,46 0,47 0,48 0,48 0,48 0,51 0,54 0,54 0,55 0,58 0,62 0,66 0,66 0,67 0,68 0,75

    Construa um ruagrama de caule e folha usando caules repetidos (veja o exerccio anterior) e comente suas ca-ractersticas interessantes.

    13. As propriedades mecllicas permissveis para projetos estruturais de veculos aeroespaciais metlicos exigem um mtodo aprovado para anlise estatstica de dados de testes empricos. O artigo "Establishing Mechanical Property Allowables for Metais" (J. of Testing and Evaluation, 1998, p. 293-299) usou os dados sobre re-sistncia trao (ksi) como base para definir as difi-culdades de desenvolvimento do mtodo.

    122,2 124,2 124,3 125,6 126,3 126,5 126,5 127,2 127,3 1m1m1~1~tm1m1~1m1~ 130,4 130,8 131,3 131,4 131,4 131 ,5 131 ,6 131,6 131 ,8 131 ,8 132,3 132,4 132,4 132,5 132,5 132,5 132,5 132,6 132,7 132,9 133,0 133,1 133,1 133, I 133,1 133,2 133,2 133,2 133,3 133,3 133,5 133,5 133,5 133,8 133,9 134,0 134,0 134,0 134,0 134,1 134,2 134,3 134,4 134,4 134,6 134,7 134,7 134,7 134,8 134,8 134,8 134,9 134,9 135,2 135,2 135,2 135,3 135,3 135,4 135,5 135,5 135,6 135,6 135,7 135,8 135,8 135,8 135,8 135,8 135,9 135,9 135,9 135,9 136,0 136,0 136,1 136,2 136,2 136,3 136,4 136,4 136,6 136,8 136,9 136,9 137,0 137,1 137,2 137,6 137,6 137,8 137,8 137,8 137,9 137,9 138,2 138,2 138,3 138,3 138,4 138,4 138,4 138,5 138,5 138,6 138,7 138,7 139,0 139,1 139,5 139,6 139,8 139,8 140,0 140,0 140,7 140,7 140,9 140,9 141,2 141,4 141 ,5 141 ,6 142,9 143,4 143,5 143,6 143,8 143,8 143,9 144,1 144,5 144,5 147,7 147,7

    a. Construa um diagrama de caule e folha dos dados excluindo (truncando) inicialmente os dgitos deci-mais e depois repetindo cada caule cinco vezes (uma vez para as folhas 1 e 2, uma segunda vez para as folhas 3 e 4 etc.). Por que relativamente fci l iden-tificar um valor de resistncia representativo?

    b. Construa um histograma usando classes de mesma largura em que a primeira classe possua um limite inferior a 122 e um limite superior a 124. Comente, ento, caractersticas interessantes do histograma.

    14. O conjunto de dados a seguir consiste de observaes da vazo de chuveiros (Umin) de uma amostra de n = 129 lares em Perth, Austrlia ("An Application o f Bayes Methodology to the Analysis of Diary Records in a Wa-ter Use Study", J. Amer. Stat. Assoe., 1987, p. 705-711):

    4,6 12,3 7,1 7,0 4,0 9,2 6,7 6,9 11,5 5,1 11 ,2 10,5 14,3 8,0 8,8 6,4 5,1 5,6 9,6 7,5 7,5 6,2 5,8 2,3 3,4 10,4 9,8 6,6 3,7 6,4 8,3 6,5 7,6 9,3 9,2 7,3 5,0 6,3 13,8 6,2 5,4 4,8 7,5 6,0 6,9 10,8 7,5 6,6 5,0 3,3 7,6 3,9 11,9 2,2 15,0 7,2 6,1 15,3 18,9 7,2 5,4 5.5 4,3 9,0 12.7 11 ,3 7,4 5,0 3,5 8,2 8,4 7,3 10,3 11 ,9 6,0 5,6 9,5 9,3 10,4 9,7 5,1 6,7 10,2 6,2 8,4 7,0 4,8 5,6 10,5 14,6

    10,8 15,5 7,5 6,4 3,4 5,5 6,6 5,9 15,0 9,6 7,8 7,0 6,9 4,1 3,6 11 ,9 3,7 5,7 6,8 11 ,3 9,3 9,6 10,4 9,3 6,9 9,8 9,1 10,6 4,5 6.2 8,3 3,2 4,9 5,0 6,0 8,2 6,3 3,8 6,0

    a. Construa um diagrama de caule e folha dos dados. b. Qual taxa considerada vazo pica ou represen-

    tativa? c. O diagrama parece ser concentrado ou disperso?

  • d. A distribuio dos valores parece razoavelmente si-mtrica? Em caso negativo, como voc descreveria o desvio da simetria?

    e. Voc descreveria alguma observao como distante do resto dos dados (um outlier)?

    15. Um artigo da Consumer Reports sobre pasta de amen-doim (setembro de 1990) relatou as seguintes pontua-es para diversas marcas:

    Cremosa 56 44 62 36 39 53 50 65 45 40 56 68 41 30 40 50 56 30 22

    Crocante 62 53 75 42 47 40 34 62 52 50 34 42 36 75 80 47 56 62

    Construa um diagrama de caule e folha comparativo, relacionando caules na parte central da pgina e, ento, exibindo as folhas de cremosa direita e as de crocante esquerda. Descreva semelhanas e diferenas para os dois tipos.

    16. O artigo citado no Exemplo 1.2 tambm fornece as in-formaes de resistncia de corpos de prova a seguir:

    6,1 5,8 7,8 7,1 7,2 9,2 6,6 8,3 7,0 8,3 7,8 8,1 7,4 8,5 8,9 9,8 9,7 14,1 12,6 11 ,2

    a. Construa um diagrama de caule e folha comparativo (veja o exerccio anterior) dos dados de vigas e ci-lindros e, ento, responda s questes nas partes (b)-(d) do Exerccio 10 para as observaes sobre os corpos de prova.

    b. De que formas os dois lados do diagrama so simi-lares? H diferenas bvias entre as observaes so-bre vigas e corpos de prova?

    c. Construa um grfico de pontos com os dados dos corpos de prova.

    17. Os transdutores de temperatura de um determinado tipo so enviados em lotes de 50. Uma amostra de 60 lotes foi selecionada e o nmero de transdutores fora das es-pecificaes em cada lote foi determinado, resultando nos dados a seguir:

    21240132053 3132 47023 04213113412 3228 45131 5023210642 603336 23

    a. Determine as freqncias e freqncias relativas dos valores observados de x = nmero de transdutores fora das especificaes em um lote.

    b. Que proporo de lotes na amostra possui no m-ximo cinco transdutores fora das especificaes? Que proporo tem menos de cinco? Que pro-poro possui no mnimo cinco unidades fora das especificaes?

    c. Desenhe um histograma dos dados, usando a freqncia relativa na escala vertical e comente suas caractersticas.

    18. Em um estudo de produtividade literria ("Lotka's Test,'' Collection Mgmt., 1982, p. 111-118), um grande

    Viso Gerol e Estotstica Descrihvo - Jay L. Devore 21

    nmero de autores foi classificado de acordo com o n-mero de artigos que tinham publicado durante certo perodo. Os resultados foram apresentados na dis-tribuio de freqncia a seguir:

    Nmero de artigos Freqncia

    Nmero de artigos Freqncia

    I 2 34 5678 784 204 127 50 33 28 19 19

    9 10 6 7

    11 12 6 7

    13 14 15 16 17 4 4 5 3 3

    a. Construa um histograma correspondente a essa dis-tribuio de freqncia. Qual a caracterstica mais interessante do formato da distribuio?

    b. Que proporo desses autores publicou no mnimo cinco artigos? No mnimo 10 artigos? Mais de 10 artigos?

    c. Suponha que os cinco que publicaram 15 artigos, os trs que publicaram 16 e os trs que publicaram 17 tenham sido agrupados em uma nica categoria exi-bida como "2:: 15." Voc pode construir um his-tograma? Explique.

    d. Suponha que, em vez dos valores 15, 16 e 17 rela-cionados separadamente, eles tenham sido combina-dos em uma categoria 15-17 com freqncia 11. Voc pode construir um histograma? Explique.

    19. O nmero de partculas de contaminao de uma pastilha de sicio antes de certo processo de limpeza foi determinado para cada pastHha em uma amostra de tamanho 100, resultando nas freqncias a seguir:

    Nmero de partculas o 2 3 4 5 6 7 Freqncia 2 3 12 ll 15 18 10

    Nmero de partculas 8 9 10 11 12 13 14 Freqncia 12 4 5 3 2

    a. Que proporo das pastilhas da amostra tinha ao menos uma partcula? Ao menos cinco partculas?

    b. Que proporo das pastilhas da amostra tinha entre cinco e 10 (inclusive) partculas? Estritamente en-tre cinco e 10 partculas?

    c. Desenhe um histograma usando a freqncia rela-tiva no eixo vertical. Como voc descreveria o for-mato do histograma?

    20. O artigo "Determination o f Most Representative Subdi-vision" (J. of Energy Engr., 1993, p. 43-55) forneceu dados sobre diversas caractersticas de subdivises que podiam ser usadas na deciso de fornecimento de ener-gia via linhas subterrneas ou areas. Seguem os va-lores da varivel x = comprimento total das ruas dentro de uma subdiviso:

  • 22 Probabilidade e Estatstica - Editora Thomson

    1280 5320 4390 2100 1240 3060 4770 1050 360 3330 3380 340 1000 960 1320 530 3350 540 3870 1250 2400 960 1120 2120 450 2250 2320 2400

    3150 5700 5220 500 1850 2460 5850 2700 2730 1670 100 5770 3150 1890 510 240 396 1419 2109

    a. Construa um diagrama de caule e folha, usando o digito de milhares como caule e o de centenas como folha, e comente suas caractersticas.

    b. Construa um histograma, usando limites de classe de O, 1000, 2000, 3000, 4000, 5000 e 6000. Que pro-poro de subdivises possui comprimento total infe-rior a 2000? Entre 2000 e 4000? Como voc des-creveria o formato do histograma?

    21. O artigo citado no Exerccio 20 tambm forneceu os seguintes valores das variveis y = nmeros de culs-de-sac e z = nmero de intersees:

    yl o 100 2011121 o o 11 o 11 z 1 8 611 53 o o 4 4 o o 121 4 04

    y ll00011201221 z03011 01324660

    y150301100 z052310003

    o 2 1 o 8 3 3 5

    a. Construa um histograma dos dados de y . Que pro-poro dessas subdivises no possuam culs-de-sac? Ao menos um cul-de-sac?

    b. Construa um histograma para os dados z. Que pro-poro dessas subdivises tm no mximo cinco in-tersees? Menos de cinco intersees?

    H stnqramo do Exerctcto 22

    Freqncia

    200

    150

    100

    50

    22.) Como varia a velocidade de um corredor no curso de uma maratona (uma distncia de 42,195 km)? Con-sidere a determinao do tempo de corrida dos cinco primeiros quilmetros e o tempo de corrida entre os pontos dos kms 35 e 40; subtraia o primeiro tempo do ltimo. Um valor positivo dessa diferena corresponde a um corredor que dinnui seu ritmo no final da corri-da. O histograma a seguir se baseia nos tempos de corredores que participaram de diversas maratonas diferentes no Japo ("Factors Affecting Runners ' Mara-thon Performance", Chance, Fali, 1993, p. 24-30). Que caractersticas so interessantes nesse histograma? Qual um valor tpico da diferena? Grosso modo, que proporo dos maratonistas correu a ltima etapa mais rpido que a primeira?

    23 Em um estudo de quebras de urdidura durante a tece- !agem de tecidos (Technometrics, 1982, p. 63), 100

    amostras de fios foram testadas. O nmero de ciclos de esforo para quebra foi determinado para cada amostra de fio, resultando nos dados a seguir:

    86 146 251 653 98 249 400 292 131 169 175 176 76 264 15 364 195 262 88 264 157 220 42 321 180 198 38 20 61 121 282 224 149 180 325 250 196 90 229 166 38 337 65 151 341 40 40 135 597 246

    211 180 93 315 353 571 124 279 81 186 497 182 423 185 229 400 338 290 398 71 246 185 188 568 55 55 61 244 20 284 393 396 203 829 239 236 286 194 277 143 198 264 105 203 124 137 135 350 193 188 a. Construa um histograma de freqncia relativa com

    base nos intervalos de classe 0-< 100, 100-< 200, ... e comente as caractersticas do histograma.

    - 100 o 100 200 300 400 500 600 700 800 Diferena de tempo

  • b. Construa um histograma com base nos seguintes in-tervalos de classe: 0-< 50, 50-< I 00, I 00-< 150, 150-< 200, 200-< 300, 300-< 400, 400-< 500, 500-< 600 e 600-< 900.

    c. Se as especificaes de tecelagem exigem um es-foro de quebra de ao menos 100 ciclos, que pro-poro das amostras de fio dessa amostra deve ser considerada satisfatria?

    24. O conjunto de dados anexo consiste em observaes da resistncia de corte (lb) de soldas de ponto ultrassnicas feitas sobre um determinado tipo de chapa de Alclad. Construa um histograma de freqncia relativa com base em 10 classes de mesma largura com limites 4000, 4200, .... [O histograma coincide com o mostrado em "Comparison of Properties o f Joints Prepared by Ultra-some Welding and Other Means" (J. of Aircraft, 1983, p. 552-556).] Comente as caractersticas.

    5434 4948 4521 4570 4990 5702 5241 5112 5015 4659 4806 4637 5670 4381 4820 5043 4886 4599 5288 5299 4848 5378 5260 5055 5828 5218 4859 4780 5027 5008 4609 4772 5133 5095 4618 4848 5089 5518 5333 5164 5342 5069 4755 4925 5001 4803 4951 5679 5256 5207 5621 4918 5138 4786 4500 5461 5049 4974 4592 4173 5296 4965 5170 4740 5173 4568 5653 5078 4900 4968 5248 5245 4723 5275 5419 5205 4452 5227 5555 5388 5498 4681 5076 4774 4931 4493 5309 5582 4308 4823 4417 5364 5640 5069 5188 5764 5273 5042 5189 4986

    25. A transformao de valores de dados por meio de uma funo matemtica, como Yx ou 1/x, normalmente re-sulta em um conjunto de nmeros com "melhores" pro-priedades estatsticas do que os dados originais. Em particular, possvel encontrar uma funo para a qual o histograma dos valores transformados seja mais simtrico (ou, melhor ainda, mais prximo de uma curva normal) do que os dados originais. Como exem-plo, o artigo "Time Lapse Cinematographic Analysis of BerylliumLung Fibroblast lnteractions" (Environ. Re-search, 1983, p. 34-43) relatou os resultados de experi-mentos projetados para estudar o comportamento de al-gumas clulas que foram expostas ao berlio. Uma caracterstica importante de tal clula individual seu tempo de interdiviso (IDT). Os IDTs foram determi-nados para um grande nmero de clulas em condies de exposio (tratamento) e no-exposio (controle). Os autores do artigo usaram uma transformao loga-rtmica, isto , valor transformado = log (valor origi-nal). Considere os seguintes dados representativos de IDT:

    Viso Geral e Estatstico Descritivo - joy L. Devore 23

    IDT log10(IDT) IDT log10(IDT) IDT log10(IDT) 28,1 1,45 60,1 1,78 21,0 1,32 31 ,2 1,49 23,7 1,37 22,3 1,35 13,7 1,14 18,6 1,27 15,5 1,19 46,0 1,66 21,4 1,33 36,3 1,56 25,8 1,41 26,6 1,42 19,1 1,28 16,8 1,23 26,2 1,42 38,4 1,58 34,8 1,54 32,0 1,51 72,8 1,86 62,3 1,79 43,5 1,64 48,9 1,69 28,0 1,45 17,4 1,24 21 ,4 1,33 17,9 1,25 38,8 1,59 20,7 1,32 19,5 1,29 30,6 1,49 57,3 1,76 21 '1 1,32 55,6 1,75 40,9 1,61 31 ,9 1,50 25,5 I ,41 28,9 1,46 52,1 1,72

    Use os intervalos de classes 10-< 20, 20-< 30 .... para construir um histograma dos dados originais. Use os in-tervalos 1, 1-< I ,2, 1 ,2-< I ,3, ... para fazer o mesmo para os dados transformados. Qual o efeito da trans-formao?

    26. O ndice de cu claro foi determinado para o cu de Bagd, compreendendo cada um dos 365 dias de um dado ano ("Contribution to the Study of the Solar Ra-diation Climate of the Baghdad Environment", Solar Energy, 1990, p. 7-12). A tabela a seguir fornece os resultados.

    Classe Freqncia

    0,15-< 0,25 8 0,25-

  • 24 Probabilidade e Estatsttca - Editora Thomson

    li 14 59 61 81 84

    105 105 161 168

    20 23 31 65 67 68 85 89 91

    112 118 123 184 206 248

    36 39 44 47 50 71 74 76 78 79 93 96 99 101 104

    136 139 141 148 158 263 289 322 388 513

    a. Por que uma distribuio de freqncia no pode ter por base os intervalos de classe 0-50, 50-100, 100-150 e assim por diante?

    b. Construa uma distribuio de freqncia e um his-tograma dos dados usando limites de classes O, 50, 100, ... e ento faa comentrios sobre as caracters-ticas interessantes.

    c. Construa uma distribuio de freqncia e um his-tograma dos logaritmos naturais relacionados s observaes de vida til e comente as caractersti-cas interessantes.

    d. Que proporo das observaes de vida til dessa amostra inferior a 100? Que proporo das obser-vaes igual ou maior que 200?

    28. Construa um grfico de pontos para a srie de dados anexa. Os dados so mensais e foram obtidos durante o perodo de 1985-1989. Cada valor a radiao solar mdia na faixa 385-530 nm como porcentagem da radiao total ("Global Energy in the Different Spectral Bands at Dhahran, Saudi Arabia," J. Solar Energy Engr., 1991 , p. 290-294). Comente sobre algumas caractersticas interessantes dos dados.

    20,9 19,6 20,4 20,3 20,8 20,6 20,5 20,4 19,9 19,8 19,5 20,2 16,5 18,3 18,7 19,6 20,0 20,0 19,5 19,6 19,1 18,8 18,3 17,6 17,2 17,8 18,7 19,0 19,0 18,6 18,8 19,0 18,5 18,3 17,5 16,9 17,0 17,8 18,1 18,8 18,9 18,9 19,1 18,8 18,4 17,8 17,0 16,8 17,9 18,4 19,0 19,4 19,7 19,5 19,5 19,5 19,0 18,7 18,1 17,9

    29. Considere os dados a seguir sobre os tipos de queixas de sade (J = inflamao de articulaes, F = fadiga, B = dor nas costas, M = fadiga muscular, C = tosse, N = irritao nasal/coriza, O = outros) feitas por agricultores. Obtenha as freqncias e as freqncias relativas das diversas categorias e desenhe um his-tograma. (Os dados so consistentes com as porcenta-gens fornecidas no artigo "Physiological Effects of Work Stress and Pesticide Exposure in Tree Planting by British Columbia Silviculture Workers," Ergonomics, 1993, p. 951-961.)

    OONJCFBB OFFOONON JOJJFNOB OFJOOBNC J O F N

    F O 1 O O M J F J B O C M O J M O B OOOMBF

    30. Um Diagrama de Pareto uma variao de um his-tograma para dados categorizados resultantes de um es-tudo de controle de qualidade. Cada categoria representa um tipo diferente de no-conformidade de produto ou problema de produo. As categorias so ordenadas de forma que aquela com maior freqncia seja eJtibida na extremidade esquerda, seguida pela categoria com a se-gunda maior freqncia e assim por diante. Suponha que as informaes a seguir tenham sido obtidas sobre no-conformidades em pacotes de circuitos: componentes com falha, 126; componentes incorretos, 210; soldas in-suficientes, 67; soldas em excesso, 54; falta de compo-nentes, 131. Construa um Diagrama de Pareto.

    31. A freqncia acumulada e a freqncia relativa acu-mulada de um determinado intervalo de classe so a soma das freqncias e freqncias relativas, respecti-vamente, desse intervalo e de todos os intervalos abaixo dele. Se, por exemplo, houver quatro intervalos com freqncias 9, 16, 13 e 12, as freqncias acumuladas sero 9, 25 , 38 e 50 e as freqncias relativas acumu-ladas sero 0,18, 0,50, 0,76 e 1,00. Calcule as freqn-cias acumuladas e as freqncias relativas acumuladas para os dados do Exercfcio 24.

    32. Uma carga de incndio (MJ/m2) a energia trmica que pode ser liberada por metro quadrado de rea de piso pela combusto de seu contedo e da estrutura em si. O artigo "Fire Loads in Office Buildings" (J. of Structural Engr. , 1997, p . 365-368) forneceu as seguintes porcen-tagens acumuladas (lidas de um grfico) relativas a car-gas de incndio em uma amostra de 388 salas:

    Valor o 150 300 450 600 % Acumulada o 19,3 37,6 62,7 77,5 Valor 750 900 1050 1200 1350 %Acumulada 87,2 93,8 95,7 98,6 99,1 Valor 1500 1650 1800 1950 % Acumulada 99,5 99,6 99,8 100,0 a. Construa um histograma de freqncia relativa e co-

    mente as caractersticas interessantes. b. Que proporo das cargas de incndio inferior a

    600? Maior ou igual a 1200? c. Que proporo das cargas est entre 600 e 1200?

    1.3 I Medidas de localizao Os resumos visuais de dados so excelentes ferramentas para obter impresses e idias iniciais. Uma anJise mais formal de dados freqentemente exige o clculo e a interpretao de medidas-resumo numricas simples. Isto , a partir dos dados, tentamos extrair diversos nmeros simples, que servem para caracterizar o conjunto de

  • Viso Geral e Estatstica Descritiva - jay L. Devore 25

    dados e indicar algumas informaes considerveis. Nossa preocupao principal ser com os dados numricos. Alguns comentrios sobre dados categorizados sero apresentados no final da seo.

    Suponha, ento, que nosso conjunto de dados do formato x 1, x2, ... , X 11 , onde cada x, um nmero. Que caractersticas de tal conjunto de nmeros so de maior interesse e merecem nfase? Uma caracterstica impor-tante de um conjunto de nmeros sua localizao e, em particular, seu centro. Esta seo apresenta mtodos de descrio da localizao de um conjunto de dados. Na Seo 1.4, apresentaremos os mtodos de medida da dis-perso de um conjunto de nmeros.

    A mdia Para um determinado conjunto de nmeros xl' x2, ... , xn, a medida mais familiar e til do centro a mdia do con-junto. Como quase sempre temos os vrios x; constituindo uma amostra, freqentemente chamaremos a mdia aritmtica de mdia amostrai e a representaremos por i .

    DEFINIO A mdia amostra] x das observaes x1, x2, ... , xn' dada por n

    L X, x +x + .. +x __ '='

    X = -

  • 26 Probabilidade e Estatfstlca - Editora Thomson

    Sendo 2:-x. = 444,8, a mdia amostral I

    i = 4448 = 21 18 21 '

    um valor consistente com as informaes ilustradas pelo diagrama de caule e folha.

    Uma interpretao fsica de i demonstra como ela mede a localizao (centro) de uma amostra. Imagine desenhar e definir a escala em um eixo horizontal e depois represente cada observao da amostra por um peso de uma libra colocado no ponto correspondente no eixo. O nico ponto em que pode ser colocado um apoio para equmbrar o sistema de pesos o correspondente ao valor de x (veja a Figura 1.15).

    Da mesma forma que i representa o valor mdio das observaes de uma amostra, a mdia de todos os va-lores da populao pode ser calculada. Essa mdia denominada mdia da populao e representada pela letra grega J.L. Quando houver N valores na populao (uma populao finita), J.L = (somatria dos N valores da populao)/N. Nos captulos 3 e 4, forneceremos uma definio mais geral de JJ- que se aplica a populaes fini-tas e (conceitualmente) infinitas. Da mesma forma que x uma medida de localizao de amostra importante e interessante, J.L uma caracterstica interessante e importante (freqentemente a mais importante) de uma popu-lao. Nos captulos sobre inferncia estatstica, apresentaremos mtodos com base na mdia amostral para obteno de concluses sobre a mdia de uma populao. Por exemplo: podemos usar a mdia amostral i = 21,18 calculada no Exemplo 1.13 como uma estimativa de ponto (um nico nmero que o "melhor" palpite) de J.L , o comprimento mdio verdadeiro de todas as amostras tratadas como descrito.

    A mdia sofre de uma deficincia que a toma uma medida de centro inadequada sob algumas circunstn-cias: seu valor pode ser bastante afetado pela presena de um nico outlier (uma observao incomumente grande ou pequena). No Exemplo 1.13, o valor x 14 = 45,0 obviamente um outlier. Sem esta observao, i = 399,8/20 = 19,99, o outlier aumenta a mdia em mais de 1 J.Lm. Se a observao 45,0 J.Lm fosse substituda pelo valor catastrfico de 295,0 J.Lm, um outlier realmente extremo, ento x = 694,8/21 = 33,09, que maior que todas as observaes, exceto uma.

    Uma amostra de salrios normalmente produz alguns poucos valores aberrantes (dos sortudos que possuem um salrio astronmico) e o uso do salrio mdio como medida de localizao freqentemente ser ilusrio. Esses exemplos sugerem que procuremos uma medida menos sensvel a valores fora da faixa que x, assim, pro-poremos uma momentaneamente. Entretanto, apesar de i ter essa falha potencial, ela ainda a medida mais usada, em grande parte porque h muitas populaes para as quais um outlier extremo na amostra seria altamente im-provvel. Ao obter uma amostra de uma tal populao (a populao normal ou em forma de sino, o exemplo mais importante), a mdia amostral tender a ser estvel e muito representativa.

    A mediana

    ...... 1 lO

    x =2t, ts ~

    . 11 ...... 20

    . . " + 30 40

    Figura 1.15 A md a como ponto de equ 11bno de um SIStema de pesos

    A palavra mediana sinnimo de "metade" e a mediana amostral o valor do meio quando as observaes so ordenadas da menor para a maior. Quando as observaes estiverem representadas por x,, ... , xn, usaremos o sm-bolo i para representar a mediana amostra!.

  • DEFINIO

    Exemplo 1.14

    Viso Gerol e Estotstico Descritivo - Joy L. Devore 27

    A mediana amostrai obtida pela ordenao das n observaes da menor para a maior (com os valores repetidos includos, de forma que cada observao da amostra seja exibida na lista ordenada). Assim,

    O nico valor mdio se n for mpar

    = ( n ; 1 ) ensimo valor ordenado i= A mdia

    dos dois valores = mdia dos valores ordenados (~) e (~ + 1) mdios se n for par

    O risco de desenvolvimento de deficincia de ferro especialmente alto durante a gravidez. O problema na de-teco dessa deficincia que alguns mtodos de determinao de nvel de ferro podem ser afetados pelo prprio estado de gravidez. Considere os dados a seguir sobre a concentrao do receptor de transferrina de uma amostra de mulheres com evidncias laboratoriais de uma visvel anemia por deficincia de ferro ("Serum Transferrin Receptor for the Detection o f Iron Deficiency in Pregnancy," Ame r. J. of Clinicai Nutrition, 1991: p. 1077-1081):

    x, = 15,2 x1 = 20,4

    A lista dos valores ordenados

    x4 = 11,9 x,o = 16,2

    x5 = 10,4 x,, = 9,4

    7,6 8,3 9,3 9,4 9,4 9',7 10,4 11 ,5 11 ,9 15,2 16,2 20,4

    Corno n = 12 par, tiramos a mdia n/2 =do sexto e stimo valores ordenados:

    ed. trai 97 + l0,4 10 05 m 1ana amos = = 2 .

    Observe que, se a maior observao, 20,4, no tivesse aparecido na amostra, a mediana amostrai resultante para as n = 11 observaes teria sido o nico valor mdio, 9,7 (o (n + 1)/2 = sexto valor ordenado). A mdia amostrai i= "ix/n = 139,3/12 = 11,61, que um pouco maior que a mediana, por causa dos outliers, 15,2, 16,2 e 20,4.

    Os dados do Exemplo 1.14 ilustram uma propriedade importante de i em comparao com i: a mediana amostrai muito insensvel a muitos valores extremamente pequenos ou extremamente grandes. Se, por exem-plo, aumentssemos os dois maiores x; de 16,2 e 20,4 para 26,2 e 30,4, respectivamente, i no seria afetado. Dessa forma, no tratamento de valores de dados fora da faixa, i ei so extremidades opostas de um espectro: i sensvel mesmo a um nico valor, enquanto i insensvel a um grande nmero de valores fora da faixa.

    Como os valores grandes na amostra do Exemplo 1.14 afetam i mais que i, i < i para esses dados. Ape-sar de i e i fornecerem uma medida para o centro da amostra em um conjunto de dados, eles em geral no sero iguais, porque enfocam diferentes aspectos da amostra.

    De forma anloga, i como valor mdio na amostra o valor mdio da populao, a mediana da po-pulao, representada por 'jL. Como acontece com i e J.4 podemos considerar o uso da mediana amostrai i para fazer inferncias de 'jL. No Exemplo 1.14, podemos usar i = 10,05 como estimativa da concentrao da media-na em toda a populao a partir da qual a amostra foi selecionada. Uma mediana normalmente usada para descrever dados de salrios ou rendimentos (porque ela no influenciada por alguns grandes salrios). Se a

  • 28 Probabilidade e EstatstiCa - Ed1tora Thomson

    mediana de uma amostra dos salrios de engenheiros fossex = $66.416, poderamos us-la como base para con-cluir que o salrio mediano dos engenheiros excede $ 60.000.

    A mdia da populao J.L e a mediana 'jJ., normalmente no sero idnticas. Se a distribuio da populao tiver desvio positivo ou negativo, conforme ilustrado na Figura 1.16, ento J.L i= 'jJ.,. Quando esse for o caso, ao fazer inferncias, devemos primeiro decidir quais caractersticas das populaes so de maior interesse e ento proceder de acordo.

    p.ji. p. = J. ji.p. (a) Inclinao negativa (b) Simtrica (c) Inclinao positiva

    Figura 1.16 Trs formatos drferentes para uma d1stnbU1ao de populaao

    Outras medidas de localizao Quartis, Percentis e Mdias Aparadas A mediana (de populao ou amostra) divide o conjunto de dados em duas partes de mesmo tamanho. Para obter melhores medidas de localizao, podemos dividir os dados em mais de duas partes. Grosso modo, os quartis dividem o conjunto em quatro partes iguais, sendo que as observaes acima do terceiro quartil constituem o quarto superior do conjunto de dados, o segundo quartil idntico mediana e o primeiro quartil separa o quarto inferior dos trs quartos superiores. De forma similar, um conjunto de dados (amostra ou populao) pode ser dividido mais detalhadamente usando percentis; o 992 percentil separa o 1% superior do restante, e assim por diante. A menos que o nmero de observaes seja um mltiplo de 100, recomenda-se cuidado na utilizao de percentis. Usaremos percentis no Captulo 4 com alguns modelos de populaes infinitas, de forma que adiare-mos a discusso at l.

    A mdia amostrai e a mediana amostrai so influenciadas por valores fora da faixa de uma forma bastante diferente: muito para a mdia e nada para a mediana. Como o comportamento extremo dos dois valores inde-sejvel, consideraremos medidas alternativas que no sejam to sensveis quanto x e nem to insensveis comox. Para determinar essas alternativas, observe que x ex so extremidades opostas da mesma "farru1ia" de medidas. Aps o conjunto de dados ser ordenado, x calculado desprezando-se todos os valores possveis em cada extremidade sem eliminar nada (deixando apenas um ou dois valores centrais) e obtendo a mdia do que restou. Por outro lado, para calcular x, nada desprezado antes de se obter a mdia. Para fazer uma comparao, a mdia envolve desprezar 0% de cada extremidade da amostra, enquanto, para a mediana, o mximo possvel desprezado de cada extremidade. Uma mdia aparada algo intermedirio entre x ex. Uma mdia aparada de 10%, por exemplo, seria calculada eliminando-se os 10% superiores e os 10% inferiores da amostra, obtendo-se, ento, a mdia do restante.

    Exemplo 1.15

    Considere as 20 observaes a seguir, ordenadas da menor para a maior, cada uma representando a vida til (em horas) de um determinado tipo de lmpada incandescente:

    612 623 666 744 883 898 964 970 983 1003 1016 1022 1029 1058 1085 1088 1122 1135 1197 1201

    A mdia das 20 observaes x = 965,0 e i = 1009,5. A mdia aparada de 10% obtida pela excluso das duas menores observaes (612 e 623) e as duas maiores (1197 e 1201) seguida do clculo da mdia dos 16 valo-res restantes, para obter xtr = 979,1. O efeito de truncar a mdia aqui produzir um "valor central" ligei-ramente acima da mdia (X trazido para baixo por alguns poucos valores de vida til) e ainda consideravelmente abaixo da mediana. De forma similar, a mdia aparada de 20% faz uma mdia dos 12 valores do meio para obter X1r

  • Viso Gerol e Estatstico Descritivo - Joy L. Devore 29

    xtr(IO)

    I I .. ll .... ui 600 800 t 1000 t 1200

    x i

    Figura 1.17 Gafico de pontos de vtda uttl (em horas) de lampadas mcandescentes

    Geralmente, o uso da mdia aparada com proporo de aparagem moderada (entre 5% e 25%) produzir uma medida que no nem to sensvel a outliers como a mdia nem to insensvel quanto a mediana. Por esse motivo, as mdias truncadas tm sido objeto de crescente ateno dos estatsticos para propsitos descritivos e inferenciais. Mais ser dito sobre mdias aparadas quando a estimativa por pontos for discutida no Captulo 6. Finalmente, se a proporo de aparagem for representada por a e na no for inteiro, no ser bvio como cal-cular a mdia aparada 100a%. Por exemplo: se a = 0,10 (10%) e n = 22, ento na = (22)(0,10) = 2,2 e no possvel aparar 2,2 observaes de cada extremidade da amostra ordenada. Nesse caso, a mdia aparada de 10% seria obtida primeiro com a retirada das duas observaes de cada extremidade e pelo clculo de i lr, seguida pela retirada de trs observaes de cada extremidade e pelo clculo de x

    1,. e ento pela interpolao dos dois valores

    para obteno de itr(to>

    Dados categorizados e proporo de amostras Quando os dados so categorizados, urna distribuio de freqncia ou distribuio de freqncia relativa fornece um resumo tabular eficiente dos dados. Os indicadores numricos naturais so, nessa situao, as fre-qncias individuais e as freqncias relativas. Por exemplo: se for feita uma pesquisa com indivduos que pos-suem aparelhos de som para estudar a preferncia de marca, cada indivduo da amostra identificaria a marca do aparelho que possui. A partir disso poderamos contar as pessoas que possuem aparelhos Sony, Pioneer, Marantz, entre outros. Considere a obteno de uma amostra de uma populao dicotmica, isto , que consista em ape-nas duas categorias (votou ou no votou na eleio passada ou possui ou no um aparelho de som etc.). Se fizermos x representar o nmero da amostra na categoria 1, o nmero na categoria 2 ser n - x. A freqncia re-lativa ou proporo amostrai da categoria 1 ser xln e a proporo amostrai da categoria 2 ser 1 - xln. Vamos representar uma resposta da categoria 1 por 1 e uma resposta da categoria 2 por O. Uma amostra de tamanho n = 10 pode ento resultar em 1, I, O, 1, 1, 1, O, O, 1, 1. A mdia dessa amostra numrica (j que o nmero de ocorrncias do nmero 1 = x = 7)

    = 1 +1+0++1+ 1

    lO 7 X

    = 10 = n = proporo amostrai

    Esse resultado pode ser generalizado e resumido conforme segue: Se em uma situao de dados catego-rizados focarmos a ateno em urna determinada categoria e codificarmos os resultados da amostra de forma que 1 seja registrado como um indivduo da categoria e O para um indivduo fora dela, a proporo amostrai de indivduos da categoria ser a mdia amostra[ da seqncia de 1 s e Os. Assim, uma mdia amostrai pode ser usada para resumir os resultados de uma amostra categorizada. Essas observaes tambm se aplicam a situaes em que as categorias so definidas por valores agrupados em uma amostra ou populao numrica (por exem-plo: podemos querer saber se os indivduos poss