81
UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE MATEMÁTICA DEPARTAMENTO DE ESTATÍSTICA NOTAS DE AULA MAT236 – MÉTODOS ESTATÍSTICOS 2ª UNIDADE Elaborada pelas professoras: Giovana Silva, Lia Moraes, Rosana Castro e Rosemeire Fiaccone Revisada em 2010.2 Monitora: Tatiana Felix da Matta Revisada em 2013.1 pelas professoras: Gecynalda e Silvia Regina Revisada em 2014.1 pela professora: Silvia Regina

Metodos Estatisticos

Embed Size (px)

DESCRIPTION

Metodos Estatisticos

Citation preview

  • UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE MATEMTICA

    DEPARTAMENTO DE ESTATSTICA

    NOTAS DE AULA MAT236 MTODOS ESTATSTICOS

    2 UNIDADE

    Elaborada pelas professoras: Giovana Silva, Lia Moraes,

    Rosana Castro e Rosemeire Fiaccone

    Revisada em 2010.2 Monitora: Tatiana Felix da Matta

    Revisada em 2013.1 pelas professoras: Gecynalda e Silvia Regina

    Revisada em 2014.1 pela professora: Silvia Regina

  • 1

    5. INTRODUO

    A Estatstica constitui-se num conjunto de tcnicas e mtodos cientficos que tratam da coleta, anlise e interpretao de informaes numricas, cujo objetivo principal auxiliar na tomada de decises ou tirar concluses em situaes de incerteza, a partir de informaes numricas.

    A Teoria Estatstica moderna se divide em dois grandes campos:

    Estatstica Descritiva - consiste num conjunto de mtodos que ensinam a reduzir uma quantidade de dados bastante numerosa por um nmero pequeno de medidas, substitutas e representantes daquela massa de dados.

    Estatstica Indutiva ou Inferncia Estatstica - consiste em inferir (deduzir ou tirar concluses a respeito das) propriedades de um universo a partir de uma amostra. O processo de generalizao, que caracterstico do mtodo indutivo, est associado a uma margem de incerteza. A medida da incerteza tratada mediante tcnicas e mtodos que se fundamentam na Teoria das Probabilidades. Na maioria das vezes no podemos investigar o fenmeno que estamos interessados em

    estudar em todos os elementos da populao por diversos fatores. Para resolver o problema devemos trabalhar com um subconjunto da populao, chamado de AMOSTRA. A inferncia estatstica procura com base nos dados amostrais tirar concluses sobre a populao. Considere o exemplo abaixo para ilustrar as definies dadas.

    O esquema a seguir resume as etapas de um trabalho estatstico:

    Populao

    Amostra Tcnicas de Amostragem

    Anlise Descritiva

    Concluses sobre as

    caractersticas da populao

    Informaes contidas nos dados

    Inferncia Estatstica

  • 2

    5.1. Populao e amostra

    Populao - Conjunto de indivduos, objetos ou informaes que apresentam pelo menos uma caracterstica comum, cujo comportamento interessa-nos analisar. Ou, em outras palavras, conjunto de todas as medidas, observaes relativas ao estudo de determinado fenmeno.

    i) Deseja-se conhecer o consumo total de energia eltrica em MWH nas residncias da cidade de Salvador no ano de 1998.

    Populao ou universo: todas as residncias que estavam ligadas a rede eltrica em Salvador, em 1998. Caractersticas: X = consumo anual de energia eltrica em MWH. ii) Deseja-se saber se nas indstrias situadas no Estado da Bahia, em 1997, existia algum tipo

    de controle ambiental. Populao ou universo: indstrias situadas no Estado da Bahia em1997. Caracterstica: X = existncia ou no de algum tipo de controle ambiental na indstria. iii) Estudo sobre a precipitao pluviomtrica na Regio Nordeste no ano 1997.

    Populao ou universo: rea referente Regio Nordeste. Caracterstica: X = precipitao pluviomtrica.

    Populaes finitas e infinitas: Quanto ao nmero de elementos, as populaes podem ser classificadas em finita ou infinita, dependendo do nmero de elementos que a compe.

    Exemplos :

    i) Populao finita: empresas do Plo Petroqumico de Camaari. ii) Populao infinita: as presses atmosfricas ocorridas nos diversos pontos do Continente

    em determinado momento. Em geral, como os universos so grandes, investigar todos os elementos populacionais para

    determinarmos a caracterstica necessita muito tempo, e/ou o custo elevado, e/ou o processo de investigao leva a destruio do elemento observado, ou, como no caso de populaes infinitas, impossvel observar a totalidade da populao. Assim, estudar parte da populao constitui-se um aspecto fundamental da Estatstica.

    Amostra: qualquer subconjunto da populao.

  • 3

    5.2. Tipos de variveis

    As caractersticas da populao que nos interessa analisar recebem o nome de variveis. As caractersticas ou variveis podem ser divididas em dois tipos: qualitativas e quantitativas. Variveis qualitativas - quando o resultado da observao apresentado na forma de qualidade ou atributo. Exemplos: sexo; estado civil; grau de escolaridade; etc.

    Variveis quantitativas - quando o resultado da observao um nmero, decorrente de um processo de mensurao ou contagem. Exemplos: nmero de filhos; salrio mensal; altura; peso; idade; tamanho da famlia; etc. As variveis qualitativas so divididas em dois tipos: nominal, para a qual no existe nenhuma ordenao nas possveis respostas da referida varivel, e ordinal, para a qual existe uma ordenao. Por exemplo,

    Qualitativa Nominal (sexo, cor dos olhos, tipos de defeitos...) Ordinal (classe social, grau de instruo, porte de empresa...)

    As variveis quantitativas so divididas em: discretas, que assumem valores em um conjunto finito ou enumervel de nmeros, contnuas, que assumem valores em um intervalo nmeros reais.

    Quantitativa Contnua (peso, altura, vida til de bateria...) Discreta (nmero de filhos, nmero de carros, nmero de defeitos...)

    Para resumir as informaes levantadas durante uma pesquisa usaremos a tcnica e a representao mais apropriada, a depender do tipo de varivel que estamos analisando.

    6. APRESENTAO DOS DADOS

    Esta seo apresenta alguns procedimentos que podem ser utilizados para organizar e descrever um conjunto de dados, tanto em uma populao como em uma amostra. O conjunto de informaes disponveis, aps a tabulao do questionrio ou pesquisa de campo, denominado de tabela de dados brutos. Apesar de conter muita informao, a tabela

    de dados brutos pode no ser prtica para respondermos s questes de interesse.

    Exemplo: Banco de dados (dados brutos) Foi realizada uma pesquisa por amostragem junto s indstrias de matrias plsticas nas

    principais regies metropolitanas do Brasil e investigou-se as seguintes variveis: constituio

  • 4

    jurdica; porte; nmero total de empregados em 1999; faturamento anual em 1998 e 1999; tempo de existncia; regio metropolitana; e setor de atividade. As observaes referentes s 106 empresas amostradas encontram-se no arquivo Empresa.xls.

    Dado um conjunto de dados o modo de condensao ou apresentao das informaes pode ser na forma de tabelas de frequncias ou de grficos que facilitam a visualizao do fenmeno, permitem a comparao com outros elementos ou, ainda, fazer previses.

    6.1. Tabela ou Distribuio de Frequncias

    O fenmeno considerado uma varivel qualitativa ou quantitativa (discreta ou contnua) e seus valores observados so descritos considerando o nmero de vezes que ocorreram na tabela de dados brutos (frequncia).

    Algumas definies:

    Frequncia simples absoluta( fi ): o nmero de ocorrncias ou repeties de um valor individual ou um intervalo de valores.

    Frequncia simples relativa(fri): a razo entre a frequncia simples absoluta e o nmero total de dados (soma de todas as frequncias simples absolutas). Agora vamos exemplificar distribuies de frequncia para cada tipo de varivel.

    a) Varivel qualitativa Nominal ou Ordinal

    As variveis qualitativas obtidas em uma pesquisa podem ser organizadas em formas de tabelas para facilitar a visualizao e anlise dos dados.

    Exemplo 6.1: Considere a planilha de dados empresa.xls. Para a varivel porte de empresa construa uma tabela:

    Tabela 6.1: Porte das indstrias de matrias plsticas nas principais regies metropolitanas do Brasil 1999

    Porte da Indstria Nmeros de indstrias % (100xfri ) Grande 23 21,7 Mdia 70 66,0 Pequena 13 12,3 Total geral 106 100,0

    Fonte: Dados fictcios

  • 5

    b) Varivel Quantitativa Discreta

    Exemplo 6.2: Foi observado o nmero de defeitos apresentados por uma mquina industrial durante o perodo de 30 dias. Os resultados foram os seguintes:

    1 1 1 0 1 1 0 2 1 3 1 0 1 1 1 2 0 1 1 1 4 1 0 3 2 2 1 1 0 1

    Tabela 6.2: Nmero de defeitos em uma mquina industrial durante o perodo de 30 dias.

    Nmero de defeitos Quantidade (fi) % (100xfri) 0 6 20,0 1 17 56,7 2 4 13,3 3 2 6,67 4 1 3,33

    Total 30 100,0 Fonte: Dados fictcios

    c) Varivel Quantitativa Contnua

    Para certo conjunto de dados, vamos adotar a seguinte nomenclatura: 1. Mximo (max): maior valor do conjunto. 2. Mnimo (min): menor valor do conjunto. 3. Amplitude total (AT): a diferena entre o valor mximo e mnimo.

    AT = MAX MIN 4. Classe: cada um dos intervalos em que se subdivide a amplitude total.

    Representao: k = nmero de classes 5. Limite superior ( lsup): a cota superior para os valores da classe. 6. Limite inferior ( linf): a cota inferior para os valores da classe. 7. Amplitude do intervalo de classe (hi): o comprimento da classe, definida como a diferena

    entre o limite superior e inferior.

    8. Ponto mdio (Xi): a mdia entre os limites superior e inferior da classe i. Determinao do nmero de classes e amplitude do intervalo de classes:

    No existem regras gerais, universalmente aceitas, para a determinao do nmero de classes. Existem, no entanto, algumas regras propostas por diferentes autores, que do ideia aproximada do nmero de classes em funo do nmero de dados. Um dos mtodos utilizado chamado de regra de Sturges ou regra do logaritmo. Ele estabelece que

    ,log3,31 10 nk +

  • 6

    em que k o nmero de classes e n o nmero de dados. Outra maneira para obter o nmero de classes

    Mesmo conhecendo alguns mtodos para a determinao do k, deve-se saber que a escolha depender antes da natureza dos dados, da unidade de medida e da experincia e do bom senso de quem far a organizao dos dados da pesquisa.

    Uma vez encontrado o nmero de classes, determina-se a amplitude do intervalo de classes atravs da frmula:

    Exemplo 6.3: (Werkema, vol.2) Os dados abaixo representam o rendimento em porcentagem de uma reao para fabricao de uma substncia qumica, em 80 bateladas produzidas por uma indstria. A empresa decidiu construir uma tabela de frequncia para obter um resumo do conjunto de dados.

    70,7 71,8 73,9 74,4 75,9 76,0 76,6 76,7 77,4 78,0 78,1 78,1 78,2

    78,4 78,4 78,4 78,5 78,5 78,5 78,9 79,0 79,1 79,3 79,3 79,5 79,5

    79,7 79,8 79,9 79,9 80,1 80,2 80,4 80,4 80,5 80,7 80,7 80,7 80,9

    81,3 81,4 81,6 81,8 81,9 82,0 82,0 82,1 82,3 82,5 82,7 82,9 83,0

    83,0 83,2 83,4 83,5 83,6 83,6 83,7 83,8 84,3 84,5 84,5 84,5 84,6

    85,2 85,5 85,5 85,7 86,4 86,5 86,8 86,8 86,8 87,1 87,1 87,1 87,3

    88,5 90,0

    Procedimento para construir uma tabela de distribuio de frequncias com intervalos de classes.

    Soluo: Neste caso, n = 80 k = (80)1/2 9 A amplitude total ser dada por AT = 90 70,7 = 19,3.

    Assim, a amplitude de cada intervalo de classe ser: h 2,2

    Dessa forma, a tabela de distribuio de frequncias para dados agrupados em classes fica da seguinte maneira:

    .nk

    .

    kATh =

  • 7

    Tabela 6.3: Rendimento, em porcentagem, de uma reao para fabricao de uma substncia qumica.

    Rendimento Nmero de substncia (fi)

    % (100xfri)

    70,5 | 72,7 2 2,50 72,7 | 74,9 2 2,50 74,9 | 77,1 4 5,00 77,1 | 79,3 14 17,50 79,3 | 81,5 19 23,75 81,5 | 83,7 17 21,25 83,7 | 85,9 11 13,75 85,9 | 88,1 9 11,25 88,1 | 90,3 2 2,50

    Total 80 100,00 Fonte: Dados fictcios

    6.1.1. Tabela de Mltipla Entrada

    Em alguns casos necessrio apresentar mais de uma varivel em uma nica tabela. Quando so utilizadas apenas duas variveis tem-se uma tabela de dupla entrada. Tabela 6.4: Porte das indstrias de matrias plsticas por regio metropolitana do Brasil 1999.

    Regio

    Metropolitana

    Porte da empresa Total

    Grande Mdia Pequena

    Belo Horizonte

    2 9 3

    14 Curitiba 1 4 0 5 Porto Alegre 0 7 1 8 Rio de Janeiro 3 13 2 18 Salvador 8 18 4 30 So Paulo 9 19 3 31 Total 23 70 13 106

    Fonte: Dados fictcios.

    6.2. Representao Grfica

    Sero apresentados alguns tipos de grfico: setor ou pizza, barra, colunas, Pareto e histograma.

    1) Grfico em barras

    Utilizado para representao de variveis qualitativas e quantitativas discretas

    Exemplo 6.4:

  • 8

    Tabela 6.5: Tipo de fraude nos cartes de crdito da Mastercard Internacional no Brasil 2000.

    Tipo de fraude Quantidade Carto roubado 243 Carto falsificado 85 Pedido por correio/telefone 52 Outros 46

    Fonte: Triola, Mario F.

    Figura 6.1: Tipo de fraude nos cartes de crdito da Mastercard Internacional no Brasil 2000.

    Fonte: Triola, Mario F.

    2) Grfico em colunas

    Utilizado para representao de variveis qualitativas e quantitativas discretas.

    Exemplo 6.5: Tabela 6.6: Nmero de crianas de baixa renda, segundo o bairro de residncia, que

    participaram do ensino de msica na Escola XYZ, em Salvador 1998.

    Bairro Nmero de crianas Paripe 11 Periperi 39 Plataforma 45 Praia Grande 25 Total 120

    Fonte: Escola de Msica XYZ, Salvador.

  • 9

    Figura 6.2: Nmero de crianas de baixa renda, segundo o bairro de residncia, que participaram do ensino de msica na Escola XYZ, em Salvador 2008.

    Fonte: Escola de Msica XYZ, Salvador

    Exemplo 6.6: Tabela 2.7: Estudantes da Universidade XYZ Segundo rea de estudo e ano de ingresso.

    rea Ano

    Total 1998 1999 2000

    Exatas 120 156 68 344 Humanas 72 85 112 269 Biolgicas 169 145 73 387

    Fonte: Dados Fictcios

    Figura 6.3: Estudantes da Universidade XYZ Segundo rea de estudo e ano de ingresso.

    Fonte: Dados Fictcios

  • 10

    Exemplo 6.7: Grfico para o exemplo 6.2

    Figura 6.4: Nmero de defeitos em uma mquina industrial durante o perodo de 30 dias.

    3) Grfico de Pareto

    O grfico de Pareto composto por colunas e por uma curva representando a percentagem acumulada. As barras esto disponveis em ordem decrescente, tornando evidente a priorizao de temas. Este grfico muito utilizado na rea de Controle de Qualidade.

    Exemplo 6.8: (Werkema, vol. 2): Uma indstria fabricante de lentes tem como objetivo resolver o seguinte problema: aumento do nmero de lentes defeituosas produzidas pela empresa a partir de fevereiro de 1995. A empresa classificou uma amostra de lentes fabricadas durante uma semana de produo de acordo com os tipos de defeitos detectados. O resultado est na tabela a seguir:

    Tabela 6.8: Defeitos encontrados em uma amostra de lentes fabricadas durante uma semana de produo de uma indstria em 1200 lentes inspecionada.

    Tipo de Defeito Quantidade Arranho 12 Trinca 41 Revestimento Inadequado 55 Muito Fina ou Muito Grossa 11 No Acabada 05 Outros 03 Total 127

    Fonte: Dados fictcios

  • 11

    Uma maneira de representarmos graficamente estes dados atravs do grfico de Pareto, para que seja possvel identificar com mais facilidade o defeito que apareceu com maior frequncia. Para construirmos o grfico de Pareto necessrio obtermos a planilha de dados mostrada na tabela a seguir.

    Tabela 6.9: Planilha de dados para construo de grfico de Pareto.

    Tipo de defeito Quantidade de defeito Total acumulado Percentagem do total geral (%)

    Percentagem acumulada

    Revest. Inadeq. 55 55 43,3 43,3 Trinca 41 96 32,3 75,6 Arranho 12 108 9,4 85,0 Fina ou Grossa 11 119 8,7 93,7 No- Acabada 5 124 3,9 97,6 Outros 3 127 2,4 100,0 Total 127 / 100 /

    Fonte: Dados fictcios

    Na Tabela 6.9 os tipos de defeitos foram listados em ordem decrescente de quantidade na coluna 1, a quantidade de defeitos aparece na coluna 2 e o total acumulado est na coluna 3. Nas colunas 4 e 5 esto as percentagens totais e as percentagens acumuladas respectivamente. As barras do grfico de Pareto foram construdas a partir dos dados da coluna 2 e a curva acumulada conhecida como curva de Pareto, foi traada a partir dos nmeros da coluna 5.

    Figura 6.5: Grfico de Pareto para os defeitos de lentes encontrados em uma amostra de lentes fabricadas durante uma semana de produo de uma indstria em 1200 lentes inspecionada.

    Fonte: Dados fictcios

  • 12

    Observando a Figura 6.5, foi imediato para indstria perceber que os dois tipos de defeitos mais frequentes, Revestimento inadequado e trinca, representavam 75,6% dos defeitos detectados nas lentes produzidas pela empresa. Portanto, Revestimento inadequado e trinca foram considerados os defeitos mais importantes, que devem ser eliminados em primeiro lugar esse tipo de defeito chamado de poucos defeitos vitais, enquanto que os outros representam apenas os muitos defeitos triviais, pois representam a minoria das observaes.

    4) Grfico em linhas ou curvas Utilizado para descrever sries temporais que so dados observados em instantes ordenados do tempo.

    Exemplo 6.9: Tabela 6.10: ndice de Produto Industrial Brasil 1979.

    Meses IPI Janeiro 18.633 Fevereiro 17.497 Maro 19.470 Abril 18.884 Maio 20.308 Junho 20.146 Julho 20.258 Agosto 21.614 Setembro 19.717 Outubro 22.133 Novembro 20.503 Dezembro 18.800

    Fonte: FIBGE

    Figura 6.6: ndice de Produto Industrial Brasil 1979.

    Fonte: FIBGE

  • 13

    5) Grfico em setores

    Exemplo 6.10: Tabela 2.11: Percentual de funcionrios da Companhia Milsa segundo regio de procedncia

    Procedncia Percentual Interior 33,30 Capital 30,60 Outro 36,10

    Fonte: Bussab e Morettin (2002)

    Figura 6.7: Percentual de funcionrios da Companhia Milsa segundo regio de procedncia.

    Fonte: Bussab e Morettin (2002)

    6) Histograma

    Quando os dados esto agrupados em intervalos de classes, o grfico mais apropriado o histograma. No caso de classes de mesma amplitude, construdo um retngulo para cada classe, com base igual amplitude do intervalo classe e altura proporcional a frequncia da classe. Neste caso,

    altura ~ frequncia (absoluta ou relativa)

    Quando temos classes com amplitudes diferentes, devemos construir um retngulo para cada classe, com base igual amplitude do intervalo de classe e altura dada por:

    classeda amplitudefrequncia

    d

    =

  • 14

    Note que, neste caso, a rea do retngulo igual a frequncia da classe. A altura d definida acima chamada de densidade de frequncia. Exemplo 6.11: Histograma para a distribuio de frequncia do exemplo 6.3.

    Figura 6.8: Rendimento, em porcentagem, de uma Reao para Produo de uma Substncia Qumica.

    Fonte: Dados fictcios

    Exerccio: As especificaes estabelecem um limite inferior para o rendimento igual a 78%. A partir de um histograma, voc acredita que o processo est satisfazendo a especificao? Justifique.

    6.2.1. Cuidados na representao grfica

    Fonte: Dados fictcios

    H vrios problemas com este grfico. Ele impressiona mais pela tecnologia utilizada do que pela informao que passa para o leitor. Os dados no so tridimensionais. As grades do fundo mais o efeito tridimensional distraem a viso e dificultam comparaes entre trimestre e regies. Uma forma de melhorar o grfico dar-lhe a dimenso correta. As linhas de grade.

  • 15

    No utilize faixas horizontais, verticais ou similares, que s atrapalham a viso do leitor. Faa mais de um grfico at encontrar um que seja informativo, claro, e que no possua objetos desnecessrios.

    0

    10

    20

    30

    40

    50

    60

    70

    80

    90

    100

    primeiro segundo terceiro quarto

    Distribuio das vendas do produto X por trimestre segundo as zonas

    LesteOesteNorte

    No apresente grficos suprfluos. Se retirarmos a figura abaixo, toda a informao poder ser transmitida textualmente, com uma simples frase: 20% das respostas foram positivas e 80% negativas.

    Observe que o efeito 3-D dificulta o julgamento das porcentagens relativas de cada categoria da varivel. A retirada do efeito 3-D ajudar o leitor a julgar melhor as propores relativas observadas em cada amostra.

  • 16

    7. MEDIDAS DE POSIO CENTRAL

    As distribuies de frequncias e os grficos fornecem mais informaes sobre o comportamento de uma varivel do que a prpria srie original de dados. Mas, queremos resumir ainda mais esses dados. Com esse objetivo usaremos mtodos da Estatstica Descritiva que ensinam a reduzir a informao contida em uma grande quantidade de dados a um pequeno nmero de medidas, substitutas e representantes daquela massa de dados. Vamos agora estudar as medidas da Estatstica Descritiva, agrupadas em medidas de posio (ou de locao ou de localizao) central: mdia, mediana e moda.

    Exemplo de aplicao: (Azulejos) Uma fbrica de azulejos nos ltimos meses passou a receber reclamaes de seus clientes.

    A maioria das reclamaes era relativa aos seguintes problemas:

    Os azulejos, ao serem manuseados, quebravam-se facilmente. O assentamento dos azulejos, quando era utilizada argamassa, no produzia um resultado

    uniforme em relao ao nvel da parede. Em vista dessa situao, a indstria decidiu formar um grupo de trabalho para resolver

    esses problemas. Na etapa de identificao do problema, o grupo de trabalho concluiu que a produo de azulejos com espessura no adequada poderia estar provocando as reclamaes dos clientes. Esta concluso resultou do conhecimento dos seguintes fatos:

    Azulejos com espessura muito fina quebram-se facilmente. A falta de uniformidade na espessura dos azulejos provoca dificuldades durante o seu

    assentamento.

    Para avaliar se estavam ocorrendo problemas com a espessura dos azulejos produzidos, o grupo decidiu retirar uma amostra aleatria dos azulejos fabricados pela empresa, medir a espessura destes azulejos e comparar os resultados obtidos com as especificaes. Como a empresa empregava duas turmas de trabalho (turmas A e B) e poderia haver diferena na qualidade dos azulejos produzidos por cada turma, foi utilizada uma estratificao, sendo ento retirada uma amostra de 80 azulejos produzidos pela turma A e 80 fabricados pela turma B. Os dados coletados, j ordenados, esto na Tabela 7.1.

    Ao observarmos o conjunto de dados j fazemos alguma ideia sobre o comportamento das duas turmas de trabalho, em termos da espessura dos azulejos que produzem. Entretanto, claramente necessitamos calcular algumas medidas que resumam a informao contida nos dados. Vamos comear tentando responder: Qual o valor tpico da turma A? E da turma B? A primeira ideia para obter um valor tpico a de calcular uma mdia.

  • 17

    Tabela 7.1: Medidas da Espessura (mm) de 160 Azulejos do Estoque (dados ordenados).

    TURMA A TURMA B 2,3 3,1 3,8 4,5 4,9 5,6 5,8 6,2 2,4 3,1 3,9 4,5 4,9 5,6 5,8 6,2 2,4 3,3 3,9 4,5 5,0 5,6 5,8 6,3 2,4 3,3 3,9 4,5 5,1 5,7 5,8 6,3 2,6 3,4 4,0 4,5 5,1 5,7 5,9 6,4 2,7 3,4 4,0 4,6 5,1 5,7 5,9 6,4 2,7 3,5 4,0 4,6 5,3 5,7 5,9 6,4 2,8 3,5 4,0 4,7 5,3 5,7 5,9 6,4 2,8 3,5 4,0 4,7 5,3 5,7 5,9 6,4 2,8 3,5 4,1 4,9 5,3 5,7 5,9 6,5 2,9 3,5 4,1 4,9 5,3 5,7 6,0 6,5 2,9 3,5 4,1 5,1 5,3 5,7 6,0 6,5 2,9 3,6 4,2 5,2 5,3 5,7 6,0 6,5 3,0 3,6 4,2 5,4 5,4 5,7 6,1 6,6 3,0 3,7 4,2 5,4 5,4 5,7 6,1 6,7 3,0 3,7 4,3 5,5 5,4 5,7 6,1 6,7 3,1 3,7 4,3 5,6 5,4 5,8 6,1 6,7 3,1 3,7 4,3 5,6 5,4 5,8 6,1 6,8 3,1 3,8 4,4 5,7 5,5 5,8 6,2 6,9 3,1 3,8 4,4 5,9 5,5 5,8 6,2 7,0

    Fonte: Dados fictcios

    7.1. Mdia aritmtica simples

    A mdia aritmtica simples de n nmeros nxxx ,...,, 21 um valor x tal que

    xnx...xxx...xx n =+++=+++ 21 logo temos que,

    n

    x

    n

    xxxx

    n

    ii

    n

    =

    =

    +++=

    121 ...

    Podemos pensar na mdia aritmtica como o valor tpico do conjunto de dados e considerada a principal medida de posio central. Algumas das razes que fazem com que seja a medida de posio mais recomendada so:

    definida rigorosamente e pode ser interpretada sem ambigidades; Leva em considerao todas as observaes efetuadas; Calcula-se com facilidade.

    Entretanto, esta medida apresenta alguns inconvenientes como o fato de ser muito sensvel a valores extremos, isto , a valores excessivamente pequenos ou excessivamente grandes, em relao s demais observaes do conjunto de dados.

  • 18

    Exemplo 7.1 Estamos interessados em conhecer o salrio mdio mensal de certa empresa com cinco funcionrios. Temos o seguinte conjunto de salrios mensais, em reais: 123 - 145 - 210 - 225 - 2.500. Podemos observar que quatro dos cinco salrios apresentam valores entre 123 e 225 reais, porm a mdia salarial de 640,6 reais bastante distinta desse conjunto pela influncia do salrio de 2.500 que puxou o valor mdio para cima. Em algumas situaes, os nmeros que queremos sintetizar tm graus de importncia diferentes. Utiliza-se ento uma mdia ponderada. Vamos ver a seguir a definio da mdia aritmtica ponderada.

    A mdia aritmtica ponderada dos nmeros nxxx ,...,, 21 , n com pesos p1, p2, ..., pn definida por

    =

    =

    =n

    ii

    n

    iii

    p

    p

    .pxx

    1

    1 , ou simplesmente por

    =

    px.p

    x p .

    Obs.: Quando os dados esto agrupados por frequncias (absolutas ou relativas) os ponderadores sero as frequncias.

    Exemplo 7.2: Em um grupo de pessoas, 70% so adultos e 30% so crianas. O peso mdio dos adultos 70 kg e o peso mdio das crianas 40 kg. Qual o peso mdio do grupo? Soluo: a mdia aritmtica ponderada dos dois subgrupos. A resposta

    kg613070

    30407070=

    +

    +=

    ,,

    ,,

    x p

    Exemplo de aplicao: (Azulejos) Para responder questo do valor tpico da espessura dos azulejos produzidos pelas

    Turmas A e B calculamos ento as mdias aritmticas, pois o desejado obter a espessura mdia M tal que se a espessura de cada azulejo fosse sempre igual a M a soma total seria a mesma.

    Resumindo em uma tabela as mdias aritmticas (em mm), temos: Tabela 7.2: Valor da mdia aritmtica por turma para dados da espessura dos azulejos

    Turma Mdia aritmtica A 3,8575 B 5,8725

  • 19

    Observando as mdias aritmticas das amostras observadas, parece existir diferena, em termos mdios, entre as espessuras dos azulejos que esto sendo continuamente produzidos pelas turmas A e B.

    7.2. Moda

    A moda outra medida de locao, mas diferentemente da mdia, no utiliza em seu clculo todos os valores do conjunto de dados analisado.

    A moda o valor que ocorre com maior frequncia no conjunto de dados. Notao: Mo = moda

    Exemplo 7.3:

    a) X = {2, 3, 3, 5, 5, 5, 6, 7} Mo = 5 b) Y = {10, 12, 17, 21, 32} Mo = no existe, a distribuio amodal. c) Z = {2, 2, 5, 5, 7, 7} Mo = no existe d) W = {10, 12, 12, 12, 13, 13, 15, 18, 18, 18, 21} A distribuio apresenta dois valores modais: 12 e 18 (distribuio bimodal).

    Obs: A moda a nica medida de posio central que pode ser usada em tabelas com variveis qualitativas.

    Quando o conjunto de dados apresenta mais de uma moda damos o nome de distribuio plurimodal.

    A moda uma medida mais adequada ao caso de dados agrupados. Quando a distribuio de frequncias est organizada por classes de valores, devemos identificar a classe modal (classe em que observamos a maior frequncia). O ponto mdio da classe modal ser o valor estimado para a moda que denominada moda bruta.

    2i

    nfihlMo +=

    em que: linf = limite inferior da classe modal; hi = amplitude da classe modal;

    No caso de dados no agrupados, a moda nem sempre tem utilidade com elemento representativo ou sintetizador do conjunto. Consideremos por exemplo o seguinte conjunto de dados:

  • 20

    Tabela 7.3: Quantidade de operrios das empresas de telemarketing na cidade de Salvador - 2010. Quantidade de operrios Quantidade de empresas

    7 1

    11 1

    15 1 17 2

    19 1 21 1

    25 3

    Fonte: Dados fictcios

    De acordo com a definio a moda 25, entretanto este valor no representativo do conjunto de dados e, portanto a moda no uma boa medida de locao neste caso.

    Exemplo de aplicao: (Azulejos)

    Para obtermos a moda bruta necessrio construir uma distribuio de frequncia. (nmero de classes definido arbitrariamente)

    Tabela 7.4: Espessura (em mm) dos azulejos fabricados pela Turma A

    Espessura Nmero de azulejos 2,25 2,75 7 2,75 3,25 15 3,25 3,75 16 3,75 4,25 17 4,25 4,75 14 4,75 5,25 4 5,25 5,75 6 5,75 6,25 1

    Fonte: Dados fictcios

    Tabela 7.5: Espessura (em mm) dos azulejos fabricados pela Turma B.

    Espessura Nmero de azulejos 4,75 5,25 6 5,25 5,75 30 5,75 6,25 26 6,25 6,75 15 6,75 7,25 3

    Fonte: Dados fictcios

  • 21

    Resumindo em uma tabela os valores modais (em mm), temos:

    Tabela 7.6: Valor da moda por turma para dados da espessura dos azulejos.

    Turma Moda A 4,0 B 5,5

    7.3. Mediana Definio: Chamamos de mediana o elemento do conjunto que ocupa a posio central na distribuio ordenada (crescente ou decrescente). Isto , divide a distribuio em duas partes iguais de modo que 50% dos valores observados so inferiores ao valor mediano e 50% superiores a esse valor. A notao usada ser Md = mediana. Notao: X(i)= elemento que ocupa a i-sima posio da srie ordenada. n =nmero de elementos da srie.

    1) 2

    XX

    Md1

    2n

    2n

    +

    +

    = , n par

    2)

    +=

    21nXMd , n mpar

    A mediana uma medida de posio resistente, pois pouco afetada por mudanas de pequena poro dos dados, ao contrrio da mdia aritmtica que sensvel a valores atpicos.

    Exemplo 7.4: Comparao entre a mdia aritmtica e a mediana para os conjuntos de salrios (em reais) dados.

    X = { 200, 250, 250, 300, 450, 460, 510} X = 345,7; Md X = 300. Y = { 200, 250, 250, 300, 450, 460, 2.300} Y = 601,0; MdY = 300. Podemos observar que no caso do conjunto Y a mdia no sintetiza adequadamente o conjunto

    de dados, pois apenas um valor superior a ela.

    Exemplo de aplicao: (Azulejos) As mesmas comparaes feitas para a mdia podem ser feitas para a mediana para o nosso

    conjunto de dados. Resumindo em uma mesma tabela as mdias e as medianas (em mm), temos:

  • 22

    Tabela 7.7: Medidas- resumo por turma para dados da espessura dos azulejos Turma Mdia aritmtica Mediana

    A 3,857 3,8 B 5,865 5,8

    Fonte: Dados fictcios

    Para ambas as turmas, a mdia aritmtica e a mediana apresentam valores semelhantes. A mediana indica que 50% dos azulejos produzidos pela turma A esto com espessura inferior a 3,8mm e 50% dos produzidos pela turma B apresentam espessuras superior a 5,8mm.

    7.4. Indicaes para utilizao das trs principais medidas de posio central

    Vimos que as trs principais medidas de posio - a mdia aritmtica, a mediana e a moda - tm o mesmo objetivo: determinar um valor tpico do conjunto de dados. Surge, ento, a seguinte questo: quando deveremos utilizar cada uma dessas medidas?

    De maneira geral, a moda a menos empregada e a mais difcil de calcular satisfatoriamente. No entanto, adequada para caracterizar situaes onde estejam em causa os casos ou valores mais usuais. Por exemplo, em estudos de mercado, o empresrio pode estar interessado nas medidas que mais se vendem.

    Correntemente a escolha feita entre a mdia e a mediana, dependendo da natureza do problema a estudar e de outros fatores, muitos dos quais no podem abordar-se a nvel elementar.

    A mediana tem vantagem: mais resistente do que a mdia, isto , a alterao drstica de um s valor do conjunto de dados reflete-se substancialmente no valor da mdia e pode no refletir-se, ou refletir-se muito pouco, no valor da mediana.

    A mdia tem vantagens: quando a curva de frequncias tem forma de sino, mais ou menos simtrica, com abas decaindo rapidamente (valores errticos muito improvveis), a mdia mais eficiente do que a mediana; a mdia uma funo linear das observaes, propriedade que tambm pode pesar na sua adoo.

  • 23

    Por fim, uma vantagem da mediana e da moda em relao mdia aritmtica que esta ltima no pode ser calculada quando ocorrem classes de frequncias com limites indefinidos (classes abertas). Entretanto, nesta situao, a moda e a mediana podem ser encontradas sem qualquer dificuldade.

    8. SEPARATRIZES

    As separatrizes so medidas que permitem calcularmos valores da varivel que dividem ou separam a distribuio em partes iguais. Temos trs tipos de separatrizes, tambm chamadas de quantis: os quartis; os decis; e os percentis.

    As medidas de posio denominadas quartis, decis e percentis tm construo anloga a da mediana. Enquanto a mediana separa a distribuio em duas partes iguais, a caracterstica principal de cada uma dessas medidas :

    Quartis: dividem a distribuio em quatro partes iguais; Decis: dividem em dez partes iguais;

    Percentis: dividem em cem partes iguais. Notaes: Qi = quartil de ordem i; Di = decil de ordem i e Pi = percentil de ordem i Observaes: i) Temos a seguinte igualdade: C50 = D5 = Q2 = Md ii) O clculo para os decis e os percentis anlogo ao dos quartis. iii) O intervalo interquartil ou interquartlico, definido por (Q1; Q3), contm 50% do total de

    observaes localizadas mais ao centro da distribuio. As Figuras a seguir ilustram uma distribuio simtrica e distribuies assimtricas,

    respectivamente.

    Figura 7.1: Distribuio Simtrica.

    Fonte: Bussab e Morettin (2002)

  • 24

    Figura 7.2: Distribuies Assimtricas.

    Fonte: Bussab e Morettin (2002)

    Clculo dos percentis A posio do percentil de ordem i no conjunto de dados ordenado ser definida como:

    100n

    .iPosi = , em que Posi = posio do percentil de ordem i; e n = nmero de elementos da srie

    1) Se Posi = valor inteiro, ento o percentil definido como a mdia dos valores que ocupam a posio Posi e Posi + 1.

    2) Se Posi = valor no inteiro, ento o percentil definido como o valor que ocupa a posio u + 1 , em que u = inteiro mais prximo que seja menor que Posi .

    Exemplo 8.1: Calcule Q1 para o seguinte conjunto de dados: 21 23 18 25 24 28 Resoluo: Lembrar que Q1 corresponde ao percentil de ordem 25. 1. Ordenar os valores: 18 21 23 24 25 28

    2. Pos 25 = 25 (6/100) = 1,5 (valor no inteiro) u = 1 e portanto o Q1 o valor que ocupa a 2

    posio na srie ordenada. Portanto, Q1 = 21

    Exemplo de aplicao: (Azulejos) Verificar por meio dos quartis o tipo de assimetria para os dados de espessura de azulejos.

    Medidas Turma A Turma B Q1 3,10 5,55 Md 3,80 5,80 Q3 4,45 6,20

    Md Q1 0,70 0,25 Q3 Md 0,65 0,40

    Assimetria

    Negativa Positiva

    9. MEDIDAS DE DISPERSO

    Exemplo 9.1: Duas mquinas foram reguladas para encher cada pacote de caf com 500g. Com o objetivo de verificar a regulagem dessas mquinas, um fiscal de rea anotou o peso dos 5

  • 25

    primeiros pacotes produzidos por cada mquina e calculou o peso mdio dos pacotes. Os

    resultados encontram-se abaixo:

    Mquinas Peso dos pacotes Peso mdio 1 2 3 4 5

    A 500 497 498 500 495 498 B 490 500 505 510 495 500

    Observando apenas o peso mdio dos pacotes, poderamos concluir que a mquina B

    apresentou melhor desempenho do que A. Porm, quando observamos cada informao

    separadamente, verificamos que o peso dos pacotes vindos da mquina A variou entre 495 e 500g, enquanto que o da B variou entre 490 e 510g. Isto quer dizer que a mquina A enche os pacotes mais uniformemente que a mquina B.

    As medidas de disperso servem para avaliar o grau de variabilidade dos valores de um

    conjunto de dados. Estas medidas permitem estabelecer comparaes entre fenmenos de mesma natureza ou de natureza distinta e, em geral, essa variabilidade observada em torno de uma

    medida de posio central. Essas medidas podem ser absolutas ou relativas.

    9.1. Amplitude total ( medida de disperso absoluta) Definio: A amplitude total de um conjunto de nmeros a diferena entre os valores

    extremos do conjunto. Notao: AT = Amplitude Total Exemplo 9.2: Calcular as amplitudes totais do exemplo anterior e identificar qual a mquina que apresentou a menor disperso no peso dos pacotes de caf.

    Resoluo: A : AT = 500 - 495 = 5 gramas; B: AT = 510 - 490 = 20 gramas;

    A mquina A apresentou uma menor variabilidade nos pesos dos pacotes de caf.

    Observaes: 1) A amplitude total a medida mais simples de disperso. 2) A desvantagem desta medida de disperso que leva em conta apenas os valores mnimo e

    mximo do conjunto. Se ocorrer qualquer variao no interior do conjunto de dados, a amplitude total no nos d qualquer indicao dessa mudana.

    3) A amplitude total tambm sofre a influncia de um valor "atpico" na distribuio (um valor muito elevado ou muito baixo em relao ao conjunto).

  • 26

    Exemplo de aplicao: (Azulejos) Vamos observar no nosso conjunto de dados as mdias aritmticas e as amplitudes totais (ranges) para termos uma primeira ideia sobre a variabilidade das espessuras dos azulejos para as diferentes turmas.

    Tabela 9.1: Medidas-resumo para dados da espessura dos azulejos.

    Turma Mdia aritmtica Amplitude total A 3,8575 3,6 B 5,8725 2,1

    Podemos observar que a amplitude total para a turma B menor que a da turma A.

    9.2. Desvio-padro amostral (medida de disperso absoluta) Vejamos a seguinte ilustrao: Cinco pessoas so levadas a um laboratrio para medir suas

    respectivas taxas de colesterol. O laboratrio sugere utilizar dois mtodos diferentes de medio

    para efeitos de controle. Os resultados so dados abaixo:

    X =200

    * * * * *

    177 193 195 209 226

    * * * * *

    192 196 201204 207

    Pode-se observar que em mdia os mtodos de medio do colesterol so iguais porm, se

    analisarmos melhor os dados percebemos que no mtodo A os valores esto mais afastados da

    mdia do que no mtodo B. Este fato, nos leva a pensar numa medida que possa avaliar a

    disperso dos dados em torno de sua mdia. Tal medida conhecida como desvio padro e veremos sua definio a seguir.

    Notao: s = desvio-padro

    Definio: Sejam x x xn1 2, ,..., , n valores que a varivel X assume. O desvio padro amostral definido como:

    ( )1

    1

    2

    =

    =

    n

    xx

    S

    n

    ii

    Exerccio: Calcule o desvio padro para as taxas de colesterol: mtodo A e mtodo B. SA = 18,43909 SB= 6,041523 Exemplo de aplicao: (Azulejos)

    Mtodo A

    Mtodo B

  • 27

    Da mesma maneira que trabalhamos com a amplitude total, vamos observar no nosso

    conjunto de dados as mdias aritmticas e os desvios padres (S) para termos uma primeira idia sobre a variabilidade nas espessuras dos azulejos produzidos pelas turmas A e B.

    Tabela 9.2: Medidas-Resumo para dados da espessura dos azulejos. Turma Mdia Aritmtica Desvio Padro

    A 3,8575 0,8706 B 5,8725 0,4802

    Podemos observar que a Turma B apresenta maior mdia que a da turma A e alm disso a sua

    variabilidade menor. Parece que esta turma atinge mais os objetivos, ou seja, uniformidade na espessura (menor disperso) e azulejos com espessura mais grossa.

    9.3. Varincia (medida de disperso absoluta) Definio: A varincia o quadrado do desvio padro.

    Notao: s2

    Observaes: i) O desvio padro tem a unidade de medida igual a unidade de medida original da varivel,

    enquanto que a varincia apresentar a unidade de medida elevada ao quadrado.

    ii) Ao trabalharmos com os dados de toda a populao calculamos a varincia e o desvio padro populacional dividindo por N (tamanho da populao) e no por N-1.

    9.4. Coeficiente de variao de pearson (medida de disperso relativa)

    Quando se deseja comparar a variabilidade de duas ou mais distribuies, mesmo quando essas se referem a diferentes fenmenos e sejam expressas em unidades de medida distintas, podemos utilizar o coeficiente de variao de Pearson (medida de disperso relativa). Notao: CV = coeficiente de variao de Pearson ou apenas coeficiente de variao. Definio: O coeficiente de variao para um conjunto de n observaes definido como o quociente entre o desvio padro e a mdia aritmtica da distribuio.

    CV =SX

    ,

    em que S = desvio padro amostral. Observe que esta uma medida adimensional. Normalmente expressa em porcentagem.

    Exemplo de aplicao:(Azulejos)

  • 28

    Considerando o exemplo anterior para calcularmos o coeficiente de variao: Tabela 9.3: Medidas-Resumo para dados da espessura dos azulejos.

    Turma Mdia Aritmtica Desvio Padro Coeficiente de Variao (%) A 3,8575 0,8706 22,57 B 5,8650 0,4855 08,28

    Os azulejos produzidos pela turma B so mais homogneos quanto a espessura.

    10. Box-plot

    O Box-plot um mtodo alternativo para representar os dados e est ilustrado na Figura 10.1.

    O Box-plot fornece informaes sobre as seguintes caractersticas de um conjunto de dados: locao, disperso, assimetria e outliers (observaes discrepantes).

    O centro da distribuio indicado pela linha da mediana. A disperso representada pela

    altura do retngulo (Q3-Q1), o qual contm 50% dos valores do conjunto de dados. A posio da linha mediana no retngulo informa sobre a assimetria da distribuio. Uma distribuio

    simtrica teria mediana no centro do retngulo. Se a mediana prxima de Q1 ento os dados so positivamente assimtricos. Se a mediana prxima de Q3 os dados so negativamente assimtricos.

    Mediana

    Quartil 3

    Quartil 1

    Ponto exterior

    Mximo

    Mnimo

    Figura 10.1 Box Plot

  • 29

    Os valores fora de Q11,5(Q3-Q1), denotado por limite inferior, e Q3+1,5(Q3-Q1), denotado por limite superior, geralmente so chamados de pontos exteriores e devem ser investigados como possveis outliers ou valores atpicos. Pontos exteriores no so

    necessariamente outliers, mas um outlier usualmente aparece no grfico como um ponto exterior.

    Exerccio de aplicao: (Azulejos) Observemos os Box plots para as turmas A e B. Temos que para turma A, o limite inferior Q11,5(Q3-Q1)= 3,1-1,5(4,45-3,1)= 1,075 e o limite superior Q3+1,5(Q3-Q1)= 4,45+1,5(4,45-3,1)=6,475. E para a turma B, o limite inferior 5,55-1,5(6,2-5,55)=4,575 e o superior 6,2+1,5(6,2-5,55)=7,175. Ento, no h pontos exteriores. Os Box-plots correspondentes as turmas A e B esto na Figura 6.2. Podemos perceber que a distribuio da espessura dos azulejos fabricados pela turma A aparentemente apresenta assimetria negativa. Enquanto que para a turma B observa-se assimetria positiva.

    Figura 10.2: Box-plot para as espessuras (mm) dos azulejos por turma

    Observaes sobre a construo e interpretao de Box-plots:

    1. Quando a distribuio dos dados simtrica, a linha que representa a mediana estar localizada mais ou menos no centro do retngulo e as duas linhas que partem das extremidades do retngulo tero aproximadamente os mesmos comprimentos.

  • 30

    2. De modo geral, quando a distribuio dos dados assimtrica direita, a linha que representa

    a mediana estar mais prxima de Q1 do que de Q3. Isto acontece porque a metade inferior dos dados est dispersa em uma faixa de comprimento menor que o comprimento da regio

    ocupada pela metade superior do conjunto de dados. 3. Quando a distribuio dos dados assimtrica esquerda, a linha que representa a mediana

    estar mais prxima de Q3 do que de Q1. Isto acontece porque a metade superior dos dados est dispersa em uma faixa de comprimento menor que o comprimento da regio ocupada

    pela metade inferior do conjunto de dados. 4. O Box-plot tambm pode ser desenhado na posio vertical.

    5. Os Box-plots so muito teis para a comparao de dois ou mais conjuntos de dados.

    Exerccio de aplicao: (Azulejos). Utilizando agora todos os novos conhecimentos que voc adquiriu, responda:

    a) Sabendo que os limites de especificao para a espessura dos azulejos so (5,0 1,5) mm, voc considera que a espessura no adequada dos azulejos pode estar provocando as reclamaes dos clientes? Por que?

    b) forma do histograma construdo para todos os dados considerados em conjunto est indicando que pode haver diferena na qualidade dos azulejos produzidos em diferentes nveis dos fatores de manufatura do processo de fabricao dos azulejos? Por qu?

    c) Voc considera que as duas turmas trabalham do mesmo modo ou existe diferena entre a qualidade dos azulejos produzidos pelas duas turmas? Justifique sua resposta.

    d) O problema de quebra dos azulejos parece ser comum aos azulejos produzidos por ambas as turmas de trabalho da empresa ou parece estar associado a uma turma especfica? Por que?

    e) O problema de falta de uniformidade no assentamento dos azulejos parece ser comum aos azulejos fabricados por ambas as turmas de trabalho da empresa ou parece estar associado a uma turma especfica? Por que?

  • 31

    5 LISTA DE EXERCCIOS

    Elaborada pelos professores: Giovana Silva, Maurcio Lordelo, Rosana Castro. Revisada: Giovana e Silvia.

    1) Classifique cada uma das variveis abaixo em qualitativa (nominal/ordinal) ou quantitativa (discreta/contnua):

    a) Ocorrncia de hipertenso arterial em grvidas com mais de 35 anos (sim ou no so possveis respostas para esta varivel).

    b) Inteno de voto para presidente (possveis respostas so os nomes dos candidatos, alm de indeciso).

    c) Perda de peso de maratonistas na Corrida de So Silvestre, em quilos. d) Intensidade da perda de peso de maratonistas na Corrida de So Silvestre (leve, moderada, forte). e) Grau de satisfao da populao brasileira com relao ao trabalho de seu presidente (valores de 0 a 5,

    com 0 indicando totalmente insatisfeito e 5 totalmente satisfeito). R.: a)Qualitativa Nominal, b) Qualitativa Nominal, c)Quantitativa Contnua, d)Qualitativa Ordinal, e) Qualitativa Ordinal

    2) Um questionrio foi aplicado aos dez funcionrios do setor de contabilidade de uma empresa fornecendo os dados apresentados na tabela:

    Funcionrio Sexo Curso (completo) Idade Salrio (R$) Anos de empresa

    1 masculino superior 34 1100,00 5 2 feminino superior 43 1450,00 8 3 feminino mdio 31 960,00 6 4 masculino mdio 37 960,00 8 5 masculino mdio 24 600,00 3 6 feminino mdio 25 600,00 2 7 masculino mdio 27 600,00 5 8 feminino mdio 22 450,00 2 9 masculino fundamental 21 450,00 3

    10 feminino fundamental 26 450,00 3

    a) Classifique cada uma das variveis; b) Faa uma representao grfica para a varivel curso; c) Faa uma tabela para a varivel curso por sexo. R.:a)sexo- qualitativa nominal curso- qualitativa ordinal

    idade- quantitativa continua salario- quantitativa continua anos de empresa- quantitativa continua

    b)grafico colunas , barras , setor

    c) Tabela: Funcionrios do setor de contabilidade de uma empresa por sexo e grau de instruo. Grau de Instruo

    Sexo Fundamental Medio Superior Total

    Feminino

    Masculino

    1

    1

    3

    3

    1

    1

    5

    5 Total 2 6 2 10

    Fonte: exercicio

  • 32

    3) Uma empresa do ramo automobilstico apresentou nos ltimos anos os seguintes dados: Ano Veculos Vendidos Gastos com propaganda (R$) Renda per capita

    (US$) 1990 116002 1713 429 1991 154972 2835 455 1992 178179 3585 482 1993 233011 5566 514 1994 295725 7251 556 1995 343533 8146 596 1996 379370 9148 632

    Fonte: Dados fictcios

    a) represente graficamente cada srie separadamente; b) analisando essas tabelas e grficos pode-se concluir que os gastos com propaganda foram

    compensados com o aumento da quantidade de veculos vendidos? JustifiqueR.: a) Grfico em colunas ou barras ou linhas. b) sim. Quanto mais gasto com propaganda, maior foi o nmero de carros vendindos e teve aumento na renda.

    4) Uma indstria automobilstica verificou que, nos ltimos meses, ocorreu um aumento no nmero de reclamaes sobre a ocorrncia de defeitos no suporte da lanterna traseira de um modelo de automvel por ela fabricado. A empresa desejava eliminar esta situao indesejvel e para isto iniciou estudos para melhorar resultados. Na etapa de identificao do problema, os tcnicos da indstria classificaram o nmero total de peas defeituosas encontradas em uma amostra de peas produzidas durante uma semana de trabalho, segundo os tipos de defeitos que foram detectados. Os dados obtidos so apresentados na tabela abaixo.

    Defeitos encontrados em uma amostra de suportes da lanterna traseira de um modelo de automvel durante uma semana de produo de uma indstria.

    Tipo de defeito Quantidade de defeitos Moldagem solta 14 Solda quebrada 01 Centro da moldagem deslocado 04 Lateral da moldagem deslocada 24 Moldagem arranhada 01 Moldagem dentada 44 Plstico arranhado 07 Limpeza incompleta 79 Orifcio deslocado 01 Pino deslocado 05 Total 180

    a) Construa um grfico adequado para esta srie. b) Identifique os tipos de defeitos que os tcnicos da empresa deveriam atacar em primeiro lugar, com

    o objetivo de melhorar os resultados que vinham sendo obtidos pela indstria. Justifique sua resposta.

  • 33

    R.:a)grafico em colunas ou barras ou pareto (preferncia). b)limpeza incompleta, moldagem dentada. Prioridade para os que apresentam maior ocorrncia.

    5) De acordo com uma pesquisa, v-se que dos 36 empregados da seo de oramentos da Cia. Milsa, 12 tm o primeiro grau de educao, 18 o segundo e 6 possuem ttulo universitrio. Apresente esta distribuio em uma tabela (com as propores) e em um grfico.

    R.:Tabela: Grau de instruo empregados da seo de oramentos da cia. Milsa.

    Grau de instruo Frequncia simples absoluta

    Frequncia simples relativa

    1 grau

    2 grau

    3 grau

    12

    18

    6

    0,33

    0,50

    0,17 Total 36 1,00

    Fonte: exercicio b) grafico barra ou coluna

    6) Uma empresa procurou estudar a ocorrncia de acidentes com seus empregados, tendo, para isso, realizado um levantamento abrangendo um perodo de 36 meses, onde foi observado o nmero de operrios acidentados para cada ms. Os dados correspondentes so:

    1 2 2 3 3 3 3 4 4 4 4 4 5 5 5 5 5 5 5 6 6 6 6 6 6 7 7 7 7 7 8 8 8 9 9 10

    a) Construa uma distribuio de freqncia adequada; b) Represente graficamente a distribuio do item a; c) Em qual porcentagem de meses houve, exatamente, seis acidentes? d) Em qual porcentagem de meses houve at quatro acidentes? R.:Tabela: N de acidentes ocorridos, por ms, com empregados da empresa no periodo de trinta e seis meses.

    N de acidentes Nmeros de meses (fi) fri 1 2 3 4 5 6 7 8 9 10

    1 2 4 5 7 6 5 3 2 1

    0,028 0,055 0,111 0,139 0,195 0,167 0,139 0,083 0,055 0,028

    Total 36 1,00 Fonte: exercicio b) colunas c)1/6 d)1/3

    7) Contou-se o nmero de erros de impresso da primeira pgina de um jornal durante 50 dias, obtendo-se os resultados abaixo:

    08 11 08 12 14 13 11 14 14 05 06 10 14 13 06 12 07 05 08 08 10 16 10 12 12 08 11 06 07 12 07 10 14 05 12 07 09 12 11 09 14 08 14 08 12 10 12 13 07 15

  • 34

    a) Construa uma distribuio de freqncia adequada; b) Represente a distribuio graficamente; c) Calcule o nmero mdio de erros de impresso por primeira pgina; d) Calcule a mediana; e) Determine a moda.

    R.:Tabela: Nmero de erros de impresso da primeira pgina do jornal. N de erros Nmeros de pginas(fi) %

    (100xfri) 5 6 7 8 9 10 11 12 13 14 15 16

    3 3 5 7 2 5 4 9 3 7 1 1

    6 6 10 14 4 10 8 18 6 14 2 2

    Total 50 100 Fonte: exercicio

    b) grafico barras ou colunas. c)10,24 d)10,5 e)12

    8) A distribuio de freqncias do salrio anual dos moradores do bairro A que tm alguma forma de rendimento apresentada na tabela abaixo:

    Faixa Salarial (x10 S.M.) fi 0 2 10.000 2 4 3.900 4 6 2.000 6 8 1.100

    8 10 800 10 12 700 12 14 2.000

    a) Construa um histograma da distribuio e identifique o tipo de assimetria; b) A mdia uma boa medida para representar estes dados? Justifique sua resposta.

    R.:a) positiva ou direita b) no. Devido a assimetria. 9) Os dados abaixo se referem ao dimetro, em polegadas, de uma amostra de 40 rolamentos de esferas

    produzidas por uma companhia:

    0,738 0,729 0,743 0,740 0,736 0,741 0,735 0,731 0,726 0,737 0,728 0,737 0,736 0,735 0,724 0,733 0,742 0,736 0,739 0,735 0,745 0,736 0,742 0,740 0,728 0,738 0,725 0,733 0,734 0,732 0,733 0,730 0,732 0,730 0,739 0,734 0,738 0,739 0,727 0,735

    a) construa uma tabela de distribuio de frequncia por intervalos de classe; b) represente graficamente a distribuio do item a.

  • 35

    R.:a) n= 40 k= 6,32 AT = 0,021 h=0,004 Tabela: Dimetro (mm) de rolamentos de esferas produzidas por uma companhia.

    Diametro rolamentos Nmeros de rolamentos(fi) % (100xfri)

    0,724 0,728 0,728 0,732 0,732 0,736 0,736 0,740 0,740 0,744 0,744 0,748

    4 6

    11 12 6 1

    10 15

    27,5 30 15 2,5

    Total 40 100,0 Fonte: exercicio a) histograma

    10) Coloque V(verdadeiro) e F(falso) e justifique: a) ( ) 50% dos dados de qualquer amostra situam-se acima da mdia; b) ( ) Numa turma de 50 alunos onde todos tiraram a nota mxima, o desvio padro zero; c) ( ) Quando queremos verificar a questo de uma prova que apresentou maior nmero de erros,

    utilizamos a mdia; d) ( ) Somando-se (ou subtraindo-se) um valor constante e arbitrrio a cada um dos elementos de um

    conjunto de dados, a mdia aritmtica fica adicionada (ou subtrada) dessa constante. e) ( ) Multiplicando-se (ou dividindo-se) um valor constante e arbitrrio a cada um dos elementos de

    um conjunto de dados, a mdia aritmtica fica multiplicada (ou dividida) por essa constante. f) ( ) Somando-se (ou subtraindo-se) um valor constante e arbitrrio a cada um dos elementos de um

    conjunto de dados, o desvio padro fica adicionado (ou subtrado) dessa constante. g) ( ) Multiplicando-se (ou dividindo-se) um valor constante e arbitrrio a cada um dos elementos de

    um conjunto de dados, o desvio padro fica multiplicado (ou dividido) por essa constante. R.: F,V,F,V,V,F,V

    11) Na companhia A, a mdia dos salrios 10.000 unidades e o 750 percentil 5.000. Justifique. a) Se voc se apresentasse como candidato a essa firma e se o seu salrio fosse escolhido ao acaso entre

    todos os possveis salrios, o que seria mais provvel: ganhar mais ou menos que 5.000 unidades? b) Suponha que na companhia B a mdia dos salrios 7.000 unidades e a varincia praticamente zero,

    e l o seu salrio tambm seria escolhido ao acaso. Em qual companhia voc se apresentaria para procurar emprego?R.: a) ganhar menos. b) B

    12) Uma indstria de alimentos estava interessada em analisar seu processo de produo de determinado alimento. Existem nesta indstria duas mquinas responsveis pelo controle do processo de desidratao do alimento. Um importante item de controle do processo a umidade do produto final, que segundo as especificaes, deve estar na faixa de 8,0% a 12%. Foi detectado incapacidade do processo em atender s especificaes. A equipe tcnica suspeitava de que podia haver diferenas na forma de funcionamento das duas mquinas de desidratao. Com o objetivo de observar o funcionamento das mquinas foram feitas medidas do teor de umidade do produto final, estratificadas por mquina de desidratao. Os resultados esto apresentados a seguir:

  • 36

    Mquina 1 11,7 11,8 12,1 10,7 11,7 10,9 10,7 11,6 12,5 10,7 11,5 11,1 11,2 11,2 11,8 11,2 11,0 11,7 11,1 11,3 11,0 12,2 10,7 12,2 11,9 11,1 11,4 10,7 11,2 11,6 11,0 10,9 11,2 11,2 11,3 12,1 10,9 11,7 11,3 11,5

    Mquina 2 11,4 11,5 11,5 10,4 11,0 9,9 10,5 10,8 11,4 11,5 10,9 10,2 11,1 11,0 10,2 11,2 11,9 10,8 11,2 11,0 10,2 11,5 10,9 10,1 11,2 10,7 11,8 11,1 10,4 11,8 11,9 10,7 10,8 10,8 10,4 10,8 11,2 10,8 10,6

    Para cada mquina, calcule a mdia, a mediana, o desvio padro, o coeficiente de variao e o intervalo interquartil da varivel teor de umidade e construa o histograma e box plot. A partir das medidas descritivas e dos histogramas e box plots, compare o desempenho das duas mquinas comentando os aspectos de posio e variabilidade dos dados. R.: Maquina 1 Maquina 2 Mdia=11,365 Mediana=11,25 Desvio Padro=0,4715 CV=0,0415 Quartil 1: 11,0 Quartil 3: 11,7

    Mdia=10,95 Mediana=10,9 Desvio Padro=0,5109 CV=0,0467 Quartil 1: 10,7 Quartil 3: 11,3

    13) As instituies de poupaa e investimento podem comercializar um tipo de seguro de vida conhecido como seguro de vida das instituies de poupana e investimento( savings bank life insurance SBLI). O processo de aprovao consiste na subscrio, que inclui a reviso da proposta; verificao das informaes mdicas ou exames adicionais; e o estgio de compilao da aplice, durante o qual as pginas da aplice so geradas e enviadas ao banco para que sejam ento remetidas. A capacidade de entregar as aplices aprovadas ao cliente em tempo hbil critica para a instiuio no que diz respeito eficcia desse servio. Durante um perodo correspondente a um ms, foi selecionada uma amostra aleatria de 27 aplices aprovadas, e foram registrados os seguintes dados sobre o total de tempo, em dias, para o processamento.

    73 19 16 64 28 28 31 90 60 56

    31 56 22 18 45 48 17 17 17 91

    92 63 50 51 69 16 17

    a) Calcule a mdia aritmtica, a mediana, o primeiro quartil e o terceiro quartil. b) Construa o box-plot. Os dados so assimtricos? Em caso afirmativo, qual a direo da

    assimetria? c) O que voc diria a um cliente que entrasse na instiuio para adquirir esse tipo de aplice

    de seguro e perguntasse quanto tempo leva o processo de aprovao. R: a)Mdia=43,89, mediana=45, 1 quartil=18 e 3 quartil=63. b)A distribuio dos dados assimtrica direita uma vez que existem algumas poucas aplices que demandam um perodo de tempo excepcionalmente longo para ser aprovadas. d) A mdia aritmtica do processo de

    aprovao 43,89 dias, cinquenta por cento das aplices so aprovadas em menos de 45 dias e cinquenta por cento das aplices so aprovadas

    entre 18 3 63 dias.

  • 37

    14) Uma agncia bancria, localizada em uma rea residencial, est preocupada com o horrio de pico durante o almoo, das 12h s 13h. O tempo de espera, em minutos, coletados a partir de uma amostra aleatria de 15 clientes durante esse horrio, est apresentado a seguir:

    9,66 5,90 8,02 5,79 8,73 3,82 8,01 8,35 10,49 6,68

    5,64 4,08 6,17 9,91 5,47

    a) Cacule a mdia e a mediana. b) Os dados so assimtricos? Em caso afrimativo, qual o tipo de assimetria? c) Assim que um cliente entra na agncia durante o horrio de almoo, ele pergunta ao

    gerente da agncia quanto tempo deve esperar at ser atendido. O gerente responde: Quase certamente no mais de cinco minutos. Com base nos resultados dos itens a e b, avalie a exatido dessa afirmativa. R: a) Mdia=7,11, mediana= 6,68. b) sim, assimtrica direita. d) A mdia aritmtica e a mediana so, ambas, maiores do que cinco minutos. A distribuio assimtrica direita, significando que existem alguns valores muito grandes. Alm disso, 13 entre os 15 clientes de bancos selecionados (ou 86,7%) tiveram tempos de espera superiores a 5 minutos. Portanto, o cliente, est propenso a passar um tempo de espera superior a 5 minutos. O gerente superestimou os registros dos servios prestados pelo banco ao responder ao cliente.

    15) Voc est indeciso em comparar uma televiso e decide avaliar algumas informaes estatsticas, fornecidas pelo fabricante, sobre a durao (em horas) do tubo e imagem. Com que marca voc ficaria?

    Marca da TV GA FB HW

    Mdia 8.000 8.200 8.000

    Mediana 8.000 9.000 7.000

    Desvio padro 600 1.500 2.500 R:As mdias so similares. A mediana da FB mais alta, que um fator positivo. Por outro lado, HW tem a menor mediana e, portanto, essa marca deve ser desconsiderada. Notemos que o desvio padro de FB duas vezes e meia maior do que o de GA. Como GA tem mediana no muito baixa e pouca variabilidade, parecer ser a melhor opo. Portanto, recomendado comparar a marca GA.

    16) Um estudante est procurando um estgio para o prximo ano. As companhias A e B tm programas de estgios e oferecem uma remunerao por 20 horas semanais com as seguintes

    caractersticas (em salrios mnimos). Qual companhia mais adequada? Companhia A B

    Mdia 2,5 2,0

    Mediana 1,7 1,9

    Moda 1,5 1,9 R: A companhia A tem 50% dos seus estagirios recebendo at 1,7 salrios minimos e o valor com maior frequncia de ocorrncia 1,5. Como amdia 2,5 deve haver alguns poucos estagirios com salrio bem mais alto, ou seja, valor alto com frequncia pequena de ocorrncia. A companhia B tem as trs medidas bem prximas indicando uma razovel simetria entre os salrios altos e baixos. A opo do estudante depender de sua qualificao. Se o estudante for bem qualificado, deve preferir a companhia A, pois ter mais chance de obter um dos altos salrios. Se tiver qualificao prxima ou abaixo dos outros estudantes, deve preferir a B qua parece ter uma poltica mais homognea de salrios.

  • 38

    11. Noes de Inferncia Estatstica

    11.1. Introduo

    O objetivo principal da inferncia estatstica fazer afirmaes sobre caractersticas de uma populao, baseando-se em resultados de uma amostra.

    Na inferncia estatstica a incerteza est sempre presente. No entanto, se o experimento foi

    feito de acordo com certos princpios, essa incerteza pode ser medida. Uma funo da estatstica fornecer um conjunto de tcnicas para fazer inferncias e medir o

    grau de incerteza destas inferncias. Esta incerteza medida em termos de probabilidades.

    Exemplo 1: Flores brancas

    Sementes (10.000.000) (POPULAO) Flores vermelhas

    Suponha que em um celeiro existam 10 milhes de sementes de flores que podem

    produzir flores brancas ou flores vermelhas. Deseja-se a seguinte informao: que proporo, dessas 10 milhes de sementes, produzir flores brancas? No de interesse plantar todas as sementes para verificar a cor das flores produzidas. Vamos plantar algumas poucas e com base nas cores dessas poucas, fazer alguma afirmao sobre a

    proporo (das 10 milhes) que produzir flores brancas. No podemos fazer esta generalizao com certeza, mas podemos fazer uma afirmao probabilstica, se selecionarmos as sementes que pertencero amostra de forma adequada.

    Suponha que foi retirada uma amostra aleatria (ao acaso) composta de 200 sementes da populao acima. Observou-se que dessas sementes 120 eram de flores brancas e 80 de flores vermelhas. A proporo de flores brancas encontrada na amostra foi ento de 60% .

    Como poderamos utilizar o resultado de uma amostra para estimar a verdadeira proporo de sementes de flores brancas?

    Analisando o problema em questo com auxlio da teoria das probabilidades, pode-se encontrar um intervalo em torno da proporo observada na amostra (60%) e afirmar com bastante segurana que a proporo populacional de sementes de flores brancas estar contida

    neste intervalo. Por exemplo, no problema acima, se admitssemos uma chance de erro de 5%, com o tamanho de amostra utilizado (n=200), a teoria estatstica permite afirmar que a proporo populacional de flores brancas est entre 53% e 67%. Se os mtodos estatsticos forem corretamente utilizados podemos garantir que de apenas 5% a probabilidade de estarmos

  • 39

    fornecendo um intervalo que no contenha a verdadeira proporo populacional. Mais tarde

    veremos como calcular este tipo de intervalo.

    11.2. Estatsticas, Parmetros e Estimadores

    Alguns conceitos bsicos so necessrios para o desenvolvimento da Inferncia Estatstica:

    Parmetro: qualquer valor calculado com base em todos os elementos da populao. Estatstica: qualquer valor calculado com base (apenas) nos elementos da amostra. Estimador: uma estatstica destinada a estimar um parmetro populacional. Estimativa: o valor numrico do estimador com base nas observaes amostrais.

    Alguns exemplos de estatsticas que so tambm estimadores:

    n

    X...XXX n+++= 21 (mdia amostral)

    (varincia amostral)

    Smbolos mais comuns

    11.3. Introduo Amostragem

    Usualmente impraticvel observar toda uma populao, seja pelo alto custo, seja por dificuldades diversas. Examina-se ento uma amostra da populao. Se essa amostra for

    bastante representativa, os resultados obtidos podero ser generalizados para toda a populao.

    Uma amostra muito grande pode implicar em custos desnecessrios enquanto que uma amostra pequena pode tornar a pesquisa inconclusiva. Assim, deve-se procurar dentro das restries impostas pelo oramento, desenhar uma amostra que atinja os objetivos, produzindo estimativas com menor impreciso possvel.

    A experincia com amostragem fato corrente no cotidiano. Basta lembrar como um cozinheiro verifica o tempero de um prato que est preparando, como algum testa a

    Estimador Parmetro Mdia X

    Varincia S2 2

    Propores p p ou pi

  • 40

    temperatura de um prato de sopa, ou ainda como um mdico detecta as condies de um

    paciente atravs de exames de sangue. Porm, o uso inadequado de um procedimento amostral pode levar a um vis de interpretao do resultado. Por exemplo, no mexer bem a sopa antes

    de retirar uma colher para experimentar, pode levar a sub-avaliao da temperatura do prato todo, com consequncias desagradveis para o experimentador.

    O uso de amostras que produzam resultados confiveis e livres de vieses o ideal. Assim, a maneira de se obter a amostra to importante que constitui uma especialidade dentro da

    Estatstica, conhecida como Amostragem. Os vrios procedimentos de se escolher uma amostra podem ser agrupados em dois grandes grupos: os chamados planos probabilsticos e planos no-probabilsticos. O primeiro grupo rene todas as tcnicas que usam mecanismos aleatrios de seleo dos elementos da amostra, atribuindo a cada um deles uma probabilidade, conhecida a

    priori, de pertencer amostra. No segundo grupo esto os demais procedimentos, tais como: amostras intencionais, onde os elementos so selecionados com auxlio de especialistas, e

    amostras de voluntrios, como ocorre em alguns testes sobre novos remdios. Ambos os procedimentos tm suas vantagens e desvantagens. Os estatsticos preferem

    trabalhar com as amostras probabilsticas pois, tm toda teoria de probabilidade e de inferncia estatstica para dar suporte s concluses. Dessa forma, possvel medir a preciso dos

    resultados, baseando-se na informao contida da prpria amostra. Planos de amostragem probabilsticos podem ser exemplificados pela amostragem aleatria simples e pela amostragem estratificada.

    Amostragem Aleatria Simples Quando o sistema de referncia (lista ou descrio das unidades da populao)

    perfeito, isto , quando ele lista uma a uma todas as unidades da populao, possvel ento usar um procedimento onde cada unidade sorteada diretamente, com igual probabilidade de

    pertencer a amostra. A melhor maneira para definir este plano descrevendo o processo de sorteio, que seria o seguinte: - da relao de unidades do sistema de referncia sorteie, com igual probabilidade o primeiro elemento da amostra, repita o processo para o segundo, e assim

    sucessivamente at sortear o ltimo elemento programado para a amostra. As amostras assim obtidas definem o plano de Amostragem Aleatria Simples que pode ser concebido com ou sem

    reposio. Amostragem Estratificada

    Informaes adicionais podem aprimorar um desenho amostral. Por exemplo, em uma pesquisa sobre renda familiar mdia, conhece-se de antemo as regies da cidade onde

    predominam moradias de diferentes classes de renda. Este conhecimento pode ser usado para definir sub-populaes homogneas segundo a renda, e a ento sortear amostras dentro de cada

  • 41

    uma dessas regies. Este procedimento conhecido como a diviso da populao em estratos, e

    consequentemente, definem os planos de Amostragem Estratificada.

    11.4. Erros amostrais e No-amostrais

    O uso de um levantamento amostral introduz um tipo de erro, que pode ser resumido na diferena entre o valor de certa caracterstica na amostra e o parmetro de interesse na populao.

    Esta diferena pode ocorrer apenas devido particular amostra selecionada, ou ento devido a fatores externos ao plano amostral. Quando o erro devido amostra selecionada chamado de erro amostral e quando devido fatores independentes do plano amostral (erros de medida, digitao, etc) chamado de erro no-amostral.

    Considera-se um erro amostral aquele desvio que aparece porque o pesquisador no levantou a populao toda. Cada amostra possvel de um plano acarreta em um desvio. Vejamos o esquema que se segue que considera a mdia como a caracterstica de interesse. Vamos denotar

    por e X a mdia populacional e a mdia amostral da varivel, respectivamente.

    Populao ou Amostras possveis Universo de tamanho n

    1 A1 => 1X 2

    3

    A2 => 2X .

    . |X - | = E = erro .

    Ai => iX N

    Ak => kX

    No caso da mdia, o estudo do erro amostral consiste basicamente em estudar o

    comportamento da diferena ( X - ) quando X percorre todas as possveis amostras que poderiam ser formadas atravs do plano amostral escolhido. Conhecendo-se a distribuio amostral de X pode-se avaliar sua mdia e seu desvio padro. Neste caso particular o desvio

    padro recebe o nome de erro padro de X .

  • 42

    11.5. Distribuies Amostrais

    Diferentes amostras extradas da populao iro originar valores distintos para a estatstica

    considerada. Por este motivo, dizemos que as estatsticas so variveis aleatrias, j que seu valor no pode ser predito com certeza antes da amostra ter sido extrada. Alm disso, as estatsticas,

    como funes de variveis aleatrias, so tambm variveis aleatrias, e, portanto, tm uma distribuio de probabilidade, esperana e varincia.

    A distribuio de probabilidade de uma estatstica quando consideramos todas as amostras possveis de tamanho n denominada de distribuio amostral.

    11.5.1. Distribuio Amostral da Mdia

    A distribuio amostral da mdia X , de amostras aleatrias simples de tamanho n,

    extrada de uma populao que tem mdia e desvio padro , tem as seguintes caractersticas:

    E( X ) =

    V( X ) = 2/n

    Caso a populao tenha distribuio normal com mdia e desvio padro , a

    distribuio amostral da mdia X , normal com mdia e desvio padro / n .

    A distribuio amostral da mdia X , de amostras aleatrias simples de tamanho n

    extrada de uma populao no-normal, com mdia e desvio padro , aproximadamente

    normal com mdia e desvio padro / n , quando n suficientemente grande. Este resultado

    uma aplicao de um importante teorema de probabilidade, chamado Teorema Central do Limite. Para a utilizao deste resultado, usual considerar que o tamanho n da amostra

    suficientemente grande quando n pelo menos 30.

    Exerccios: 1) A mquina de empacotar um determinado produto o faz segundo uma distribuio normal,

    com mdia e desvio padro de 10g.

    a) Em quanto deve ser regulado o peso mdio para que apenas 10% dos pacotes tenham menos do que 500g. R.:512,8 g

    b) Com a mquina assim regulada, qual a probabilidade de que o peso total de 4 pacotes escolhidos ao acaso seja inferior a 2 Kg? R.:0,0052

    2) No exemplo anterior, e aps a mquina estar regulada, programou-se uma carta de controle. De hora em hora, ser retirada uma amostra de 4 pacotes, e estes sero pesados. Se a mdia da

  • 43

    amostra for inferior a 495g ou superior a 520g para-se a produo para reajustar a mquina, isto reajustar o peso mdio.

    a) Qual a probabilidade de ser feita uma parada desnecessria? R.: 0,0749 b) Se o peso mdio da mquina desregulou-se para 500g, qual a probabilidade de continuar-se a

    produo fora dos padres desejados? R.: 0,8413 3) Para uma populao com desvio padro igual a 10, qual deve se o tamanho da amostra para

    que a diferena da mdia amostral para a mdia populacional, em valor absoluto, seja menor que 1, com probabilidade igual a 0.99 ? R.: 666

    11.5.2. Distribuio Amostral da Proporo

    Considere que a proporo de elementos numa populao com determinada caracterstica p. Assim, para cada elemento da populao podemos definir uma varivel X, tal que

    X =

    ticacaracters daportador no elemento o se 0,ticacaracters daportador elemento o se ,1

    Isto , X ~Bernoulli(p) = Binomial (1; p) , e portanto E(X) = p e V(X) = p(1-p). Seja X1 , X2 , ... , Xn uma amostra aleatria simples retirada dessa populao, e seja

    =n

    in X1

    S o total de elementos portadores da caracterstica na amostra. Tem-se que

    Sn ~ Binomial (n,p). Defina como p a proporo de elementos portadores da caracterstica na amostra, isto ,

    Xn

    Xn

    i===

    1n

    n

    Sp .

    Utilizando o Teorema Central do Limite, tem-se que a distribuio amostral de p

    aproximadamente

    n

    p)p(1p,N , quando n suficientemente grande (np 5 e n(1-p) 5 ).

    Exerccios

    1) Um procedimento de controle de qualidade foi planejado para garantir um mximo de 10% de itens defeituosos na produo. A cada 60 minutos sorteia-se uma amostra de 50 peas, e, havendo mais de 15% de defeituosos, pra-se a produo para verificaes. Qual a probabilidade de uma parada desnecessria? Resp.: 0,119

    2) Suponha que uma indstria farmacutica deseja saber quantos voluntrios se deva aplicar uma vacina, de modo que a proporo de indivduos imunizados na amostra difira de menos de 2%

  • 44

    da proporo verdadeira de imunizados na populao, com probabilidade de 90%. Qual tamanho da amostra a escolher? Resp: 1702

    11.5.3. Distribuio Amostral de S2

    Considere uma amostra aleatria de tamanho n que retirada de uma populao normal

    com mdia e varincia 2, e seja S2 a varincia amostral. Ento a estatstica tem distribuio qui-quadrado com =n-1 graus de liberdade. A varivel aleatria Z tem funo de

    densidade dada por:

    ( )

    >

    =

    riocasocontr 0,

    0z , 2z-e z 1222 2

    1f(z)

    diz-se que Z segue uma distribuio qui-quadrado com graus de liberdade, denotada por A

    mdia e a varincia para a distribuio so, respectivamente, e 2.

    A distribuio qui-quadrado contnua e assimtrica e como a distribuio normal

    padronizada, tambm tabelada. A tabela fornece os valores de para vrios graus de

    liberdade sendo . A seguir, mostrado como usar a tabela da distribuio qui-

    quadrado:

    .

    A tabela completa fornecida no final da apostila.

    Exerccios 1) Para uma distribuio qui-quadrado, determine: a) b) c) R.: 20,48; 18,48 e 36,42

    2) Determine a probabilidade de que uma amostra aleatria de 25 observaes, de uma populao normal com varincia 2 =6, ter uma varincia amostral S2:

    Pontos percentuais da Distribuio Qui-Quadrado (2)

    Graus de liberdade

    Probabilidade de ser maior que determinado valor

  • 45

    a) maior que 9,1; R.: 0,05

    b) entre 3,642 e 10,745. R.: 0,94

    11.5.4. Outra distribuio amostral

    Em muitas situaes, o conhecimento do valor de no razovel Frequentemente, uma

    estimativa para fornecida pela amostra. Suponha que X1, ..., Xn seja uma amostra aleatria de uma populao normal, com mdia e varincia 2, e sejam e S2 a mdia e a varincia amostrais, respectivamente. Ento ) segue uma distribuio t ou t de Student, com =n-1 graus de liberdade A funo de densidade de T dada por:

    A mdia e a varincia da distribuio t so 0 e /(+2) para < 2, respectivamente.

    Figura 1: Grficos da funo densidade da distribuio t de Student para alguns valores

    de graus de liberdade.

    A distribuio t de Student contnua e simtrica com mdia igual a zero. Sua aparncia

    bastante parecida com a normal padro, veja Figura 1. Ambas as distribuies tem forma de sino, mas a distribuio t tem mais probabilidade nos extremos. A qualificao com n-1 graus de

    liberdade necessria, porque para cada valor diferente do tamanho da amostra n existe uma

    distribuio t de Student especfica. O nmero de graus de liberdade (gl) o parmetro da distribuio t de Student.

    Assim como a distribuio normal padro a distribuio t de Student tambm tabelada.

    A tabela fornece valores de para vrios graus de liberdade sendo . A seguir,

  • 46

    mostrado como usar a tabela da distribuio t de Student:

    A tabela completa fornecida no final da apostila

    Exerccios 1) Para uma distribuio T, determine: a) P(T

  • 47

    Problemas de testes de hipteses 1) Testar a afirmao de que o peso mdio de um determinado produto de uma linha de

    produo 500 g. 2) Testar a afirmao de que a proporo de peas defeituosas menor que 4% do lote.

    Exemplo 12.1: Queremos investigar a durao de vida de um novo tipo de lmpada, pois acreditamos que ela tenha durao maior do que as fabricadas atualmente.

    Cem lmpadas so deixadas acesas at queimarem. A durao em horas de cada lmpada

    (T) registrada. POPULAO: todas as lmpadas fabricadas ou que venham a ser fabricadas por esta

    fbrica. AMOSTRA: cem lmpadas selecionadas. Em geral, neste tipo de problema adotada a funo de densidade exponencial para

    durao T ~ exp ().

    Objetivo: Fazer inferncia sobre . Vale lembrar que E(T) = 1/ .

    Existem dois tipos de estimao de um parmetro populacional: estimao pontual e a estimao intervalar.

    12.1. Estimao Pontual

    Procura encontrar um valor numrico nico que esteja bastante prximo do verdadeiro valor do parmetro. Este procedimento no permite julgar a magnitude do erro que podemos estar cometendo.

    Estimadores pontuais razoveis dos principais parmetros populacionais.

    Parmetro Estimador

    Mdia () =

    =

    n

    1iiX

    n

    1X

    Varincia (2)

    Desvio padro

    Proporo (p) nXp = em que

    X = nmero de elementos da amostra que possuem a caracterstica n = tamanho da amostra

  • 48

    Podem existir outros estimadores pontuais para esses parmetros. Assim, necessrio definir

    propriedades desejveis para os estimadores de maneira que se possa escolher qual estimador pontual de um determinado parmetro o melhor a ser usado. Este assunto no ser abordado

    nesta apostila.

    Muito provavelmente uma estimativa pontual no coincide exatamente com o valor verdadeiro do

    parmetro populacional que est sendo estimado e, alm disto, esta estimativa no traz associada

    a ela uma medida de sua preciso. A estimao intervalar que ser apresentada a seguir ajuda a resolver este tipo de dvida.

    12.2. Estimao Intervalar

    Procura determinar um intervalo que abranja o valor do parmetro, com certa margem de segurana. Este procedimento permite julgar a magnitude do erro que podemos estar cometendo.

    Como mencionado anteriormente, os estimadores pontuais especificam um nico valor

    para o estimador e este procedimento no permite julgar qual a possvel magnitude do erro. Da surge idia de construirmos os intervalos de confiana. De um modo geral, nos basearemos na

    amostra para construir um intervalo que com alto grau (ou nvel) de confiana contenha o verdadeiro valor do parmetro.

    Grau de confiana a probabilidade do intervalo de confiana conter o verdadeiro valor do

    parmetro. tambm chamado de nvel de confiana e geralmente expresso em porcentagem.

    Formalizando um pouco, se denotarmos o parmetro de interesse por , desejamos obter um intervalo com limite inferior I e limite superior S tal que

    P(I < < S) = 1 - ,

    em que um valor pequeno, ou seja 1- prximo de 1. Os limites deste intervalo so variveis aleatrias pois dependem da amostra selecionada. Um intervalo deste tipo

    denominado intervalo de 1-(100)% confiana para o parmetro . Valores de mais comumente usados so:

    = 0,10 1 = 0,90 ou 90%

    = 0,05 1 = 0,95 ou 95%

    = 0,01 1 = 0,99 ou 99%

    A preciso com que se conhece depende da amplitude deste intervalo dada por S I.

    Quanto menor esta amplitude melhor determinado estar o valor do parmetro.

  • 49

    Para esclarecer o conceito de intervalo de confiana, suponha que retiremos um grande

    nmero de amostras de tamanho n (fixo) da populao em estudo e para cada amostra, construamos um intervalo. Os limites dos intervalos resultantes variaro de amostra para amostra.

    Por exemplo, ao desejar um intervalo de confiana de 90% para estimar a mdia de uma populao, uma pessoa pode retirar uma amostra que d um intervalo entre 48,5 e 51,5. Por outro lado, uma segunda pessoa, baseada em outra amostra retirada da mesma populao, calculou o

    intervalo entre 47,9 e 52,9, aparentemente gerando uma dvida sobre qual dos intervalos contm o verdadeiro valor da mdia. Ocorre que se 100 desses intervalos fossem calculados a partir de

    100 amostras diferentes, deve-se esperar que em torno de 90 desses intervalos contenham o valor da verdadeira mdia, embora no se saiba quais so estes intervalos, uma vez que a mdia

    desconhecida. Na prtica trabalhamos em geral com apenas uma amostra e obtemos um nico

    intervalo.

    A figura a seguir ilustra bem o conceito de intervalo de confiana.

    O verdadeiro valor do parmetro estar contido em 1-(100)% desses intervalos. Observe que algumas estimativas intervalares incluem e outras no incluem o verdadeiro valor do

    parmetro da populao. Quando se retira uma amostra e se calcula um intervalo de confiana, no se sabe na verdade, se o parmetro da populao se encontra naquele intervalo calculado. O

    importante saber que se est utilizando um mtodo com 1-(100)% de probabilidade de sucesso.

    Os intervalos de confiana so construdos a partir da distribuio amostral de uma estatstica. A

    seguir so descritos alguns intervalos.

  • 50

    12.2.1. Intervalo de Confiana para a Mdia de uma Populao

    A mdia uma importante caracterstica da populao. Vejamos como obter intervalos de confiana para este parmetro populacional. Temos que distinguir algumas situaes que

    podem surgir na prtica:

    1. Amostras pequenas (n < 30)

    Populao Normal

    Populao no Normal

    2. Amostras grandes (n 30)

    Populao Normal

    Populao no Normal

    Para pequenas amostras os procedimentos estatsticos de inferncia paramtrica exigem

    que se verifique a normalidade da populao e outras distribuies de probabilidade (por exemplo a distribuio t de Student) devem ser estudadas a fim de utilizar os procedimentos adequados. Alm disso, se a normalidade no for aceitvel, no caso de amostras pequenas,

    devemos utilizar procedimentos alternativos, por exemplo, inferncia no-paramtrica. Para amostras suficientemente grandes os procedimentos simplificam bastante e

    mesmo sem conhecermos a distribuio da populao, as inferncias podem ser feitas com

    base na distribuio normal mesmo que a populao no seja normal.

    Amostras pequenas

    1) Distribuio normal, 2 = o2 (conhecido) Esta situao um tanto quanto rara na prtica, pois embora a hiptese de normalidade

    seja razovel em muitos casos, dificilmente se conhece a varincia de uma populao quando sua mdia desconhecida. Algumas vezes o conhecimento de pode provir de dados histricos

    sobre a populao de interesse ou de resultados obtidos em estudos similares ao que est sendo

    realizado.

    Sabemos que segue uma distribuio normal padro. Assim,

    =

    1400

    13.2. Erro tipo I e Erro tipo II

    Qualquer que seja a deciso tomada em um teste de hipteses, estamos sujeitos a cometer erros, devido presena da incerteza.

    Concluso do teste Situao da populao H0 verdadeira H0 falsa

    No rejeitar H0 Correto Erro tipo II Rejeitar H0 Erro tipo I Correto

    fundamental que, em cada caso, se saiba qual so os erros possveis e que se decida a priori qual o mais srio. No possvel controlar ambos os erros ao mesmo tempo. Quando diminumos muita a probabilidade de erro tipo I, aumentamos a probabilidade do erro tipo II e vice-versa.

    Assim, a deciso de rejeitar H0 equivalente opinio H0 falsa e a deciso de aceitar H0 no equivalente opinio H0 verdadeira. Neste caso a opinio adequada a de que os dados no contm evidncia suficientemente forte contra H0.

    Exemplo 13.1: No caso das lmpadas, o erro tipo I seria aprovar o novo processo de fabricao quando na realidade ele no superior. O erro tipo II seria rejeitar o novo processo de fabricao quando , de fato, melhor.

    13.3. Nvel de significncia e Poder

    O valor de fixado pelo pesquisador. Esta probabilidade recebe o nome de nvel de

    significncia do teste. Usualmente, esses valores so fixados em 5%, 1% ou 0,1%. O valor 1- chamado poder do teste. O poder do teste a capacidade deste de detectar que H0 falsa quando

    de fato esta hiptese falsa. No caso das lmpadas, o poder do teste seria a probabilidade deste

    aceitar o novo processo de fabricao (rejeitar H0) quando este for realmente melhor. Como a probabilidade do erro tipo I () fixada em valores pequenos, este deveria ser o

    tipo de erro mais grave.

  • 59

    13.4. Estatstica de teste e regio crtica

    A deciso entre as hipteses tomada com base nos dados de uma amostra extrada da populao. No nosso exemplo, suspeitamos que o tempo de vida mdio das lmpadas maior que

    1400. Colhe-se uma amostra aleatria de 100 lmpadas e determina-se o valor da mdia amostral

    para, atravs dela, comprovar ou refutar tal hiptese. Suponha que o pesquisador decide adotar a seguinte regra de deciso:

    Rejeitar Ho se X for maior que 1800 Neste exemplo, X est sendo usada como estatstica de teste e a regio crtica ou regio de

    rejeio aos valores que forem maiores que 1800.

    13.5. Nvel Descritivo ou p-valor

    O procedimento descrito anteriormente conhecido como procedimento clssico de testes

    de hipteses. Um outro procedimento que vem sendo muito adotado consiste em apresentar o p-valor do teste. A diferena bsica entre esses dois procedimentos que,

    trabalhando-se com o p-valor no necessrio construir a regio crtica. Vejamos o seguinte exemplo:

    Suponha que no caso das lmpadas foi obtido X = 1550 para uma amostra de 100 lmpadas. O

    pesquisador calcula a seguinte probabilidade:

    1400) | 1550 ( = XP . O valor desta probabilidade chamado de p-valor e neste exemplo, indica a probabilidade

    de uma populao com mdia 1400 gerar uma amostra de tamanho 100 que tenha mdia igual ou

    maior que o resultado observado. Caso esta probabilidade seja muito pequena devemos suspeitar da