Livro de Estatística.pdf

Embed Size (px)

Citation preview

  • 8/17/2019 Livro de Estatística.pdf

    1/155

    Instituto Federal de Educação,Ciência e Tecnologia

    de Pernambuco

    2010Recife-PE

    Licenciatura em MatemáticaEstatística

    Karin Elisabeth Von Schamlz Peixoto

  • 8/17/2019 Livro de Estatística.pdf

    2/155

    Presidência da República Federativa do Brasil

    Ministério da Educação

    Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES

    Este Caderno foi elaborado em parceria entre o Instituto Federal de Educação,

    Ciência e Tecnologiade Pernambuco - IFPE e a Universidade Aberta do Brasil - UAB

    Equipe de Elaboração

    Coordenação do CursoMaria de Fátima Neves CabralSupervisão de TutoriaSônia Quintela CarneiroLogística de Conteúdo

    Clayson Pereira da SilvaGiselle Tereza Cunha de AraújoMaridiane VianaVerônica Emília Campos Freire

    Coordenação InstitucionalReitoria  Pró-Reitoria de Ensino  Diretoria de Educação a DistânciaPró-Reitoria de ExtensãoPró-Reitoria de Pesquisa e InovaçãoPró-Reitoria de Administração e Planejamento

    DiagramaçãoRafaela Pereira Pimenta de Oliveira

    Edição de ImagensVerônica Emília Campos Freire

    Revisão de Conteúdo

    Moacyr Cunha Filho

    Revisão LinguísticaIvone Lira de Araújo

  • 8/17/2019 Livro de Estatística.pdf

    3/155

  • 8/17/2019 Livro de Estatística.pdf

    4/155

  • 8/17/2019 Livro de Estatística.pdf

    5/155

    Sumário

    Sumário 5

    Palavra do professor-autor 7

    Apresentação da Disciplina 9

    Aula 1 11

    Aula 2 31

    Aula 3 61

    Aula 4 85

    Aula 5 103

    Aula 6 127

  • 8/17/2019 Livro de Estatística.pdf

    6/155

  • 8/17/2019 Livro de Estatística.pdf

    7/155

    Palavra do professor-autor

    Olá!

    Eu sou Karin von Schmalz Peixoto, professora conteudista de Estatística. Sou

    graduada em Ciências Biológicas pela Universidade Federal de Pernambu-

    co, mestre em Zoologia pela Universidade Federal da Paraíba e doutora em

    Zoologia Numérica pela University of Oxford, na Inglaterra. Comecei a ver

    a beleza da Estatística ainda na graduação e, desde 1995, ministro cursos

    voltados à aplicação do método estatístico na Biologia, Arqueologia e Ciên-

    cias Sociais. Fui professora da Universidade Federal Rural de Pernambuco,ensinando Genética Quantitativa, e hoje sou consultora da área, ajudando

    pesquisadores, laboratórios e empresas a entender como longas listas de

    números podem, na verdade, deixar suas vidas mais fáceis.

    Espero passar a vocês a admiração e entusiasmo que tenho por este ramo

    da Matemática.

    Bom estudo!

    UABEstatística 7

  • 8/17/2019 Livro de Estatística.pdf

    8/155

  • 8/17/2019 Livro de Estatística.pdf

    9/155

    Apresentação da Disciplina

    Caros alunos!

    Vamos, a partir de agora, estudar a Estatística, que talvez seja a face mais

    popular das Ciências Matemáticas, além dos cálculos básicos que fazemos

    diariamente.

    A Estatística nos ajuda a entender como nos comportamos, votamos e o

    que escolhemos enquanto população, e nos faz compreender como esco-

    lhas individuais, quando frequentes, mudam a face de uma multidão.

    A Estatística nos mostra, também, o poder das massas e como as tendên-

    cias, quando populares, superam os interesses individuais.

    Essa é a ferramenta que nos permite entender as grandes quantidades, de

    pessoas, eventos, opiniões ou características, sem que nos percamos em

    uma floresta de números.

    Neste curso, vamos aprender todo o necessário para que possamos coletardados, analisá-los através de métodos estatísticos e, mais importante, inter-

    pretemos seus resultados com a confiança de entender como chegamos lá.

    Bons estudos!

    UABEstatística 9

  • 8/17/2019 Livro de Estatística.pdf

    10/155

  • 8/17/2019 Livro de Estatística.pdf

    11/155

    Aula 1

    Objetivos

    • Entender o que é a Estatística, quais suas origens e diferentes

    abordagens;

    • Compreender os conceitos básicos em Estatística;

    • Aprender a fazer as aplicações da Estatística no estudo de po -

    pulações;

    • Entender os diferentes métodos de amostragem e suas aplica-

    ções.

    AssuntosNesta aula, veremos como surgiu a Estatística, quais são seus objetivos e

    conceitos básicos e quais são os métodos utilizados na primeira etapa de um

    trabalho estatístico: a amostragem.

    Introdução: Breve História da Estatística

    O que é a Estatística?Estatística é um ramo da matemática aplicada que visa à descrição e suma-

    rização das características de uma população.

    O nome “Estatística” vem do latim Statisticum collegium, que significa“conselho de estado”, e da palavra Statista, estadista ou político.

     A palavra (em alemão, Statistik ) foi usada pela primeira vez pelo filósofo

    alemão Gottfried Achenwalt (1719-1772), em 1749, para descrever os mé-

    todos usados pelos governos para analisar dados de censos demográficos

    e conhecer a situação econômica, social e política das populações de seus

    estados.

    UABEstatística 11

  • 8/17/2019 Livro de Estatística.pdf

    12/155

    Por isso, Achenwalt é considerado um dos “pais” da Estatística, sendo o

    primeiro a ensinar a disciplina na Universidade de Göttingen, na Alemanha,

    em meados do Século XVIII.

    De uma forma geral, a Estatística divide-se em duas áreas básicas:

    A Estatística Descritiva que lida com a coleta, organização, sumarização,

    descrição e apresentação dos dados representativos de uma população. Os

    resultados de uma análise de Estatística Descritiva são apresentados através

    de tabelas de frequências e gráficos, como o gráfico de barras e a curva de

    frequências acumuladas, que veremos mais tarde.

    Já a Estatística Inferencial, também chamada Indutiva, lida com o teste

    de hipóteses e a interpretação dos fatores que afetam os dados representa-

    tivos de uma população.

    Como surgiu a Estatística?A partir do crescimento dos grandes aglomerados humanos e da formação

    de Estados, governos sentiram a necessidade de saber as características de

    suas populações.

    Quantos súditos há no reino? Com quantos soldados podemos contar?

    Quais as principais atividades econômicas em nossas fronteiras? Qual a posi-

    ção política ou a religião da maioria dos habitantes? Como devemos cobrarimpostos dessa população?

    Essas perguntas são de importância crucial para a manutenção de um go-

    verno e assim os regentes passaram a organizar grandes pesquisas, como os

    censos demográficos, na tentativa de respondê-las.

    Censos demográficos são a forma mais antiga de aplicação da matemática

    na descrição de uma população. O mais antigo censo que se tem conheci-

    mento foi realizado pelos babilônios em 3800 AC que era atualizado a cadaseis ou sete anos, quando representantes do rei contabilizavam a população,

    o gado, os estoques de manteiga, mel, leite, lã e vegetais.

    No Egito, faraós realizaram censos entre 3340 e 3050 AC. O primeiro censo,

    documentado total e matematicamente mais elaborado, foi realizado pelos

    militares do Império Persa no ano 500 e serviu como base para distribuição

    de terras e cobrança de impostos.

    Licenciatura em MatemáticaUAB 12

  • 8/17/2019 Livro de Estatística.pdf

    13/155

    Governos da Grécia Antiga usavam métodos matemáticos simples para con-

    tabilizar seus potenciais exércitos. No Oriente, imperadores chineses faziam

    censos agrícolas e industriais, como os descritos por Confúcio no Século V

    a.C. No período medieval, o mais famoso censo realizado foi o Domesday

    Book (que pode ser traduzido como o “Livro do Juízo Final”), encomendado,

    em 1066, pelo rei Guilherme I, que havia invadido e tomado as Ilhas Britâ-nicas, e queria saber quanta riqueza estava sobre seu comando. O relatório

    resultante ficou pronto em 1086 e até hoje, é o melhor retrato da população

    britânica daquela época (fig. 1).

    Figura 1: Domesday Book, o “Livro do Juízo Final” do Rei Guilherme I. Fonte: ArquivoNacional do Reino Unido.

    Mas os censos demográficos antigos usavam, basicamente, as quatro ope-

    rações matemáticas básicas para seus fins. Usava-se a soma dos habitantes

    das vilas e províncias para saber a população geral do reino; ao se subtrair

    do total as mulheres, crianças e os idosos, era possível saber qual o tamanho

    potencial dos exércitos. Calculava-se o quanto um reino poderia produzir,

    multiplicando-se a área cultivável total pela produção de, por exemplo, tri-go ou beterraba em uma área menor; e os impostos eram calculados pela

    divisão da riqueza individual em partes iguais: uma parte era mantida pelo

    súdito, outra iria para o regente.

    A Estatística, como se conhece hoje, baseia-se, principalmente, nos concei-

    tos da Teoria das Probabilidades, que iremos ver mais adiante em nosso

    curso. Com base em trabalhos anteriores que tentavam entender a nature-

    UABEstatística 13

  • 8/17/2019 Livro de Estatística.pdf

    14/155

    za dos jogos de dados e cartas, o matemático holandês Christian Huygens

    (1629-1695) foi o primeiro a descrever as propriedades probabilísticas em

    um livro de 1657. A partir daí, a Estatística moderna começou a se formar.

    Muitos estudiosos citam o trabalho do demógrafo inglês John Graunt (1620-

    1674) como um dos primeiros trabalhos formais de Estatística, apesar desteramo da ciência só ter se estabelecido um século mais tarde. Graunt (fig. 2)

    utilizou os dados coletados pelos censos britânicos para preparar “tabelas

    de vida”, em que estimava a expectativa de vida das várias faixas etárias nas

    diversas regiões do país.

    Figura 2: O demógrafo John Graunt, capitão do exército britânico. Fonte: Universi-dade de York, Inglaterra.

    O trabalho de Gottfried Achenwall ainda era voltado ao estudo demográ-

    fico, tanto que, além do nome “Estatística” relacionar a ciência aos dados

    estatais, o termo foi traduzido para o inglês como “aritmética política”. Ape-

    nas no século XIX, o termo passou a abranger a coleta, classificação e análise

    de dados de qualquer origem.

    Foi durante o século XX, no entanto, que a Estatística provou ser um instru-

    mento fundamental para todas as ciências quantitativas e qualitativas.

    O desenvolvimento, no início do século, de fórmulas matemáticas especiais

    para lidar com questões agrícolas, de saúde pública e de controle de qua-

    lidade industrial, entre outros, levou a Estatística para fora de sua área de

    Licenciatura em MatemáticaUAB 14

  • 8/17/2019 Livro de Estatística.pdf

    15/155

    origem e hoje ela é instrumento fundamental para as ciências sociais, am-

    bientais, médicas, humanas e econômicas.

    Conceitos BásicosA Estatística usa termos que estamos acostumados a usar em nosso dia-a-

    dia, como “amostra”, “população” e “dados”, mas os significados desses

    termos em são bem claros e, por vezes, diferentes do significado coloquial. A

    Atenção!

    Basicamente, a Estatística se presta a responder as perguntasdos pesquisadores em relação a um conjunto de dados que fo-

    ram coletados de uma população.

    As duas abordagens estatísticas, a descritiva e a inferencial, res-

    pondem a perguntas bem diferentes.

    Abaixo estão alguns exemplos do que cada abordagem pode

    investigar.

    Estatística Descritiva:

    • Qual o valor mínimo e máximo?

    • Qual o valor mais comum?

    • Como difere um indivíduo em particular da população como

    um todo?

    • Quantos tipos diferentes existem?

    • Quais os tipos mais frequentes?

    • Qual evento é mais provável de ocorrer no futuro?

    Estatística Inferencial:

    • Como se relacionam duas características de uma população?

    • Há diferenças entre grupos dentro da população?

    • Qual a diferença entre grupos?

    • Como a variação de um elemento afeta o outro?

    • Quais elementos têm inuência sobre uma característica?

    • Quão forte é a inuência de uma característica sobre a outra?

    UABEstatística 15

  • 8/17/2019 Livro de Estatística.pdf

    16/155

    seguir, veremos os termos mais comuns que usaremos em nosso curso, seus

    significados e suas variações.

    • População:  Para a Estatística, população é uma coleção completa de

    pessoas, animais, plantas ou coisas da qual nós podemos coletar dados

    (fig. 3). É o grupo inteiro, ou “universo”, no qual estamos interessados eo qual desejamos descrever ou tirar conclusões sobre um aspecto em par-

    ticular. De forma, ao fazer qualquer generalização sobre uma população,

    devemos estudar, geralmente, uma amostra, que deve ser representati-

    va da mesma, como um todo. Para cada população há muitas amostras

    possíveis.

    Uma amostra estatística fornece informação sobre um parâmetro corres-

    pondente da população. Por exemplo, a média da amostra de um conjunto

    de dados deve fornecer informação sobre a média geral da população. Éimportante que o pesquisador defina a população, cuidadosa e completa-

    mente, antes de coletar a amostra, incluindo uma descrição dos membros a

    ser inseridos.

     Um exemplo: a população, em um estudo de saúde infantil, poderia ser to-

    das as crianças nascidas no Brasil na década de 90. Uma amostra seria todas

    as crianças nascidas no dia seis de junho de qualquer um dos anos.

    Figura 3: Uma “população”. Fonte: www.freefoto.com

    • Amostra: Uma amostra (fig. 4) é um grupo de unidades selecionado de

    um grupo maior (a população). Ao se estudar uma amostra, espera-se

    que ela forneça conclusões válidas sobre o grupo maior. Pois, ela é, geral-

    Licenciatura em MatemáticaUAB 16

  • 8/17/2019 Livro de Estatística.pdf

    17/155

    mente, selecionada, porque a população é grande demais para ser estu-

    dada por inteiro. Assim, deve ser representativa da população em geral.

    Isso é, geralmente, alcançado com sucesso ao se fazer uma amostragem

    aleatória, ou seja, ao acaso. Contudo, é importante definir a população

    antes de fazer a amostragem, ou corre-se o risco de produzir uma amos-

    tra enviesada, ou seja, tendenciosa.

    Por exemplo, se numa pesquisa sobre a qualidade da água que a população

    de um município consome forem entrevistadas apenas as pessoas que mo-

    ram em ruas pavimentadas, a amostra será enviesada, pois essas residências

    tendem a ser servidas pelo sistema de abastecimento de água tratada e não

    representará os indivíduos que consomem água de poço ou outras fontes.

    Mais adiante, veremos os diversos métodos de amostragem.

    Figura 4: Uma “amostra” da população acima. Fonte: www.freefoto.com

    • Parâmetro: Um parâmetro é um valor, geralmente, desconhecido (e o

    qual deve ser estimado), usado para representar certa característica de

    uma população. Por exemplo, a média de uma população é um parâ-

    metro que é, em geral, usado para indicar o valor médio, ou tendência

    central, de uma quantidade.

    Dentro de uma população, o parâmetro é um valor fixo, que não varia. Cada

    amostra tirada da população tem seu próprio valor de qualquer estatística

    que é usada para estimar esse parâmetro. Por exemplo, a média dos da-

    dos, em uma amostra, é usada para dar informação sobre a média geral na

    população da qual foi tirada. Parâmetros são, comumente, designados por

    caracteres gregos (como ou µ), enquanto estatísticas são designadas por

    caracteres romanos (como s ou x).

    UABEstatística 17

  • 8/17/2019 Livro de Estatística.pdf

    18/155

    • Estatística: com a inicial maiúscula, é o ramo da ciência que estamos es-

    tudando, uma estatística é o valor que é calculado a partir de uma amos-

    tra de dados. É usada para dar informação sobre valores (ou parâmetros)

    desconhecidos na população correspondente.

    Por exemplo, a média de um grupo de dados (estatística) fornece informaçãosobre a média geral (parâmetro) da população da qual se coletou a amostra.

    É possível tirar mais de uma amostra da mesma população e o valor da esta-

    tística, geralmente, vai variar de uma amostra para outra.

    • Variável: Uma variável é qualquer atributo ou característica medida que

    difere para diferentes indivíduos, ou objetos. Por exemplo, se o peso de

    30 indivíduos foi medido, então o peso é uma variável. Variáveis podem

    ser classificadas em grupos distintos de várias formas. Para entendermosmelhor a diferenciação dos tipos de variáveis, teremos primeiro que en-

    tender as escalas de mensuração que podem ser usadas. Mais adiante,

    veremos os tipos diferentes de variáveis.

    Escalas de Mensuração ou Níveis de MedidasUma das formas de se classificar as variáveis é de acordo com o nível de

    medida que utilizamos. Há quatro níveis possíveis de medidas que podemos

    coletar em uma amostra, cada uma um pouco mais refinada que a anterior.

    Os níveis ou escalas de medidas são a nominal, a ordinal, a intervalar e aescala de razão.

    • Nominal: A mais simples medida que pode ser tomada de uma carac-

    terística é da escala nominal. Uma variável nominal possui classes, ou

    categorias, podemos descrever um atributo de cada indivíduo ou obje-

    to. No nível nominal, todas as categorias são iguais, ou têm o mesmo

    “peso”. Exemplos de variáveis medidas em escala nominal são o gênero

    de um indivíduo (masculino ou feminino), a cor de um objeto (verde,

    azul, amarelo, etc.) ou a espécie de uma planta de uma área (coqueiro,babaçu, etc.). Variáveis nominais fornecem frequências em vez de me-

    didas propriamente ditas. Por exemplo, uma população humana pode

    ter 49% de homens e 51% de mulheres; uma área pode ter 20% de

    coqueiros, 40% de palmeiras, 30% de um tipo de grama e 10% de

    cajueiros. Como vemos, todas as categorias têm igual importância e o

    mesmo “valor” para o pesquisador.

    Glossário

    Se usarmos as espécies deplantas de uma área paradescrever uma população(nesse caso, de vegetais),estaremos criando umavariável nominal.

    O tamanho dos sapatos,apesar de representado pornúmeros inteiros, é umavariável ordinal.

    Temperatura em grausCelsius é um dos poucosexemplos de uma variávelintervalar.

    Qualquer medida de pesoé uma variável em escalade razão. Um objeto podeser duas vezes mais pesadoque outro e zero quer dizerausência.

    Licenciatura em MatemáticaUAB 18

  • 8/17/2019 Livro de Estatística.pdf

    19/155

    • Ordinal: A escala ordinal também possui categorias, ou classes, e tam-

    bém vai fornecer frequências. Mas, na escala ordinal, aparece mais uma

    informação sobre as características de uma população: o valor ou “peso”

    das categorias cresce gradualmente, ou seja, há uma ordem de impor-

    tância das classes. Exemplos de variáveis ordinais são o nível de escolari-

    dade (primário, médio, superior), o porte de um vegetal (erva, arbusto,árvore) ou a escala de Mohs para identificar a dureza de um mineral (indo

    de 1(um) para minerais macios como o talco, até 10(dez) para minerais

    duros como o diamante). Apesar de classes ordinais ser organizadas em

    uma ordem graduada, não fornecem informação sobre o tamanho da

    diferença entre as classes. Por exemplo, na variável ordinal “classe social”

    (baixa, média e alta), a diferença entre a classe baixa e a média não é a

    mesma entre a média e a alta.

    • Intervalar: Se uma variável apresenta classes que, além de poder ser or-ganizadas de forma graduada, apresentam intervalos iguais entre si, essa

    variável foi medida em uma escala intervalar. Um exemplo clássico da

    escala de medida intervalar é a temperatura em graus Celsius: as classes

    (o valor da temperatura) são, homogeneamente, distantes entre si; em

    intervalos regulares. Outra característica das variáveis intervalares é que

    o valor de “zero” não significa ausência da característica, mas é apenas

    um ponto de referência arbitrário e valores negativos também podem ser

    usados. Zero grau Celsius não quer dizer ausência de temperatura, mas

    é um ponto de referência, indicando a temperatura de congelamentoda água. Outro exemplo de medida intervalar é o calendário Gregoriano

    (que usamos): o Ano Zero foi estipulado pelo nascimento de Cristo e

    datas anteriores são “negativas”, e designadas por a.C. (antes de Cristo).

    Além desses exemplos, escalas intervalares são raras.

    • Escala de razão: Variáveis medidas em escala de razão têm as mesmas

    características da escala intervalar, com a diferença que o valor de zero

    significa ausência do atributo medido. Por exemplo, na escala de tempe-

    ratura Kelvin, o valor de zero, realmente, significa ausência de tempera-tura: quando a -273,15 °C, ou zero kelvin, não há nenhuma transferên-

    cia de energia térmica. Todas as variáveis “de contagem”, que incluam

    o valor de zero significando ausência, são em escala de razão. Exemplos

    são tamanho, peso, número de vezes que um evento ocorre, quantidade

    de substâncias, etc. A escala de razão é assim chamada, porque se pode

    descrever a relação entre medidas através de frações: José pesa duas ve-

    zes mais que Maria; meu carro usa a metade da gasolina do seu; o cabelo

    Glossário

    Os quatro níveis demensuração fornecem,gradualmente, maisinformação com precisãocrescente. Enquanto o nívelnominal só permite quecalculemos as frequênciasdos tipos, o nível ordinal

     já fornece a ideia degradação, o intervalar dá otamanho da diferença entreclasses, e o de razão dá aideia de ausência.

    UABEstatística 19

  • 8/17/2019 Livro de Estatística.pdf

    20/155

    de Joana é três vezes mais longo que o de Josefa. Escalas de razão não

    têm valores negativos.

    Ferramentas do estatísticoAnálises estatísticas podem ser feitas manualmente ou com a ajuda de umcomputador. Na pesquisa manual, o estatístico precisa de:

     – Calculadora: para facilitar o cálculo das frequências;

     – Papel milimetrado: para desenhar os gráficos com mais precisão;

     – Tabelas estatísticas: contêm os valores de significância de testes de

    estatística inferencial.

    Ao usar o computador, há dois tipos básicos de programas:

     – Editores de planilhas: como o Excel; servem para organizar e ar-

    mazenar os dados, criar gráficos de frequências e calcular algumas

    estatísticas descritivas.

     – Programas de estatística: Realizam tarefas complexas como testes

    de significância, criam gráficos elaborados e já possuem as tabelas

    estatísticas incluídas.

    Os editores de planilhas são suficientes para a preparação de relatórios des-

    critivos. Já análises inferenciais precisam de programas estatísticos. Usar ocomputador como ferramenta estatística permite a análise de uma grande

    quantidade de dados sem medo de cometer pequenos erros.

    Os quatro níveis de mensuração fornecem, gradualmente, mais informação

    com precisão crescente. Enquanto o nível nominal só permite que calcule-

    mos frequências dos tipos; o nível ordinal já fornece a ideia de gradação, o

    intervalar dá o tamanho da diferença entre classes e o de razão dá a ideia

    de ausência.

    Tipos de VariáveisComo foi dito antes, podemos classificar as variáveis de diversas maneiras.

    Se nos basearmos nos níveis de mensuração, as variáveis podem ser quali-

    tativas ou quantitativas. Variáveis qualitativas são também chamadas ca-

    tegóricas e são medidas em escala nominal, ou escala ordinal não numérica

    (como “classe baixa”, “classe média” e “classe alta”). Variáveis quantitativas

    Licenciatura em MatemáticaUAB 20

  • 8/17/2019 Livro de Estatística.pdf

    21/155

    são medidas em escalas ordinal numérica, intervalar ou de razão. Por exem-

    plo, se perguntarmos aos alunos do jardim de infância qual a sua cor favo-

    rita, a resposta seria uma variável categórica, ou qualitativa. Se medirmos o

    tempo de resposta de cada um a essa pergunta, a variável será quantitativa.

    Variáveis quantitativas podem ser subdivididas em discretas, também cha-madas descontínuas e contínuas.

    Variáveis discretas podem apresentar qualquer valor entre zero e infinito,

    desde que seja um número inteiro. Por exemplo, se contarmos o número de

    pessoas em cada cidade de um país, todos os valores serão números intei-

    ros, pois não podemos ter “meio habitante”. Assim, as contagens em geral,

    como censos e levantamentos, produzem variáveis discretas.

    Já as variáveis contínuas podem ter qualquer valor entre dois valores previa-mente estabelecidos, mesmo números não inteiros. Por exemplo, a altura

    dos soldados de um batalhão pode ser qualquer medida entre as alturas

    mínima e a máxima permitidas: 1,61m; 1,87m; 1,76m; etc.

    Do ponto de vista da Estatística Inferencial, podemos dividir as variáveis entre

    independentes e dependentes.

    Variáveis independentes são selecionadas e medidas pelo pesquisador na

    amostra de uma população e não são passíveis de controle, ou seja, suasvariações são aleatórias.

    Já as variáveis dependentes têm sua variação atrelada à diversificação de

    uma variável independente. Se pensarmos em termos de causa e efeito, as

    variáveis independentes são causa da variação de uma variável dependente.

    Um exemplo seria uma pesquisa sobre o efeito de um poluente, como o

    chumbo, no peso dos peixes de um rio. Não podemos controlar a quantida-

    de de chumbo absorvida por cada peixe que pesarmos, então a exposição

    ao chumbo, medida pelo nível do metal em cada peixe, é uma variável in-dependente.

    Já o peso dos peixes é o efeito da exposição ao chumbo, sendo então a va-

    riável dependente. Variáveis independentes são chamadas, quando usamos

    um programa de computador para cálculos estatísticos, de fatores e as de-

    pendentes, de respostas.

    UABEstatística 21

  • 8/17/2019 Livro de Estatística.pdf

    22/155

    Amostragem“Amostragem” é a parte da prática da Estatística que se refere à seleção de

    uma amostra, ou subconjunto, de observações individuais com as quais se

    pretende estimar parâmetros de uma população de interesse.

    O processo de amostragem é fundamental para a coleta de dados e contémdiversos estágios:

     – Definição da população de interesse;

     – Especificação da “base de sondagem”, ou conjunto de itens ou even-

    tos mensuráveis;

     – Especificação do método de amostragem para selecionar itens ou

    eventos da base de sondagem;

     – Definição do tamanho da amostra;

     – Implementação do plano de amostragem; – Amostragem e coleta de dados;

     – Revisão do processo de amostragem.

    A razão pela qual o processo de amostragem é tão rigoroso se deve ao fato

    de que um erro nesse processo pode invalidar toda a análise estatística, tor-

    nando o trabalho do pesquisador inútil. Como já vimos, as amostras devem

    representar a população de interesse e uma amostragem desleixada vai nos

    prover uma amostra não representativa da população, cheia de vieses que

    levarão a conclusões erradas.

    A seguir, olharemos cada uma das etapas em maiores detalhes.

    Para que se realize a prática estatística com sucesso, é necessário que a po-

    pulação de interesse seja definida com cuidado. Uma população pode ser

    vista como um conjunto que inclui todas as pessoas, itens ou eventos que

    possuem uma característica que desejamos compreender. Como vimos, é,

    geralmente, impossível coletar todos os dados de toda uma população de

    interesse, então devemos almejar a coleta de uma amostra representativa damesma.

    Às vezes, é fácil definir uma população. Em uma indústria, por exemplo, que

    se deseje verificar a qualidade de uma remessa de material, que é a “popu-

    lação” da qual será retirada a amostra. Em outras ocasiões, a população de

    interesse pode ser menos tangível e não envolver um conjunto de objetos.

    Se quisermos realizar um estudo sobre o tamanho das filas de um supermer-

    Licenciatura em MatemáticaUAB 22

  • 8/17/2019 Livro de Estatística.pdf

    23/155

    cado durante as várias horas do dia, ou o comportamento de um animal nas

    várias estações do ano, o tempo vira o foco dessa população e as amostras

    deverão ser coletadas dentro de determinados períodos de tempo.

    Em alguns casos, a “população” estudada é ainda mais abstrata. Um estu-

    do famoso, feito pelo engenheiro britânico Joseph Jagger (1830-1892) nocassino de Monte Carlo em 1873, teve como “população” o desempenho

    de seis rodas de roleta. Jagger contratou seis pessoas para anotar todos os

    resultados dessas seis rodas de roleta e descobriu que, em algumas delas,

    alguns números ocorriam com maior frequência que outros. Assim, ele pas-

    sou a apostar nos números que ocorriam com maior frequência e se tornou

    conhecido como o homem que “quebrou a banca” em Monte Carlo. Jagger

    investigou a distribuição de probabilidades dos resultados das roletas em

    tentativas infinitas e assim conseguiu identificar que roletas estavam enviesa-

    das. O mesmo se aplica a qualquer pesquisa que envolva medições repetidasde alguma característica física, como quando os dados de jogar são testa-

    dos, ou estuda-se a condutividade elétrica de materiais.

    Em certos casos, é possível ter acesso a toda uma população de interesse,

    como os materiais de uma fábrica, nos quais podemos retirar amostras de

    cada lote. Em outros casos, não é possível ter acesso imediato a toda a popu-

    lação, seja por que ela não é conhecida, ou por que não é possível identificar

    todos os indivíduos. Assim, é necessário o uso de uma base de sondagem,

    na qual podemos identificar todos os elementos em que podemos selecionarqualquer um para nossa amostra.

    Por exemplo, em pesquisas de opinião, podemos usar listas telefônicas como

    uma base de sondagem, da qual podemos selecionar, aleatoriamente, indi-

    víduos para nossa pesquisa. Dependendo do tipo de estudo, podemos usar

    mapas de ruas (de que selecionamos as ruas que serão visitadas), listas de

    eleitores (para pesquisas eleitorais), listas de usuários do SUS (para pesqui-

    sas de saúde), registros de crianças matriculadas em escolas públicas (para

    pesquisas sobre educação), etc. As bases de sondagem devem ser escolhidascom cuidado para incluir toda a população de interesse, sem que haja repe-

    tições, de modo que a amostra coletada a partir dessa base seja, realmente,

    representativa da população a ser estudada.

    Após definir a base de sondagem, o pesquisador deve escolher o método de

    amostragem. Como vimos, na maioria dos casos, é importante que a amos-

    tra seja aleatória. Isso garante que cada um dos elementos da população

    UABEstatística 23

  • 8/17/2019 Livro de Estatística.pdf

    24/155

    tenha uma probabilidade maior que zero de ser escolhida, aleatoriamente,

    para uma amostra. Esse tipo de amostragem é chamado de amostragem

    probabilística e permite que calculemos a probabilidade exata de cada ele-

    mento da população de ser escolhido. Tal abordagem é a comumente usada

    em estudos gerais, que pedem uma amostra não enviesada de uma popula-

    ção, como os censos demográficos.

    A amostragem probabilística permite que sejam calculados os erros que po-

    deriam alterar os resultados da análise e levá-los em consideração quando

    da interpretação dos mesmos.

    A amostragem não probabilística é qualquer método em que alguns ele-

    mentos da população não têm nenhuma chance de serem selecionados, ou

    quando não se pode calcular com precisão qual a probabilidade de seleção

    dos elementos. Por causa de sua natureza não aleatória, a amostragem nãoprobabilística não permite o cálculo de erros de amostragem e essa abor-

    dagem deve ser especificada, quando os resultados são apresentados. Por

    exemplo, se estivermos usando um mapa de ruas como base de sondagem

    e formos visitar cada uma das casas das ruas escolhidas, para entrevistar a

    pessoa que abrir a porta, durante o horário de trabalho, entrevistaremos

    apenas as pessoas desempregadas, excluindo todos os trabalhadores que

    não faltaram. Essa é uma abordagem não probabilística, pois é impossível

    calcular a probabilidade de entrevistarmos um trabalhador e assim não po-

    deremos calcular possíveis erros de amostragem.

    Métodos de AmostragemDentro das duas abordagens de amostragem, existem vários métodos que

    podem ser empregados, sozinhos ou em conjunto, dependendo de fato-

    res como a natureza e qualidade da base de sondagem, disponibilidade de

    informações auxiliares sobre os elementos da população, necessidade de

    acurácia de mensuração, nível de detalhe da análise e custos operacionais.

    A seguir, veremos brevemente os métodos mais comuns de amostragem,tanto da abordagem probabilística quanto da não probabilística

    Métodos Probabilísticos: Em que todos os elementos têm uma probabili-

    dade maior que zero de ser escolhidos e envolvem seleção aleatória:

    • Amostragem Aleatória Simples – Todos os elementos da base de son-

    dagem têm igual probabilidade de ser escolhidos para uma amostra, pois

    Licenciatura em MatemáticaUAB 24

  • 8/17/2019 Livro de Estatística.pdf

    25/155

    a base não é subdividida ou particionada. Além disso, qualquer par de

    elementos tem a mesma chance de seleção que outro, o que minimiza

    o risco de um viés na amostra. No entanto, esse método é vulnerável a

    erros de amostragem, pois uma amostra pode não representar a cons-

    tituição da população. Por exemplo, uma amostra de uma população

    humana pode não representar a real proporção entre homens e mulheresde uma população. Tal método pode ser inadequado para populações

    muito grandes.

    • Amostragem Sistemática – Envolve organizar a população-alvo em al-

    gum sistema de ordenação antes de selecionar os elementos, em interva-

    los, através da lista ordenada.

    Nesse método, o início da “lista” é aleatório, mas selecionam-se os ele-

    mentos em intervalos k, definidos pela fórmula , em que:

    N  = tamanho da população;

    n = tamanho da amostra.

    É importante que o início da “lista” seja aleatório e não seja escolhido

    o primeiro elemento, o que tiraria o caráter probabilístico do método.

    Amostragens sistemáticas não podem ser usadas em bases de sondagem

    que possuem alguma periodicidade, pois se o valor k for um múltiplo ou

    fator do valor de periodicidade da lista, o método torna-se menos acura-do que a amostragem aleatória simples.

    • Amostragem Estratificada – Usada quando a população possui catego-

    rias distintas, dentro das quais a base de sondagem pode ser organizada,

    criando “estratos” separados. Cada estrato é então amostrado como

    uma população independente, no qual elementos são escolhidos alea-

    toriamente.

    Um exemplo seria a estratificação da população estudantil por séries,sendo as amostras coletadas, aleatoriamente, dentro de cada série. Esse

    método oferece vantagens quando a base de sondagem permite que

    os elementos sejam estratificados, desde que haja pouca variabilidade

    dentro dos estratos e grande variabilidade entre os estratos. Na, prática,

    algumas vezes, esse método pode ser mais oneroso que a amostragem

    simples.

    UABEstatística 25

  • 8/17/2019 Livro de Estatística.pdf

    26/155

    Métodos não probabilísticos: Quando não há probabilidade de se esco-

    lher alguns membros da população, ou quando outras variáveis ligadas aos

    elementos afetam a probabilidade de que sejam escolhidos.

    • Amostragem em cotas – A população é separada em grupos, mutua-

    mente, excludentes, como na amostragem estratificada, mas a etapa se-guinte não é aleatória, pois alguns elementos são excluídos da amostra.

    Exemplos comuns são as pesquisas de opinião que abordam um número

    determinado de homens e mulheres (os ‘estratos’), mas em que pessoas

    com aparência “simpática” são mais frequentemente entrevistadas do

    que as que parecem “antipáticas”. As amostras podem se tornar envie-

    sadas nesse caso e seu uso, por misturar uma abordagem aleatória com

    uma não aleatória, é motivo de controvérsia.

    • Amostragem Acidental – Nesse método, a amostra é colhida da parte

    da população que está mais próxima, ou disponível, ao pesquisador. Tam-

    bém é chamada de “amostragem de conveniência”. Muito utilizada em

    pesquisas socioculturais, a amostra não é representativa da população

    e não é possível estimar parâmetros populacionais gerais a partir dela.

    Ainda assim, é um método útil para “pesquisas-piloto”, que verificam a

    viabilidade da pesquisa antes que a coleta de dados válida seja iniciada.

    • Amostragem em “Bola-de-neve” – Nesse método, entrevista-se umapessoa aleatoriamente, que se refere a um amigo que também é entre-

    vistado e recomenda outro amigo, assim por diante. É comumente usada

    nas pesquisas de mercado, quando se está interessado em entender a

    aceitação de um produto dentro de determinados grupos sociais.

    Além dos métodos probabilísticos e não probabilísticos mais comuns, vários

    métodos já foram desenvolvidos para endereçar problemas encontrados em

    pesquisas específicas. Casos especiais são comuns nas ciências experimen-

    tais, em que os elementos são conhecidos e em pequeno número (comoratos de laboratório, por exemplo). Por exemplo, quando testando um novo

    medicamento em animais de laboratório, a amostra contém todos os animais

    usados, sendo assim não aleatória. Nesse caso, devem-se controlar todas as

    variáveis possíveis dos elementos, para examinar possíveis efeitos cruzados

    que alterariam ou confundiriam os resultados da pesquisa.

    Licenciatura em MatemáticaUAB 26

  • 8/17/2019 Livro de Estatística.pdf

    27/155

    Os dados da amostra, uma vez coletados, devem ser organizados em bases

    de dados, que servirão para a análise estatística. A pesquisa estatística con-

    ta, basicamente, de seis etapas distintas:

    1) Coleta de dados: Nessa fase, define-se qual é a população de interesse

    e toma-se cuidado para que o método de coleta forneça uma amostra querepresente a população.

    2) Avaliação dos dados: Antes de iniciar os trabalhos estatísticos propria-

    mente ditos, os dados devem ser avaliados quanto a possíveis erros de cole-

    ta, falhas e lacunas.

    3) Descrição dos dados: Após verificar-se que os dados são válidos, pode-

    se descrever a amostra através de estatísticas descritivas.

    4) Análise dos dados: Quando testando hipóteses, cálculos específicos po-

    dem ser usados para análises inferenciais.

    5) Apresentação dos dados: Tanto as estatísticas descritivas quanto as in-

    ferenciais podem ser representadas por gráficos, que têm impacto maior na

    hora de se explicar os resultados da pesquisa. A descrição de uma amostra

    também deve ser feita através de tabelas.

    6) Análise dos resultados: As estatísticas descritivas devem ser suficientespara descrever uma população através da amostra coletada; os resultados

    podem ser interpretados dentro dos limites de qualidade dos dados. Esta-

    tísticas inferenciais devem ser interpretadas com mais cuidados, mas podem

    servir para ilustrar as interações complexas entre fatores presentes em uma

    população.

    Na próxima aula, veremos como utilizaremos, na prática, os conceitos e mé-

    todos que vimos aqui, e começaremos a trabalhar, matematicamente, os

    dados.

    Até lá!

    UABEstatística 27

  • 8/17/2019 Livro de Estatística.pdf

    28/155

    ResumoA Estatística é um ramo da Matemática que surgiu da necessidade dos go-

    vernos de conhecer suas populações. Hoje é uma ciência fundamental para

    campos tão diversos quanto as Ciências Econômicas e Sociais, a Medicina e

    a pesquisa científica, a indústria e o comércio.

     Os conceitos básicos da Estatística são conhecidos coloquialmente, mas têm

    significados bem específicos dentro desse ramo do conhecimento, incluindo

    palavras comuns como “amostra”, “população” e “variável”.

     A primeira etapa de uma pesquisa estatística envolve a coleta de uma amos-

    tra que represente uma população de interesse, em que características es-

    pecíficas dos indivíduos, as variáveis, servirão para se calcular os parâmetros

    populacionais.

    Há duas abordagens básicas de amostragem: a probabilística, onde todos

    os elementos de uma população têm uma probabilidade maior que zero

    de ser escolhidos para uma amostra, e a não probabilística, na qual essa

    probabilidade é igual a zero para alguns elementos, ou não pode ser calcu-

    lada. Há métodos probabilísticos e não probabilísticos de amostragem, que

    podem ser usados isoladamente ou em conjunto, para evitar problemas com

    a validade da amostra.

    Cara Colega, o resumo deve conter todo teor da aula, de forma concisae objetiva, para facilitar o ensino/aprendizagem do (a) aluno (a).Agradece,

    Ivone Lira (revisora linguística e textual).

    Referências

    LEME, R. A. DA S.: Curso de Estatística – Elementos. Rio de Janeiro: AO LIVRO TÉCNICO.1967.

    LEVIN, J.: Estatística Aplicada às Ciências Humanas. São Paulo: HARPER & ROW DOBRASIL. 1978.

    SPIEGEL, MURRAY R, Estatística. MAKRON. 1994.

  • 8/17/2019 Livro de Estatística.pdf

    29/155UABEstatística 29

  • 8/17/2019 Livro de Estatística.pdf

    30/155

  • 8/17/2019 Livro de Estatística.pdf

    31/155

    Aula 2 - Distribuição de Frequências

    Objetivos

    • Aprender a descrever as frequências absolutas e relativas em

    uma amostra;

    • Compreender as medidas de tendência central de uma popula-

    ção e como determinar essas estatísticas em uma amostra;

    • Entender as medidas de dispersão de uma variável e como medir

    as estatísticas em uma amostra;

    • Aprender a usar as ferramentas estatísticas do Excel da Micro-

    soft.

    Assuntos

    Nesta aula vamos entender como podemos descrever a distribuição de umaamostra, usando técnicas simples, que fornecem uma visão geral dos dados

    coletados. Sendo a amostra válida e representativa de uma população, a

    estatística descritiva permite que sejam estimados os parâmetros populacio-

    nais. Vamos entender o que significam as estatísticas amostrais e como cal-

    culá-la através de fórmulas ou usando um editor de planilhas como o Excel.

    Introdução

    Os métodos de amostragem, que vimos na nossa primeira aula, nos permi-tem coletar dados confiáveis que serão representativos de uma população

    de interesse. Com esses dados amostrais, poderemos calcular suas estatísti-

    cas e assim estimar os parâmetros da população. Mas a coleta de dados é

    apenas o primeiro passo de uma pesquisa estatística e os passos seguintes

    são cruciais para que um estudo tenha validade.

    O principal objetivo de uma pesquisa dessa natureza é descobrir como os

    dados estão distribuídos, ou seja, quais são os valores extremos, que valores

    UABEstatística 31

  • 8/17/2019 Livro de Estatística.pdf

    32/155

    ocorrem mais frequentemente e que intervalos de valores englobam a maior

    parte da população. Para descrever uma distribuição de frequências, o pes-

    quisador necessita organizar os dados de uma forma prática, tornando mais

    fácil o trabalho de calcular a repetição de ocorrência dos eventos em ques-

    tão. Para isso, é preciso organizar tabelas de frequências, gráficos e planilhas

    de análise, de que possam ser retirados os valores necessários para o cálculodas estatísticas amostrais.

    Tabelas de FrequênciasO primeiro passo de um pesquisador, que pretende descrever uma popula-

    ção através de uma amostra, é descobrir a distribuição dos dados amostrais.

    Pode-se descrever uma amostra através de tabelas de frequência ou de

    gráficos.

    Uma tabela de frequência é uma forma de organizar os dados, listando to-

    dos os valores possíveis como uma coluna de números e a frequência de

    ocorrência de cada valor como outra.

    Assim, para se calcular a frequência absoluta de um valor ou categoria,

    deve-se apenas contar quantas vezes cada um desses valores ou categorias

    aparece em um grupo de dados. Na maioria dos casos, devemos incluir valo-

    res que não aparecem no conjunto de dados, que irão ser assinalados com a

    frequência absoluta de zero. Isso é importante para se entender a populaçãoatravés de uma amostra.

    Por exemplo, se estamos estudando a frequência da cor de olhos em uma

    população e ninguém tem olhos azuis, essa informação é relevante e deve

    ser incluída, pois azul é uma cor de olhos possível nos humanos.

    Ao criarmos uma tabela de frequências, entendemos a distribuição de fre-

    quências dos valores de uma variável, ou seja, quantas vezes cada valor ou

    classe aparece na amostra que estudamos.

    Logo, a distribuição de frequências é importante para entendermos não ape-

    nas quantas vezes cada valor ou classe de uma variável é representado, mas

    fornece informação sobre a amplitude de variação dessa variável e sobre a

    natureza dessa variação, como veremos mais tarde.

    Licenciatura em MatemáticaUAB 32

  • 8/17/2019 Livro de Estatística.pdf

    33/155

    Criando uma tabela de frequênciasVamos imaginar que um fabricante de sapatos femininos quer saber quais

    os tamanhos deve fabricar para suprir a demanda em uma cidade como,

    digamos, Recife. Para isso, ele coleta uma amostra do tamanho dos pés das

    mulheres da cidade, perguntando a vinte mulheres qual o número de seus

    sapatos e consegue os seguintes valores (tabela 1):

    Tabela 1: Tamanho dos sapatos de 20 mulheres de Recife – PE.

     37 35

     36

     37

     34

    38 39 37 36 35

    37 36 38 33 34

    36 37 37 35 36

    Digamos que o fabricante tem, em sua linha de produtos, uma numeração

    de sapatos femininos que vai do 32 ao 40. Para ajudarmos ao fabricante,

    devemos organizar os dados que ele coletou em relação às linhas de sapatos

    femininos que já tem.

    Vamos, então, criar uma tabela de frequências, usando os números disponí-

    veis em sua fábrica e contaremos quantas vezes esses números ocorrem na

    amostra que ele coletou na cidade (tabela 2):

    Tabela 2: Frequências absolutas dos números de sapatos usados por 20 mu-

    lheres da cidade de Recife – PE.

     

    Número do sapato 

    Frequência absoluta (f) 

    32 0

    33 1

    34 2

    35 336 5

    37 6

    38 2

    39 1

    40 0

     

    Total

     

    20

    UABEstatística 33

  • 8/17/2019 Livro de Estatística.pdf

    34/155

    Podemos logo avisar ao fabricante de sapatos que, na amostra que ele cole-

    tou, não há nenhuma mulher que calce sapatos 32 ou 40, e que o tamanho

    mais comum é o 37. O fabricante, então, nos pergunta qual a proporção de

    cada número de sapatos que deveria fabricar, para que não tenha números

    pouco procurados, encalhados em suas lojas.

    Podemos responder a sua pergunta, calculando as  frequências relativas

    dos tamanhos de sapatos da amostra, em valores proporcionais expressos

    em proporções (que vão de 0 a 1) ou porcentagens (que vão de 0 a 100).

    Assim, acrescentaremos mais uma coluna na tabela que já vimos (tabela 3):

    Tabela 3: Frequências absolutas e relativas dos números de sapatos de 20

    mulheres de Recife – PE.

     Número do sapato

     Frequência absoluta (f)  Frequência relativa (fr)

     32

     0

     0

    33 1 0,05

    34 2 0,1

    35 3 0,15

    36 5 0,25

    37 6 0,3

    38 2 0,1

    39 1 0,05

    40 0 0

     

    Total

     

    20 

    1

    As frequências relativas são calculadas como se calculam proporções: divide-

    se a frequência absoluta da classe em questão pelo total de dados da amos-tra. Mas, se quisermos representar as frequências absolutas em porcenta-

    gens, é só multiplicar a proporção por 100.

    Assim, teríamos a tabela de frequências representada um pouco diferente

    (tabela 4):

    Licenciatura em MatemáticaUAB 34

  • 8/17/2019 Livro de Estatística.pdf

    35/155

    Tabela 4: Frequências absolutas e frequências relativas proporcionais e per-

    centuais dos números de sapatos de 20 mulheres de Recife – PE.

     

    Número do sapato 

    Frequência absoluta (f) 

    Frequência relativa (%) 

    32

     

    0

     

    033 1 5

    34 2 10

    35 3 15

    36 5 25

    37 6 30

    38 2 10

    39 1 5

    40 0 0

     

    Total

     

    20 

    100

    Nosso amigo fabricante ficará feliz em saber que 30% das mulheres da

    amostra calçam sapatos tamanho 37, que 25% calçam 36 e assim por dian-

    te. Então, poderá ajustar a sua produção para atender a demanda do mer-

    cado.

    Outra forma de representar a distribuição das frequências é através das fre-

    quências acumuladas ou cumulativas. Para se conseguir isso, devemos

    apenas somar as frequências absolutas ou relativas de cada classe com a

    seguinte. Esse tipo de representação tem diversas aplicações que veremos

    nas próximas aulas, mas, de forma geral, serve para termos uma ideia de

    onde a maioria dos valores se encontra. No exemplo que estamos usando,

    poderíamos acrescentar uma coluna de frequências relativas acumuladas à

    nossa tabela (tabela 5):

    Tabela 5: Frequências absolutas, relativas proporcionais e percentuais, e fre-

    quências cumulativas percentuais dos números de sapatos de 20 mulheres

    de Recife – PE.

    UABEstatística 35

  • 8/17/2019 Livro de Estatística.pdf

    36/155

     

    Número do sapato 

    Frequênciaabsoluta (f)

     Frequênciarelativa (%)

     Frequência

    cumulativa (F) 

    32 0

     0

     0

    33 1 5 5

    34 2 10 1535 3 15 30

    36 5 25 55

    37 6 30 85

    38 2 10 95

    39 1 5 100

    40 0 0 100

     Total

     20  100

     100

    Para o fabricante de calçados, é relevante saber que 95% das mulheres da

    cidade calçam sapatos de número 38 ou menor. Se precisar reduzir a produ-

    ção, ele não terá grandes prejuízos se parar, temporariamente, de fabricar

    números maiores que 38.

    O tamanho do calçado, que utilizamos no exemplo, é uma variável em esca-

    la ordinal. Os números dos sapatos não são representativos de uma medida,como centímetros, mas são categorias criadas em cima de medidas. Se os

    fabricantes de sapatos fossem usar centímetros como base para seus produ-

    tos, seria impossível cobrir toda a variação milimétrica que encontramos nas

    pessoas. Assim, foram criadas medidas relativas que podem ser usadas por

    pessoas com tamanhos de pés próximos, mas não, necessariamente iguais.

    Por isso, às vezes, um calçado do número que usamos, normalmente, não

    fica perfeito. Os tamanhos de calçados são categorias que podem ser orde-

    nadas por ordem de tamanho (o 36 é menor que o 37, etc.), mas a diferença

    entre os tamanhos não é exatamente igual.

    Quando lidamos com variáveis medidas em escala de razão, fica muito

    difícil criar tabelas de frequências. Uma forma, que temos para lidar com

    isso, é classificar os dados de uma variável contínua, em escala de razão, em

    intervalos que cobrirão toda a variação encontrada na amostra.

    Vamos imaginar que um médico decidiu ver a frequência da altura dos sol-

    dados de um batalhão do exército. Ele mediu um soldado a cada cinco que

    Licenciatura em MatemáticaUAB 36

  • 8/17/2019 Livro de Estatística.pdf

    37/155

    passavam em frente à porta do consultório e assim, conseguiu uma amostra

    aleatória (tabela 6). No fim do dia, ele tinha a altura, em metros, de 30 sol-

    dados.

    Tabela 6: Altura, em metros, de 30 soldados de um batalhão do Exército

    Brasileiro.

     

    1,81 1,61 1,75

     

    1,84

     

    1,67

    1,60 1,77 1,66 1,61 1,75

    1,72 1,62 1,94 1,72 1,62

    1,80 1,74 1,68 1,83 1,70

    1,88 1,85 1,79 1,73 1,76

    1,73 1,65 1,69 1,65 1,80

    Vemos que há dois soldados medindo 1,61m, dois com 1,72m, etc. Mas a

    maioria das medidas ocorre uma só vez. Assim, se fôssemos criar uma tabela

    de frequências como a que fizemos com o tamanhos dos sapatos, teríamos

    um monte de medidas com a frequência absoluta de 1 e não chegaríamos

    a qualquer conclusão. Desse modo, podemos criar intervalos de medidas

    que cubram a variação das medidas e ainda assim nos dê uma ideia de qual

    intervalo de altura é o mais frequente no batalhão. Devemos, em primeirolugar, verificar qual o valor mínimo e máximo, e assim, decidiremos quantas

    classes de intervalos serão criadas.

    Digamos que seria interessante fazer um intervalo de cinco centímetros: o

    primeiro cobriria alturas de 1,60m até 1,649m (o médico não mediu com

    essa acurácia, mas devemos deixar bem claro, quais são os limites de nossos

    intervalos); o segundo, de 1,65m até 1,699m; o terceiro iria de 1,70m até

    1,749m, e assim por diante. Nossa tabela de frequências ficaria assim (tabela

    7):

    Tabela 7: Frequências absoluta, relativas e cumulativa da altura de 30 solda-

    dos do Exército Brasileiro, em intervalos de 5 cm.

    UABEstatística 37

  • 8/17/2019 Livro de Estatística.pdf

    38/155

     Altura (m)

     

    Frequênciaabsoluta

     Frequência

    relativaFrequênciarelativa (%)

     Frequência

    cumulativa (%)1,60 – 1,649  

    0,17 

    17 

    17

    1,65 – 1,699 6 0,2 20 37

    1,70 – 1,749 6 0,2 20 571,75 – 1,799 5 0,17 17 74

    1,80 – 1,849 5 0,17 17 91

    1,85 – 1,899 2 0,06 6 97

    1,90 – 1,949 1 0,03 3 100

     

    Total

     

    30 1

     

    100

     

    100

    Veremos na próxima aula como podemos montar gráficos, usando as tabelas

    de frequência e como essas informações podem nos ajudar a entender uma

    população que estamos estudando.

    Como apresentar uma tabela de frequênciasHá regras bem estabelecidas sobre como uma tabela de frequências deve ser

    apresentada em um trabalho acadêmico ou relatório profissional.

    Uma tabela deve ser apresentada com um título explicativo do seu conte-údo e deve ser, devidamente, numerada dentro do trabalho. Também no

    título, entram as notas que elucidam detalhes de abreviaturas ou métodos

    utilizados.

    No cabeçalho, vão as informações sobre os dados contidos nas colunas,

    verticais. A primeira coluna é denominada coluna indicadora e contém in-

    formação sobre os dados contidos nas linhas, horizontais. O corpo da colu-

    na é formado pelas células, que são a intercessão entre as linhas e colunas.

    No rodapé, deve-se indicar a fonte da informação, quando necessário.

    O formato usado deve ser o de duas barras, separando o cabeçalho e uma

    linha contendo a tabela na parte inferior. Se usarmos uma linha final para

    indicar totais, deve ser destacada e separada por duas barras, como o ca-

    beçalho. No editor de texto Word, da Microsoft, deve-se usar o formato

    “Tabela clássica”. Verifiquem a tabela 7, acima, para ver como o formato

    final deve ser.

    Licenciatura em MatemáticaUAB 38

  • 8/17/2019 Livro de Estatística.pdf

    39/155

    Tal formato deve ser usado em toda a extensão de um relatório ou trabalho

    acadêmico, tendo-se o cuidado com a numeração das tabelas apresentadas.

    Esse é o primeiro passo para um bom trabalho descritivo de Estatística apli-

    cada a qualquer área do conhecimento.

    Medidas de Tendência CentralComo vimos, podemos descrever uma amostra representativa de uma po-

    pulação através das frequências das classes, ou valores, de uma variável,

    criando uma distribuição de frequências. Para entendermos a distribuição

    dos dados de uma variável, precisamos resumir a variável em medidas que

    representem seus valores centrais e sua amplitude.

    Assim, temos as medidas de tendência central, que representam os valo-

    res centrais de uma distribuição e as medidas de dispersão, que represen-tam sua amplitude, as quais estudaremos mais tarde.

    As medidas de tendência central são medidas da localização do “meio” ou

    “centro” de uma distribuição. A definição de “meio” ou “centro” é deixada

    um tanto quanto vaga de propósito, de modo que o termo “tendência cen-

    tral” pode se referir a uma larga variedade de medidas.

    A média aritmética é a medida de tendência central mais comum e a que

    estamos mais acostumados a usar: das nossas notas em uma disciplina aténotícias nos jornais, fala-se sempre nessa medida. As outras duas medidas

    de tendência central são a mediana e a moda.

    Média aritméticaA média aritmética é, simplesmente, a soma de todos os números dividida

    pela quantidade dos mesmos. O símbolo µ (a letra grega mu) é usado para

    representar a média de uma população, que é um parâmetro. Os símbolos

    (pronunciado “xis barra”) ou M  representam a média de uma amostra, que

    é uma estatística.

    A fórmula para a média aritmética é a mesma para uma amostra ou popu-

    lação, é muito simples. Abaixo, podemos ver a fórmula da média aritmética

    de uma amostra ( ):

    UABEstatística 39

  • 8/17/2019 Livro de Estatística.pdf

    40/155

    Em que x é a soma de todos os números, ou valores, em uma amostra e n é

    a quantidade de números, ou valores, nessa amostra.

    Por exemplo, a média dos números 1, 2, 3, 6 e 8 é igual a 4, pois a soma dos

    cinco números é 20, então 20/5 = 4.

    Podemos coletar dados sobre o número de chutes a gol de cada um dos 31

    times de um campeonato de futebol (tabela 8); os dados estão no quadro

    abaixo, organizados do maior para o menor valor:

    Tabela 8: Número de chutes a gol de 31 times de futebol durante um cam-

    peonato.

     

    37 33

     

    33

     

    32

     

    29

     

    28

     

    28

     

    2322 22 22 21 21 21 20 20

    19 19 18 18 18 18 16 15

    14 14 14 12 12 9 6

    Com esses valores, podemos calcular a média de chutes a gol dos times nes-

    se campeonato, usando a fórmula acima:

    Mas devemos prestar atenção quando o uso da média aritmética é válido

    e o quanto ela representa a realidade. Sabemos que o número de chutes

    a gol é uma variável descontínua, ou seja, não existem números decimais,

    apenas inteiros. Não é possível que exista meio chute a gol. Devemos, então,

    lembrar que o valor 20,4516 é uma aproximação da realidade, já que esse

    valor não é inteiro.

    A média aritmética, obviamente, não pode ser usada em variáveis categóri-cas, pois não podemos somar, por exemplo, azul, vermelho e verde.

    Para valores contínuos, que possuem números não inteiros (como altura ou

    peso), a média aritmética é muito mais acurada, representando um valor

    possível de ocorrer. Em muitos casos, a melhor medida de tendência central

    para uma variável discreta, como a acima, não é a média, mas uma das ou-

    tras medidas que veremos a seguir.

    Licenciatura em MatemáticaUAB 40

  • 8/17/2019 Livro de Estatística.pdf

    41/155

    MedianaA mediana também é uma medida de tendência central, frequentemente,

    usada. É o ponto central de uma distribuição: se ordenarmos os dados, há a

    mesma quantidade de valores acima da mediana e abaixo dela. Se usarmos,

    novamente, os dados dos chutes a gol dos times em um campeonato, no

    quadro acima, sabemos que há 31 valores. O 16º valor mais alto, que corres-ponde a 20, é a mediana, pois há 15 valores maiores e 15 valores menores

    que ele. Assim, a mesma divide a amostra em duas partes iguais.

    A mediana independe da amplitude da amostra. Por exemplo, se temos os

    valores: 1, 23, 54, 76, 190, 379 e 1098, a mediana será 76, pois há três

    valores menores e três maiores que esse número. Ainda, na série 1, 16, 53,

    76, 82, 90 e 92, ela será 76, pois também há três valores maiores e menores

    que ele.

    No primeiro exemplo, a amplitude dos dados é maior, indo de 1 a 1098.

    No segundo exemplo, vai apenas de 1 a 92. Em ambos os casos, a amostra

    consiste de sete números, com o valor de 76 caindo, exatamente, no meio

    da distribuição.

    A mediana, no entanto, é dependente do tamanho da amostra, pois divide

    a distribuição em duas partes iguais. Quanto maior a amostra, mais alta a

    posição da mesma.

    Para calcularmos a mediana, devemos organizar os dados por ordem de

    tamanho. Se tivermos uma amostra com um número ímpar de dados, ela

    será aquele, exatamente, do meio. E a sua posição pode ser calculada pela

    fórmula:

    Em que Me é a mediana e n o número de dados em uma variável.

    Por exemplo, na distribuição 11, 12, 13, 16, 17, 20 e 25, a mediana é igual

    a 16, pois é o valor que está, exatamente, no meio da distribuição:

     4a posição.

    Mas atenção: essa fórmula serve para localizar a posição da mediana e não,

    o seu valor que se encontrará na posição indicada pela fórmula, quando os

    dados forem organizados em ordem crescente.

    UABEstatística 41

  • 8/17/2019 Livro de Estatística.pdf

    42/155

    Se o número de dados da amostra é par, a mediana é o ponto da distribui-

    ção que é antecedido e precedido por igual número de dados, mesmo que

    seu valor específico não figure entre os dados, pois em um número par de

    dados, há dois valores centrais. Por exemplo, na distribuição 11, 12, 13, 16,

    17, 20, 25 e 26, podemos usar a fórmula acima:

    Isso significa que a mediana se encontra entre o quarto e o quinto valor da

    série, que na quarta posição é 16 e na quinta, 17. E para achá-la , tiramos a

    média aritmética desses dois valores:

    Assim, a mediana da série é 16,5, apesar desse valor não existir na série emquestão.

    O fato de a mediana ser uma posição a torna inadequada para certas bases

    de dados. Por exemplos, para a série 1, 2, 3, 100, 200, 300, a mediana seria

    3+100/2 = 51,5, o que a deixa muito mais perto dos valores menores da

    série e bem distante dos maiores.

    Já a média aritmética seria 606/6 = 101 e dá uma ideia mais adequada desse

    grupo de dados. A mediana é ideal, no entanto, para descrever a tendênciacentral de um grupo de dados proporcionais ou em porcentagem, já que

    esses ficarão entre 0 e 1 ou 0 e 100.

    ModaA terceira é última medida de tendência central é a moda, que consiste sim-

    plesmente no valor que ocorre mais frequentemente.

    Assim, no nosso exemplo, lá em cima, dos chutes a gol dos 31 times em um

    campeonato d futebol, a moda é 18, pois, pois quatro dos 31 times fizeram18 chutes a gol. Para dados contínuos, que possuem valores decimais, é mui-

    to difícil que se encontrem vários valores iguais, e geralmente acabamos com

    vários valores da frequência de ocorrência 1, ou seja, cada valor só ocorre

    uma vez. Nesses casos, o que se pode fazer é agrupar os dados em intervalos

    e criar uma distribuição de frequências agrupadas.

    Vejamos um exemplo: um pesquisador mediu o tempo de resolução de 20

    alunos para um quebra-cabeça. Os valores, medidos em segundo, variaram

    Licenciatura em MatemáticaUAB 42

  • 8/17/2019 Livro de Estatística.pdf

    43/155

    entre 500 e 1100, e nenhum aluno resolveu o quebra-cabeça, exatamen-

    te, no mesmo tempo. Assim, podemos criar uma distribuição de frequência

    agrupada (tabela 9).

    Tabela 9: Frequência absoluta dos intervalos de tempo de resolução de um

    quebra-cabeça, em segundos, por 20 alunos de uma escola.

     Amplitude de tempo (segundos) Frequência absoluta

    500 – 599 3

    600 – 699 6

    700 – 799 5

    800 – 899 5

    900 – 999 01000 – 1100 1

    Nessa amostra, a amplitude de tempo que contém o maior número de regis-

    tros é a de 600 a 699 segundos, com seis estudantes resolvendo o problema

    nesse intervalo de tempo. A moda estará no meio do intervalo e correspon-

    derá a 650 segundos.

    A moda é a única medida de tendência central que pode ser utilizada emdados categóricos, nominais ou ordinais não numéricos. Moda quer dizer

    apenas o que é mais comum, e assim, o termo estatístico tem um significado

    bem diferente do sentido coloquial da palavra.

    Enquanto no nosso dia-a-dia, os estilistas criam peças exclusivas que poucas

    pessoas vão usar e chamam isso de “moda”, já a moda estatística é o que a

    maioria das pessoas está vestindo. Assim, calças jeans e camiseta formam a

    moda estatística na maioria dos países ocidentais.

    Medidas de dispersãoVimos como podemos verificar quais os valores mais comuns em uma variá-

    vel, usando as medidas de tendência central. Mas sem sabermos algo sobre

    como os dados estão dispersos, as medidas de tendência central podem dar

    uma impressão errada da variável.

    UABEstatística 43

  • 8/17/2019 Livro de Estatística.pdf

    44/155

    Por exemplo, uma rua residencial há 20 casas com um valor médio de R$

    200.000,00, mas com pouca variação entre os preços, seria muito diferente

    de uma rua cujas 20 casas têm o mesmo valor médio, mas que três casas

    valem R$1.000.000,00 e as outras 17 custam cerca de R$ 60.000,00.

    As medidas de dispersão dão uma visão mais completa e nos fazem enten-der melhor o tamanho da variação dos dados. Elas incluem a amplitude, o

    desvio médio, a variância e o desvio padrão.

    AmplitudeA mais simples medida de dispersão é a amplitude que é calculada, sim-

    plesmente, tomando-se a diferença entre os valores máximo e mínimo do

    conjunto de dados.

    No entanto, a amplitude só fornece informação sobre os valores extremos enão diz nada sobre os valores entre eles, ou seja, se a variação é homogênea

    ou se os valores estão mais agrupados próximos aos extremos. Ela é usada

    apenas para ilustrar o intervalo de valores dentro do qual um grupo de dados

    se encontra.

    Desvio médioPara se ter uma melhor compreensão da distribuição dos dados em uma

    amostra, os valores residuais são utilizados para calcular o quanto cada

    ponto de dados está afastado dos valores esperados em uma distribuição.Esses resíduos podem ser calculados com base nas diferenças entre cada

    ponto de dados e a média, ou através de valores estimados através de, por

    exemplo, um cálculo de regressão, que veremos mais tarde.

    Um método para calcular o desvio, ou resíduo, em uma amostra é o desvio

    médio, que calcula a diferença média entre cada ponto de dados (cada va-

    lor da variável) e a média dos pontos de dados, e a divide pelo número de

    dados.

    Ao se fazer esse cálculo, no entanto, o resultado será um desvio igual a zero,

    pois os valores acima da média irão cancelar aqueles abaixo. Se esse método

    for usado, o valor absoluto da diferença deve ser medido, de modo, que

    apenas valores positivos são obtidos e o resultado é chamado de “desvio

    médio absoluto”:

    ou

    Licenciatura em MatemáticaUAB 44

  • 8/17/2019 Livro de Estatística.pdf

    45/155

    Em que:

     = desvio médio absoluto;

    = cada ponto de dados;

     = média da amostra;

    n = total de pontos de dados na amostra.

    O desvio médio não é difícil de calcular e tem certo apelo intuitivo.

    No entanto, quando é utilizado para análises estatísticas subsequentes, os

    cálculos matemáticos se tornam muito complexos, pois a maior parte dos

    teoremas estatísticos se baseia na minimização da soma dos resíduos aoquadrado, em vez da soma dos resíduos absolutos. Por causa dessa com-

    plexidade, o desvio médio não é, comumente, usado como uma medida de

    dispersão.

    VariânciaUma maneira de resolver o problema que o desvio médio apresenta é usar a

    variância como medida de dispersão.

    A variância de uma variável é uma medida de dispersão estatística que tira amédia da distância ao quadrado entre todos os valores possíveis e a média

    aritmética da variável. Desse modo, todos os valores são positivos e a unida-

    de da variância é o quadrado da unidade da variável.

    Para usarmos a medida de dispersão mais comum, o desvio padrão, que

    veremos a seguir, precisamos primeiro calcular a variância.

     A variância de uma população é um parâmetro representado por 2; a vari-

    ância de uma amostra é representada por s2.

    Geralmente, trabalhamos com amostras que representam uma população;

    por isso, devemos usar a fórmula da variância amostral:

    UABEstatística 45

  • 8/17/2019 Livro de Estatística.pdf

    46/155

    Lemos a fórmula como o somatório da diferença entre cada valor e a média,

    ao quadrado, dividida pelo número de valores, menos um.

    O cálculo da variância resolve um problema que o desvio médio apresenta,

    que é o de criar valores residuais muito diversos. A aplicação da potência

    quadrática funciona como se utiliza um logaritmo, homogeneizando as dife-renças quando forem calculadas outras estatísticas, como o desvio padrão,

    que veremos a seguir. Por esse motivo, a medida de dispersão é usada como

    base na maioria dos cálculos estatísticos, inclusive em análises avançadas.

    Vamos aplicar essa fórmula a um exemplo. Queremos entender quantos

    quilos de detritos são produzidos em média pela indústria de tecelagem. Co-

    letamos informação de dez tecelagens e conseguimos a seguinte amostra,

    em toneladas de detritos por ano (tabela 10).

    Tabela 10: Toneladas de detritos produzidos, por ano, em dez tecelagens.

     

    60 74

     

    58

     

    61

     

    56

    55 54 57 65 42

    Vamos, então, produzir uma tabela para calcular a variância.

    O primeiro passo é calcular a média. A soma dos valores de nossa amostra é

    582. A média será 582/10 + 58,2. A partir desse resultado, podemos calcular

    a diferença entre cada valor e a média. Por exemplo, se subtrairmos a média

    do primeiro número, 60, teremos 1,8.

    As fábricas, que produziram menos que 58,2 toneladas de detritos por ano,

    terão desvios da média com valores negativos; esse é o problema que vimos

    sobre o uso do desvio médio como uma medida de dispersão: se somarmos

    todos os valores da coluna preenchida, a soma será zero.

    Mas sabemos que, se multiplicarmos um valor negativo por ele mesmo, ou

    seja, se o fazemos ao quadrado, esse valor se tornará positivo. Por exemplo,

    (-0,02) x (-0,02) = 0,04. Vamos então preencher a última coluna e fazer a

    soma dos desvios ao quadrado que precisamos para calcular a variância (ta-

    bela 11).

    Licenciatura em MatemáticaUAB 46

  • 8/17/2019 Livro de Estatística.pdf

    47/155

    Tabela 11: Desvio da média e desvio da média ao quadrado da produção de

    detritos em dez tecelagens.

     Detritos

     (Toneladas/ano)Desvio da média

    (Xi - )

     Desvio da média aoquadrado (Xi - )2

    60 1,8 3,24

    74 15,8 249,64

    58 -0,2 0,04

    61 2,8 7,84

    56 -2,20 4,84

    55 -3,20 10,24

    54 -4,20 17,64

    57 -1,20 1,4465 6,8 46,24

    42 -16,20 262,44

     Média: 58,2 Soma: 603,60

    Agora que temos a soma de todos os desvios da média ao quadrado e sabe-

    mos que (n-1) = 10-1 = 9, podemos substituir os termos da fórmula:

    Nesse caso, como vimos, a unidade da variância é uma quantidade ao qua-

    drado. Dizemos, então, que a variância na quantidade de detritos produzida

    pelas indústrias da tecelagem é de 67,07 toneladas por ano ao quadrado.

    Quando calculamos a variância de uma população, usamos a mesma fórmu-

    la. A diferença é que usaremos a média da população (µ), que é um parâme-

    tro, em vez da média amostral ( ), que é uma estatística.

    Desvio PadrãoA variância dá a ideia da amplitude da distribuição, mas como seu resultado

    é um valor ao quadrado, precisamos saber qual o desvio da média em geral,

    usando uma unidade igual à unidade da variável.

    UABEstatística 47

  • 8/17/2019 Livro de Estatística.pdf

    48/155

    No nosso exemplo, precisamos saber qual o desvio geral da média em tone-

    ladas de detritos por ano. Assim, devemos usar o desvio padrão, cujo resul-

    tado é dado na mesma unidade da variável.

    O desvio padrão é, simplesmente, a raiz quadrada da variância, sendo repre-

    sentado por , quando representando um parâmetro populacional, ou pors, quando representando uma estatística amostral. Novamente, usaremos a

    estatística amostral como exemplo em nossa fórmula:

    A raiz quadrada anula a potência de dois, então temos o desvio padrão.

    Seguindo o exemplo que usamos até agora, teremos:

    Podemos então dizer que, usando nossa amostra de indústrias de tecela-

    gem, a quantidade média de resíduos é de 58,2 toneladas por ano e o des-

    vio padrão é de 8,19 toneladas por ano. Para resumir, nós apresentamos os

    resultados da seguinte forma: a quantidade média de resíduos da indústria

    de tecelagem é de 58,2 ± 8,19 toneladas por ano.

    Quando apresentamos os resultados dessa forma, damos duas ideias bási-

    cas: uma é a da tendência central da variável, dada nesse caso pela média. Aoutra é a ideia de dispersão, fornecida pelo desvio padrão.

    Com estas duas medidas, estamos descrevendo a maioria dos dados que

    analisamos. De volta ao nosso exemplo, se subtrairmos o desvio padrão da

    média, teremos o valor de 50,01 toneladas/ano; se somarmos os valores, o

    resultado é de 66,39 toneladas/ano. Vamos ver quanto dos nossos dados

    estão entre 50,01 e 66,39:

    42 – 54 – 55 – 56 – 57 – 58 – 60 – 61 – 65 – 74

    Nesse caso, subtraindo ou adicionando o desvio padrão, a média é suficiente

    para cobrir 80% dos dados. Por isso, o formato ± s ou µ ±  serve bem

    para descrever os dados de uma amostra ou população.

    Licenciatura em MatemáticaUAB 48

  • 8/17/2019 Livro de Estatística.pdf

    49/155

    Estatística no ExcelOs programas de computador podem economizar muito tempo de uma pes-

    quisa estatística e os editores de planilhas são ideais para a organização das

    bases de dados.

     Alguns desses editores servem apenas como base para que sejam listados osdados, para depois serem transferidos a programas estatísticos, que realizam

    os cálculos. Outros editores possuem funções que permitem o cálculo de

    estatísticas básicas, como as medidas de tendência central e de dispersão. O

    mais popular dos editores de planilhas é o Excel da Microsoft, que apresenta

    várias funções estatísticas.

    É muito provável que a maioria de vocês já esteja familiarizada com esse pro-

    grama, que em muito facilita a vida de quem trabalha com números. Criado,

    inicialmente, para a área financeira, os editores de planilhas como o Excelsão hoje utilizados em todas as áreas do conhecimento que apresentem

    dados quantificáveis.

     A seguir, veremos como criar uma pequena base de dados no Excel e como

    calcular as principais estatísticas de uma amostra.

    O primeiro passo é criar um novo arquivo. A primeira linha será sua linha de

    título, conterá o nome e a unidade de medida das variáveis. (figura 1).

    Figura 1: Aparência de um novo arquivo no editor de planilhas do Excel.

    UABEstatística 49

  • 8/17/2019 Livro de Estatística.pdf

    50/155

    A partir da linha 2, comece a colocar os valores da variável, uma célula para

    cada indivíduo e uma abaixo da outra. Se houver mais de uma medida de

    cada indivíduo, usam-se as colunas seguintes, sempre mantendo os valores

    para um mesmo indivíduo na mesma linha (figura 2).

    Figura 2: Planilha de Excel contendo a altura (em cm), o peso (em kg) e a cor dosolhos de 12 indivíduos.

    Os dados inseridos nas planilhas de Excel podem ser, facilmente, organizados

    em ordem crescente ou decrescente, permitindo que, em um lance, possa-

    mos ver que características são mais frequentes, ou mesmo qual o intervalo

    (amplitude) de dados numéricos. Para isso, devemos selecionar toda a tabela

    (pois se selecionarmos apenas a variável, só ela será classificada) e usar a

    ferramenta “classificar dados” (Dados => Classificar) para organizá-los em

    ordem crescente ou decrescente. Temos a opção de “avisar” ao programa se

    temos ou não uma linha de cabeçalho (figura 3).

    Licenciatura em MatemáticaUAB 50

  • 8/17/2019 Livro de Estatística.pdf

    51/155

    Figura 3: Usando a ferramenta “Classificar dados” do Excel para ordenar, alfabetica-mente, os dados pela variável “Cor dos olhos”.

    A ordenação dos dados é importante em vários testes estatísticos, como as

    chamadas “correlações de postos”. Mesmo que eles não sejam realizados

    pelo Excel da Microsoft, a simples ordenação automática dos dados já remo-

    ve a fase mais demorada desse tipo de teste.

    Medidas de tendência central no ExcelPodemos calcular as medidas de tendência central com a ajuda do programa

    Excel, de forma rápida e fácil.

    Média aritmética

    O Excel possui um sistema de fórmulas que podemos utilizar. Por exemplo,

    para calcular a média da altura dos indivíduos da tabela vista na figura 2,

    devemos ir até o fim da coluna em questão e digitar a seguinte fórmula:

    =média(b2:b13)

    O Excel reconhece o sinal de “=” como um aviso que vamos usar uma fór-

    mula e, entre parênteses, devemos inserir o intervalo de células que contém

    a variável, separado por dois pontos. No caso, da célula 2 da coluna B (b2)

    até a célula 18 da coluna B (b18)( figura 4).

    UABEstatística 51

  • 8/17/2019 Livro de Estatística.pdf

    52/155

    Figura 4: Calculando a média de uma variável no Excel.

    O programa, automaticamente, calcula a média dos dados em questão, bas-

    tando para isso que pressionemos a tecla “enter”. O valor da média aparece-

    rá, de forma automática, na célula em que escrevemos a fórmula (figura 5).

    Figura 5: O valor da média da variável “Altura (cm)” é calculado, automaticamente,pelo Excel.

    Licenciatura em MatemáticaUAB 52

  • 8/17/2019 Livro de Estatística.pdf

    53/155

    Mediana

    Agora, usando a mesma tabela, vamos calcular a mediana para a altura dos

    indivíduos. Há uma fórmula para isso e seu comando, no Excel, é MED.

    Assim, para que possamos calcular a mediana de nossa variável, devemos

    escrever, em uma célula livre, a fórmula “=med(b2:b13)”, como pode ser

    visto na figura 6.

    Figura 6: A fórmula para a mediana no Excel.

    Novamente, pressionando-se a tecla “enter”, o valor da mediana é, automa-

    ticamente, calculado (figura 7).

    Figura 7: A mediana dos valores de altura de uma amostra com 20 indivíduos.

    UABEstatística 53

  • 8/17/2019 Livro de Estatística.pdf

    54/155

    Moda

    Para calcular a moda, vamos usar a variável categórica nominal “cor dos

    olhos”, que possui três classes (azul, castanho e verde) e está representada

    na figura 2.

     Como fizemos para a organização dos dados, vamos selecionar toda a tabe-la e pedir que o programa classifique os dados pela variável “cor dos olhos”,

    da mesma forma como foi vista naffigura 3. Com as classes ordenadas, po-

    demos, facilmente, contar qual a classe mais abundante. Castanho é a moda

    para a cor dos olhos dos indivíduos da amostra, com sete indivíduos, em

    uma amostra de 12, apresentando olhos castanhos ffigura 8).

    Figura 8: Dados nominais ordenados permitem a identificação da classe modal noExcel.

    Variância e desvio padrão com ExcelPodemos usar o Excel para calcular a variância de uma variável bem rapida-

    mente; isso é muito útil, principalmente, com grandes bases de dados. O

    Excel possui um comando para calcular a variância: VAR. Então, vamos usar

    nosso exemplo da altura de um grupo de indivíduos, com a mesma tabelaque estamos utilizando, inserindo a fórmula “=var (b2:b13)” em uma célula

    livre ffigura 9).

    Licenciatura em MatemáticaUAB 54

  • 8/17/2019 Livro de Estatística.pdf

    55/155

    Figura 9: A fórmula para calcular a variância em Excel.

    Novamente, o valor é calculado, automaticamente, ao se pressionar “enter”

    ffigura 10).

    Figura 10: A variância dos valores de altura de uma amostra com 20 indivíduos.

    Há duas maneiras de se calcular o desvio padrão a partir de agora: pode-

    mos, simplesmente, tirar a raiz quadrada da variância em uma calculadora

    comum, ou podemos aplicar o comando DESVPAD no Excel ffigura 11).

    UABEstatística 55

  • 8/17/2019 Livro de Estatística.pdf

    56/155

    Figura 11: A fórmula do desvio padrão no Excel.

    A vantagem de se utilizar a fórmula na planilha do Excel é que podemos ter

    todos os cálculos em um único luga (ffigura 12). Não há problema se termi-

    namos com uma sequência de valores, aparentemente, desconhecidos abai-

    xo de nossos dados, pois, quando selecionamos a célula, a fórmula utilizada

    aparece na caixa de função (fx) no alto da janela do Excel.

    Figura 12: O desvio padrão dos valores de altura de uma amostra com 20 indivíduos.

    Licenciatura em MatemáticaUAB 56

  • 8/17/2019 Livro de Estatística.pdf

    57/155

  • 8/17/2019 Livro de Estatística.pdf

    58/155

    Referências

    LEME, R. A. DA S.: Curso de Estatística – Elementos. Rio de Janeiro: AO LIVRO TÉCNICO.1967.

    LEVIN, J.: Estatística Aplicada às Ciências Humanas. São Paulo: HARPER & ROW DO

    BRASIL. 1978.SCHMULLER, J.: Statistical Analysis with Excel. Hoboken: Willey Publishing Inc. 2009.

    SPIEGELRRAY R, Estatística. MAKRON. 1994

    Licenciatura em MatemáticaUAB 58

  • 8/17/2019 Livro de Estatística.pdf

    59/155UABEstatística 59

  • 8/17/2019 Livro de Estatística.pdf

    60/155Licenciatura em MatemáticaUAB 60

  • 8/17/2019 Livro de Estatística.pdf

    61/155

    Aula 3 - Representações gráficas

    Objetivos

    • Conhecer a apresentação visual de dados amostrais e sua aplica-

    ção na pesquisa estatística;

    • Aprender a construir os tipos mais comuns de representações

    gráficas na Estatística;

    • Conhecer alguns tipos de grácos para variáveis múltiplas;

    • Usar o Excel na elaboração de grácos.

    AssuntoNesta aula, veremos como é possível representar um conjunto de dados

    amostrais visualmente, de forma a permitir uma rápida compreensão da

    informação coletada. Veremos os formatos de gráficos mais comuns para re-

    presentar uma única variável e algumas maneiras de trabalhar com múltiplasinformações visíveis, assim como aprenderemos a aplicar esse conhecimento

    nas pesquisas estatísticas.

    IntroduçãoUma forma simples de sumarizar uma variável é através das representações

    gráficas. Gráficos e diagramas ajudam a visualizar os dados imediatamen-

    te - entende-se, de pronto, a distribuição das frequências, ajudando-nos a

    reconhecer padrões já existentes.

    Há dezenas de possíveis representações gráficas na Estatística. Nesta aula, no

    entanto, vamos nos ater às formas mais utilizadas em relatórios e trabalhos

    acadêmicos, de forma a permitir a descrição adequada de dados amostrais.

    O uso de gráficos em trabalhos estatísticos cresceu a partir da popularização

    dos computadores: gráficos que eram, penosamente, desenhados a mão

    UABEstatística 61

  • 8/17/2019 Livro de Estatística.pdf

    62/155

    podem ser feitos, hoje em dia, em segundos, e com possibilidades infinitas

    de cores e formas. Porém, há um lado bom e um lado mau no uso crescente

    de representações gráficas.

    No lado bom, os gráficos fáceis de fazer incentivam a impo