29

Click here to load reader

CAPÍTULO 1 · Web viewPor exemplo, a população de elementos e a população de dados de cada uma das variáveis definidas acima são finitas. No caso de uma população infinita,

  • Upload
    buicong

  • View
    212

  • Download
    0

Embed Size (px)

Citation preview

Page 1: CAPÍTULO 1 · Web viewPor exemplo, a população de elementos e a população de dados de cada uma das variáveis definidas acima são finitas. No caso de uma população infinita,

CAPÍTULO 1 INTRODUÇÃO

O termo Estatística provém da palavra status (estado em latim)porque era utilizado inicialmente para designar levantamentos de dados com a finalidade de orientar o Estado em suas decisões. Com o passar do tempo a Estatística evoluiu transformando-se numa ciência cuja definição é apresentada a seguir.

1.1.DEFINIÇÃO DE ESTATÍSTICA

Estatística é um método científico que tem por objetivo estudar o comportamento de um fenômeno numa população a partir das informações extraídas dos dados de uma ou mais variáveis da mesma a fim de tirar conclusões sobre o fenômeno estudado com base nesses dados como ilustra o esquema a seguir.

Figura 1.1. Definição de Estatística

Para esta finalidade constrói-se um modelo do fenômeno que está sendo estudado. Oconceito de modelo será apresentado mais adiante neste capítulo.

Ao se iniciar um trabalho estatístico deve-se inicialmente definir a população alvo de estudo. Ossignificados da palavra população no contexto estatístico serão apresentados a seguir.

1.2. POPULAÇÃO

O termo população em Estatística tem dois significados. O primeiro refere-se a um conjunto de elementos dos quais se deseja estudar pelo menos uma característica que pode ser classificada, contada ou medida sendo denominada variável porque podevariar de um elemento para outro. Os elementos da população podem ser, por exemplo, objetos, pessoas, locais, instituições, intervalos de tempo e intervalos de espaço, etc.Atítulo de ilustração do conceito de população,suponha que um pesquisador deseje estudar as características dos 12500 domicílios de determinado município em determinado semestre. Este conjunto de domicílios constitui a população em estudo e as características(variáveis) de interesse podem ser: tipo (casa, apartamento, outro), classe socioeconômica (classe A, classe B, classeC, classe D), número de pessoas e área construída (em m2).

Quando se observa uma variável num elemento obtém-se um número ou um atributo. Onúmero ou atributo obtido nesta observação é um dado da variável considerada. Os dados podem ser expressos por números ou atributos. Os dados são expressos por números quando a variável é contada ou medida. Por exemplo, Por exemplo, se for observada a área construída dos domicílios da população, os números obtidos são os dados desta variável.Por outro lado, os dados são atributos quando a variável é classificada. Neste caso, a população é dividida em categorias mutuamente exclusivas(cada elemento pertence somente a uma categoria) e exaustivas (as categorias abrangem todos os elementos da população). As categorias são os atributos e constituem os dados da variável. Referindo-se à população acima, se for observada a classe socioeconômica dos domicílios, os atributos obtidos(classeA, classe B, classe C, classe D) são os dados desta variável.

O segundo significado de população refere-se ao conjunto de dados de uma variável de uma população de elementos. Por exemplo, com relação à área construída dos domicílios da população acima, o conjunto de dados obtido constitui a população de dados desta variável.

O número de elementos (ou de dados) de uma população é o tamanho da mesma sendo representado por N. No caso da população acima tem-se que N=2500.

fenômeno

dados tratamento estatístico informações conclusões

Page 2: CAPÍTULO 1 · Web viewPor exemplo, a população de elementos e a população de dados de cada uma das variáveis definidas acima são finitas. No caso de uma população infinita,

Dependendo de como é definida, uma população pode ser finita ou infinita. Apopulação finita possui um número limitado de elementos. Por exemplo, a população de elementos e a população de dados de cada uma das variáveis definidas acima são finitas.

No caso de uma população infinita, o número de elementos é infinito. A título de exemplo, se um pesquisador deseja estudar as características das famílias de um município ao longo de um tempo indeterminado, a população de famílias e a população de dados de cada uma das variáveis desta população de famílias são infinitas.

1.3. AMOSTRA

Raramente se estuda uma população em sua totalidade. Isto ocorre porque a população pode infinita ou, mesmo sendo finita,seu tamanho pode ser tão grande que torna-se impraticável a observação de todos os elementos da mesma. Assim sendo, o pesquisador observa apenas uma parte da população, denominada amostra. Formalmente, denomina-se amostra qualquer subconjunto de elementos escolhidos de uma população para fins de estudo da mesma. A amostra deve ser representativa da população da qual foi extraída, ou seja, a variação dos dados de determinada variável na mesma deve ser igual à variação dos dados da referida variável na população. O termo amostra refere-se também ao conjunto de dados de uma variável dos elementos da amostra considerada.

O número de elementos (ou de dados) de uma amostra é o tamanho da mesma sendo representado por n. Por exemplo, se para estudar a área construída dos domicílios considerados na seção 1.2, o pesquisador analisa os dados desta variável para 500 domicílios escolhidos para este fim, estes domicílios constituem uma amostra de tamanho n=500 da população de domicílios e o conjunto de dados referentes à área construída dos domicílios escolhidos constitui uma amostra de tamanho n=500 da população de dados desta variável.

1.4. CENSO OU RECENSEAMENTO E AMOSTRAGEM

Existem dois procedimentos para se obter os dados de pelo menos uma população: ocenso e a amostragem. O censo consiste em obter a população de dados de uma ou mais variáveis de uma população. O censo não é empregado com freqüência exceto no caso de populações finitas relativamente pequenas, porque há uma grande demora na obtenção dos dados, além de um elevado custo operacional e outras dificuldades.

A amostragem consiste em obter os dados de uma ou mais variáveis numa amostra de elementos escolhidos da população. A amostragem é freqüentemente utilizada porque as populações geralmente são muito grandes ou infinitas. Na amostragem os dados são obtidos com rapidez e o custo operacional é muito menor do que no caso do censo.

1.5. TIPOS DE VARIÁVEL

Para escolher os procedimentos a serem utilizados num trabalho estatístico é necessário conhecer o tipo da(s) variável(s) que está(ão) sendo observada(s). O tipo de uma variável depende da natureza dos dados da mesma.

1.5.1. VARIÁVEL QUANTITATIVA OU NUMÉRICA

Uma variável é quantitativa quando seus dados são números e pode ser discreta ou contínua. Uma variável quantitativa é discreta quando seus dados são obtidos por um processo de enumeração ou contagem. Como consequência, um intervalo finito contém um número finito de dados. A título de ilustração, o número de pessoas em cada domicílio de um município é uma variável quantitativa discreta. Neste caso, o intervalo finito [2, 5], por exemplo, contém um número finito de dados, ou seja, 4, como ilustra a figura a seguir onde os pontos sobre eixo representativo da variável indica os dados 2, 3, 4 e 5 contidos neste intervalo.

2

2

Page 3: CAPÍTULO 1 · Web viewPor exemplo, a população de elementos e a população de dados de cada uma das variáveis definidas acima são finitas. No caso de uma população infinita,

Figura 1.1. Variável quantitativa discreta

Uma variável quantitativa é contínua quando os dados são obtidos por um processo de medição e, como consequência, um intervalo finito contém um número infinito de dados. Por exemplo, o tempo (em minutos) gasto diariamente com leitura de jornais e revistas pelas pessoas adultas de um município é uma variável quantitativa contínua. Neste caso o intervalo finito [41, 44], por exemplo, contém um número infinito de dados como ilustra a figura a seguir.

Figura 1.2. Variável quantitativa contínua

Uma variável quantitativa pode ser resultante de operações aritméticas com duas ou mais outras variáveis. Neste caso, a variável resultante é discreta, se todas as variáveis envolvidas são discretas, e contínua se pelo menos uma das variáveis originais é contínua.

Uma variável é quantitativa quando seus dados são números e pode ser discreta ou contínua. Uma variável quantitativa é discreta quando seus dados são obtidos por um processo de enumeração ou contagem. Como consequência, um intervalo finito contém um número finito de dados. A título de ilustração, o número de ovos por ninho de uma espécie de ave é uma variável quantitativa discreta. Neste caso, o intervalo finito [2, 5], por exemplo, contém um número finito de dados, ou seja, 4, como ilustra a figura a seguir onde os pontos sobre eixo representativo da variável indica os dados 2, 3, 4 e 5 contidos neste intervalo.

Figura 1.2. Variável quantitativa discreta

Uma variável quantitativa é contínua quando os dados são obtidos por um processo de medição e, como consequência, um intervalo finito contém um número infinito de dados. Por exemplo, o peso (em kg) de uma espécie de mamífero é uma variável quantitativa contínua. Neste caso o intervalo finito [41, 44], por exemplo, contém um número infinito de dados como ilustra a figura a seguir.

Figura 1.3. Variável quantitativa contínua

Uma variável quantitativa pode ser resultante de operações aritméticas com duas ou mais outras variáveis. Neste caso, a variável resultante é discreta, se todas as variáveis envolvidas são discretas, e contínua se pelo menos uma das variáveis envolvidas é contínua.

1.5.2. VARIÁVEL QUALITATIVA OU CATEGÓRICA

Quando os dados são atributos, a variável é qualitativa ou categórica porque seus dados que são atributos e se refere à categoria à qual pertence o elemento observado. Uma variável qualitativa pode ser nominal ou ordinal.

Uma variável é qualitativa nominal quando as categorias se referem à natureza dos elementos da população e neste caso os dados não apresentam uma ordem lógica. Por exemplo, com relação aos domicílios da população acima, a variável tipo de domicílio é qualitativa nominal, porque os dados desta variável indicam a natureza do domicílio e por isto não existe uma ordenação lógica dos mesmos.

Uma variável qualitativa é ordinal quando as categorias se referem a uma característica que pode ser mais (ou menos) intensa num elemento do que em outro e por isto os dados podem ser dispostos em ordem crescente ou decrescente segundo a intensidade da categoria no elemento observado. Por exemplo, a classe socioeconômica da população acima é uma variável qualitativa ordinal, porque os dados desta variável (classe A, classe B, classe C e classe D) indicam o nível de renda em cada domicílio e por isto podem ser dispostos na seguinte ordem: classe

3

3

Page 4: CAPÍTULO 1 · Web viewPor exemplo, a população de elementos e a população de dados de cada uma das variáveis definidas acima são finitas. No caso de uma população infinita,

D<classeC<classe B<classe A. Isto ocorre porque a classe socioeconômica indica renda num domicílio e pode ser maior (ou menor) do que em outro.

Os dados de uma variável qualitativa podem ser codificados através de números como 0, 1, 2, etc ou 1, 2, 3, etc. Convém ressaltar que neste caso os números apenas designam determinada categoria e não representam quantidades. Por exemplo, com relação à variável tipo de domicílio acima, pode-se usar o código 1 para apartamento, 2 para casa e 3 para outro. Este procedimento é aconselhável porque diminui drasticamente o risco de se cometer erro na anotação, transcrição ou digitação dos dados pelo fato de ser mais fácil anotar, transcrever ou digitar números do que nomes.

Uma variável originariamente quantitativa pode ser observada de forma qualitativa.Por exemplo, a renda familiar (em R$) é uma variável quantitativa. Porém, se os dados forem apresentados em faixas (de 1 a 2 salários mínimos, de 2,1 a 4 salários mínimos, etc), a mesma passa a ser qualitativa.

Convém observar que nem sempre uma variável representada por números é quantitativa. O número de CPF de uma pessoa, por exemplo, não uma variável quantitativa porque seus dados não são resultantes de um processo enumeração e nem de medição e sevem apenas para identificar a referida no cadastro de pessoas físicas da Receita Federal.

1.6.ESCALA

O termo escala provém de scala em latim e tem vários significados dependendo do uso. Serão relacionados a seguir os três significados de escala no contexto da Estatística.

O primeiro significado de escala refere-se uma sucessão de valores ou de atributos de uma variável segundo uma ordem preestabelecida. Por exemplo, para medir o desempenho dos alunos numa disciplina pode-se estabelecer uma escala de conceitos ou uma escala de notas. Aescala de conceitos pode ser a seguinte sequência ordenada: insuficiente - regular - bom - ótimo. Aescala de notas é o intervalo de 0 (zero) a 100, por exemplo.

O segundo significado refere-se a um segmento de reta dividido em partes iguais que são as divisões da escala e representam a unidade de medida da variável, um múltiplo ou um submúltiplo da mesma. Adivisão do segmento é feita através de traços denominados marcas de escala. Abaixo das marcas de escala (no caso de uma escala horizontal) ou do lado esquerdo (no caso de uma escala vertical) colocam-se números com intervalo igual ao tamanho das divisões. Asmarcas de escala podem estar de um ou de outro lado do segmento ou cruzarem o mesmo como nas ilustrações a seguir.

Figura 1.4. Posição das marcas de escala

O número correspondente à primeira marca de escala é a origem da mesma podendo ser 0 (zero) outro valor que pode ser positivo ou negativo dependendo da situação.

É facultado dividir cada parte ou divisão da escala em 2 ou mais partes ou divisões para se obter mais precisão na observação dos dados. Neste caso, as divisões maiores são denominadas divisões principais e as menores são denominadas divisões secundárias. As marcas de escala correspondentes às divisões principais são denominadas marcas de escala principais e as marcas de escala correspondentes às divisões secundárias são denominadas marcas de escala secundárias. Recomenda-se, para evitar confusão na leitura, que as marcas de escala secundárias sejam menores do que as marcas de escala principais. Para cada divisão principal o número de marcas de escala secundárias é igual ao número de divisões secundárias menos 1(um). A figura a seguir ilustra esta

4

4

Page 5: CAPÍTULO 1 · Web viewPor exemplo, a população de elementos e a população de dados de cada uma das variáveis definidas acima são finitas. No caso de uma população infinita,

situação.

Figura 1.5. Marcas de escala principais e secundárias

Nesta escala cada divisão principal representando 100 unidades foi dividida em 5 partes ou divisões secundárias de modo que cada uma destas representa 20 unidades. Como cada divisão principal contém 5 divisões secundárias, existem 4 marcas de escala secundárias para cada divisão principal.

O terceiro significado de escala refere-se ao quociente entre as dimensões de um gráfico e o valor da grandeza que o mesmo representa. Por exemplo, se na figura acima cada divisão tem 1(um) centímetro, significa que a escala é de 1 (um) centímetro para cada 100 unidades da variável quantitativa considerada.

1.7. NÍVEIS DE MENSURAÇÃO DE UMA VARIÁVEL

Mensuração, de modo geral, consiste na atribuição de números ou atributos a uma variável, através da adoção de uma escala, de tal forma que estes se prestem a uma análise mediante manipulações ou operações aritméticas de acordo com certas regras. A escala convenientemente adotada é denominada escala de mensuração.

O tipo de análise dos dados de uma ou mais variáveis de uma população em estudo depende do nível de mensuração da variável observada. O nível de mensuração se refere ao número de tipos de manipulações e operações aritméticas. Serão apresentados nesta seção os níveis de mensuração uma variável.

1.7.1. ESCALA NOMINAL OU CLASSIFICADORA

Quando a variável de interesse é qualitativa nominal o processo de mensuração consiste apenas em classificar os elementos em duas ou mais categorias mutuamente exclusivas e exaustivas. Neste caso, conforme já foi visto na seção 1.5.2, os dados da variável são os nomes das respectivas categorias às quais os mesmos pertencem. Por isto a escala é denominada escala nominal e os dados não podem ser dispostos numa ordem lógica e a única relação entre os mesmos neste nível de mensuração é a de equivalência (=). Isto significa que, se a e b são dados referentes a dois elementos de mesma categoria, então a=b. Se os elementos são de categorias diferentes, ab. Nesta escala não é possível nenhuma operação aritmética. O tipo dos domicílios da população considerada seção1.2, por exemplo, é uma variável "medida" em escala nominal.

1.7.2. ESCALA ORDINAL OU POR POSTOS

Quando a variável de interesse é qualitativa ordinal, além da relação de equivalência existe a relação de ordem entre os dados de diferentes categorias porque os mesmos indicam a intensidade da característica num elemento pertencente à mesma. Assim, os dados podem ser ordenados segundo a intensidade da característica nos respectivos elementos. Assim, se a e b são dois dados, então a=b para elementos de uma mesma categoria e ab para dados de categorias diferentes. Além disto a<b ou a>b para elementos de categorias diferentes, ou seja, a característica (variável) apresenta menor (ou maior) intensidade no primeiro elemento do que no segundo. Por isto a escala é denominada escala ordinal. A classe socioeconômica dos domicílios da seção 1.2, por exemplo, é uma variável "medida" em escala ordinal porque os mesmos podem ser ordenados do domicílio de renda mais baixa para o de renda mais alta e vice-versa, ou seja, os dados podem ser dispostos em ordem crescente (classe D<classe C<classe B < classe A) ou decrescente (classeA>classe B>classe C > classe D).

Nesta escala também não é possível nenhuma operação aritmética. Apesar de um dado poder ser maior ou menor do que outro não é possível conhecer a diferença entre os mesmos.

5

5

Page 6: CAPÍTULO 1 · Web viewPor exemplo, a população de elementos e a população de dados de cada uma das variáveis definidas acima são finitas. No caso de uma população infinita,

1.7.3. ESCAL INTERVALAR

Quando a variável é quantitativa, sendo seus dados expressas em números pode-se determinar a diferença entre dois dados. Nesta escala os dados indicam a amplitude do intervalo entre um ponto da escala escolhido arbitrariamente como origem e o ponto de interesse. Em virtude disto a escala é denominada escala intervalar. Para exemplificar, considere que a temperatura seja 10ºC num local e 30ºC em outro. Pode-se afirmar que 10ºC<30ºC e que a diferença entre as duas temperaturas é 20ºC. Porém não se pode afirmar que no local onde a temperatura é 30º C está três vezes mais quente do que no local onde a temperatura é de 10º C, porque sendo o zero da escala arbitrado o mesmo não corresponde à ausência total de calor que somente ocorre a 273,15ºC como ilustra a figura a seguir.

Figura 1.5. Ilustração da escala intervalar

Neste caso, o zero da escala utilizada (escala Celsius) não indica ausência de calor e sim a temperatura na qual o gelo se funde e portanto existem valores abaixo de zero. Uma característica importante da escala intervalar é a possibilidade se obter dados negativos

O quociente entre dois dados é diferente do quociente entre as intensidades da grandeza em dois elementos com dados diferentes uma vez que o zero da escala não corresponde à ausência da grandeza. Por exemplo, com relação à temperatura dos locais acima, o quociente entre 30ºC e 10ºC é 3 sendo que este quociente significa que a diferença de entre a temperatura no segundo local e a temperatura de fusão do gelo, arbitrada como 0ºCé 3 vezes maior do que a diferença entre a temperatura no primeiro local e a temperatura de fusão do gelo e não que no segundo local a temperatura é 3vezes maior do que no primeiro. Para saber quantas vezes no segundo local a temperatura é maior do que no primeiro divide-se a diferença entre a temperatura no primeiro local e a temperatura correspondente à ausência total de calor (273,15ºC) que é 303,15ºC (veja a figura 1.3) pela diferença entre a temperatura no segundo local e a temperatura correspondente à ausência total de calor que é 283,15ºC. Deste modo tem-se que 303,15ºC/283,5ºC=1,07. Assim, enquanto a diferença entre temperatura no primeiro local e a temperatura de fusão do gelo é 3 vezes maior do que a diferença de temperatura no segundo e a temperatura de fusão do gelo, a temperatura no primeiro é 1,07 vezes maior do que no segundo.

Neste nível de mensuração além das relações de equivalência e de ordem são possíveis as operações de adição (+) e de subtração (). Assim, pode-se somar ou subtrair (ou subtrair) um dado a (de) outro obtendo-se um terceiro dado.

1.7.4. ESCALA DE RAZÃO

Neste nível de mensuração o zero da escala de medida dos dados de uma variável quantitativa é absoluto, ou seja, corresponde à ausência da característica observada num elemento. Esta escala é denominada escala de razão porque o quociente (razão) entre dois dados indica quantas vezes a característica mais (ou menos) intensa num elemento do que em outro .Por exemplo, com relação à variável peso, pode-se afirmar que um objeto de 8 kg é 4 vezes mais pesado que um objeto de 2 kg. Neste nível de mensuração além das operações de equivalência e de ordem são possíveis as operações de adição (+), subtração (), multiplicação () e divisão (), ou seja, além das operações admissíveis nos níveis anteriores, pode-se multiplicar ou dividir um dado por outro obtendo-se um terceiro dado.

6

6

Page 7: CAPÍTULO 1 · Web viewPor exemplo, a população de elementos e a população de dados de cada uma das variáveis definidas acima são finitas. No caso de uma população infinita,

1.8. MODELO

Denomina-se modelo uma construção abstrata e simplificada que visa descrever matematicamente o fenômeno de interesse que é muito mais complexo porque o comportamento do mesmo pode ser influenciado por um número muito grande de fatores. Pode dizer, em outras palavras, que o modelo é uma versão simplificada do fenômeno estudado. Na construção do modelo despreza-se os fatores cujas influências no comportamento do fenômeno são irrelevantes.

1.9. DIVISÕES DA ESTATÍSTICA

Dependendo do conjunto de dados utilizado (amostra ou população), a Estatística apresenta as divisões a seguir.

1.9.1. ESTATÍSTICA DESCRITIVA/ANÁLISE EXPLORATÓRIA DE DADOS

Tanto a estatística descritiva quanto a análise exploratória de dados têm como objetivo descrever os dados e obter informações sobre o fenômeno em estudo. Na estatística descritiva procura-se obter informações sobre o fenômeno a partir da representação tabular e representação gráfica dos dadosjuntamente com as medidas descritivas ou medidas resumo que serão estudadas oportunamente e supõe-se que os dados seguem determinado modelo com base em certas hipóteses. O esquema a seguir ilustra este tipo de abordagem

Figura 1.7. Análise exploratória de dados

Na análise exploratória de dadosprocura-se obter dos dados a maior quantidade possível de informações iniciais para escolher o modelo para o fenômeno dando-se ênfase às representações gráficas. O esquema a seguir ilustra este tipo de abordagem.

Figura 1.7. Abordagem clássica

1.9.2. INFERÊNCIA ESTATÍSTICA

A Inferência Estatística consiste em analisar os dados de uma ou mais variáveis de uma população a partir de uma amostra de dados da(s) variável(is) a ser(em) analisada(s).

1.9.3. PROBABILIDADE

A Probabilidade consiste na medida da incerteza através de números ou funções matemáticas.

1.9.4. AMOSTRAGEM

A Amostragem constitui um conjunto de procedimentos para a obtenção de uma amostra representativa da população alvo e no estudo das relações existentes entre uma população e as amostras possíveis que podem ser extraídas da mesma.

A relação entre estas divisões é a apresentada na figura a seguir.

7

7

fenômeno

dados análise modelo conclusões

fenômeno

dados modelo análise conclusões

Page 8: CAPÍTULO 1 · Web viewPor exemplo, a população de elementos e a população de dados de cada uma das variáveis definidas acima são finitas. No caso de uma população infinita,

Figura 1.7. Divisões da Estatística

Continua a partir daqui

1.10. FASES DE UM TRABALHO ESTATÍSTICO

De modo geral, um trabalho estatístico consta das etapas apresentadas a seguir.

1.10.1. DEFINIÇÃO DO PROBLEMA

Nesta fase, o pesquisador define o problema a ser resolvido, escolhendo as variáveis do seu interesse, planejando a operacionalização do trabalho a ser desenvolvido, formas de obtenção dos dados (censo ou amostragem) e outros procedimentos.

1.10.2. COLETA DOS DADOS

Os dados podem ser obtidos de duas formas: a partir de levantamentos, isto é, colhidos pelo pesquisador no local onde surgem ou podem ser extraídos de publicações como revistas, jornais, etc. Os dados obtidos diretamente pelo pesquisador são denominados dados são primários e quando são obtidos a partir de revistas, jornais, etc, são denominados dados secundários.

1.10.3. CRÍTICA DOS DADOS

Após a coleta, os dados passam por um trabalho de depuração, isto é, observa-se a ocorrência de erros, omissões de dados e outras impropriedades que podem ocorrer durante a obtenção dos dados e podem comprometer os resultados da análise dos mesmos.

1.10.4. APRESENTAÇÃO DOS DADOS

Os dados podem ser apresentados em forma tabular, isto é, por meio de tabelas e por meio de gráficos. As tabelas são empregadas para apresentar os valores exatos dos dados, enquanto que os gráficos são utilizados para se ter a visão global dos dados.

1.10.5. ANÁLISE DOS DADOS

A análise é a tarefa fundamental num trabalho estatístico, podendo ser um simples exame de uma tabela ou de um gráfico ou o emprego de recursos sofisticados da matemática. Apartir da análise obtém-se as informações necessárias à conclusão do trabalho.

1.10.6. CONCLUSÕES

As informações obtidas na análise fornecem ao pesquisador meios de inferir sobre o comportamento dos dados como médias, variações, tendências, índices, prevalências, etc. As conclusõessão apresentadas na forma de um relatório.

8

8

Page 9: CAPÍTULO 1 · Web viewPor exemplo, a população de elementos e a população de dados de cada uma das variáveis definidas acima são finitas. No caso de uma população infinita,

1.11. ESCRITA DOS NÚMEROS

Para facilitar a leitura dos números, a parte inteira dos mesmos é separada em classes de três algarismos da direita para a esquerda. Na parte decimal, essa separação feita da esquerda para a direita, sendo esta separação feita por um espaço em branco, como por exemplo, o número 12492384,3428562 (12 milhões, 492 mil, 384 unidades, 342 milésimos, 856 milionésimos e 2bilionésimos) . Excetuam-se os números já tradicionalmente escritos, entre estes, os anos do calendário, escritos sem separação.

Qualquer número pode ser escrito na forma m×10 p onde o número 1m<10 é

denominado mantissa e o número p é um inteiro. Por exemplo, o número 3462000000 pode ser

escrito como 3 ,462×109e o número 0,000405 pode ser escrito como 4 , 05×10−6 . Note que, se o

número considerado é maior do que 1(um), oexpoente p é positivo e se o referido número é menor do que 1(um), o expoente p é negativo. Em ambos os casos p indica o número de casas que se deve deslocar a vírgula para a esquerda (no caso de números maiores do que 1) ou para a direita (no caso de números menores do que 1) para se obter a mantissa m. A representação do número na forma m×10 p

é denominada notação científica e é conveniente para representar números com muitos zeros à direita no caso de números de módulo maior do que 1(um) ou com muitos zeros à esquerda no caso de números de módulo menor do que 1(um).

1.12. ORDEM DE GRANDEZA DE UM NÚMERO

Denomina-se ordem de grandeza de um número a potência inteira de 10 mais próxima do mesmo. Por exemplo, com relação ao número 442, as potências de 10 mais próximas do mesmo são 100e 1000, ou seja, 100<442<1000. Para saber se 442 está mais próximo de 100 ou de 1000, determina-se o valor que está a igual distância de 100 e de 1000 que é a média entre 100 e 2000, ou seja, (100+1000)/2=550. Como 443 é menor do que 550, conclui-se que o mesmo está mais próximo de 100 que é 102e portanto sua ordem de grandeza é 102.

Suponha agora que se deseja determinar a ordem de grandeza de do número 7359. Aspotências de 10 mais próximas são 1000 e 10000, ou seja, 1000<7359<10000. Para saber se este número está mais próximo de 1000 ou de 10000, determina-se o valor a igual distância destas potências de 10 que é a média entre 1000 e 10000 ou seja, (1000+10000)/2=5500. Como 7359 é maior do que 5500, conclui-se que o mesmo está mais próximo de 10000 do que de 10000 e portanto sua ordem de grandeza é 10000 ou mais precisamente, 104.

A determinação da ordem de grandeza se torna mais fácil se o número e as potências de 10 mais próximas do mesmo estiverem em notação científica. Com relação ao número 442 acima e as potências de 10 mais próximas tem-se que 102<4,42102<103. O valor que está a igual distância de 102 e 103 é 550 ou 5,5102 em notação científica. Como 4,42102 é menor do que 5,5102

então a ordem de grandeza do número 442 é 102.Com relação ao número 7359 e as potências de 10 mais próximas tem-se que

103<7,359103<104. O valor que está a igual distância de 103 e 104 é 5500 ou 5,5103 em notação científica. Como 7,359103 é maior do que 5,5103 então a ordem de grandeza do número 7359 é104.

Note, após observar os dois casos acima em notação científica, que: a) a mantissa do número a igual distância das potências de 10 mais próximas do número cuja ordem de grandeza se deseja determinar é 5,5; b) o expoente da potência de 10 do número em notação científica é igual ao da potência de 10 mais próxima abaixo do número; c) o expoente da potência de 10 mais próxima acima do número é o expoente da potência de 10 do mesmo em notação científica mais1(um);d)oexpoente da potência de 10 do número a igual distância entre das potências de 10 mais próximas é igual ao da potência de 10 do número em notação científica.

9

9

Page 10: CAPÍTULO 1 · Web viewPor exemplo, a população de elementos e a população de dados de cada uma das variáveis definidas acima são finitas. No caso de uma população infinita,

Pelo exposto acima conclui-se que, se a mantissa do número cuja ordem de grandeza se deseja determinar é menor do que 5,5 a ordem de grandeza é a potência de 10 abaixo do mesmo; se a mantissa é superior a 5,5 a ordem de grandeza é potência de 10 mais próxima acima do número cuja ordem de grandeza se deseja determinar.

Em geral, se o número em notação científica ém×10 p as potências de 10 mais próximas

do mesmo que são10pe10p+1 .Assim este número está mais próximo mais próximo de 10p

se a mantissa m é menor do que 5,5 e mais próximo de 10p+1

se a mantissa m é maior do que5,5. Logo a

ordem de grandeza do número é 10pse a mantissa mdo mesmo é menor do que 5,5 e 10p+1

se a

mantissa m é maior do que 5.5. Se o número é igual a 5,5×10p+1a ordem degrandeza pode ser10p

ou 10p+1 .

1.13. ARREDONDAMENTO DE NÚMEROS

Frequentemente, os resultados de um cálculo aritmético são arredondados. Arredondar um número consiste em representá-lo com menos algarismos diferentes de zerodesprezando-se os algarismos à direita do último a permanecer no número arredondado. Se o arredondamento é na parte inteira o algarismo desprezado é substituído por 0(zero). Para minimizar o erro de arredondamento, adota-se as soluções a seguir.

a)Se o primeiro algarismo a ser desprezadoé 0, l, 2,3 ou 4, o último algarismodo número arredondadopermanece inalterado, ou seja, arredonda-se para baixo.

Exemplo 1.1. Arredondar para centésimos o número 242,98425, para dezenas o número1562.

Resolução

Após o arredondamento o último algarismo a permanecer é o da ordem dos centésimos(8). Como o primeiro e único algarismo a ser desprezado é 4, o número arredondado é 242,98.

Exemplo 1.2. Arredondar para dezenas o número 1562.

Resolução

Após o arredondamento o último algarismo a permanecer é o da ordem das dezenas(6). Como o algarismo a ser desprezado é 2, o número arredondado é 1560.

Exemplo 1.3. Arredondar para centenas o número 89247,26562.

Resolução

Após o arredondamento o último algarismo a permanecer é o da ordem das centenas(2). Como o primeiro algarismoa ser desprezado é 4, o número arredondado é 89200.

b)Se o primeiro algarismo a ser desprezado é 6, 7, 8 ou 9 o último algarismo do número arredondado é acrescido de uma unidade, ou seja, arredonda-se para cima.

Exemplo 1.4. Arredondar o número 61,2742 para décimos.

Resolução

Após o arredondamento o último algarismo à direita é o da ordem dos décimos(2). Como o primeiro algarismo a ser desprezado é 7, o número arredondado é 61,3.

Exemplo 1.5. Arredondar para milhares o número 34563792.

Resolução

Após o arredondamento o último algarismo a permanecer é o da ordem dos milhares(3). Como o primeiro algarismo a ser desprezado é 7, o número arredondado é

10

10

Page 11: CAPÍTULO 1 · Web viewPor exemplo, a população de elementos e a população de dados de cada uma das variáveis definidas acima são finitas. No caso de uma população infinita,

34563000.Exemplo 1.6. Arredondar para centenas o número 1368,26562.

Resolução

Após o arredondamento o último algarismo a permanecer é o da ordem das centenas(3). Como o primeiro algarismo a ser desprezado é 6, o número arredondado é 1400.

c) Se o primeiro algarismo a ser desprezadoé 5, existem duas soluções.

c.1) Se após o 5 (cinco) existir pelo menos um algarismo diferente de 0 (zero), seguir-se-á o item b, isto é, arredonda-se para cima.

Exemplo 1.7. Arredondar para décimos o número 54,351 72.

Resolução

Após o arredondamento o último algarismo a permanecer é o da ordem dos décimos(3). Como o primeiro algarismo a ser desprezado é 5 e após o mesmo existe pelo menos um algarismo diferente de 0(zero), o número arredondado é 54,4.

c.2) Se após o 5 somente existirem zeros ou não existir nenhum algarismo diferente de zero, o último algarismo do número arredondadopermanece inalterado se for par (arredonda-se para baixo e é acrescido de uma unidade se for ímpar (arredonda-se para cima). Neste caso o número arredondado é par.

Exemplo 1.8. Arredondar para décimos o número 236,85.

Resolução

Após o arredondamento o último algarismo a permanecer é o da ordem dos décimos(8) que é par. Como o primeiro algarismo a ser desprezado é 5e após o mesmo não existe nenhum algarismo,onúmero arredondado é 236,8.

Exemplo 1.9. Arredondar para décimos os números 42,35.

Resolução

Após o arredondamento o último algarismo a permanecer é o da ordem dos décimos(3) que é ímpar. Como o primeiro algarismo a ser desprezado é 5 e após o mesmo não existe nenhum algarismo o número arredondado é 42,4.

1.14.NOTAÇÃO

Denomina-se notação o conjunto de símbolos e sinais utilizados para representarem as variáveis, as populações de dados e as amostras das mesmas assim como as operações aritméticas entre os dados.

1.14.1.REPRESENTAÇÃO SIMBÓLICA DE UMA VARIÁVEL (QUALITATIVA OU QUANTITATIVA) DOS DADOS DA MESMA

Uma variável é representada por uma letra maiúscula e os N dados da população (ou os n dados de uma amostra) da mesma são representadas pela mesma letra minúscula seguida de um índice que indica a ordem em que os dados foram observados. Assim, se X é uma variável em estudo, os N dados da população referente à mesma são representados por x1, x2, ..., xN1 e xN. Analogamente os n dados de uma amostra desta população são representados por x1, x2, ..., xn1 e xn.

Nesta representação x1 é o primeiro dado observado, x2 é o segundo dado observado e, em geral, xi

é o i-ésimo (i=1, 2, ..., N) dado da população ou o i-ésimo (i=1, 2, ..., n) dado de uma amostra da mesma. Convém ressaltar que o índice i indica a ordem na qual os dados observados e não a ordem crescente dos mesmos. Para exemplificar, considere que foi realizado um experimento que consiste em observar a renda mensal (em R$) de 5 famílias escolhidas aleatoriamente de um município. Suponha que foram obtidos os seguintes dados na ordem em que as famílias foram escolhidas: 4600, 2900, 10600, 8200 e 7100. Representando por X a renda mensal destas famílias tem-se que

11

11

Page 12: CAPÍTULO 1 · Web viewPor exemplo, a população de elementos e a população de dados de cada uma das variáveis definidas acima são finitas. No caso de uma população infinita,

x1=4600(renda mensal da primeira família escolhida), x2=2900(renda mensal da segunda família escolhida), x3=10600(renda mensal da terceira família escolhida), x4=8200(renda mensal da quarta família escolhida) e x5=7100(renda mensal da quinta família escolhida).

No caso de duas ou mais variáveis pode-se usar letras maiúsculas diferentes sem índice ou a mesma letra maiúscula seguidas de um índice. Por exemplo, a despesa mensal com saúde e a despesa mensal com educação de uma população (ou amostra) de famílias de um município podem ser representadas por X e Y, respectivamente, ou por X1 e X2, respectivamente, ou por Y1 e Y2, respectivamente. Se forem usadas letras maiúsculas seguidas de índice para representar as variáveis, os dados das mesmas serão representados por letras minúsculas seguidas de dois índices sendo que o primeiro se refere à variável e o segundo se refere à ordem em que o dado de cada variável é observado. Por exemplo, se uma das variáveis é representada por X1, o terceiro dado observado da mesma é representado porx13.

No caso de uma variável qualitativa ordinal ou quantitativa, quando os dados estão dispostos em ordem crescente, o índice é apresentado entre parênteses, colchetes ou chaves. Oscolchetes são usados quando os índices são expressões que contém parênteses em parte das mesmas e as chaves são usadas quando os índices são expressões que contêm parênteses e colchetes em parte das mesmas. Por exemplo, se os n dados de uma amostra de uma variável X estão dispostos em ordem crescente, os mesmos são representados por x(1), x(1), ..., x(1) e x(1) sendo x(1) o menor dado e x(n) o maior dado. Para ilustrar, se os dados da renda mensal das famílias acima estão em dispostos em ordem crescente tem-se que x(1)=2900, x(2)=4600, x(3)=7100, x(4)=8200 e x(5)=10600.

1.14.2.REPRESENTAÇÃO DE UMA POPULAÇÃO (OU DE UMA AMOSTRA) DE DADOS DE UMA VARIÁVEL

A população (ou uma amostra) de uma variável quantitativa é representada por um vetor. Denomina-se vetor, nesta representação, um conjunto de dados de uma variável representado pela letra minúscula da variável seguido de um sinal de igualdade e os dados entre parênteses separados por vírgulas). Assim, se x1, x2, ..., xN1 e xN são os dados da população referente a uma variável X, o vetor representativo desta população é x=( x1, x2, ..., xN1 e xN). Analogamente, se x1, x2, ..., xn1 e xn são os dados de uma amostra da população referente a uma variável quantitativa X, o vetor representativo desta amostra é x=( x1, x2, ..., xn1 e xn). Por exemplo, o vetor representativo da amostra de dados da renda mensal das famílias acima é x=(4600, 2900, 10600, 8200, 7100).

1.15.TABELAS E QUADROS

As tabelas são utilizadas para a apresentação de dados numéricos segundo um ou mais critérios de classificação. A construção e a apresentação das tabelas estão sujeitas a determinadas regras. Devem conter o mínimo possível de traços para separa as linhas e colunas. O estudo detalhado das tabelas estatísticas serão apresentado no capítulo 2. Não devem ser delimitadas à esquerda e à direita por traços verticais.

Os quadrossão disposições esquemáticas e descritivas sem o objetivo de análise estatística e podem conter ou não dado numéricos. A apresentação dos quadros é semelhante à das tabelas, exceto pela colocação dos traços verticais em suas laterais e na separação das casas. Além disto pode-se usar traços para separar as todas as linhas e colunas.

1.16. BANCO DE DADOS

Os computadores são frequentemente utilizados para desenvolver os trabalhos estatísticos. Para esta finalidade os dados são dispostos em linhas e colunas sendo que cada linha corresponde a um elemento e cada coluna corresponde a uma variável dos elementos da população em estudo ou de uma amostra da mesma, se for o caso. Esta disposição é denominada banco de dados dos elementos considerados. Para ilustrar, será apresentado esquematicamente a seguir o banco de dadosdas variáveis X, Y, Z e W dos nelementos de determinada amostra de certapopulação

12

12

Page 13: CAPÍTULO 1 · Web viewPor exemplo, a população de elementos e a população de dados de cada uma das variáveis definidas acima são finitas. No caso de uma população infinita,

n.º X Y Z W1 x1 y1 z1 w 1

2 x2 y2 z2 w 2

⋮ ⋮ ⋮ ⋮ ⋮n1 xn−1 yn−1 zn−1 wn−1N xn yn zn wn

1.17. AMOSTRAGEM

Quando se trabalha com amostras, a variabilidade dos dados de uma população deve estar presente nas amostras e, para que isto ocorra, cada um dos elementos da população tem uma probabilidade de figurar numa amostra.

A amostragem pode ser com reposição ou sem reposição. Na amostragem com reposição um elemento pode ocorrer mais de uma vez numa amostra. Neste caso, o número de amostras de nelementos de uma população de tamanho N é N n. Por exemplo, o número de amostras de tamanho 4 extraídas com reposição de uma população de tamanho 10 é 104=10000. .Na amostragem sem reposição um elemento da população ocorre somente uma vez na amostra. Neste

caso, o número de amostras de nelementos de uma população de tamanho N é ANn

, onde

ANn = N !

( N−n )!Para exemplificar, o número de amostras de tamanho 5 extraídas sem reposição de uma população

de tamanho 15 é A155 =15 !/ (15−5 )!=1307674368000/3628800=360360 .

Dependendo de como os elementos da população são escolhidos a amostragem pode ser probabilística ou não probabilística. Na amostragem probabilística pode-se calcular a probabilidade de se escolher um elemento da população enquanto que na amostragem não probabilística esta probabilidade não pode ser calculada.

1.17.1. TÉCNICAS DE AMOSTRAGEM PROBABILÍSTICA

Dependendo de como os elementos da população são escolhidos a amostragem pode ser probabilística ou não probabilística.

Serão apresentadas nesta seção as técnicas mais usuais de amostragem probabilística.

a) Amostragem aleatória simples

Esta técnica de amostragem é utilizada quando a população é finita e homogênea. Neste caso os elementos de uma população têm a mesma probabilidade de serem escolhidos. Admite-se que os Nelementos da população alvo de estudo estejam numerados de 1 a N e em seguida escolhe-se ao acaso nelementos da mesma. A escolha dos elementos que irão compor a amostra pode ser feita mediante o emprego de bolas numeradas, números aleatórios gerados por programas de computador (planilha excel por exemplo), tabela de dígitos aleatórios como a do apêndice 1 em anexo ou outros processos de sorteio como, por exemplo, fichas numeradas.

Exemplo 1.5. Deseja-se extrair, sem reposição, uma amostra de tamanho 10 da população de dados da despesa semanal (em R$) destas famílias com transporte. Considere as famílias numeradas de 1 (um) a 200 da esquerda para a direita e de cima para baixo no banco de dados a seguir. 260,4 255,3 267,3 285,6 253,5 262,5 282,6 258,9 285,9 258,0

255,9 254,7 260,1 249,3 288,0 260,1 264,0 260,4 271,5 240,6271,2 261,3 223,2 270,0 212,7 235,2 270,0 230,7 253,8 258,6

13

13

Page 14: CAPÍTULO 1 · Web viewPor exemplo, a população de elementos e a população de dados de cada uma das variáveis definidas acima são finitas. No caso de uma população infinita,

266,7 247,5 240,9 254,4 256,8 258,6 252,9 230,1 266,4 199,8241,2 275,1 237,6 250,5 256,2 251,1 249,9 254,1 258,0 241,2229,8 269,7 248,7 267,0 257,7 251,7 241,2 270,3 249,6 257,7257,7 249,0 249,0 239,1 255,3 268,2 252,0 266,7 248,4 261,6253,2 290,1 262,8 260,7 283,5 249,6 270,6 247,2 294,6 257,4276,9 231,9 234,6 261,0 239,7 248,4 271,2 242,4 261,9 245,1247,8 258,6 270,9 262,2 244,5 282,6 231,3 257,7 270,9 233,1267,0 271,2 261,0 240,6 267,6 264,3 256,5 246,3 265,2 271,5270,6 255,6 260,4 225,6 263,4 276,0 246,3 258,6 258,3 242,7264,0 259,8 250,8 223,5 256,8 255,9 235,8 286,5 253,2 274,8251,4 208,2 227,7 248,4 257,7 254,4 240,6 252,3 250,5 278,1221,4 254,1 261,0 261,9 259,2 249,9 254,1 269,1 256,5 272,4217,5 257,1 250,8 278,4 261,0 280,2 270,0 234,0 244,5 258,6235,5 252,0 254,7 264,3 266,7 262,2 254,1 267,0 257,1 260,1274,8 258,9 260,1 252,3 259,2 261,6 272,7 261,6 256,5 247,2256,5 255,3 261,9 246,6 236,4 269,4 243,3 268,8 268,2 270,9272,1 258,3 247,2 261,6 244,5 251,4 249,9 259,5 250,8 240,9

Resolução

Para escolher os números das famílias cujos dados constituirão a amostra foi utilizada a tabela de dígitos aleatórios do apêndice 1. A procura foi iniciada a partir da linha 7 e coluna 4 escolhidas arbitrariamente de 3 em 3 dígitos porque N=200. Os grupos de 3 dígitos escolhidos foram: 023, 192, 168, 039, 095, 030, 081, 041, 027, 052. Assim os números das famílias escolhidas para a obtenção da amostra de dados da despesa semanal das famílias com transporte, já dispostos em ordem crescente, são:23, 27, 30, 39, 41, 52, 81, 95, 168 e 192. Aamostra é:

223,2 270,0 258,6 266,4 241,2 269,7 276,9 244,5 267,0 258,3

b) Amostragem sistemática

Esta técnica de amostragem é uma variação do anterior. Consiste em determinar inicialmente a razão N/n = r, denominado intervalo de amostragem. O número do primeiro elemento é escolhido entre 1 e r. O número do segundo elemento a ser escolhido é igual ao número do primeiro mais o intervalo de amostragem; o número do terceiro elemento a ser escolhido é igual ao número do segundo mais o intervalo de amostragem e assim por diante. Como estes números formam uma progressão aritmética, o número do i-ésimoelemento a ser escolhido (i=1,2,...,n) é igual ao número do primeiro mais o produto de i1 pelo intervalo de amostragem. Assim, o número do n-ésimo elemento a ser escolhido é igual ao número do primeiro mais o produto de n1 pelo intervalo de amostragem.

Exemplo 1.6. Extraia, sem reposição, uma amostra de tamanho 10 da população de dados da despesa semanalcom transporte das famílias da população do exemplo 1.10 usando a técnica de amostragem sistemática.

Resolução

O intervalo de amostragem é r=N/n=200/10=20. Escolhe-se ao acaso um número que deve ser no mínimo1(um) e no máximo 20. Usando-se a tabela de dígitos aleatórios e iniciando-se a procura de a partir da linha 5 e coluna 6 escolhidas arbitrariamente de 2 em 2 porque o número 20 tem 2 dígitos foi encontrado o grupo de dígitos 10. Assim o primeiro elemento escolhido é o de número 10. O segundo indivíduo escolhido é o de número 10 + 20 = 30, oterceiro indivíduo escolhido é o de número 10+220=50 e assim por diante. Adotando-se este procedimento, as 10 famílias escolhidas para a obtenção da amostra de dados da despesa com transporte serão os de número 10, 30, 50, 70, 90, 110, 130, 150, 170 e 190. Aamostra é:

258,0 258,6 241,2 261,6 245,1 271,5 274,8 272,4 260,1 270,9Em geral o tamanho N da população não é múltiplo do tamanho n da amostra e assim

sendo, neste caso a divisão não é exata. Quando isto ocorre arredonda-se o intervalo de amostragem

14

14

Page 15: CAPÍTULO 1 · Web viewPor exemplo, a população de elementos e a população de dados de cada uma das variáveis definidas acima são finitas. No caso de uma população infinita,

obtido para o inteiro mais próximo como no exemplo a seguir. Quando o arredondamento é para cima pode acontecer, eventualmente, que o número do último elemento a ser escolhido seja maior do que N. Se isto ocorrer determina-se o maior número aleatório a ser gerado de modo que o maior número seja igual ou inferior a N. O maior número aleatório a ser gerado é igual N(n1)r. Assim sendo, repete-se a escolha do primeiro número entre 1 e N até que o mesmo seja menor ou igual a N(n1)r.

Exemplo 1.7. Extraia, sem reposição, uma amostra de tamanho 12 da população de dados da despesa semanal com transporte das famílias da população do exemplo 1.6 usando a técnica de amostragem sistemática.

Resolução

O intervalo de amostragem é r=N/n=200/12=16,6717. Escolhe-se ao acaso um número aleatório no mínimo1(um) e no máximo 17. Tendo sido o valor de r arredondado para cima, o número do primeiro elemento a ser escolhido deve ser no máximo 200(121)17=13. Usando-se a tabela de dígitos aleatórios e iniciando-se a procura de a partir da linha 3 e coluna 4, escolhidas arbitrariamente, de 2 em 2 porque o número 17 tem 2 dígitos, foi encontrado o grupo de dígitos 17. Sendo este número maior do que 13 continua-se a procura até encontrar um número no menor ou igual a este valor. Continuando-se a procura foi encontrado o grupo 06 sendo o0 (zero) na trigésima primeira coluna e o 6 na trigésima segunda coluna. Assim o primeiro elemento escolhido é o de número 6. O segundo indivíduo escolhido é o de número 6 + 17 = 23, oterceiro indivíduo escolhido é o de número 6+217=40 e assim por diante. Adotando-se este procedimento, as 12 famílias escolhidas para a obtenção da amostra de dados da despesa semanal com transporte serão as de número 6, 23, 40, 57, 74, 91, 108, 125, 142, 159, 176 e 193. Aamostra é:

262,5 223,2 199,8 241,2 260,7 247,8 246,3 256,8 254,1 244,5 261,6 247,2A amostragem sistemática é muito útil quando se deseja estudar uma população que vai

se completando ao longo do tempo. A solução é considerar o número de elementos da população no momento de se extrair a amostra para calcular o intervalo de amostragem r.

c) Amostragem por conglomerados

Denomina-se conglomerados um subconjunto de elementos de uma população de modo que, para a variável em estudo, os dados tenham a mesma variação (caso a variável seja qualitativa) ou aproximadamente a mesma variação (caso a variável seja qualitativa). Para se obter uma amostra de dados de uma variável por esta técnica escolhe-se inicialmente um conglomerado. Se o tamanho do mesmo for igual ou superior ao tamanho desejado da amostra a mesma será constituída dos dados da variável neste conglomerado. Se isto não ocorre, escolhe-se um segundo conglomerado. Se a soma dos tamanhos dos dois conglomerados for igual ou superior ao tamanho desejado da amostra a mesma será constituída dos dados da variável nos dois conglomerados escolhidos e assim por diante.

Para estimar a proporção de pessoas insatisfeitas com a administraçãode certo município, pode-se considerar como conglomerados os bairros do mesmo, as ruas, os quarteirões ou os domicílios desde que sejam semelhantes.

A amostragem por conglomerados tem a seguinte característica: os elementos de um mesmo conglomerado são muito diferentes e os conglomerados são praticamente semelhantes.

Exemplo1.8. Um bairro de certo município foi dividido em 4 regiões semelhantes quanto à variação das áreas construídas dos domicílios nas mesmas em 4 regiões A, B, C e D. Osdados a seguir se referem à área construída (em m2) dos 60 domicílios da região A, 44domicílios da região B, 36 domicílios da região C e dos 72 domicílios da regiãoD.

região A83 68 80 88 61 83 63 75 89 58 78 89 88 81 89 82 82 61 60 6367 69 71 91 71 69 67 68 63 67 80 91 77 58 74 76 68 58 67 8488 74 59 73 65 71 75 66 70 84 78 70 68 75 70 64 60 60 64 75

15

15

Page 16: CAPÍTULO 1 · Web viewPor exemplo, a população de elementos e a população de dados de cada uma das variáveis definidas acima são finitas. No caso de uma população infinita,

região B62 65 85 83 73 74 83 88 82 68 88 69 75 71 63 74 63 73 74 7666 78 75 88 65 67 84 67 88 68 82 73 85 75 62 75 89 83 62 73

82 84 77 83

região C76 90 86 70 87 70 77 86 75 87 88 89 78 91 86 68 74 69 67 87

79 85 69 77 73 85 79 89 71 68 72 69 78 67 73 80

região D79 70 78 68 62 72 78 82 76 81 73 59 60 83 67 85 78 68 75 6479 81 70 76 86 61 78 84 84 59 68 73 84 79 78 59 76 81 60 6568 84 68 75 67 67 71 75 59 76 73 85 71 76 82 81 77 62 85 74

69 81 66 86 62 65 70 71 74 73 77 77

Extraia uma amostra de 58 dados da área construída dos domicílios deste bairro usando a técnica de amostragem por conglomerados. Considere como conglomerados as regiões consideradas admitindo-se as mesmas numeradas de 1(um) a 4 sendo 1(um) para a região A, 2para a região B, 3para a região C e 4 para a região D. Use a planilha excel para escolher a(s) região(ões) cujos domicílios serão utilizados na obtenção da amostra. Os domicílios estão numerados da esquerda para a direita e de cima para baixo de 1 a 60 na regiãoA, de 1 a 44 na região B, de 1 a 36 na regiãoC e de 1 a 72 na região D.

Resolução

Neste exemplo será escolhido ao acaso um número de 1 a 4 referente à regiãao que será o conglomerado inicial. Usando-se a tabela de dígitos aleatórios e iniciando-se a procura a partir da linha 1 e coluna 6, escolhidas arbitrariamente, dígito por dígito por que o número 4 tem somente um dígito, obteve-se se o número 1 (um). Assim a região A será o conglomerado inicial. Sendo 60 o número de domicílios desta região, o mesmo já é suficiente uma vez que a amostra desejada é de tamanho 58. Logo a amostra desejada será constituída dos dados da área construída dos domicílios desta região, ou seja:

83 68 80 88 61 83 63 75 89 58 78 89 88 81 89 82 82 61 60 6367 69 71 91 71 69 67 68 63 67 80 91 77 58 74 76 68 58 67 8488 74 59 73 65 71 75 66 70 84 78 70 68 75 70 64 60 60 64 75

d) Amostragem estratificada

Quando a população é heterogênea, ao se extrair a amostra deve-se dividi-la em k

subpopulações ou estratos homogêneos de tamanhos N1 , N2 , ..., Nk−1 , e N k . Por exemplo, os habitantes de um município podem ser divididos segundo o sexo, faixa etária, etc. A amostra é constituída de k subamostras, uma de cada estrato. Se os estratos tem tamanhos iguais ou aproximadamente iguais, as subamostras podem ter o mesmo tamanho e neste caso o tamanho de cada subamostra é

ni=nk parai = 1, 2, ..., k

Se os tamanhos dos estratos são muito diferentes os tamanhos das subamostras devem ser proporcionais aos tamanhos dos respectivos estratos e o tamanho de cada subamostra é

ni=N inN parai = 1, 2, ..., k

Neste caso, a constante de proporcionalidade é o quociente do tamanho da amostra para o tamanho da população, ou seja, n/N. Se o tamanho da amostra não é um submúltiplo do tamanho

16

16

Page 17: CAPÍTULO 1 · Web viewPor exemplo, a população de elementos e a população de dados de cada uma das variáveis definidas acima são finitas. No caso de uma população infinita,

da população o númeroni de dados do i-ésimo estrato na amostra não é inteiro e neste caso deve-se arredondá-lo para o inteiro mais próximo. Neste caso o tamanho da amostra póde ser ligeiramente diferente do inicial. O primeiro procedimento pode-se ser usado se os estratos tiverem tamanho iguais ou aproximadamente iguais. Recomenda-se o segundo procedimento porque dependendo do experimento pode ser difícil perceber se os estratos tem tamanhos aproximadamente iguais.

Diferentemente da amostragem por conglomerados, na amostragem estratificada a os elementos de um estrato são praticamente semelhantes enquanto que os estratos são muito diferentes entre si.

Exemplo 1.9. Dentre as 120 famílias de certa rua de um bairro 25 têm renda mensal abaixo de 10 salários mínimos, 61têm renda mensal de 10 a 20 salários mínimos e 34 têm renda mensal a cima de 20 salários mínimos. Os dados do nível de satisfação (nenhuma0, pouca1 ou muita2) dos (as) chefes destas famílias com uma medida governamental são apresentados a seguir.

renda mensal abaixo de 10salários mínimos1 0 0 1 1 2 2 2 1 0 0 0 0 0 1 1 0 0 0 0 2

1 0 0 2

renda mensal de 10 a 20 salários mínimos0 2 2 1 1 1 1 2 1 2 1 1 1 1 2 2 2 2 2 1 01 0 2 2 2 1 2 0 1 2 1 2 1 2 1 1 1 1 2 2 1

1 2 1 1 2 2 0 1 2 0 1 0 0 2 1 1 1 2

renda mensal acima de 20 salários mínimos2 1 1 0 2 0 1 2 2 1 2 2 0 1 1 0 2 2 1 0 1

1 0 2 2 2 2 1 1 1 1 2 2 1Considerando as famílias numeradas da esquerda para a direita e de cima para baixo em

cada estrato, extraia, sem reposição, uma amostra de 30 dados do nível de satisfação destas famílias com a referida medida governamental usando a técnica de amostragem estratificada.

Resolução

Neste caso tem-se que N1=25,N2=61 e N3=34. Os estratos nos quais a população de N=120 famílias da rua está dividida são as faixas etárias consideradas. A amostra será constituída

de n1 famílias com renda de menos de 10 , n2 famílias com renda de 10 a 20 salários mínimos e n3

famílias com renda de mais de salários mínimos, sendo n1, n2 e n3 partes nas quais o número 15

(tamanho da amostra) será dividido proporcionais aos tamanhos N1=25 , N2=61e N3=34 dos respectivos estratos, sendo a constante de proporcionalidade o quociente de 30 (tamanho da amostra) por 120 (tamanho da população).

O número de famílias com renda de menos de 10 salários mínimos na amostra é:

n1=N1nN

=25 15120

=3 ,125=3

O número de famílias com renda de 10 a 20 salários mínimos na amostra é:

n2=N2nN

=61 15120

=7 , 625=8

O número de famílias com renda de mais de 20 salários mínimos na amostra é:

n3=N3nN

=34 15120

=4 ,25=4

Será utilizada a tabela de dígitos aleatórios para escolher as 3 famílias com renda de menos de 10 salários mínimos, as 8 famílias com renda de 10 a 20 salários mínimos e as 20 famílias com renda de mais de 20 salários mínimos iniciando-se a procura a partir da linha 4 e coluna 2 escolhidas aleatoriamente.

17

17

Page 18: CAPÍTULO 1 · Web viewPor exemplo, a população de elementos e a população de dados de cada uma das variáveis definidas acima são finitas. No caso de uma população infinita,

Para a subamostra de dadosdas famílias da primeira de renda serão escolhidos 3 grupos de dois dígitos entre 1 e 25. Os grupos de dígitos escolhidos foram 19, 06 e 11. Assim as 3 famílias escolhidas nesta faixa de renda são as de número 6, 11 e 19.

Para a subamostra de dadosdas famílias da segunda faixa de renda serão escolhidos 8 grupos de dois dígitos entre 26 e 86. Os grupos de dígitos escolhidos foram40, 41, 39, 67, 51, 35, 74 e 75.Assim as 8 famílias escolhidas nesta faixa de renda são os de número35, 39, 40, 41, 51, 67, 74 e 75.

Para a subamostra de dados das famílias da terceira faixa de renda serão escolhidos 4 grupos de dois dígitos entre 87 e 120. Os grupos de dígitos escolhidos foram 91, 81, 95 e 90. Assim as 4famílias escolhidos nesta faixa de renda são as de número 81, 90, 91 e 95.

A amostra é:2 0 0 2 1 2 2 2 1 2 0 0 0 2 2

1.17.2. TÉCNICAS DE AMOSTRAGEM NÃO PROBABILÍSTICA

Nesta técnica de amostragem os elementos são escolhidos de acordo com o julgamento pessoal do observador e não na probabilidade de escolher os elementos da população.

a) Amostragem incidental

Nesta técnica a amostra é formada por todas as pessoas que vão aparecendo até que se consiga o número mínimo desejado de elementos. Por exemplo, se um pesquisador deseja obter uma amostra de tamanho 800 com o objetivo de determinar a proporção de eleitores de um município que votariam num candidato a prefeiro escolhe os primeiros 800 eleitores que encontrar.

b) Amostragem intencional

Nesta técnica a amostra é escolhida intencionalmente com base em determinados critérios. Por exemplo, numa pesquisa sobre a proporção de famílias de uma região que moram em condomínios de luxo, escolhe-se somente as famílias de renda elevada para se obter a amostra.

c) Amostragem a esmo

Nesta técnica o pesquisador escolhe os elementos na população tentando ser aleatório sem usar nenhum processo de sorteio.

d) Amostragem por cotas

Neste caso divide-se a população em subpopulações com base em algum critério estabelecendo-se uma cota para cada subpopulação proporcional ao seu tamanho. Por exemplo, para se obter uma amostra do número de pessoas em cada domicílio de um município, pode-se estabelecer uma cota de domicílios para cada bairro proporcional ao número de domicílios do mesmo. Esta cota é a razão de proporcionalidade que, como na amostragem estratificada, é definida como o quociente do tamanho da amostra pelo o tamanho da população. As diferenças entre esta técnica de amostragem e a de amostragem estratificada são:a) As subpopulações não precisam ser homogêneas.b) A escolha dos indivíduos de um subpopulação não é aleatória.

18

18

Page 19: CAPÍTULO 1 · Web viewPor exemplo, a população de elementos e a população de dados de cada uma das variáveis definidas acima são finitas. No caso de uma população infinita,

1.17.3. AMOSTRAGEM EM MÚLTIPLOS ESTÁGIOS

Um procedimento de amostragem pode ser realizado em várias etapas e neste caso tem-se uma amostragem em múltiplos estágios. O objetivo é combinar os diversos tipos de amostragens utilizando as vantagens de cada tipo. Numa amostragem em dois estágios, por exemplo, pode-se no primeiro estágio utilizar a amostragem por conglomerados e no segundo estágio a amostragem aleatória estratificada.

1.18. EXERCÍCIOS

1) Classifique, isto é, diga se são quantitativas (discretas ou contínuas) ou qualitativas (nominais ou ordinais) as seguintes variáveisa) origem (Juiz de Fora, outra cidade) dos alunos da UFJF; b)tempo de permanência no emprego das pessoas de determinada região; c)nacionalidade dos alunos de uma universidade; d) número de desempregados numa cidade em determinado mês; e)tamanho dos domicílios de certo município (pequeno, médio, grande); f) gasto mensal com saúde das famílias de determinada região.

2) Indique o nível de mensuração das variáveis do exercício n.º 1.

3)Escreva em notação científica os números a seguir. a)937000000000000;b)0,0000076;c)0,000385; d)596800

4)Determine a ordem de grandeza dos números do exercício número 3

5) O banco de dados a se refere ao número de pessoas com nível superior em cada um dos 260domicílios de certa localidade.

1 2 5 2 0 1 1 0 3 2 3 2 1 1 2 2 0 2 1 2 1 2 1 0 1 12 0 1 1 1 2 0 1 2 1 2 2 1 0 1 1 2 3 2 3 1 0 3 3 0 02 1 2 3 3 0 2 3 2 3 2 3 1 2 2 1 1 2 1 1 1 1 0 0 1 11 1 1 1 0 3 1 3 3 1 1 2 1 1 1 2 2 2 2 0 2 1 2 2 1 22 0 3 1 0 1 2 2 2 1 2 1 0 1 1 0 5 1 2 0 1 2 1 0 0 21 3 0 1 1 2 3 4 1 2 1 2 2 1 3 1 2 2 1 2 1 1 4 2 1 12 2 1 2 2 1 2 2 3 1 2 2 2 4 2 1 1 3 3 1 1 1 1 2 1 42 1 3 1 3 0 1 2 3 3 1 2 3 1 1 2 3 0 2 2 0 2 1 1 2 11 2 4 1 3 2 2 2 1 1 0 1 2 2 1 1 4 2 3 2 2 1 3 0 2 14 4 0 1 1 0 3 1 2 0 2 2 3 4 1 2 0 2 1 1 3 2 2 1 1 2

Extraia, sem reposição, uma amostra de tamanho 16 do número de pessoas com nível superior por domicílio nesta localidade usando as técnicas de amostragem aleatória simples e amostragem sistemática. Utilize a tabela de números aleatórios iniciando a procura a partir da linha 9 e da coluna 8.

6)Os empregados de certa empresa estão divididos em quatro setores A, B, C e D. O banco de dados a seguir contém os dados do tempo (em minutos) gasto pelos mesmos no deslocamento de ida e volta entre as respectivas residências e a empresa.

19

19