TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE …CURSO DE ESPECIALIZAÇÃO EM ENSINO DE MATEMÁTICA INSTITUTO DE MATEMÁTICA E ESTATÍSTICA 20 DE AGOSTO DE 2013 TRATAMENTO DA INFORMAÇÃO/ANÁLISE

CURSO DE ESPECIALIZAÇÃO EM ENSINO DE MATEMÁTICA

INSTITUTO DE MATEMÁTICA E ESTATÍSTICA

20 DE AGOSTO DE 2013

TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS

AULA 03

Humberto José Bortolossi

http://www.professores.uff.br/hjbortol/

Universidade Federal Fluminense

FASES DO PROCESSO ESTATÍSTICO

CAPÍTULO 13: COLETANDO DADOS ESTATÍSTICOS

DUAS REFERÊNCIAS PRINCIPAIS

OBJETIVOS DO CAPÍTULO 13

Definir a terminologia básica do processo de coleta de dados.

Identificar se uma dada pesquisa pode estar enviesada.

Aprender os vários métodos de amostragem e discutir suas vantagens e

desvantagens.

Estimar o tamanho de uma população usando o método de captura-recaptura.

Identificar componentes de um estudo clínico bem construído.

Investigar se os livros didáticos abordam os tópicos de coleta de dados e os métodos

de amostragem.

Mas, antes, um aviso ...

O SIGNIFICADO DAS PALAVRAS

A linguagem científica pode ser diferente

da linguagem do cotidiano.

Uma mesma palavra pode ser usada em

diferentes épocas por diferentes pessoas

com os mais variados significados

(muitas vezes, incompatíveis entre si).

Uma mesma palavra pode ter, em um

mesmo texto, significados diferentes

dependendo do contexto.

O QUE É ESTATÍSTICA?

Dicionário Houaiss: s.f. (1815) ramo da matemática que trata da coleta, da análise,

da interpretação e da apresentação de massas de dados numéricos.

Dicionário Aurélio: s.f.

1. Parte da matemática em que se investigam os processos de obtenção, organização

e análise de dados sobre uma população ou sobre uma coleção de seres quaisquer, e

os métodos de tirar conclusões e fazer ilações ou predições com base nesses dados.

2. Qualquer parâmetro de uma amostra, como, p. ex., a sua média, o seu desvio-

padrão, a sua variância.

3. Conjunto de elementos numéricos respeitantes a um fato social.

4. Representação e explicação sistemática, por observações quantitativas de massa,

dos acontecimentos e das leis da vida social que deles se podem deduzir.

5. Método que objetiva o estudo dos fenômenos de massa, i. e., os que dependem de

uma multiplicidade de causas, e tem por fim representar, sob forma analítica ou

gráfica, as tendências características limites desses fenômenos.


ENCE/IBGE: O que modernamente se conhece como Ciências Estatísticas, ou

simplesmente Estatística, é um conjunto de técnicas e métodos de pesquisa e análise

de dados que entre outros tópicos envolve o planejamento do experimento a ser

realizado, a coleta qualificada dos dados, a inferência, o processamento, a análise e

a disseminação das informações.

ASA (The American Statistical Association): Estatística é a ciência da coleta,

análise e apresentação de dados. Estatísticos contribuem para a investigação

científica aplicando seu conhecimento na elaboração de pesquisas e experimentos;

a coleta, processamento, e a análise de dados; e a interpretação dos resultados.


Wikipedia (em português): Estatística é a ciência que utiliza-se das teorias

probabilísticas para explicar a frequência da ocorrência de eventos, tanto em estudos

observacionais quanto em experimento modelar a aleatoriedade e a incerteza de

forma a estimar ou possibilitar a previsão de fenômenos futuros, conforme o caso.

Wikipedia (em inglês): Estatística é o estudo da coleta, organização, análise,

interpretação e apresentação de dados. Trata-se de todos os aspectos deste (estudo),

incluindo o planejamento da coleta de dados em termos de projeto de pesquisas e

experimentos.


Nossa referência principal (Tannenbaum, 2009): Em seu nível mais básico,

a Estatística é a junção de duas habilidades fundamentais que aprendemos na escola

separadamente: manipular e comunicar números. Quando usamos números como

uma ferramenta para transmitir informações, estamos fazendo algo estatístico. Se

você preferir uma descrição mais formal, aqui está: Estatística é a ciência de se lidar

com dados.

E o que são dados? Dados são qualquer tipo de informação que pode ser codificada

numericamente.

Atrás de toda afirmação estatística, existe uma estória e, como qualquer estória, ela

tem um início, um meio e um fim. Tipicamente, o início de uma estória estatística

consiste no processo de coleta de dados.

(Compare com o ciclo PPDAC: investigação estatística:

problema, planejamento, dados, análise e conclusão.)

VAMOS ABRIR UM PARÊNTESIS

EXEMPLOS DE DAC E PPDAC

Em sua análise da coleção didática de livros de matemática, você encontrou

exemplos de atividades DAC (Dados, Análise e Conclusão) e PPDAC (Problema,

Planejamento, Dados, Análise e Conclusão)? Quais?

Na terceira lista de exercícios você é convidado a fazer uma análise dos vídeos

abaixo (que assistiremos agora) sob a perspectiva PPDAC. Os dois vídeos mostram

duas palestras curtas dadas por Hans Rosling ao programa TED.

Hans Rosling: As Boas Notícias da Década?

http://www.ted.com/talks/lang/pt-br/hans_rosling_the_good_news_of_the_decade.html

Hans Rosling: Religiões e Bebês

http://www.ted.com/talks/lang/pt-br/hans_rosling_religions_and_babies.html

TED: IDEIAS QUE VALEM A PENA SEREM DIFUNDIDAS

O grupo TED (acrônimo para Technology, Entertainment, Design) é uma

organização sem fins lucrativos a qual, entre outros atributos, promove e divulga

palestras (curtas, de no máximo 18 minutos) dadas por especialistas sobre os mais

variados temas:

“Acreditamos apaixonadamente no poder das ideias para mudar atitudes,

vidas e, por fim, o mundo. Desta forma, estamos construindo aqui um centro

que oferece gratuitamente conhecimento e inspiração dos pensadores mais

inspirados do mundo e, também, uma comunidade de almas curiosas para se

envolverem com as ideias uns dos outros.”

Todos os vídeos são gratuitos (licenciados pelo Creative Commons) e existem

legendas para vários idiomas, incluindo o Português.

FECHA PARÊNTESIS

SEÇÃO 13.1: A POPULAÇÃO

POPULAÇÃO

Toda afirmação estatística se refere, direta ou indiretamente, a algum grupo de

indivíduos ou objetos.

Na terminologia estatística, esta coleção de indivíduos ou objetos é denominada

população.

O primeiro passo para entender uma afirmação estatística é identificar qual é

a população a qual ela se refere.

No mundo real nem sempre é fácil identificar a população: detalhes da estória são

omitidos ou, alternativamente, duas (ou mais populações) podem estar envolvidas.

EXEMPLO 13.1: O RETORNO DA ÁGUIA AMERICANA

Duas populações: a população total de águias (incluindo filhotes, adolescentes, etc.)

nos 48 estados contíguos dos EUA e a população de casais reprodutores de águias.

A primeira é a população de interesse, a segunda é a população de conveniência (mais

fácil de se identificar, rastrear e contar). [From the brink: da beira do abismo.]

O VALOR-N

Dada uma população específica, uma questão relevante óbvia é “Quantos

indivíduos ou objetos existem nessa população?”. Este número é denominado

o valor-N (em inglês, N-value) da população (tradição: usar N para denotar

tamanhos de populações).

Importante: ao longo do tempo, uma população e seu valor-N podem mudar!

Vamos ver um exemplo!

EXEMPLO 13.2: O RETORNO DA ÁGUIA AMERICANA

Fonte: Serviço de Pesca e Vida Selvagem dos Estados Unidos.

Nenhuma contagem foi realizada em 1964-1973, 1975-1980, 1983 e 1985.

EXEMPLO 13.3: N ESTÁ NOS OLHOS DE QUEM VÊ

Não é possível determinar um valor-N sem antes identificar qual é a população!

Pedro tem um cofrinho cheio de moedas de 25

centavos. Ele quer saber se o cofrinho tem dinheiro

suficiente para comprar uma bola de futebol nova.

Seu pai lhe disse para contar quantas moedas o cofre

tem, pois ele emprestará a diferença. Após uma

contagem cuidadosa, Pedro totalizou 116 moedas.

O que é o valor-N aqui?

A resposta depende em como vamos definir a população. Estamos contando moedas

ou dinheiro?

Para o pai, o número total de moedas é que interessa. Logo, para o pai, N = 116

(moedas).

Para Pedro, o que interessa é quanto dinheiro o cofrinho tem. Logo, para Pedro, N = 29

(reais).

CENSO

O processo de coletar dados passando por cada membro da população é denominado

um censo (em inglês, census).

A ideia por de trás de um censo é simples, mas na prática um censo exige um alto

grau de “cooperação” da população.

Para populações maiores e mais dinâmicas (vida animal selvagem, humanos, etc.),

contagens precisas são inerentemente difíceis, se não impossíveis e, em todos esses

casos, o melhor que se pode esperar conseguir é uma boa estimativa para o valor-N.

EXEMPLO 13.4: O CENSO AMERICANO DE 2000

O Censo Americano de 2000 empregou cerca de 850.000 pessoas e custou certa de 6,5

bilhões de dólares.

Ainda assim, estima-se que ele deixou de contar entre 3 e 4 milhões de pessoas.

O artigo do New York Times aponta para as implicações políticas desse fato.

ESTUDO DE CASO 1: O CENSO AMERICANO

O Artigo 1 da Seção 2 da Constituição dos Estados Unidos (1787) manda que um

censo nacional seja conduzido a cada 10 anos.

O objetivo original do censo era “contar cabeças” com dois propósitos: impostos e

representação política.

No texto original, para fim de impostos, índios não deveriam ser taxados e um

escravo contaria como 3/5 de uma pessoa livre.


O texto original da Constituição foi modificado e expandido pela Décima Quarta

Emenda:

Além de contar cabeças, o U.S. Census Bureau agora coleta informações adicionais

sobre a população: sexo, idade, raça, etnia, estado civil, habitação, renda e dados

empregatícios.

Os dados do censo têm agora muitos propósitos importantes além daqueles originais

de taxação e representação: a alocação de bilhões de dólares do governo federal para

estados, condados, cidades e municipalidades, a reconfiguração de distritos

legislativos em cada estado e o planejamento da produção e serviços pelo comércio

e pela indústria.

Para os propósitos do censo, a população dos Estados Unidos é definida como

consistindo de “todas as pessoas fisicamente presentes e residindo permanentemente

nos Estados Unidos”. Cidadãos, estrangeiros legais residentes e mesmo estrangeiros

ilegais devem ser incluídos.


O primeiro censo americano ocorreu em 1790 e, nessa época, a população era

menor e relativamente homogênea, as pessoas tendiam a ficar em um único lugar e,

na grande maioria, elas se sentiam confortáveis em suas relações com o governo.

Sob essas condições, era fácil para os recenseadores contar cabeças.

As condições de hoje são completamente diferentes. As pessoas estão em constante

movimento. Muitos desconfiam do governo. Nos grandes centros urbanos, muitas

pessoas estão desabrigadas e não querem ser contadas. E, depois, há a apatia de

muitas pessoas que pensam em um formulário do censo como um outro pedaço de

lixo postal.

O moderno censo dos EUA é atormentado pelo que é conhecido como

subestimação diferencial (em inglês, differential undercount): minorias étnicas,

trabalhadores migrantes e as populações urbanas pobres têm significativamente

taxas maiores de subestimação se comparadas com as taxas de subestimação da

população como um todo, e as taxas de subestimação variam significativamente

dentro desses grupos.


Usando técnicas estatísticas modernas, é possível fazer ajustes nos números brutos

do censo que corrigem a imprecisão provocada pela subestimação diferencial.

Mas, em 1999, a Suprema Corte decidiu no Departamento de Comércio et al. versus

Câmera dos Deputados et al. que apenas os números brutos e não

os estatisticamente ajustados poderiam ser usados para fins de distribuição de

assentos no Congresso entre os estados.

SEÇÃO 13.2: AMOSTRAGEM

AMOSTRAGEM

A alternativa prática para um censo é coletar dados somente de alguns membros da

população e usar esses dados para obter conclusões e fazer inferências sobre

a população inteira.

Estatísticos denominam esse procedimento de survey (ou de poll quando a coleta de

dados é feita através de questões). No Brasil, surveys e polls são denominados

genericamente de pesquisas.

O subgrupo escolhido que irá fornecer os dados é denominado amostra (sample em

inglês) e o ato de se selecionar uma amostra é denominado amostragem (sampling

em inglês).

AMOSTRAGEM

Idealmente, cada membro da população deveria ter a oportunidade de ser escolhido

como parte da amostra, mas isso só é possível se tivermos um mecanismo para

identificar cada membro da população. Em muitas situações, isso é impossível.

Suponha que queiramos realizar uma pesquisa de opinião pública antes de uma

eleição. A população da pesquisa é composta por todos os eleitores que votarão na

próxima eleição, mas como podemos identificar quem vai e quem não vai votar

antes da realização da eleição? Sabemos quem são os eleitores, mas entre eles, há

ainda muitos não votantes.

AMOSTRAGEM

O primeiro passo importante em uma pesquisa é distinguir a população para a qual

a pesquisa se aplica (população-alvo) (target population em inglês) e o subconjunto

efetivo da população da qual a amostra será tomada, denominado de base de

amostragem (sampling frame em inglês).

O cenário ideal ocorre quando a base de amostragem é igual a população-alvo,

o que significa que todos os membros da população-alvo é um candidato para

a amostra. Quando isso é impossível (ou não é prático), uma base de amostragem

adequada deve ser escolhida.

Pesquisas eleitorais são famosas por serem usadas para prever o resultado de

eleições políticas. Entre as muitas questões que fazem as pesquisas pré-eleitorais

particularmente delicadas está o problema de identificar os membros da população-

alvo, a saber, as pessoas que acabarão votando. A abordagem convencional é usar

eleitores registrados como base de amostragem, mas o uso desses eleitores pode

levar a alguns dados ruins. Nosso próximo exemplo ilustra esse ponto.

EXEMPLO 13.5: BASES DE AMOSTRAGEM

PODEM FAZER A DIFERENÇA

Uma pesquisa eleitoral CNN/USA Today/Gallup realizada logo antes do dia 2 de

novembro de 2004, a data eleição nacional no Estados Unidos, fez a seguinte

pergunta: “Se a eleição para o Congresso fosse realizada hoje, em qual candidato

você votaria em seu distrito: no candidato do Partido Democrata ou no candidato

do Partido Republicano?”.

Quando a pergunta foi feita a 1866 dos eleitores registrados em todo o país,

os resultados da pesquisa foram: 49% para o candidato do Partido Democrata,

47% para o candidato do Partido Republicano, 4% de indecisos.

Quando exatamente a mesma pergunta foi feita a 1573 eleitores prováveis em todo

o país, os resultados da pesquisa foram 50% para o candidato do Partido

Republicano, 47% para o candidato do Partido Democrata, 3% de indecisos.

A única diferença significativa entre as duas pesquisas foi a escolha da base de

amostragem: na primeira, a base de amostragem utilizada foram todos eleitores

registrados e, na segunda, foram todos eleitores prováveis.

EXEMPLO 13.5: BASES DE AMOSTRAGEM

PODEM FAZER A DIFERENÇA

Embora nenhuma das bases de amostragem represente fielmente a população-alvo

dos eleitores reais, o uso dos eleitores prováveis em vez dos eleitores registrados

para a base de amostragem fornece, em geral, dados mais confiáveis.

(A segunda pesquisa chegou muito perto dos resultados médios das corridas de

2004 ao Congresso dos Estados Unidos.).

Então, por que nem todas as pesquisas pré-eleitorais usam eleitores prováveis

ao invés de eleitores registrados como base de amostragem?

A resposta é econômica. Eleitores registrados são relativamente mais fáceis de se

identificar: os cartórios eleitorais podem facilmente produzir uma lista precisa do

eleitores registrados. Contudo, nem todo eleitor registrado irá votar e é muito mais

difícil de se identificar aqueles que “provavelmente” irão votar. Normalmente, é

preciso considerar fatores demográficos (idade, etnia, etc.), bem como

o comportamento eleitoral passado para se descobrir quem está e quem não está

propenso a votar. Fazer isso demanda muito mais esforço, tempo e dinheiro.

AMOSTRAGEM

Filosofia básica da amostragem: uma amostra “representativa” permite que

informações que queiramos conhecer da população inteira possam ser obtidas

a partir do estudo dessa amostra. Para obter dados confiáveis, devemos (a) encontrar

uma amostra que é representativa e (b) determinar o tamanho da amostra.

Em algumas situações, amostras muito pequenas podem ser usadas para se obter

informações confiáveis de uma população, não importando o quão grande

a população seja. Este é o caso em que a população é altamente homogênea.

Por exemplo, o sangue de uma pessoa é essencialmente o mesmo em qualquer lugar

do corpo, o que explica porque uma pequena amostra do sangue obtida de um braço

fornece dados confiáveis sobre os níveis de açúcar e de colesterol do sangue do

paciente.

Quanto mais heterogênea a população, mais difícil fica encontrar uma amostra

representativa. As dificuldades podem ser bem ilustradas olhando-se a história das

pesquisas de opinião pública.

Documents

TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE …CURSO DE ESPECIALIZAÇÃO EM ENSINO DE MATEMÁTICA INSTITUTO DE MATEMÁTICA E ESTATÍSTICA 20 DE AGOSTO DE 2013 TRATAMENTO DA INFORMAÇÃO/ANÁLISE