Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
CURSO DE ESPECIALIZAÇÃO EM ENSINO DE MATEMÁTICA
INSTITUTO DE MATEMÁTICA E ESTATÍSTICA
20 DE AGOSTO DE 2013
TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS
AULA 03
Humberto José Bortolossi
http://www.professores.uff.br/hjbortol/
Universidade Federal Fluminense
FASES DO PROCESSO ESTATÍSTICO
CAPÍTULO 13: COLETANDO DADOS ESTATÍSTICOS
DUAS REFERÊNCIAS PRINCIPAIS
OBJETIVOS DO CAPÍTULO 13
Definir a terminologia básica do processo de coleta de dados.
Identificar se uma dada pesquisa pode estar enviesada.
Aprender os vários métodos de amostragem e discutir suas vantagens e
desvantagens.
Estimar o tamanho de uma população usando o método de captura-recaptura.
Identificar componentes de um estudo clínico bem construído.
Investigar se os livros didáticos abordam os tópicos de coleta de dados e os métodos
de amostragem.
Mas, antes, um aviso ...
O SIGNIFICADO DAS PALAVRAS
A linguagem científica pode ser diferente
da linguagem do cotidiano.
Uma mesma palavra pode ser usada em
diferentes épocas por diferentes pessoas
com os mais variados significados
(muitas vezes, incompatíveis entre si).
Uma mesma palavra pode ter, em um
mesmo texto, significados diferentes
dependendo do contexto.
O QUE É ESTATÍSTICA?
Dicionário Houaiss: s.f. (1815) ramo da matemática que trata da coleta, da análise,
da interpretação e da apresentação de massas de dados numéricos.
Dicionário Aurélio: s.f.
1. Parte da matemática em que se investigam os processos de obtenção, organização
e análise de dados sobre uma população ou sobre uma coleção de seres quaisquer, e
os métodos de tirar conclusões e fazer ilações ou predições com base nesses dados.
2. Qualquer parâmetro de uma amostra, como, p. ex., a sua média, o seu desvio-
padrão, a sua variância.
3. Conjunto de elementos numéricos respeitantes a um fato social.
4. Representação e explicação sistemática, por observações quantitativas de massa,
dos acontecimentos e das leis da vida social que deles se podem deduzir.
5. Método que objetiva o estudo dos fenômenos de massa, i. e., os que dependem de
uma multiplicidade de causas, e tem por fim representar, sob forma analítica ou
gráfica, as tendências características limites desses fenômenos.
O QUE É ESTATÍSTICA?
ENCE/IBGE: O que modernamente se conhece como Ciências Estatísticas, ou
simplesmente Estatística, é um conjunto de técnicas e métodos de pesquisa e análise
de dados que entre outros tópicos envolve o planejamento do experimento a ser
realizado, a coleta qualificada dos dados, a inferência, o processamento, a análise e
a disseminação das informações.
ASA (The American Statistical Association): Estatística é a ciência da coleta,
análise e apresentação de dados. Estatísticos contribuem para a investigação
científica aplicando seu conhecimento na elaboração de pesquisas e experimentos;
a coleta, processamento, e a análise de dados; e a interpretação dos resultados.
O QUE É ESTATÍSTICA?
Wikipedia (em português): Estatística é a ciência que utiliza-se das teorias
probabilísticas para explicar a frequência da ocorrência de eventos, tanto em estudos
observacionais quanto em experimento modelar a aleatoriedade e a incerteza de
forma a estimar ou possibilitar a previsão de fenômenos futuros, conforme o caso.
Wikipedia (em inglês): Estatística é o estudo da coleta, organização, análise,
interpretação e apresentação de dados. Trata-se de todos os aspectos deste (estudo),
incluindo o planejamento da coleta de dados em termos de projeto de pesquisas e
experimentos.
O QUE É ESTATÍSTICA?
Nossa referência principal (Tannenbaum, 2009): Em seu nível mais básico,
a Estatística é a junção de duas habilidades fundamentais que aprendemos na escola
separadamente: manipular e comunicar números. Quando usamos números como
uma ferramenta para transmitir informações, estamos fazendo algo estatístico. Se
você preferir uma descrição mais formal, aqui está: Estatística é a ciência de se lidar
com dados.
E o que são dados? Dados são qualquer tipo de informação que pode ser codificada
numericamente.
Atrás de toda afirmação estatística, existe uma estória e, como qualquer estória, ela
tem um início, um meio e um fim. Tipicamente, o início de uma estória estatística
consiste no processo de coleta de dados.
(Compare com o ciclo PPDAC: investigação estatística:
problema, planejamento, dados, análise e conclusão.)
VAMOS ABRIR UM PARÊNTESIS
EXEMPLOS DE DAC E PPDAC
Em sua análise da coleção didática de livros de matemática, você encontrou
exemplos de atividades DAC (Dados, Análise e Conclusão) e PPDAC (Problema,
Planejamento, Dados, Análise e Conclusão)? Quais?
Na terceira lista de exercícios você é convidado a fazer uma análise dos vídeos
abaixo (que assistiremos agora) sob a perspectiva PPDAC. Os dois vídeos mostram
duas palestras curtas dadas por Hans Rosling ao programa TED.
Hans Rosling: As Boas Notícias da Década?
http://www.ted.com/talks/lang/pt-br/hans_rosling_the_good_news_of_the_decade.html
Hans Rosling: Religiões e Bebês
http://www.ted.com/talks/lang/pt-br/hans_rosling_religions_and_babies.html
TED: IDEIAS QUE VALEM A PENA SEREM DIFUNDIDAS
O grupo TED (acrônimo para Technology, Entertainment, Design) é uma
organização sem fins lucrativos a qual, entre outros atributos, promove e divulga
palestras (curtas, de no máximo 18 minutos) dadas por especialistas sobre os mais
variados temas:
“Acreditamos apaixonadamente no poder das ideias para mudar atitudes,
vidas e, por fim, o mundo. Desta forma, estamos construindo aqui um centro
que oferece gratuitamente conhecimento e inspiração dos pensadores mais
inspirados do mundo e, também, uma comunidade de almas curiosas para se
envolverem com as ideias uns dos outros.”
Todos os vídeos são gratuitos (licenciados pelo Creative Commons) e existem
legendas para vários idiomas, incluindo o Português.
FECHA PARÊNTESIS
SEÇÃO 13.1: A POPULAÇÃO
POPULAÇÃO
Toda afirmação estatística se refere, direta ou indiretamente, a algum grupo de
indivíduos ou objetos.
Na terminologia estatística, esta coleção de indivíduos ou objetos é denominada
população.
O primeiro passo para entender uma afirmação estatística é identificar qual é
a população a qual ela se refere.
No mundo real nem sempre é fácil identificar a população: detalhes da estória são
omitidos ou, alternativamente, duas (ou mais populações) podem estar envolvidas.
EXEMPLO 13.1: O RETORNO DA ÁGUIA AMERICANA
Duas populações: a população total de águias (incluindo filhotes, adolescentes, etc.)
nos 48 estados contíguos dos EUA e a população de casais reprodutores de águias.
A primeira é a população de interesse, a segunda é a população de conveniência (mais
fácil de se identificar, rastrear e contar). [From the brink: da beira do abismo.]
O VALOR-N
Dada uma população específica, uma questão relevante óbvia é “Quantos
indivíduos ou objetos existem nessa população?”. Este número é denominado
o valor-N (em inglês, N-value) da população (tradição: usar N para denotar
tamanhos de populações).
Importante: ao longo do tempo, uma população e seu valor-N podem mudar!
Vamos ver um exemplo!
EXEMPLO 13.2: O RETORNO DA ÁGUIA AMERICANA
Fonte: Serviço de Pesca e Vida Selvagem dos Estados Unidos.
Nenhuma contagem foi realizada em 1964-1973, 1975-1980, 1983 e 1985.
EXEMPLO 13.3: N ESTÁ NOS OLHOS DE QUEM VÊ
Não é possível determinar um valor-N sem antes identificar qual é a população!
Pedro tem um cofrinho cheio de moedas de 25
centavos. Ele quer saber se o cofrinho tem dinheiro
suficiente para comprar uma bola de futebol nova.
Seu pai lhe disse para contar quantas moedas o cofre
tem, pois ele emprestará a diferença. Após uma
contagem cuidadosa, Pedro totalizou 116 moedas.
O que é o valor-N aqui?
A resposta depende em como vamos definir a população. Estamos contando moedas
ou dinheiro?
Para o pai, o número total de moedas é que interessa. Logo, para o pai, N = 116
(moedas).
Para Pedro, o que interessa é quanto dinheiro o cofrinho tem. Logo, para Pedro, N = 29
(reais).
CENSO
O processo de coletar dados passando por cada membro da população é denominado
um censo (em inglês, census).
A ideia por de trás de um censo é simples, mas na prática um censo exige um alto
grau de “cooperação” da população.
Para populações maiores e mais dinâmicas (vida animal selvagem, humanos, etc.),
contagens precisas são inerentemente difíceis, se não impossíveis e, em todos esses
casos, o melhor que se pode esperar conseguir é uma boa estimativa para o valor-N.
EXEMPLO 13.4: O CENSO AMERICANO DE 2000
O Censo Americano de 2000 empregou cerca de 850.000 pessoas e custou certa de 6,5
bilhões de dólares.
Ainda assim, estima-se que ele deixou de contar entre 3 e 4 milhões de pessoas.
O artigo do New York Times aponta para as implicações políticas desse fato.
ESTUDO DE CASO 1: O CENSO AMERICANO
O Artigo 1 da Seção 2 da Constituição dos Estados Unidos (1787) manda que um
censo nacional seja conduzido a cada 10 anos.
O objetivo original do censo era “contar cabeças” com dois propósitos: impostos e
representação política.
No texto original, para fim de impostos, índios não deveriam ser taxados e um
escravo contaria como 3/5 de uma pessoa livre.
ESTUDO DE CASO 1: O CENSO AMERICANO
O texto original da Constituição foi modificado e expandido pela Décima Quarta
Emenda:
Além de contar cabeças, o U.S. Census Bureau agora coleta informações adicionais
sobre a população: sexo, idade, raça, etnia, estado civil, habitação, renda e dados
empregatícios.
Os dados do censo têm agora muitos propósitos importantes além daqueles originais
de taxação e representação: a alocação de bilhões de dólares do governo federal para
estados, condados, cidades e municipalidades, a reconfiguração de distritos
legislativos em cada estado e o planejamento da produção e serviços pelo comércio
e pela indústria.
Para os propósitos do censo, a população dos Estados Unidos é definida como
consistindo de “todas as pessoas fisicamente presentes e residindo permanentemente
nos Estados Unidos”. Cidadãos, estrangeiros legais residentes e mesmo estrangeiros
ilegais devem ser incluídos.
ESTUDO DE CASO 1: O CENSO AMERICANO
O primeiro censo americano ocorreu em 1790 e, nessa época, a população era
menor e relativamente homogênea, as pessoas tendiam a ficar em um único lugar e,
na grande maioria, elas se sentiam confortáveis em suas relações com o governo.
Sob essas condições, era fácil para os recenseadores contar cabeças.
As condições de hoje são completamente diferentes. As pessoas estão em constante
movimento. Muitos desconfiam do governo. Nos grandes centros urbanos, muitas
pessoas estão desabrigadas e não querem ser contadas. E, depois, há a apatia de
muitas pessoas que pensam em um formulário do censo como um outro pedaço de
lixo postal.
O moderno censo dos EUA é atormentado pelo que é conhecido como
subestimação diferencial (em inglês, differential undercount): minorias étnicas,
trabalhadores migrantes e as populações urbanas pobres têm significativamente
taxas maiores de subestimação se comparadas com as taxas de subestimação da
população como um todo, e as taxas de subestimação variam significativamente
dentro desses grupos.
ESTUDO DE CASO 1: O CENSO AMERICANO
Usando técnicas estatísticas modernas, é possível fazer ajustes nos números brutos
do censo que corrigem a imprecisão provocada pela subestimação diferencial.
Mas, em 1999, a Suprema Corte decidiu no Departamento de Comércio et al. versus
Câmera dos Deputados et al. que apenas os números brutos e não
os estatisticamente ajustados poderiam ser usados para fins de distribuição de
assentos no Congresso entre os estados.
SEÇÃO 13.2: AMOSTRAGEM
AMOSTRAGEM
A alternativa prática para um censo é coletar dados somente de alguns membros da
população e usar esses dados para obter conclusões e fazer inferências sobre
a população inteira.
Estatísticos denominam esse procedimento de survey (ou de poll quando a coleta de
dados é feita através de questões). No Brasil, surveys e polls são denominados
genericamente de pesquisas.
O subgrupo escolhido que irá fornecer os dados é denominado amostra (sample em
inglês) e o ato de se selecionar uma amostra é denominado amostragem (sampling
em inglês).
AMOSTRAGEM
Idealmente, cada membro da população deveria ter a oportunidade de ser escolhido
como parte da amostra, mas isso só é possível se tivermos um mecanismo para
identificar cada membro da população. Em muitas situações, isso é impossível.
Suponha que queiramos realizar uma pesquisa de opinião pública antes de uma
eleição. A população da pesquisa é composta por todos os eleitores que votarão na
próxima eleição, mas como podemos identificar quem vai e quem não vai votar
antes da realização da eleição? Sabemos quem são os eleitores, mas entre eles, há
ainda muitos não votantes.
AMOSTRAGEM
O primeiro passo importante em uma pesquisa é distinguir a população para a qual
a pesquisa se aplica (população-alvo) (target population em inglês) e o subconjunto
efetivo da população da qual a amostra será tomada, denominado de base de
amostragem (sampling frame em inglês).
O cenário ideal ocorre quando a base de amostragem é igual a população-alvo,
o que significa que todos os membros da população-alvo é um candidato para
a amostra. Quando isso é impossível (ou não é prático), uma base de amostragem
adequada deve ser escolhida.
Pesquisas eleitorais são famosas por serem usadas para prever o resultado de
eleições políticas. Entre as muitas questões que fazem as pesquisas pré-eleitorais
particularmente delicadas está o problema de identificar os membros da população-
alvo, a saber, as pessoas que acabarão votando. A abordagem convencional é usar
eleitores registrados como base de amostragem, mas o uso desses eleitores pode
levar a alguns dados ruins. Nosso próximo exemplo ilustra esse ponto.
EXEMPLO 13.5: BASES DE AMOSTRAGEM
PODEM FAZER A DIFERENÇA
Uma pesquisa eleitoral CNN/USA Today/Gallup realizada logo antes do dia 2 de
novembro de 2004, a data eleição nacional no Estados Unidos, fez a seguinte
pergunta: “Se a eleição para o Congresso fosse realizada hoje, em qual candidato
você votaria em seu distrito: no candidato do Partido Democrata ou no candidato
do Partido Republicano?”.
Quando a pergunta foi feita a 1866 dos eleitores registrados em todo o país,
os resultados da pesquisa foram: 49% para o candidato do Partido Democrata,
47% para o candidato do Partido Republicano, 4% de indecisos.
Quando exatamente a mesma pergunta foi feita a 1573 eleitores prováveis em todo
o país, os resultados da pesquisa foram 50% para o candidato do Partido
Republicano, 47% para o candidato do Partido Democrata, 3% de indecisos.
A única diferença significativa entre as duas pesquisas foi a escolha da base de
amostragem: na primeira, a base de amostragem utilizada foram todos eleitores
registrados e, na segunda, foram todos eleitores prováveis.
EXEMPLO 13.5: BASES DE AMOSTRAGEM
PODEM FAZER A DIFERENÇA
Embora nenhuma das bases de amostragem represente fielmente a população-alvo
dos eleitores reais, o uso dos eleitores prováveis em vez dos eleitores registrados
para a base de amostragem fornece, em geral, dados mais confiáveis.
(A segunda pesquisa chegou muito perto dos resultados médios das corridas de
2004 ao Congresso dos Estados Unidos.).
Então, por que nem todas as pesquisas pré-eleitorais usam eleitores prováveis
ao invés de eleitores registrados como base de amostragem?
A resposta é econômica. Eleitores registrados são relativamente mais fáceis de se
identificar: os cartórios eleitorais podem facilmente produzir uma lista precisa do
eleitores registrados. Contudo, nem todo eleitor registrado irá votar e é muito mais
difícil de se identificar aqueles que “provavelmente” irão votar. Normalmente, é
preciso considerar fatores demográficos (idade, etnia, etc.), bem como
o comportamento eleitoral passado para se descobrir quem está e quem não está
propenso a votar. Fazer isso demanda muito mais esforço, tempo e dinheiro.
AMOSTRAGEM
Filosofia básica da amostragem: uma amostra “representativa” permite que
informações que queiramos conhecer da população inteira possam ser obtidas
a partir do estudo dessa amostra. Para obter dados confiáveis, devemos (a) encontrar
uma amostra que é representativa e (b) determinar o tamanho da amostra.
Em algumas situações, amostras muito pequenas podem ser usadas para se obter
informações confiáveis de uma população, não importando o quão grande
a população seja. Este é o caso em que a população é altamente homogênea.
Por exemplo, o sangue de uma pessoa é essencialmente o mesmo em qualquer lugar
do corpo, o que explica porque uma pequena amostra do sangue obtida de um braço
fornece dados confiáveis sobre os níveis de açúcar e de colesterol do sangue do
paciente.
Quanto mais heterogênea a população, mais difícil fica encontrar uma amostra
representativa. As dificuldades podem ser bem ilustradas olhando-se a história das
pesquisas de opinião pública.