33
CURSO DE ESPECIALIZAÇÃO EM ENSINO DE MATEMÁTICA INSTITUTO DE MATEMÁTICA E ESTATÍSTICA 18 DE AGOSTO DE 2015 TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 03 Humberto José Bortolossi http://www.professores.uff.br/hjbortol/ Universidade Federal Fluminense

TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 03 · curso de especializaÇÃo em ensino de matemÁtica. instituto de matemÁtica e estatÍstica. 18 de agosto de 2015. tratamento

Embed Size (px)

Citation preview

CURSO DE ESPECIALIZAÇÃO EM ENSINO DE MATEMÁTICAINSTITUTO DE MATEMÁTICA E ESTATÍSTICA

18 DE AGOSTO DE 2015

TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS

AULA 03

Humberto José Bortolossihttp://www.professores.uff.br/hjbortol/

Universidade Federal Fluminense

VAMOS ABRIR UM PARÊNTESIS

EXEMPLOS DE DAC E PPDAC

Em sua análise da coleção didática de livros de matemática, você encontrouexemplos de atividades DAC (Dados, Análise e Conclusão) e PPDAC (Problema,Planejamento, Dados, Análise e Conclusão)? Quais?

Na terceira lista de exercícios você é convidado a fazer uma análise dos vídeosabaixo (que assistiremos agora) sob a perspectiva PPDAC. Os dois vídeos mostramduas palestras curtas dadas por Hans Rosling ao programa TED.

Hans Rosling: As Boas Notícias da Década?http://www.ted.com/talks/lang/pt-br/hans_rosling_the_good_news_of_the_decade.html

HansRosling_2010X-480p.mp4

Hans Rosling: Religiões e Bebêshttp://www.ted.com/talks/lang/pt-br/hans_rosling_religions_and_babies.html

HansRosling_2012S-480p.mp4

FECHA PARÊNTESIS

DUAS REFERÊNCIAS PRINCIPAIS

FASES DO PROCESSO ESTATÍSTICO(TANNENBAUM)

FASES DO PROCESSO ESTATÍSTICO(WILD & PFANNKUCH)

CAPÍTULO 13: COLETANDO DADOS ESTATÍSTICOS

OBJETIVOS DO CAPÍTULO 13

Definir a terminologia básica do processo de coleta de dados.

Identificar se uma dada pesquisa pode estar enviesada.

Aprender os vários métodos de amostragem e discutir suas vantagens edesvantagens.

Estimar o tamanho de uma população usando o método de captura-recaptura.

Identificar componentes de um estudo clínico bem construído.

Investigar se os livros didáticos abordam os tópicos de coleta de dados e os métodosde amostragem.

Mas, antes, um aviso ...

O SIGNIFICADO DAS PALAVRAS

A linguagem científica pode ser diferenteda linguagem do cotidiano.

Uma mesma palavra pode ser usada emdiferentes épocas por diferentes pessoascom os mais variados significados(muitas vezes, incompatíveis entre si).

Uma mesma palavra pode ter, em ummesmo texto, significados diferentesdependendo do contexto.

O QUE É ESTATÍSTICA?

Dicionário Houaiss: s.f. (1815) ramo da matemática que trata da coleta, da análise,da interpretação e da apresentação de massas de dados numéricos.

Dicionário Aurélio: s.f.1. Parte da matemática em que se investigam os processos de obtenção, organizaçãoe análise de dados sobre uma população ou sobre uma coleção de seres quaisquer, eos métodos de tirar conclusões e fazer ilações ou predições com base nesses dados.2. Qualquer parâmetro de uma amostra, como, p. ex., a sua média, o seu desvio-padrão, a sua variância.3. Conjunto de elementos numéricos respeitantes a um fato social.4. Representação e explicação sistemática, por observações quantitativas de massa,dos acontecimentos e das leis da vida social que deles se podem deduzir.5. Método que objetiva o estudo dos fenômenos de massa, i. e., os que dependem deuma multiplicidade de causas, e tem por fim representar, sob forma analítica ougráfica, as tendências características limites desses fenômenos.

O QUE É ESTATÍSTICA?

ENCE/IBGE: O que modernamente se conhece como Ciências Estatísticas, ousimplesmente Estatística, é um conjunto de técnicas e métodos de pesquisa e análisede dados que entre outros tópicos envolve o planejamento do experimento a serrealizado, a coleta qualificada dos dados, a inferência, o processamento, a análise ea disseminação das informações.

ASA (The American Statistical Association): Estatística é a ciência da coleta,análise e apresentação de dados. Estatísticos contribuem para a investigaçãocientífica aplicando seu conhecimento na elaboração de pesquisas e experimentos;a coleta, processamento, e a análise de dados; e a interpretação dos resultados.

ABE (Associação Brasileira de Estatística): Estatística é uma ciência baseada naTeoria da Probabilidade, cujo o objetivo principal é nos auxiliar a tomar decisões outirar conclusões em situações de incerteza, a partir dos dados.

O QUE É ESTATÍSTICA?

Wikipedia (em Português): Estatística é a ciência que utiliza-se das teoriasprobabilísticas para explicar a frequência da ocorrência de eventos, tanto em estudosobservacionais quanto em experimento modelar a aleatoriedade e a incerteza deforma a estimar ou possibilitar a previsão de fenômenos futuros, conforme o caso.

Wikipedia (em Inglês): Estatística é o estudo da coleta, organização, análise,interpretação e apresentação de dados. Trata-se de todos os aspectos deste (estudo),incluindo o planejamento da coleta de dados em termos de projeto de pesquisas eexperimentos.

O QUE É ESTATÍSTICA?

Nossa referência principal (Tannenbaum, 2009): Em seu nível mais básico,a Estatística é a junção de duas habilidades fundamentais que aprendemos na escolaseparadamente: manipular e comunicar números. Quando usamos números comouma ferramenta para transmitir informações, estamos fazendo algo estatístico. Sevocê preferir uma descrição mais formal, aqui está: Estatística é a ciência de se lidarcom dados.

E o que são dados? Dados são qualquer tipo de informação que pode ser codificadanumericamente.

Atrás de toda afirmação estatística, existe uma estória e, como qualquer estória, elatem um início, um meio e um fim. Tipicamente, o início de uma estória estatísticaconsiste no processo de coleta de dados.

(Compare com o ciclo PPDAC: investigação estatística: problema, planejamento, dados, análise e conclusão.)

SEÇÃO 13.1: A POPULAÇÃO

POPULAÇÃO

Toda afirmação estatística se refere, direta ou indiretamente, a algum grupo deindivíduos ou objetos.

Na terminologia estatística, esta coleção de indivíduos ou objetos é denominadapopulação.

O primeiro passo para entender uma afirmação estatística é identificar qual éa população a qual ela se refere.

No mundo real nem sempre é fácil identificar a população: detalhes da estória sãoomitidos ou, alternativamente, duas (ou mais populações) podem estar envolvidas.

EXEMPLO 13.1: O RETORNO DA ÁGUIA AMERICANA

Duas populações: a população total de águias (incluindo filhotes, adolescentes, etc.)nos 48 estados contíguos dos EUA e a população de casais reprodutores de águias.A primeira é a população de interesse, a segunda é a população de conveniência (maisfácil de se identificar, rastrear e contar). [From the brink: da beira do abismo.]

O VALOR-N

Dada uma população específica, uma questão relevante óbvia é “Quantosindivíduos ou objetos existem nessa população?”. Este número é denominadoo valor-N (em inglês, N-value) da população (tradição: usar N para denotartamanhos de populações).

Importante: ao longo do tempo, uma população e seu valor-N podem mudar!

Vamos ver um exemplo!

EXEMPLO 13.2: O RETORNO DA ÁGUIA AMERICANA

Fonte: Serviço de Pesca e Vida Selvagem dos Estados Unidos.Nenhuma contagem foi realizada em 1964-1973, 1975-1980, 1983 e 1985.

EXEMPLO 13.3: N ESTÁ NOS OLHOS DE QUEM VÊ

Não é possível determinar um valor-N sem antes identificar qual é a população!

Pedro tem um cofrinho cheio de moedas de 25centavos. Ele quer saber se o cofrinho tem dinheirosuficiente para comprar uma bola de futebol nova.Seu pai lhe disse para contar quantas moedas o cofretem, pois ele emprestará a diferença. Após umacontagem cuidadosa, Pedro totalizou 116 moedas.

O que é o valor-N aqui?A resposta depende em como vamos definir a população. Estamos contando moedasou dinheiro?Para o pai, o número total de moedas é que interessa. Logo, para o pai, N = 116(moedas).Para Pedro, o que interessa é quanto dinheiro o cofrinho tem. Logo, para Pedro, N = 29(reais).

CENSO

O processo de coletar dados passando por cada membro da população é denominadoum censo (em inglês, census).

A ideia por de trás de um censo é simples, mas na prática um censo exige um altograu de “cooperação” da população.

Para populações maiores e mais dinâmicas (vida animal selvagem, humanos, etc.),contagens precisas são inerentemente difíceis, se não impossíveis e, em todos essescasos, o melhor que se pode esperar conseguir é uma boa estimativa para o valor-N.

EXEMPLO 13.4: O CENSO AMERICANO DE 2000

O Censo Americano de 2000 empregou cerca de 850.000 pessoas e custou certa de 6,5bilhões de dólares.Ainda assim, estima-se que ele deixou de contar entre 3 e 4 milhões de pessoas.O artigo do New York Times aponta para as implicações políticas desse fato.

ESTUDO DE CASO 1: O CENSO AMERICANO

O Artigo 1 da Seção 2 da Constituição dos Estados Unidos (1787) manda que umcenso nacional seja conduzido a cada 10 anos.

O objetivo original do censo era “contar cabeças” com dois propósitos: impostos erepresentação política.

No texto original, para fim de impostos, índios não deveriam ser taxados e umescravo contaria como 3/5 de uma pessoa livre.

ESTUDO DE CASO 1: O CENSO AMERICANO

O texto original da Constituição foi modificado e expandido pela Décima QuartaEmenda:

Além de contar cabeças, o U.S. Census Bureau agora coleta informações adicionaissobre a população: sexo, idade, raça, etnia, estado civil, habitação, renda e dadosempregatícios.

Os dados do censo têm agora muitos propósitos importantes além daqueles originaisde taxação e representação: a alocação de bilhões de dólares do governo federal paraestados, condados, cidades e municipalidades, a reconfiguração de distritoslegislativos em cada estado e o planejamento da produção e serviços pelo comércioe pela indústria.

Para os propósitos do censo, a população dos Estados Unidos é definida comoconsistindo de “todas as pessoas fisicamente presentes e residindo permanentementenos Estados Unidos”. Cidadãos, estrangeiros legais residentes e mesmo estrangeirosilegais devem ser incluídos.

ESTUDO DE CASO 1: O CENSO AMERICANO

O primeiro censo americano ocorreu em 1790 e, nessa época, a população eramenor e relativamente homogênea, as pessoas tendiam a ficar em um único lugar e,na grande maioria, elas se sentiam confortáveis em suas relações com o governo.Sob essas condições, era fácil para os recenseadores contar cabeças.

As condições de hoje são completamente diferentes. As pessoas estão em constantemovimento. Muitos desconfiam do governo. Nos grandes centros urbanos, muitaspessoas estão desabrigadas e não querem ser contadas. E, depois, há a apatia demuitas pessoas que pensam em um formulário do censo como um outro pedaço delixo postal.

O moderno censo dos EUA é atormentado pelo que é conhecido comosubestimação diferencial (em inglês, differential undercount): minorias étnicas,trabalhadores migrantes e as populações urbanas pobres têm significativamentetaxas maiores de subestimação se comparadas com as taxas de subestimação dapopulação como um todo, e as taxas de subestimação variam significativamentedentro desses grupos.

ESTUDO DE CASO 1: O CENSO AMERICANO

Usando técnicas estatísticas modernas, é possível fazer ajustes nos números brutosdo censo que corrigem a imprecisão provocada pela subestimação diferencial.

Mas, em 1999, a Suprema Corte decidiu no Departamento de Comércio et al. versusCâmera dos Deputados et al. que apenas os números brutos e nãoos estatisticamente ajustados poderiam ser usados para fins de distribuição deassentos no Congresso entre os estados.

SEÇÃO 13.2: AMOSTRAGEM

AMOSTRAGEM

A alternativa prática para um censo é coletar dados somente de alguns membros dapopulação e usar esses dados para obter conclusões e fazer inferências sobrea população inteira.

Estatísticos denominam esse procedimento de survey (ou de poll quando a coleta dedados é feita através de questões). No Brasil, surveys e polls são denominadosgenericamente de pesquisas.

O subgrupo escolhido que irá fornecer os dados é denominado amostra (sample eminglês) e o ato de se selecionar uma amostra é denominado amostragem (samplingem inglês).

AMOSTRAGEM

Idealmente, cada membro da população deveria ter a oportunidade de ser escolhidocomo parte da amostra, mas isso só é possível se tivermos um mecanismo paraidentificar cada membro da população. Em muitas situações, isso é impossível.

Suponha que queiramos realizar uma pesquisa de opinião pública antes de umaeleição. A população da pesquisa é composta por todos os eleitores que votarão napróxima eleição, mas como podemos identificar quem vai e quem não vai votarantes da realização da eleição? Sabemos quem são os eleitores, mas entre eles, háainda muitos não votantes.

AMOSTRAGEM

O primeiro passo importante em uma pesquisa é distinguir a população para a quala pesquisa se aplica (população-alvo) (target population em inglês) e o subconjuntoefetivo da população da qual a amostra será tomada, denominado de base deamostragem (sampling frame em inglês).

O cenário ideal ocorre quando a base de amostragem é igual a população-alvo,o que significa que todos os membros da população-alvo é um candidato paraa amostra. Quando isso é impossível (ou não é prático), uma base de amostragemadequada deve ser escolhida.

Pesquisas eleitorais são famosas por serem usadas para prever o resultado deeleições políticas. Entre as muitas questões que fazem as pesquisas pré-eleitoraisparticularmente delicadas está o problema de identificar os membros da população-alvo, a saber, as pessoas que acabarão votando. A abordagem convencional é usareleitores registrados como base de amostragem, mas o uso desses eleitores podelevar a alguns dados ruins. Nosso próximo exemplo ilustra esse ponto.

EXEMPLO 13.5: BASES DE AMOSTRAGEM PODEM FAZER A DIFERENÇA

Uma pesquisa eleitoral CNN/USA Today/Gallup realizada logo antes do dia 2 denovembro de 2004, a data eleição nacional no Estados Unidos, fez a seguintepergunta: “Se a eleição para o Congresso fosse realizada hoje, em qual candidatovocê votaria em seu distrito: no candidato do Partido Democrata ou no candidatodo Partido Republicano?”.

Quando a pergunta foi feita a 1866 dos eleitores registrados em todo o país,os resultados da pesquisa foram: 49% para o candidato do Partido Democrata,47% para o candidato do Partido Republicano, 4% de indecisos.

Quando exatamente a mesma pergunta foi feita a 1573 eleitores prováveis (nosEUA, o voto não é obrigatório) em todo o país, os resultados da pesquisa foram50% para o candidato do Partido Republicano, 47% para o candidato do PartidoDemocrata, 3% de indecisos.

A única diferença significativa entre as duas pesquisas foi a escolha da base deamostragem: na primeira, a base de amostragem utilizada foram todos eleitoresregistrados e, na segunda, foram todos eleitores prováveis.

EXEMPLO 13.5: BASES DE AMOSTRAGEM PODEM FAZER A DIFERENÇA

Embora nenhuma das bases de amostragem represente fielmente a população-alvodos eleitores reais, o uso dos eleitores prováveis em vez dos eleitores registradospara a base de amostragem fornece, em geral, dados mais confiáveis.(A segunda pesquisa chegou muito perto dos resultados médios das corridas de2004 ao Congresso dos Estados Unidos.).

Então, por que nem todas as pesquisas pré-eleitorais usam eleitores prováveisao invés de eleitores registrados como base de amostragem?

A resposta é econômica. Eleitores registrados são relativamente mais fáceis de seidentificar: os cartórios eleitorais podem facilmente produzir uma lista precisa doeleitores registrados. Contudo, nem todo eleitor registrado irá votar e é muito maisdifícil de se identificar aqueles que “provavelmente” irão votar. Normalmente, épreciso considerar fatores demográficos (idade, etnia, etc.), bem comoo comportamento eleitoral passado para se descobrir quem está e quem não estápropenso a votar. Fazer isso demanda muito mais esforço, tempo e dinheiro.

AMOSTRAGEM

Filosofia básica da amostragem: uma amostra “representativa” permite queinformações que queiramos conhecer da população inteira possam ser obtidasa partir do estudo dessa amostra. Para obter dados confiáveis, devemos (a) encontraruma amostra que é representativa e (b) determinar o tamanho da amostra.

Em algumas situações, amostras muito pequenas podem ser usadas para se obterinformações confiáveis de uma população, não importando o quão grandea população seja. Este é o caso em que a população é altamente homogênea.

Por exemplo, o sangue de uma pessoa é essencialmente o mesmo em qualquer lugardo corpo, o que explica porque uma pequena amostra do sangue obtida de um braçofornece dados confiáveis sobre os níveis de açúcar e de colesterol do sangue dopaciente.

Quanto mais heterogênea a população, mais difícil fica encontrar uma amostrarepresentativa. As dificuldades podem ser bem ilustradas olhando-se a história daspesquisas de opinião pública.