41
CURSO DE ESPECIALIZAÇÃO EM ENSINO DE MATEMÁTICA INSTITUTO DE MATEMÁTICA E ESTATÍSTICA 8 DE NOVEMBRO DE 2016 TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 10 Humberto José Bortolossi http://www.professores.uff.br/hjbortol/ Universidade Federal Fluminense

TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 10professores.im-uff.mat.br/hjbortol/disciplinas/2016.2/esp00001/... · A medida de dispersão mais importante e mais comumente usada

Embed Size (px)

Citation preview

CURSO DE ESPECIALIZAÇÃO EM ENSINO DE MATEMÁTICAINSTITUTO DE MATEMÁTICA E ESTATÍSTICA

8 DE NOVEMBRO DE 2016

TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS

AULA 10

Humberto José Bortolossihttp://www.professores.uff.br/hjbortol/

Universidade Federal Fluminense

SEÇÃO 14.4: MEDIDAS DE DISPERSÃO

MEDIDAS DE DISPERSÃO

Existem várias maneiras diferentes de descrever a dispersão de um conjunto dedados. Nesta seção descreveremos as três maneiras mais usadas.

A AMPLITUDE

Uma abordagem óbvia para se descrever a dispersão de um conjunto de dados éconsiderar a diferença entre os valores máximo e mínimo no conjunto de dados.Esta diferença é denominada amplitude (range) e ela será denotada pela letra R (derange, amplitude em inglês). Assim, R = Max – Min.

A amplitude de um conjunto de dados é uma peça de informação útil quando nãoexistem outliers no conjunto de dados. Na presença de outliers, a amplitude nosconta uma história distorcida. Por exemplo, a amplitude dos resultados do exame deestatística (Exemplo 14.1) é igual a 24 – 1 = 23 pontos, indicando uma grandedispersão das pontuações (isto é, indicando a existência de um grupo muitoheterogêneo de estudantes). É verdade, mas se desconsiderarmos os dois outliers,os 73 resultados restantes têm uma amplitude muito menor: 16 – 6 = 10 pontos.

A AMPLITUDE INTERQUARTÍLICA

Para eliminar a possível distorção provocada por outliers, uma prática comum parase medir a dispersão de um conjunto de dados consiste em utilizar a amplitudeinterquartílica (nterquartile range), denotada pelo IQR. A amplitudeinterquartílica é a diferença entre o terceiro quartil e o primeiro quartil(IQR = Q3 – Q1). Ela nos diz o quão dispersos estão os 50% dados centrais. Paramuitos tipos de dados do mundo real, a amplitude interquartílica é uma medida dedispersão útil.

EXEMPLO 14.15: OS RESULTADOS EM MATEMÁTICA DO TESTE SAT EM 2007 – PARTE 3

O resumo dos cinco números para os resultados em matemática do teste SAT de2007 (ver Exemplo 14.15) é dado por Min = 200 (sim, alguns candidatos erraramtodas as perguntas!), Q1 = 430, M = 510, Q3 = 590 e Max = 800 (sim, algunscandidatos acertaram todas as questões!). Disto resulta que os resultados emmatemática do teste SAT de 2007 tiveram amplitude de 600 pontos (R = 800 – 200= 600) e amplitude interquartílica de 160 pontos (IQR = 590 – 430 = 160).

O DESVIO PADRÃO

A medida de dispersão mais importante e mais comumente usada para um conjuntode dados é o desvio padrão. O conceito chave para se compreender o desvio padrãoé o conceito de desvio em relação à média. Se A é a média do conjunto de dados e xé o valor de um dado, a diferença x – A é o desvio em relação à média (deviationfrom the mean) de x. Os desvios em relação à média nos dizem o quão longeos valores dos dados estão do valor médio dos dados. A ideia é usar essasinformações para descobrir o quão dispersos os dados estão.

Os desvios em relação à média também formam um conjunto de dados, o qualgostaríamos de resumir. Uma forma seria calcular a média dos desvios, mas, sefizermos isso, os desvios negativos e os desvios positivos se cancelarãomutuamente, de modo que vamos acabar com uma média sempre igual a zero:

1 1 1 1 1 1 1

( ) 10.

N N N N N N N

i i i i ii i i i i i i

x A x A x A x AN xA A A

N N N N N= = = = = = =

− − − −

= = = = − = − =∑ ∑ ∑ ∑ ∑ ∑ ∑

O DESVIO PADRÃO

O cancelamento de desvios positivos e negativos podem ser evitados elevando-se aoquadrado cada um dos desvios. Os desvios ao quadrado nunca são negativos, e secalcularmos a sua média, obteremos uma medida de dispersão importantedenominada de variância (variance), denotada por V. Finalmente, se tomarmosa raiz quadrada da variância, obteremos o desvio padrão, representado pela letragrega σ e, às vezes, pela sigla SD (standard deviation em inglês). De forma maisesquemática:• Seja A a média de um conjunto de dados. Para cada valor x no conjunto de dados,

calcule o seu desvio em relação à média (x – A) e eleve ao quadrado cada umdesses números. Os resultados são denominados desvios quadrados (squareddeviations).

• Calcule a média dos desvios quadrados. Este número é denominado a variânciaV do conjunto de dados.

• O desvio padrão é a raiz quadrada da variância (σ = V1/2).Observação: em algumas definições é conveniente definir a variância como a somados desvios quadrados dividida por N – 1 ao invés de N. Uma explicação será dadaposteriormente (estimados não enviesados em inferência estatística).

EXEMPLO 14.19: CÁLCULO DE UM DESVIO PADRÃO

Ao longo do semestre, Ângela fez todos os deveres decasa. Suas notas nos 10 trabalhos (ordenados do menorpara o maior) foram 85, 86, 87, 88, 89, 91, 92, 93, 94 e 95.Nosso objetivo neste exemplo é calcular o desvio padrãodo conjunto de dados da maneira antiga (ou seja, com lápise papel).

O primeiro passo é calcular a média do conjunto de dados.Não é difícil de se ver que A = 90. Temos sorte: este é umnúmero inteiro! O segundo passo é calcular os desvios emrelação à média e, em seguida, os desvios quadrados.Os pormenores são mostrados nas segunda e terceiracolunas da Tabela 14-11. Quanto a média dos desviosquadrados, obtemos (25 + 16 + 9 + 4 + 1 + 1 + 4 + 9 + 16+ 25)/10 = 11. Isto significa que a variância é V = 11 e,portanto, o desvio padrão (arredondados para uma casadecimal) é σ = 111/2 ≈ 3,3 pontos.

O DESVIO PADRÃO

Desvios padrões são medidos nas mesmas unidades que os dados originais. Assim,no Exemplo 14.19, o desvio padrão das notas dos deveres de casa de Ângela foi decerca de 3,3 pontos. O que devemos concluir com essa informação (3,3 pontos)?É claro, a partir de apenas um olhar casual nas pontuações de Ângela, que ela foimuito consistente em seus deveres de casa, nunca se afastando muito acima oumuito abaixo de sua média de 90 pontos. O desvio padrão é, na verdade, uma formade medir esse grau de consistência. Um pequeno desvio padrão nos diz que os dadossão consistentes e que a dispersão dos dados é pequena, como é o caso comas pontuações de Ângela.

A última palavra em consistência dentro de um conjunto de dados é quandoos valores de todos os dados são iguais (como é o caso da amiga de Ângela, Chloe,que tirou 20 em todos os deveres de casa). Quando isso acontece, o desvio padrão é0. Por outro lado, quando há uma grande inconsistência no conjunto de dados,teremos um grande desvio padrão. Isto é ilustrado por outra amiga de Ângela, Tiki,cuja pontuações foram 5, 15, 25, 35, 45, 55, 65, 75, 85 e 95. O desvio padrão desteconjunto de dados é comparativamente maior: quase 29 pontos.

O DESVIO PADRÃO

O desvio padrão é, sem dúvida, a medida de dispersão mais importante e maisfrequentemente usada. No entanto, o conceito não é particularmente intuitivo. Aquiestão algumas orientações básicas que recapitulam a nossa discussão anterior:

• O desvio padrão de um conjunto de dados é medido nas mesmas unidades queos dados originais. Por exemplo, se os dados estão em metros, então o desviopadrão também é dado em metros. Por outro lado, se o desvio padrão é dado emdólares, então podemos concluir que os dados originais devem ter sido dinheiro(preços de casas, salários ou algo assim). Por certo, os dados não poderiam tersido os resultados das medidas das alturas de pessoas.

• Não faz sentido comparar desvios padrões de conjuntos de dados que são dadosem unidades diferentes. Mesmo para os conjuntos de dados que são dados nasmesmas unidades (digamos, por exemplo, os resultados de testes), a escala usadadever ser a mesma. Não devemos tentar comparar desvios padrões paraas pontuações do teste SAT que tem uma escala de 200 a 800 pontos comdesvios padrões das pontuações de tarefas de casa medidas em uma escala de 0a 100 pontos.

O DESVIO PADRÃO

• Para conjuntos de dados que são dados em uma mesma escala, uma comparaçãodos desvios padrões pode nos dizer algo sobre a dispersão dos dados. Se o desviopadrão é pequeno, podemos concluir que os dados estão todos amontoados: hápouca dispersão. À medida que o desvio padrão aumenta, podemos concluir queos dados estão começando a se dispersar. Quanto mais dispersos eles estiverem,maior será o desvio padrão. Um desvio padrão igual a 0 significa que todosos valores dos dados são todos iguais.

CONCLUSÃO

Quer queiramos ou não, na era da informação, estamos nadando em um mar dedados. Hoje, os dados são a moeda comum do discurso científico, social eeconômico. Satélites poderosos varrem constantemente nosso planeta, coletandoquantidades prodigiosas de dados meteorológicos, geológicos e geográficos.Agências governamentais recolhem milhões de números a cada ano sobre o nossomodo de viver, trabalhar, gastar e morrer. Mesmo em nossas atividades menossérias, tais como esportes, somos inundados com dados.

Confrontado com o problema comum de “dilúvio de dados”, estatísticos e cientistascriaram muitas formas engenhosas para organizar, visualizar e resumir grandesquantidades de dados. Neste capítulo discutimos alguns conceitos básicos nesta áreada estatística.

CONCLUSÃO

Resumos gráficos de dados podem ser produzidos por diagramas de barras,pictogramas, diagramas de setores, histogramas e assim por diante. Existem muitosoutros tipos de descrições gráficas que não discutimos neste capítulo. O tipo deresumo gráfico que é o mais adequado para uma situação depende de muitos fatores,e criar uma "imagem" boa de um conjunto de dados é muito mais uma arte do queuma ciência.

Resumos numéricos de dados, quando usados apropriadamente, nos ajudama entender o padrão geral de um conjunto de dados sem que tenhamos que nosprender a detalhes. Eles se dividem em duas categorias: (1) medidas de posição,como a média, a mediana e os quartis e (2) medidas de dispersão, tais comoa amplitude, a amplitude interquartílica e o desvio padrão. Às vezes, até mesmocombinamos resumos numéricos com resumos gráficos, como é o caso do boxplot.Apenas tocamos em todos esses tópicos neste capítulo: o assunto é grande e, pelanecessidade, apenas arranhamos a superfície.

CONCLUSÃO

Nos dias de hoje, somos todos consumidores de dados e, em um momento ou emoutro, é provável que sejamos fornecedores de dados também. Assim, entenderos conceitos básicos de como os dados são organizados e resumidos tornou-se umrequisito essencial para o sucesso pessoal e boa cidadania.

ALGUMAS OBSERVAÇÕES

ALGORITMOS DE ORDENAÇÃO

O cálculo dos percentis (incluindo a mediana e os quartis) requer que o conjunto dedados esteja ordenado.

Como ordenar de maneira eficiente um conjunto de dados?

Esse problema é estudado em computação e vários algoritmos com desempenhos ecaracterísticas diferentes existem.

Na página WEB de nosso curso você encontrar links onde poderá aprender umpouco sobre o assunto.

DESVIO PADRÃO VERSUS DESVIO MÉDIO ABSOLUTO

Recomendação de leitura: Revisiting A 90-Year-Old Debate: The Advantages of TheMean Devation por Stephen Gorard (British Journal of Educational Studies, v. 53,n. 4, pp. 417-430, 2005), disponível na página WEB de nosso curso.

Também vale a pena dar uma conferida no verbete Mean Deviation da EnciclopédiaMathWorld:

http://mathworld.wolfram.com/MeanDeviation.html

21 1( )

N Ni ii i

x A x Aversus MD

N Nσ = =

− −= =∑ ∑

DESVIO MEDIANO ABSOLUTO

O desvio padrão e o desvio médio absoluto consideram desvios com relação à médiados dados.

O desvio mediano absoluto considera desvios com relação à mediana. Paracalcular o desvio mediano absoluto, calcule primeiro a mediana de todos os dados.Em seguida, calcule a distância entre cada dado e a mediana. Isto formará um novoconjunto de dados.. O desvio mediano absoluto é a mediana deste novo conjunto dedados.

O desvio mediano absoluto é mais resistente a outliers do que o desvio padrão. Nodesvio padrão, os desvios com relação à média são elevados ao quadrado de modoque grandes desvios são ponderados mais fortemente e, assim, outliers podem terforte influência no seu valor. No desvio mediano absoluto, os desvios de umpequeno número de outliers são irrelevantes.

DIAGRAMAS DE CAULE E FOLHAS(TEXTO E EXEMPLOS DE CARLOS TERNEIRO DA

UNIVERSIDADE DE COIMBRA)

DIAGRAMAS DE CAULE E FOLHAS

O propósito de se exibir dados graficamente é o de dar um panorama visual dascaracterísticas interessantes e importantes do conjunto de dados. Decidir qual éa melhor representação gráfica para um determinado conjunto de dados é umaquestão que pode não ser respondida antes que os dados sejam analisados e vistosde maneiras diferentes.

Um diagrama de caule e folhas é uma representação gráfica/numérica adequadapara conjuntos de dados de pequeno porte com apenas valores positivos e ela éparticularmente útil quando é importante se manter os dados numéricos originais.

DIAGRAMAS DE CAULE E FOLHAS

Passos para se construir um diagrama de caule e folhas:

1. Separar cada observação num caule, formado pelos algarismos dominantes donúmero, e numa folha, formada pelos restantes algarismos.

2. Colocar os caules numa coluna por ordem crescente de cima para baixo, edesenhar uma linha vertical à direita dessa coluna de números.

3. Colocar à direita de cada caule as respectivas folhas, por ordem crescente daesquerda para a direita.

EXEMPLO: DIAGRAMAS DE CAULE E FOLHAS

Consideremos o seguinte conjunto de dados relativo ao peso em gramas de 42 ratosdiabéticos: 40, 46, 45, 46, 43, 47, 52, 39, 45, 42, 42, 44, 40, 41, 51, 42, 41, 38, 45,48, 39, 49, 38, 38, 42, 48, 49, 40, 38, 46, 42, 38, 51, 48, 44, 48, 40, 44, 38, 41, 45,52. Seguindo os passos da construção:

EXEMPLO: DIAGRAMAS DE CAULE E FOLHAS

O diagrama anterior dá uma pobre ideia da distribuição da variável na parte centraldo mesmo. Neste caso é habitual separar cada caule em semicaules. No caso doexemplo anterior, isto corresponderia a considerar os semicaules 3, 3, 4, 4, 5 e 5, ea associar ao primeiro semicaule as folhas 0, 1, 2, 3 e 4, e ao segundo semicauleas folhas 5, 6, 7, 8 e 9. Eis o diagrama de caule e folhas resultante:

Por vezes justifica-se ainda dividir cada caule em 5 subcaules. Ao primeiro subcauleassociamos as folhas 0 e 1, ao segundo as folhas 2 e 3, ao terceiro as folhas 4 e 5, aoquarto as folhas 6 e 7, e, finalmente, ao quinto subcaule associavamos as folhas 8 e9.

EXEMPLO: TRUNCANDO DIAGRAMAS DE CAULE E FOLHAS

Para testar uma nova farinha para pintos, de um grupo de 40 pintos com um dia devida selecionaram-se 20 aos quais foi administrada a nova farinha (grupoexperimental), tendo aos restantes sido dada a ração habitual (grupo de controle).Passadas três semanas os pintos foram pesados tendo-se obtido os seguintes ganhosno peso (em gramas):

EXEMPLO: TRUNCANDO DIAGRAMAS DE CAULE E FOLHAS

Pretendendo-se representar a distribuição dos pesos dos pintos do grupo de controlepor um diagrama de caule e folhas, surgem duas possibilidades para separaras observações em caule e folhas. Tomando a observação 383 para exemplificar,podemos optar por considerar 3 o caule e 83 a folha, ou, em alternativa, considerar38 o caule e 3 a folha. A segunda opção é desapropriada uma vez que levaria a umdiagrama com demasiados caules e poucas folhas por caule. Tomando entãoa primeira opção, somos conduzidos ao diagrama seguinte em que cada caule temuma amplitude de 100:

EXEMPLO: TRUNCANDO DIAGRAMAS DE CAULE E FOLHAS

Para facilitar a leitura representamos cada folha por um só algarismo o que nestecaso corresponde a desprezarmos o algarismo das unidades. Obtemos entãoo diagrama de caule-e-folhas simplificado:

Reparemos que, contrariamente aos diagramas anteriores, neste diagramasimplificado não são registadas as verdadeiras observações uma vez que estasaparecem truncadas.Tal como no Exemplo 1.2.2 podemos ainda dividir cada caule em semicaules:

EXEMPLO: TRUNCANDO DIAGRAMAS DE CAULE E FOLHAS

Podemos ainda dividir cada caule em semicaules:

EXEMPLO: TRUNCANDO DIAGRAMAS DE CAULE E FOLHAS

Uma das aplicações mais interessantes dos diagramas de caule-e-folhas éa possibilidade de comparar dois conjuntos de observações conjugandoos diagramas de caule e folhas respectivos. O diagrama seguinte permite umacomparação simples dos grupos de controle e experimental, revelando evidências deque para os pintos considerados a nova farinha é preferível à antiga. Para que estacomparação seja válida é importante que o número de observações em cada um dosgrupos seja aproximadamente o mesmo.

DIAGRAMAS DE CAULE E FOLHAS

DIAGRAMAS DE PONTOS (DOT PLOTS):WILKINSON E CLEVELAND

DIAGRAMAS DE PONTOS DE WILKINSON

O diagrama de pontos de Wilkinson é uma tipo de representação gráfica semelhantea um histograma: os valores dos dados são mostrados ao longo de um eixohorizontal. Um ponto é então marcado sobre cada valor no conjunto de dados. Osdiagramas de pontos de Wilkinson são úteis para realçar aglomerados, lacunas eoutliers.

Exemplo: o diagrama de pontos de Wilkinson a seguir exibe a quantidade demotoristas com carteira de habilitação em cada 1000 habitantes por estado nosEstados Unidos. Fonte: Departamento de Transportes dos Estados Unidos.

DIAGRAMAS DE PONTOS DE CLEVELAND

Aqui seguiremos o artigo Dot Plots: A Useful Alternative to Bar Charts de NaomiRobbins.

Leitores fazem várias análises ao interpretar diagramas: eles podem julgaro comprimento de um segmento de reta, a área de um setor circular, a posição deum ponto ao longo de uma escala, o declive de uma reta ou uma série de outrosatributos dos pontos, linhas e barras que são desenhados.

Cleveland e McGill (1984) identificaram os julgamentos que são executados ao seinterpretar diagramas e conduziram, com cuidado, experimentos para determinarquais destes julgamentos são realizados com mais precisão. A partir dos resultadosdestes experimentos, eles então propuseram um diagrama. O resultado foio diagrama de pontos (de Cleveland).

DIAGRAMAS DE PONTOS DE CLEVELAND

O diagrama de pontos na Figura 1 mostra as receitas das 60 maiores empresas dalista Fortune 1000. A Figura 2 mostra essas mesmas receitas através de umdiagrama de barras. A maioria dos leitores não terá problemas em interpretarqualquer um dos dois diagramas. Note, contudo, que o diagrama de pontos é menosconfuso, menos redundantes e usa menos tinta.

DIAGRAMAS DE PONTOS DE CLEVELAND

DIAGRAMAS DE PONTOS DE CLEVELAND

DIAGRAMAS DE PONTOS DE CLEVELAND

A lista Fortune 1000 também apresenta os lucros dessas empresas. A Figura 3mostra os resultados para estas 60 empresas na mesma ordem que nas Figuras 1 e 2,para ajudar a fazer a comparação entre os diagramas.

DIAGRAMAS DE PONTOS DE CLEVELAND

O poder do diagrama de pontos torna-se evidente quando queremos combinara informação da Figura 1 (ou 2) com a informação da Figura 3 em um únicodiagrama. Receitas e lucros são mostrados na Figura 4.

DIAGRAMAS DE PONTOS DE CLEVELAND

A apresentação na Figura 4 seria muito mais desordenada e mais difícil deinterpretar se usássemos diagramas de barras.

DIAGRAMAS DE PONTOS DE CLEVELAND

Outra vantagem da Figura 4 é que ela não depende de cor, de modo que ela pode serusada em publicações em preto e branco, sem perda de clareza. Os dois grupospodem ser distinguidos por meio de símbolos diferentes.

AGORA: EXERCÍCIOS EM SALA DE AULA