43
Box - Plot Box - Plot Análise Exploratória Análise Exploratória de Dados de Dados

Box - Plot Análise Exploratória de Dados. Exercício: Emissão de Dióxido de Carbono Determine os três quartis, os decis, a média e o desvio-padrão das

Embed Size (px)

Citation preview

Page 1: Box - Plot Análise Exploratória de Dados. Exercício: Emissão de Dióxido de Carbono Determine os três quartis, os decis, a média e o desvio-padrão das

Box - PlotBox - Plot

Análise Exploratória de Análise Exploratória de Dados Dados

Page 2: Box - Plot Análise Exploratória de Dados. Exercício: Emissão de Dióxido de Carbono Determine os três quartis, os decis, a média e o desvio-padrão das

Exercício: Emissão de Dióxido Exercício: Emissão de Dióxido de Carbonode Carbono

Determine os três quartis, os decis, a Determine os três quartis, os decis, a média e o desvio-padrão das emissões média e o desvio-padrão das emissões registradas para os 72 países em 1995. registradas para os 72 países em 1995.

Page 3: Box - Plot Análise Exploratória de Dados. Exercício: Emissão de Dióxido de Carbono Determine os três quartis, os decis, a média e o desvio-padrão das

Exercício: Emissão de Dióxido Exercício: Emissão de Dióxido de Carbonode Carbono

dados<-read.table(”m:\\aulas\\natalie\\aed\\dados<-read.table(”m:\\aulas\\natalie\\aed\\dados13bm.txt",header=T)dados13bm.txt",header=T)

names(dados)names(dados) [1] [1] "pais" "emissao""pais" "emissao"

quantile(dados$emissao,c(0.25,0.5,0.75)) quantile(dados$emissao,c(0.25,0.5,0.75)) 25% 50% 75% 0.0675 25% 50% 75% 0.0675

0.4150 1.4725 0.4150 1.4725 quantile(dados$emissao,c(0.1,0.2,.3,.4,.5,.6,.7,.8,0.9))quantile(dados$emissao,c(0.1,0.2,.3,.4,.5,.6,.7,.8,0.9))

10% 20% 30% 40% 50% 60% 70% 80% 90%10% 20% 30% 40% 50% 60% 70% 80% 90% 0.02 0.05 0.14 0.28 0.42 0.87 1.26 1.99 3.020.02 0.05 0.14 0.28 0.42 0.87 1.26 1.99 3.02

Page 4: Box - Plot Análise Exploratória de Dados. Exercício: Emissão de Dióxido de Carbono Determine os três quartis, os decis, a média e o desvio-padrão das

Exercício: Emissão de Dióxido Exercício: Emissão de Dióxido de Carbono de Carbono

> mean(dados$emissao)> mean(dados$emissao) [1] 1.174167[1] 1.174167 > sd(dados$emissao)> sd(dados$emissao) [1] 1.689093[1] 1.689093 A mediana é 0.4150 e portanto, o A mediana é 0.4150 e portanto, o

coeficiente de assimetria de Pearson, coeficiente de assimetria de Pearson, dado por (dado por (3*(média-mediana))/desvio-padrão3*(média-mediana))/desvio-padrão, é , é aproximadamente 1.35>0.aproximadamente 1.35>0.

Page 5: Box - Plot Análise Exploratória de Dados. Exercício: Emissão de Dióxido de Carbono Determine os três quartis, os decis, a média e o desvio-padrão das

Dados em histograma das Dados em histograma das emissõesemissões

$breaks [1] 0 1 2 3 4 5 6 7 8 9$counts[1] 46 12 6 3 2 1 0 1 1$mids[1] 0.5 1.5 2.5 3.5 4.5 5.5 6.5 7.5 8.5

round(histEmissao$counts/72,digits=2)# freqüências relativas[1] 0.64 0.17 0.08 0.04 0.03 0.01 0.00 0.01 0.01# freqüências relativas acumuladas0.64 0.81 0.89 0.93 0.96 0.97 0.97 0.98 1.00

Fazendo hist1<-hist(dados$emissao), podemos listar as informações usadas na construção do histograma.

Page 6: Box - Plot Análise Exploratória de Dados. Exercício: Emissão de Dióxido de Carbono Determine os três quartis, os decis, a média e o desvio-padrão das

Histograma das emissõesHistograma das emissões

Page 7: Box - Plot Análise Exploratória de Dados. Exercício: Emissão de Dióxido de Carbono Determine os três quartis, os decis, a média e o desvio-padrão das

Tabela usada para o histogramaTabela usada para o histograma

ni xi fi Fi0--|1 46 0.5 0.639 0.6391--|2 12 1.5 0.167 0.8062--|3 6 2.5 0.083 0.8893--|4 3 3.5 0.042 0.9314--|5 2 4.5 0.028 0.9585--|6 1 5.5 0.014 0.9726--|7 0 6.5 0.000 0.9727--|8 1 7.5 0.014 0.9868--|9 1 8.5 0.014 1.000total 72 - 1 -

Page 8: Box - Plot Análise Exploratória de Dados. Exercício: Emissão de Dióxido de Carbono Determine os três quartis, os decis, a média e o desvio-padrão das
Page 9: Box - Plot Análise Exploratória de Dados. Exercício: Emissão de Dióxido de Carbono Determine os três quartis, os decis, a média e o desvio-padrão das

Esquema dos cinco númerosEsquema dos cinco números

É uma lista de informações da distribuição É uma lista de informações da distribuição que inclui cinco medidas, a saber, xque inclui cinco medidas, a saber, x(1)(1), Q1, , Q1,

Q2, Q3 e xQ2, Q3 e x(n)(n)..

Estes cinco valores são importantes para Estes cinco valores são importantes para se ter uma boa idéia da assimetria dos se ter uma boa idéia da assimetria dos dados.dados.

Page 10: Box - Plot Análise Exploratória de Dados. Exercício: Emissão de Dióxido de Carbono Determine os três quartis, os decis, a média e o desvio-padrão das

Esquema dos cinco númerosEsquema dos cinco números

Para uma distribuição simétrica ou Para uma distribuição simétrica ou aproximadamente simétrica, deveríamos aproximadamente simétrica, deveríamos ter: (a) Q2- xter: (a) Q2- x(1) (1) x x(n)(n)-Q2; -Q2;

(b) Q2-Q1 (b) Q2-Q1 Q3-Q2; Q3-Q2; (c) Q1- x (c) Q1- x(1) (1) x x(n)(n)-Q3; -Q3;

(d) distâncias entre mediana e Q1, (d) distâncias entre mediana e Q1, Q3 Q3 menores do que distâncias menores do que distâncias entre entre os extremos e Q1, Q3.os extremos e Q1, Q3.

Page 11: Box - Plot Análise Exploratória de Dados. Exercício: Emissão de Dióxido de Carbono Determine os três quartis, os decis, a média e o desvio-padrão das
Page 12: Box - Plot Análise Exploratória de Dados. Exercício: Emissão de Dióxido de Carbono Determine os três quartis, os decis, a média e o desvio-padrão das

Comandos Comandos summary() e fivenum()summary() e fivenum()

O O RR possui uma função que retorna as possui uma função que retorna as informações do esquema dos cinco informações do esquema dos cinco números: números: fivenum(x)fivenum(x), se , se xx é o vetor que é o vetor que contém os dados.contém os dados.

Exemplo:Exemplo: x<-c(1,1,1,2,2,2,2,3,3,3,4,4,4,5,5,6,7,8,9,10)x<-c(1,1,1,2,2,2,2,3,3,3,4,4,4,5,5,6,7,8,9,10)

fivenum(x)fivenum(x) [1] 1.0 2.0 3.5 5.5 10.0[1] 1.0 2.0 3.5 5.5 10.0

Page 13: Box - Plot Análise Exploratória de Dados. Exercício: Emissão de Dióxido de Carbono Determine os três quartis, os decis, a média e o desvio-padrão das

Comandos Comandos summary() e fivenum()summary() e fivenum()

summary(x)summary(x) Min. 1st Qu. Median Mean 3rd Qu. Max. Min. 1st Qu. Median Mean 3rd Qu. Max.

1.00 2.00 3.50 4.10 5.25 10.00 1.00 2.00 3.50 4.10 5.25 10.00

O comando O comando summary(x), summary(x), quando quando xx é um é um vetor numérico, produz as informações do vetor numérico, produz as informações do esquema dos cinco números e a média. esquema dos cinco números e a média.

Page 14: Box - Plot Análise Exploratória de Dados. Exercício: Emissão de Dióxido de Carbono Determine os três quartis, os decis, a média e o desvio-padrão das

Desenho Esquemático (Desenho Esquemático (Box PlotsBox Plots))

A informação contida no esquema dos A informação contida no esquema dos cinco números pode ser traduzida cinco números pode ser traduzida graficamente num diagrama, conhecido graficamente num diagrama, conhecido como como box plot.box plot.

A figura a seguir, ilustra o A figura a seguir, ilustra o boxplot.boxplot.

Page 15: Box - Plot Análise Exploratória de Dados. Exercício: Emissão de Dióxido de Carbono Determine os três quartis, os decis, a média e o desvio-padrão das
Page 16: Box - Plot Análise Exploratória de Dados. Exercício: Emissão de Dióxido de Carbono Determine os três quartis, os decis, a média e o desvio-padrão das

BoxplotBoxplot

O retângulo no O retângulo no boxplotboxplot é traçado de tal é traçado de tal maneira que as bases menores têm alturas maneira que as bases menores têm alturas correspondentes aos primeiro e terceiro correspondentes aos primeiro e terceiro quartis da distribuição.quartis da distribuição.

O retângulo é cortado por um segmento O retângulo é cortado por um segmento paralelo às bases, na altura correspondente paralelo às bases, na altura correspondente ao segundo quartil.ao segundo quartil.

Assim, o retângulo do Assim, o retângulo do boxplotboxplot corresponde corresponde aos 50% valores centrais da distribuição.aos 50% valores centrais da distribuição.

Page 17: Box - Plot Análise Exploratória de Dados. Exercício: Emissão de Dióxido de Carbono Determine os três quartis, os decis, a média e o desvio-padrão das
Page 18: Box - Plot Análise Exploratória de Dados. Exercício: Emissão de Dióxido de Carbono Determine os três quartis, os decis, a média e o desvio-padrão das

Cosntruindo o Cosntruindo o boxplotboxplot

Depois de desenhado o retângulo, traça-Depois de desenhado o retângulo, traça-se um segmento paralelo ao eixo, partindo se um segmento paralelo ao eixo, partindo do ponto médio da base superior do do ponto médio da base superior do retângulo até o maior valor observado que retângulo até o maior valor observado que NÃO supera o valor de NÃO supera o valor de Q3+(1,5)*IIQQ3+(1,5)*IIQ..

O mesmo é feito a partir do ponto médio O mesmo é feito a partir do ponto médio da base inferior do retângulo, até o menor da base inferior do retângulo, até o menor valor que NÃO é menor do que valor que NÃO é menor do que Q1-(1,5)*IIQQ1-(1,5)*IIQ..

Page 19: Box - Plot Análise Exploratória de Dados. Exercício: Emissão de Dióxido de Carbono Determine os três quartis, os decis, a média e o desvio-padrão das

Fechando o Fechando o boxplotboxplot

As observações que estiverem acima de As observações que estiverem acima de Q3+(1,5)*IIQ ou abaixo de Q1-(1,5)*IIQ Q3+(1,5)*IIQ ou abaixo de Q1-(1,5)*IIQ são chamadas pontos exteriores e são chamadas pontos exteriores e representadas por asteriscos.representadas por asteriscos.

Essa observações destoantes das demais Essa observações destoantes das demais podem ser o que chamamos de podem ser o que chamamos de outliersoutliers ou ou valores atípicos ou valores extremos.valores atípicos ou valores extremos.

Page 20: Box - Plot Análise Exploratória de Dados. Exercício: Emissão de Dióxido de Carbono Determine os três quartis, os decis, a média e o desvio-padrão das
Page 21: Box - Plot Análise Exploratória de Dados. Exercício: Emissão de Dióxido de Carbono Determine os três quartis, os decis, a média e o desvio-padrão das

ObservaçõesObservações

Não necessariamente haverá a presença Não necessariamente haverá a presença de pontos exteriores num de pontos exteriores num boxplotboxplot. .

Quando for este o caso, o esquema terá a Quando for este o caso, o esquema terá a seguinte aparência:seguinte aparência:

Page 22: Box - Plot Análise Exploratória de Dados. Exercício: Emissão de Dióxido de Carbono Determine os três quartis, os decis, a média e o desvio-padrão das

A função A função boxplotboxplot no no RR

Experimente pedir ao Experimente pedir ao RR para construir um para construir um boxplot dos dados sobre emissões de boxplot dos dados sobre emissões de dióxido de carbono: dióxido de carbono: boxplot(dados$emissao)boxplot(dados$emissao)

Page 23: Box - Plot Análise Exploratória de Dados. Exercício: Emissão de Dióxido de Carbono Determine os três quartis, os decis, a média e o desvio-padrão das
Page 24: Box - Plot Análise Exploratória de Dados. Exercício: Emissão de Dióxido de Carbono Determine os três quartis, os decis, a média e o desvio-padrão das

Alguns argumentos da função Alguns argumentos da função boxplotboxplot

Observação: é possível construir vários Observação: é possível construir vários boxplotboxplot na mesma função. na mesma função.

boxwex: boxwex: controla a largura dos retângulos controla a largura dos retângulos no no boxplotboxplot. O default é 0.8. . O default é 0.8.

outline: outline: valor lógicovalor lógico. Se T, . Se T, os pontos os pontos exteriores são assinalados (default). Se F, exteriores são assinalados (default). Se F, os pontos exteriores não são assinalados os pontos exteriores não são assinalados

Page 25: Box - Plot Análise Exploratória de Dados. Exercício: Emissão de Dióxido de Carbono Determine os três quartis, os decis, a média e o desvio-padrão das

Exemplo 1Exemplo 1

Vamos trabalhar com os dados sobre Vamos trabalhar com os dados sobre salários para diferentes salários para diferentes profissões/formações do conjunto profissões/formações do conjunto dados6bmdados6bm.txt..txt.

dados<-read.table(“m:\\aed\\dados6bm.txt”,header=T)dados<-read.table(“m:\\aed\\dados6bm.txt”,header=T) Há quatro profissões diferentes, a saber, nivelmedio, Há quatro profissões diferentes, a saber, nivelmedio,

mecanico, administrador, engeletrico.mecanico, administrador, engeletrico. boxplot(dados[,2],dados[,3],dados[,4],dados[,5],names=cboxplot(dados[,2],dados[,3],dados[,4],dados[,5],names=c

(“nivel medio”,”mecanico”,”administrador”,”eng.eletrico”))(“nivel medio”,”mecanico”,”administrador”,”eng.eletrico”))

Page 26: Box - Plot Análise Exploratória de Dados. Exercício: Emissão de Dióxido de Carbono Determine os três quartis, os decis, a média e o desvio-padrão das
Page 27: Box - Plot Análise Exploratória de Dados. Exercício: Emissão de Dióxido de Carbono Determine os três quartis, os decis, a média e o desvio-padrão das

CoresCores

col - cor de preenchimento dos retângulos

Page 28: Box - Plot Análise Exploratória de Dados. Exercício: Emissão de Dióxido de Carbono Determine os três quartis, os decis, a média e o desvio-padrão das

Boxplots horizontaisBoxplots horizontais

horizontalhorizontal - valor lógico, se T o boxplot fica - valor lógico, se T o boxplot fica na posição horizontal. Se F (default) fica na posição horizontal. Se F (default) fica na posição vertical.na posição vertical.

Page 29: Box - Plot Análise Exploratória de Dados. Exercício: Emissão de Dióxido de Carbono Determine os três quartis, os decis, a média e o desvio-padrão das

Outros argumentosOutros argumentos

ylimylim: controla a escala de valores: controla a escala de valores mainmain: título: título subsub: sub-título : sub-título namesnames: vetor com os rótulos dos : vetor com os rótulos dos

conjuntos de dados, quando são pedidos conjuntos de dados, quando são pedidos mais de um mais de um boxplotboxplot..

pch:pch: específica o caracter a ser usado nos específica o caracter a ser usado nos pontos exteriores. Ex.:pontos exteriores. Ex.: pch=“*” pch=“*”..

Page 30: Box - Plot Análise Exploratória de Dados. Exercício: Emissão de Dióxido de Carbono Determine os três quartis, os decis, a média e o desvio-padrão das

Exemplo 2Exemplo 2

No domingo, dia 4 de abril de 2004, o No domingo, dia 4 de abril de 2004, o jornal O Globo publicou uma reportagem jornal O Globo publicou uma reportagem sobre o dinheiro da União disponível para sobre o dinheiro da União disponível para investimentos nas prefeituras em 2004.investimentos nas prefeituras em 2004.

Nesta reportagem, foram publicados os Nesta reportagem, foram publicados os dados sobre 25 capitais, os partidos dos dados sobre 25 capitais, os partidos dos prefeitos destas capitais, o número de prefeitos destas capitais, o número de habitantes e o total em reais disponível.habitantes e o total em reais disponível.

Page 31: Box - Plot Análise Exploratória de Dados. Exercício: Emissão de Dióxido de Carbono Determine os três quartis, os decis, a média e o desvio-padrão das

Exemplo 2Exemplo 2

Estes dados foram armazenados no Estes dados foram armazenados no arquivo arquivo dadosaula6.txtdadosaula6.txt com o número de com o número de habitantes em milhares e o investimento habitantes em milhares e o investimento em milhares de reais.em milhares de reais.

Os nomes atribuídos às variáveis foram:Os nomes atribuídos às variáveis foram:

cidade, partido, hab1000 e invest1000.cidade, partido, hab1000 e invest1000.

Page 32: Box - Plot Análise Exploratória de Dados. Exercício: Emissão de Dióxido de Carbono Determine os três quartis, os decis, a média e o desvio-padrão das

Exemplo 2Exemplo 2

dados<-read.table("c:\\flavia\\aed\\dados<-read.table("c:\\flavia\\aed\\dadosaula6.txt",header=T)dadosaula6.txt",header=T)

Construa o Construa o boxplotboxplot dos investimentos. dos investimentos.

Page 33: Box - Plot Análise Exploratória de Dados. Exercício: Emissão de Dióxido de Carbono Determine os três quartis, os decis, a média e o desvio-padrão das
Page 34: Box - Plot Análise Exploratória de Dados. Exercício: Emissão de Dióxido de Carbono Determine os três quartis, os decis, a média e o desvio-padrão das

Construa também um boxplot do número de habitantes.

Page 35: Box - Plot Análise Exploratória de Dados. Exercício: Emissão de Dióxido de Carbono Determine os três quartis, os decis, a média e o desvio-padrão das

Olhando apenas para a relação investimento sobre número de habitantes, sem levar em conta outros fatores, você diria que foi justa esta distribuição?

Page 36: Box - Plot Análise Exploratória de Dados. Exercício: Emissão de Dióxido de Carbono Determine os três quartis, os decis, a média e o desvio-padrão das

O título da reportagem no jornal foi Aos amigos, mais dametade.

Você concorda com este título? Por que?

Ordenando os dados por partido:indice<-order(dados$partido)dadosord<-dados[indice,]

Page 37: Box - Plot Análise Exploratória de Dados. Exercício: Emissão de Dióxido de Carbono Determine os três quartis, os decis, a média e o desvio-padrão das

Depois de ordenar os dados por partido em dadosord,é possível ver que de 1 a 17 tem-se outros partidos ede 18 a 25 tem-se o PT.

Page 38: Box - Plot Análise Exploratória de Dados. Exercício: Emissão de Dióxido de Carbono Determine os três quartis, os decis, a média e o desvio-padrão das

resumo<-matrix(0,2) #variável que vai receber o total # de investimentos, na posição 1: outros partidos# na posição 2: PTresumo[1]<-sum(dadosord$invest1000[1:17])resumo[2]<-sum(dadosord$invest1000[18:25])total<-resumo[1]+resumo[2]parcial<-matrix(0,2)parcial<-resumo/total

Page 39: Box - Plot Análise Exploratória de Dados. Exercício: Emissão de Dióxido de Carbono Determine os três quartis, os decis, a média e o desvio-padrão das

ResultadoResultado

parcial[1] 0.4077745 0.5922255

Page 40: Box - Plot Análise Exploratória de Dados. Exercício: Emissão de Dióxido de Carbono Determine os três quartis, os decis, a média e o desvio-padrão das
Page 41: Box - Plot Análise Exploratória de Dados. Exercício: Emissão de Dióxido de Carbono Determine os três quartis, os decis, a média e o desvio-padrão das

Exemplo 3Exemplo 3

Voltemos aos dados sobre temperaturas médias mensais.Lembre-se da última atividade sugerida na aula 5 do LIG.

Com as temperaturas médias mensais, separadas mês a mês,para cada cidade, construa boxplots para analisaro comportamento das mesmas, para cada cidade.

Page 42: Box - Plot Análise Exploratória de Dados. Exercício: Emissão de Dióxido de Carbono Determine os três quartis, os decis, a média e o desvio-padrão das
Page 43: Box - Plot Análise Exploratória de Dados. Exercício: Emissão de Dióxido de Carbono Determine os três quartis, os decis, a média e o desvio-padrão das