36
ANÁLISE EXPLORATÓRIA DE DADOS R – Histograma / Medidas de Posição e Dispersão

ANÁLISE EXPLORATÓRIA DE DADOS R – Histograma / Medidas de Posição e Dispersão

Embed Size (px)

Citation preview

Page 1: ANÁLISE EXPLORATÓRIA DE DADOS R – Histograma / Medidas de Posição e Dispersão

ANÁLISE EXPLORATÓRIA DE DADOS

R – Histograma / Medidas de Posição e Dispersão

Page 2: ANÁLISE EXPLORATÓRIA DE DADOS R – Histograma / Medidas de Posição e Dispersão

Objetivos:

trabalhar com dados quantitativos contínuos:

especificar intervalos de classe; construir histogramas; construir mais de um gráfico na mesma

janela; definir as medidas: média, mediana e moda

Page 3: ANÁLISE EXPLORATÓRIA DE DADOS R – Histograma / Medidas de Posição e Dispersão

Exemplo 1: Tipo sangüíneo, peso (em Kg) e altura (em cm).

A 62 164AB 83 163AB 62 176AB 64 177AB 75 166

. . .

. . .

. . .O 70 182O 72 170AB 94 189AB 75 175AB 80 154B 78 172B 71 171B 76 166B 82 143B 78 169

Forma dos dados na planilhacom 100 linhas e três colunas.

A base de dados que será trabalhada hoje contém a informação de 100 indivíduossobre tipo sangüíneo, peso (kg)e altura (cm).

arquivo: m:\\aed\\dados1.txt

Fonte: dados fictícios.

Page 4: ANÁLISE EXPLORATÓRIA DE DADOS R – Histograma / Medidas de Posição e Dispersão

Exemplo (continuação)

Os dados deste exemplo podem ser obtidos como:dados<-read.table(“m:\\aed\\dados1.txt”)

Observe que aqui, não usamos o argumento header=T, pois osnomes das variáveis não estão no arquivo de dados.

Mas, se preferirmos, podemos definir os nomes das variáveisem dados.

names(dados)<-c(“tsangue”,”peso”,”altura”)

Page 5: ANÁLISE EXPLORATÓRIA DE DADOS R – Histograma / Medidas de Posição e Dispersão

Acesso aos valores

Assim, você pode se referir às colunas desta base tanto usando dados[,n], em que n é o número da coluna desejada, como dados$nomedavariável.

Por exemplo, para ver o conteúdo da coluna 1, podemos tanto usar dados[,1] como dados$tsangue.

Page 6: ANÁLISE EXPLORATÓRIA DE DADOS R – Histograma / Medidas de Posição e Dispersão

VARIÁVEIS QUANTITATIVAS

Veremos agora como construir a distribuição de freqüências de uma variável quantitativa.

Para isso, usaremos os dados do exemplo referentes ao peso e à altura dos indivíduos.

Page 7: ANÁLISE EXPLORATÓRIA DE DADOS R – Histograma / Medidas de Posição e Dispersão

VARIÁVEIS QUANTITATIVAS

Se você pedir table(dados[,2]) ou table(dados[,3]) o efeito da saída será quase que reproduzir os valores observados de forma ordenada.

table(dados[,2])57.1 59 61.4 61.9 62.1 62.4 62.8 63.3 63.9 64.2 64.8 66.1 66.3 66.7 67.6 67.8 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 68 68.1 68.9 69.4 69.9 70.1 70.2 70.4 70.9 71.2 71.3 71.5 71.7 71.9 72.1 72.2 1 2 1 1 1 2 2 1 3 1 1 2 1 2 1 1 72.6 73.2 73.4 73.7 74.1 74.6 74.9 75.2 75.3 76 76.3 76.5 76.9 77 77.5 77.6 2 2 1 2 1 4 1 1 1 2 1 1 2 1 1 1 77.8 77.9 78.2 78.4 78.5 78.6 79.1 79.5 79.8 80 80.5 80.6 80.7 80.8 80.9 81.1 2 1 1 1 1 1 2 1 1 1 1 1 3 1 1 1 81.2 81.3 81.7 82.2 82.4 82.7 82.8 83.2 84.3 85 86 86.1 86.7 94.4 95.8 1 1 2 1 1 1 1 1 1 1 1 2 1 1 1

Page 8: ANÁLISE EXPLORATÓRIA DE DADOS R – Histograma / Medidas de Posição e Dispersão

VARIÁVEIS QUANTITATIVAS

Portanto, o comando table não é, em geral, útil para dados contínuos. Ele talvez poderá ser útil se estivermos trabalhando com uma variável discreta cuja quantidade de respostas possíveis é pequena.

Page 9: ANÁLISE EXPLORATÓRIA DE DADOS R – Histograma / Medidas de Posição e Dispersão

VARIÁVEIS QUANTITATIVAS

Vimos que no caso de dados contínuos, há a necessidade de se definir primeiro intervalos de classe para depois construir a tabela de freqüências e, então, usá-la para construir o histograma.

O R possui uma função que pode gerar esta distribuição de forma automática.

Page 10: ANÁLISE EXPLORATÓRIA DE DADOS R – Histograma / Medidas de Posição e Dispersão

VARIÁVEIS QUANTITATIVAS

Esta função também tem a flexibilidade de nos permitir fixar os intervalos ou sugerir o número de intervalos.

Esta mesma função também gera o histograma dos dados e seu nome no R é hist.

Page 11: ANÁLISE EXPLORATÓRIA DE DADOS R – Histograma / Medidas de Posição e Dispersão

Uso da função histPara começar peça a função hist apenas com o argumento obrigatório que é um vetor contendo os valores para os quaisqueremos construir o histograma, isto é, peça hist(dados$peso).

Page 12: ANÁLISE EXPLORATÓRIA DE DADOS R – Histograma / Medidas de Posição e Dispersão

Argumentos da função histArgumentos:x (obrigatório): vetor de valores para os quais deseja-seconstruir o histograma.

breaks (opcional): um entre * vetor fornecendo os limites dos intervalos de classe, * número fornecendo o número de intervalos (é apenas uma sugestão).

freq (opcional): lógica; se `freq=T', o histograma é uma representação da distribuição na escala das freqüências absolutas, se `freq=F', é uma representação na escala da densidade de freqüência relativa, que é definida como a razão entre freqüência relativa e a amplitude da classe.

Page 13: ANÁLISE EXPLORATÓRIA DE DADOS R – Histograma / Medidas de Posição e Dispersão

Exemplo: argumentos breaks e freqhist(dados$peso,breaks=c(50,60,70,80,90,100),freq=F)

Page 14: ANÁLISE EXPLORATÓRIA DE DADOS R – Histograma / Medidas de Posição e Dispersão

Exemplo (continuação)Para melhorar o gráfico podemos definir o título e os rótulos para os eixos ox e oy.

hist(dados$peso,breaks=c(50,60,70,80,90,100),freq=F,main=“Histograma dos pesos”,xlab=“kg”,ylab=“dens.freq.rel”,col=“blue”)

Page 15: ANÁLISE EXPLORATÓRIA DE DADOS R – Histograma / Medidas de Posição e Dispersão

Mudando a escala dos eixos

Comandos xlim e ylim. Para visualizar o eixo 0x de 40 até 110kg,

inclua o argumento xlim=c(40,110). Para visualizar o eixo 0y de 0 até 0.06,

quando freq=F, inclua o argumento ylim=c(0,0.06).

Page 16: ANÁLISE EXPLORATÓRIA DE DADOS R – Histograma / Medidas de Posição e Dispersão

Exemplo (continuação)

hist(dados$peso,breaks=c(50,60,70,80,90,100),freq=F,main="Histograma dos pesos",xlab="Kg",ylab="dens.freq.rel",col="gray",xlim=c(40,110),ylim=c(0,0.06))

Page 17: ANÁLISE EXPLORATÓRIA DE DADOS R – Histograma / Medidas de Posição e Dispersão

O que mudou?freq=F freq=T

Page 18: ANÁLISE EXPLORATÓRIA DE DADOS R – Histograma / Medidas de Posição e Dispersão

Observações

Se os intervalos de classe tiverem amplitudes desiguais, será obrigatório usar o argumento freq=F.

Caso contrário, o R retornará com uma mensagem de erro.

Warning message: the AREAS in the plot are wrong -- rather use `freq=FALSE'! in: plot.histogram(r, freq = freq, col = col, border = border, angle = angle,

Page 19: ANÁLISE EXPLORATÓRIA DE DADOS R – Histograma / Medidas de Posição e Dispersão

Argumentos xlim e ylim

Estes dois argumentos são muito úteis quando queremos comparar diversos histogramas.

Para uma comparação, é necessário trabalhar com escalas iguais.

Page 20: ANÁLISE EXPLORATÓRIA DE DADOS R – Histograma / Medidas de Posição e Dispersão

Outros argumentos

Sugerimos que os demais argumentos da função histsejam explorados por vocês.

Page 21: ANÁLISE EXPLORATÓRIA DE DADOS R – Histograma / Medidas de Posição e Dispersão

Comando par(mfrow=c(l,n))

É possível construir vários histogramas numa única janela de gráfico.

Por exemplo, se quisermos apresentar o histograma das alturas e o histograma dos pesos numa mesma janela, antes de pedir os histogramas, devemos informar que a janela conterá dois gráficos.

Podemos configurar a janela com dois gráficos numa única linha ou dois gráficos numa única coluna.

Page 22: ANÁLISE EXPLORATÓRIA DE DADOS R – Histograma / Medidas de Posição e Dispersão

Comando par(mfrow=c(l,n))

par(mfrow=c(1,2)) # uma linha duas colunas ou par(mfrow=c(2,1)) # duas linhas uma coluna. Depois é só pedir os respectivos histogramas.

Page 23: ANÁLISE EXPLORATÓRIA DE DADOS R – Histograma / Medidas de Posição e Dispersão

par(mfrow=c(1,2)) hist(dados$peso, main="Histograma dos pesos",xlab="Kg",freq=F,ylab="densidade de freq. rel.",ylim=c(0,0.07),xlim=c(50,110)) hist(dados$altura, main="Histograma das alturas",xlab="cm",freq=F,ylab="densidade de freq. rel.",ylim=c(0,0.06),xlim=c(130,200))

Page 24: ANÁLISE EXPLORATÓRIA DE DADOS R – Histograma / Medidas de Posição e Dispersão
Page 25: ANÁLISE EXPLORATÓRIA DE DADOS R – Histograma / Medidas de Posição e Dispersão

par(mfrow=c(2,1)) hist(dados$peso, main="Histograma dos pesos",xlab="Kg",freq=F,ylab="densidade de freq. rel.",ylim=c(0,0.07),xlim=c(50,110)) hist(dados$altura, main="Histograma das alturas",xlab="cm",freq=F,ylab="densidade de freq. rel.",ylim=c(0,0.06),xlim=c(130,200))

Page 26: ANÁLISE EXPLORATÓRIA DE DADOS R – Histograma / Medidas de Posição e Dispersão
Page 27: ANÁLISE EXPLORATÓRIA DE DADOS R – Histograma / Medidas de Posição e Dispersão

Data(islands)

Os dados a seguir fazem parte do elenco de exemplos do R.

Descrição: áreas em milhares de milhas quadradas das maiores massas de terra do mundo (maiores que 10000 milhas quadradas). data(islands)

Formato: vetor rotulado de comprimento 48.

Para mais detalhes vamos usar o help.

Page 28: ANÁLISE EXPLORATÓRIA DE DADOS R – Histograma / Medidas de Posição e Dispersão

help(islands)islands package:base R DocumentationAreas of the World's Major Landmasses (áreas das maiores massas de terra do mundo)

Descrição: contém as áreas em milhares de milhas quadradas das massas de terra, que excedem à 10000 milhas quadradas.

Uso: data(islands)

Formato: está num vetor rotulado de comprimento 48. Os rótulos referem-se ao local.

Fonte: The World Almanac and Book of Facts, 1975, page 406.

Page 29: ANÁLISE EXPLORATÓRIA DE DADOS R – Histograma / Medidas de Posição e Dispersão

Islands Africa Antarctica Asia Australia 11506 5500 16988 2968 Axel Heiberg Baffin Banks Borneo 16 184 23 280 Britain Celebes Celon Cuba 84 73 25 43 Devon Ellesmere Europe Greenland 21 82 3745 840 Hainan Hispaniola Hokkaido Honshu 13 30 30 89 Iceland Ireland Java Kyushu 40 33 49 14 Luzon Madagascar Melville Mindanao 42 227 16 36 etc.

Page 30: ANÁLISE EXPLORATÓRIA DE DADOS R – Histograma / Medidas de Posição e Dispersão

Medidas de posição: média e mediana

A média é a soma dos valores observados sobre o número de observações (média aritmética).

No histograma, ela representa o ponto de equilíbrio.

Page 31: ANÁLISE EXPLORATÓRIA DE DADOS R – Histograma / Medidas de Posição e Dispersão
Page 32: ANÁLISE EXPLORATÓRIA DE DADOS R – Histograma / Medidas de Posição e Dispersão

Mediana

A mediana de uma distribuição de valores é o valor que ocupa a posição central quando os dados estão ordenados.

Exemplo: considere o conjunto cujos valores são 11,23,14,15,16,20 e 21.

Valores ordenados: 11,14,15,16,20,21,23

Page 33: ANÁLISE EXPLORATÓRIA DE DADOS R – Histograma / Medidas de Posição e Dispersão

Mediana

11,14,15,16,20,21,23

Valor que ocupaa posição central

Logo, a mediana deste conjunto é 16.

Page 34: ANÁLISE EXPLORATÓRIA DE DADOS R – Histograma / Medidas de Posição e Dispersão

Média e mediana no R

A função que calcula a média aritmética de um vetor de dados numéricos x é mean(x).

A função mean(x,trim=0.5) também serve para retornar o valor da mediana dos dados no vetor x.

Mas, também, podemos usar a função median(x).

Page 35: ANÁLISE EXPLORATÓRIA DE DADOS R – Histograma / Medidas de Posição e Dispersão

Data(islands): média e mediana

mean(islands) produz 1252.729. median(islands) produz 41 mean(islands,trim=0.5) produz 41. Não é uma mera coincidência os dois

valores acima serem iguais, pois a mediana é o valor que ocupa a posição central quando os dados estão ordenados.

Page 36: ANÁLISE EXPLORATÓRIA DE DADOS R – Histograma / Medidas de Posição e Dispersão

Média e mediana (cont.)

O argumento trim na função mean tem o efeito de “aparar as pontas” quando os dados estão ordenados na fração atribuída a trim, que pode ser um valor de 0 (default) até 0.5.

Observe que quando trim=0.5, depois de “aparar as pontas”, sobra justamente o valor que ocupa a posição central.