53
Análise Exploratória de Dados

Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x

Embed Size (px)

Citation preview

Page 1: Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x

Análise Exploratória de Dados

Page 2: Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x

Objetivos Apresentar outra possibilidade de

representação gráfica para duas variáveis quantitativas: gráfico quantis x quantis.

Trabalhar os exemplos computacionais do livro-texto (páginas 93 e 94) que envolvem uma análise bivariada de variáveis dos arquivos dados9bm.txt (mercado) e dados7bm.txt (veículos).

Page 3: Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x

Gráfico quantis x quantis

Suponha dados os valores nxxx ,...,, 21

da variável X e valores myyy ,...,, 21

da variável Y, todos medidos pela mesmaunidade.

Por exemplo, notas parciais de uma disciplina,ou temperaturas de duas cidades, ou porcenta-gens da renda familiar gastas com saúde eeducação.

Page 4: Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x

Gráfico quantis x quantis (1)

O gráfico qxq é um gráfico dos quantis da variável X contra os quantis da variável Y.

Se m=n o gráfico qxq é um gráfico dos dados ordenados de X contra os dados ordenados de Y.

Se as distribuições dos dois conjuntos de dados fossem idênticas, os pontos estariam sobre a reta y=x.

Page 5: Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x

Gráfico quantis x quantis (2)

Enquanto que um gráfico de dispersão fornece uma possível relação global entre as variáveis, o gráfico qxq mostra se valores pequenos de X estão relacionados com valores pequenos de Y,

se valores intermediários de X estão relacionados com valores intermediários de Y,

se valores grandes de X estão relacionados com valores grandes de Y.

Page 6: Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x

Gráfico quantis x quantis (3)

Num gráfico de dispersão, podemos ter x1< x2 e y1 >y2 .

Num gráfico qxq, não é possível ter x1< x2

e y1 >y2 , pois os valores em ambos os eixos estão ordenados, do menor para o maior.

Page 7: Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x

Exemplo 1 Na tabela a seguir temos as notas de 20 alunos em duas

provas de Estatística. aluno P1 P21 8.5 8.02 3.5 2.83 7.2 6.54 5.5 6.25 9.5 9.06 7.0 7.57 4.8 5.28 6.6 7.29 2.5 4.010 7.0 6.811 7.4 6.512 5.6 5.013 6.3 6.514 3.0 3.015 8.1 9.016 3.8 4.017 6.8 5.518 10.0 10.019 4.5 5.520 5.9 5.0

Estes dados estão arquivados emnotasEst.txt.

Page 8: Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x

Exemplo 1 (cont) Comando que constrói o gráfico de quantis no R, após ler os dados:

qqplot(dados$P1,dados$P2,main=“Gráfico qxq para as notas em duas provas de Estatística”,xlab=“Quantis da primeira prova”,ylab=“Quantis da segunda prova”)

Para inserir no gráfico a reta y=x, acrescente

abline(0,1) # o primeiro número indica o coeficiente linear da reta desejada e, o segundo, o coeficiente angular.

Page 9: Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x
Page 10: Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x

Exemplo 1: (cont.)

Do gráfico de quantis, podemos perceber que as notas em Estatística das provas 1 e 2 tem distribuições muito parecidas, pois os pontos do qqplot estão muito próximos da reta y=x com desvios bem pequenos.

Page 11: Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x

Exemplo 2:

Dados: Temperaturas médias mensais em Ubatuba e Cananéia (SP) na base dados5bm.txt.

Construa o gráfico qxq das temperaturas de Cananéia contra as de Ubatuba.

Page 12: Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x
Page 13: Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x

Exemplo 2: (cont.) Observe que a maior parte dos pontos está

acima da reta y=x, mostrando que as temperaturas de Ubatuba são, em geral, maiores do que as de Cananéia, para valores maiores do que 17 graus.

Obs.: Quando mn, é necessário modificar os valores de p para os quantis da variável com maior número de pontos.

O R aceita vetores de tamanhos diferentes para o qqplot.

Page 14: Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x

Qqplot quando mn

Suponha n>m. Neste caso, usamos interpolação nos quantis da variável X para corresponder aos quantis da variável Y no gráfico, pois há menos observações na variável Y.

Exemplo: Suponha n=40 e m=20. )20()2()1( ... yyy

)40()3()2()1( ... xxxx

Page 15: Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x

Qqplot quando mn (1)

)20()2()1( ... yyy

)40()3()2()1( ... xxxx

Neste caso, para cada valor ordenado de Y, correspondemos um valor médio dos valores ordenados de X.

20,...,1),(2

1

)(2

1

)(2

1

)2()12()(

)4()3()2(

)2()1()1(

ixxversusy

xxversusy

xxversusy

iii

Page 16: Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x

Qqplot quando mn (2)

Mais geralmente, quando n>m correspondemos os quantis y(i) aos quantis de X: )( jx onde

5,0)5,0( im

nj

Se j for inteiro, fazemos o gráfico de y(i) versus x(j).

Caso contrário, se j=k+r, onde k é inteiro e 0<r<1, fazemos o gráfico de y(i) versus x*

(j) onde

)1()()(* )1( kkj rxxrx

Page 17: Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x

Exercício 34 do livro

A 65 54 49 60 70 25 87 100 70 102 40 47B 48 35 45 50 52 20 72 102 46 82

Faça o gráfico qxq para os dois conjuntos A e B abaixo:

Observe que neste caso n=12 e m=10 i n/m(i-0.5)+0.5 k r x*j yi1 1.1 1 0.1 26.5 202 2.3 2 0.3 42.1 353 3.5 3 0.5 48 454 4.7 4 0.7 52.5 465 5.9 5 0.9 59.4 486 7.1 7 0.1 65.5 507 8.3 8 0.3 70 528 9.5 9 0.5 78.5 729 10.7 10 0.7 96.1 82

10 11.9 11 0.9 102 102

A quan pos.65 25 154 40 249 47 360 49 470 54 525 60 687 65 7

100 70 870 70 9

102 87 1040 100 1147 102 12

Quantis de X

cálculos

Page 18: Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x

Exercício 34 do livro

Page 19: Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x

Exemplo 3:

Dados: salários em dados6bm.txt. Faça o gráfico qxq da variável salário de

professor secundário contra salário de administrador.

A variável nivelmedio da base representa os salários do professor de ensino médio.

Faça comentários sobre a forma do gráfico obtido.

Page 20: Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x
Page 21: Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x

Comentário

É possível perceber claramente, pelo gráfico qxq que os salários de professores do nível médio são menores do que os salários dos administradores.

Page 22: Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x

Exemplos computacionais

Page 23: Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x

Exemplo C1: Duas variáveis quantitativas Dados: mercado em dados9bm.txt Dispõe-se dos preços de fechamento

diários de ações da telebrás (Y) e os índices IBOVESPA(X), de 2 de janeiro a 24 de fevereiro de 1995, num total de n=39 observações.

Construa o diagrama de dispersão destes dados.

Page 24: Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x
Page 25: Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x

Comentários A nuvem de pontos do diagrama de dispersão

de IBOVESPA contra o preço das ações da Telebrás mostra que há forte correlação positiva entre estas variáveis.

Represente no diagrama de dispersão obtido a reta de mínimos quadrados, onde IBOVESPA é a variável independente e preço das ações da Telebrás, a variável dependente.

Page 26: Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x

Reta de mínimos quadrados

Page 27: Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x

Correlação

cor(dados$indice,dados$telebras) [1] 0.9818552

Page 28: Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x

Reta de mínimos quadrados

Coefficients: (Intercept) dados$indice -3.7588 0.8808 Modelo:

Preco_Telebras=-3.7588+0.8808x(IBOVESPA)

Page 29: Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x

Valores ajustados versus resíduos

Page 30: Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x

Exemplo C2: Dados sobre veículos em dados7bm.txt. Dispõe-se de preço, comprimento e a

capacidade do motor de veículos vendido no Brasil em duas categorias: Nacional e Importado.

Podemos fazer um gráfico de dispersão simbólico de preços e comprimentos, indicando por N se o carro for nacional e I, caso contrário.

Page 31: Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x

Exemplo C2: (cont.)

Para a construção de tal diagrama de dispersão, vamos primeiramente ordenar a base de dados pela variável origem (nacional ou importado).

dados<-read.table(“m:\\natalie\\aed\\dados7bm.txt”,header=T)

indice<-order(dados$origem) table(dados$origem) dadosord<-dados[indice,]

Page 32: Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x

Exemplo C2: (cont.)

I N 12 18 Assim, em dadosord, as observações de 1

a 12 referem-se a veículos importados e de 13 a 30 referem-se a veículos nacionais.

Page 33: Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x

Exemplo C2: (cont.)

plot(dadosord$comprimento[13:30],dadosord$preco[13:30],pch="N",col="red",main="Gráfico de dispersão simbólico das variáveis comprimento e preco",sub="N: nacional, I:importado",ylab="preco",xlab="comprimento”, ylim=c(5000,39000),xlim=c(3,5))

points(dadosord$comprimento[1:12],dadosord$preco[1:12],pch="I",col="blue")

Page 34: Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x
Page 35: Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x

Motor e preço

Page 36: Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x

Motor e comprimento

Page 37: Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x

Origem versus outras variáveis

Considere os pares de variáveis: origem e preço, origem e motor e, origem e comprimento.

Há algum par de variáveis apresentando associação?

Construa os boxplots por origem e da distribuição global.

Calcule o R2.

Page 38: Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x
Page 39: Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x
Page 40: Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x

> aov(dados$preco~dados$origem)Call: aov(formula = dados$preco ~ dados$origem)Terms: dados$origem ResidualsSum of Squares 514601743 1648021011Deg. of Freedom 1 28Residual standard error: 7671.89

514601743/(514601743+1648021011)[1] 0.2379526

R.: Cerca de 24% da variação total de preçoé explicada pela origem do veículo (nacional ou importado).

Page 41: Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x
Page 42: Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x
Page 43: Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x

> aov(dados$comprimento~dados$origem)Call: aov(formula = dados$comprimento ~ dados$origem)Terms: dados$origem ResidualsSum of Squares 0.159609 3.750911Deg. of Freedom 1 28Residual standard error: 0.366007

> 0.159609/(0.159609+3.750911)[1] 0.04081529

R.: A origem explica apenas cerca de 4% da variaçãototal devida ao comprimento.

Page 44: Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x
Page 45: Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x
Page 46: Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x

> aov(dados$motor~dados$origem)Call: aov(formula = dados$motor ~ dados$origem)Terms: dados$origem ResidualsSum of Squares 164.356 21328.444Deg. of Freedom 1 28Residual standard error: 27.59946

> 164.356/(164.356+21328.444)[1] 0.007647026

R.: A origem explica apenas 0,7% da variaçãototal de motor.

Page 47: Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x

Comentário

Das análises realizadas, podemos perceber que apenas o par origem e preço apresenta alguma associação com os preços mais altos para importados.

A origem explica cerca de 24% da variação total de preço.

Page 48: Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x

Qqplot

Page 49: Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x

Exemplo C3 (Tabela de contingência)

Referência: Moore, David S., and George P. McCabe (1989). Introduction to the Practice of Statistics. Original source: World Almanac and Book of Facts, 1986

Descrição: Nível de escolaridade de americanos por idade em 1984. As contagens estão em milhares de pessoas.

Fonte: U.S. Bureau of the Census. Americanos de menos de 25 anos não foram incluídos porque muitos ainda não completaram sua formação educacional.

Page 50: Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x

Exemplo C3 (Tabela de contingência)

Educacao 25-34 35-44 45-54 55-64 >64 total<HS 5416 5030 5777 7606 13746 37575HS 16431 1855 9435 8795 7558 44074C1-3 8555 5576 3124 2524 2503 22282C4+ 9771 7596 3904 3109 2483 26863total 40173 20057 22240 22034 26290 130794

Page 51: Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x

Perfis-linha

Educação 25-34 35-44 45-54 55-64 >64 total<HS 0.14 0.13 0.15 0.20 0.37 1.00HS 0.37 0.04 0.21 0.20 0.17 1.00C1-3 0.38 0.25 0.14 0.11 0.11 1.00C4+ 0.36 0.28 0.15 0.12 0.09 1.00total 0.31 0.15 0.17 0.17 0.20 1.00

Page 52: Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x

Perfis-coluna

Educação 25-34 35-44 45-54 55-64 >64 total<HS 0.13 0.25 0.26 0.35 0.52 0.29HS 0.41 0.09 0.42 0.40 0.29 0.34C1-3 0.21 0.28 0.14 0.11 0.10 0.17C4+ 0.24 0.38 0.18 0.14 0.09 0.21total 1.00 1.00 1.00 1.00 1.00 1.00

O qui-quadrado desta tabela é alto: 22373.57 resultando num coeficiente de contingência de Pearson de 0.382194.

Page 53: Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x

Funções do R usadas na aula de hoje: read.table qqplot lm abline plot points

aov chisq.test