Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação...

Preview:

Citation preview

Análise Exploratória de Dados

Objetivos Apresentar outra possibilidade de

representação gráfica para duas variáveis quantitativas: gráfico quantis x quantis.

Trabalhar os exemplos computacionais do livro-texto (páginas 93 e 94) que envolvem uma análise bivariada de variáveis dos arquivos dados9bm.txt (mercado) e dados7bm.txt (veículos).

Gráfico quantis x quantis

Suponha dados os valores nxxx ,...,, 21

da variável X e valores myyy ,...,, 21

da variável Y, todos medidos pela mesmaunidade.

Por exemplo, notas parciais de uma disciplina,ou temperaturas de duas cidades, ou porcenta-gens da renda familiar gastas com saúde eeducação.

Gráfico quantis x quantis (1)

O gráfico qxq é um gráfico dos quantis da variável X contra os quantis da variável Y.

Se m=n o gráfico qxq é um gráfico dos dados ordenados de X contra os dados ordenados de Y.

Se as distribuições dos dois conjuntos de dados fossem idênticas, os pontos estariam sobre a reta y=x.

Gráfico quantis x quantis (2)

Enquanto que um gráfico de dispersão fornece uma possível relação global entre as variáveis, o gráfico qxq mostra se valores pequenos de X estão relacionados com valores pequenos de Y,

se valores intermediários de X estão relacionados com valores intermediários de Y,

se valores grandes de X estão relacionados com valores grandes de Y.

Gráfico quantis x quantis (3)

Num gráfico de dispersão, podemos ter x1< x2 e y1 >y2 .

Num gráfico qxq, não é possível ter x1< x2

e y1 >y2 , pois os valores em ambos os eixos estão ordenados, do menor para o maior.

Exemplo 1 Na tabela a seguir temos as notas de 20 alunos em duas

provas de Estatística. aluno P1 P21 8.5 8.02 3.5 2.83 7.2 6.54 5.5 6.25 9.5 9.06 7.0 7.57 4.8 5.28 6.6 7.29 2.5 4.010 7.0 6.811 7.4 6.512 5.6 5.013 6.3 6.514 3.0 3.015 8.1 9.016 3.8 4.017 6.8 5.518 10.0 10.019 4.5 5.520 5.9 5.0

Estes dados estão arquivados emnotasEst.txt.

Exemplo 1 (cont) Comando que constrói o gráfico de quantis no R, após ler os dados:

qqplot(dados$P1,dados$P2,main=“Gráfico qxq para as notas em duas provas de Estatística”,xlab=“Quantis da primeira prova”,ylab=“Quantis da segunda prova”)

Para inserir no gráfico a reta y=x, acrescente

abline(0,1) # o primeiro número indica o coeficiente linear da reta desejada e, o segundo, o coeficiente angular.

Exemplo 1: (cont.)

Do gráfico de quantis, podemos perceber que as notas em Estatística das provas 1 e 2 tem distribuições muito parecidas, pois os pontos do qqplot estão muito próximos da reta y=x com desvios bem pequenos.

Exemplo 2:

Dados: Temperaturas médias mensais em Ubatuba e Cananéia (SP) na base dados5bm.txt.

Construa o gráfico qxq das temperaturas de Cananéia contra as de Ubatuba.

Exemplo 2: (cont.) Observe que a maior parte dos pontos está

acima da reta y=x, mostrando que as temperaturas de Ubatuba são, em geral, maiores do que as de Cananéia, para valores maiores do que 17 graus.

Obs.: Quando mn, é necessário modificar os valores de p para os quantis da variável com maior número de pontos.

O R aceita vetores de tamanhos diferentes para o qqplot.

Qqplot quando mn

Suponha n>m. Neste caso, usamos interpolação nos quantis da variável X para corresponder aos quantis da variável Y no gráfico, pois há menos observações na variável Y.

Exemplo: Suponha n=40 e m=20. )20()2()1( ... yyy

)40()3()2()1( ... xxxx

Qqplot quando mn (1)

)20()2()1( ... yyy

)40()3()2()1( ... xxxx

Neste caso, para cada valor ordenado de Y, correspondemos um valor médio dos valores ordenados de X.

20,...,1),(2

1

)(2

1

)(2

1

)2()12()(

)4()3()2(

)2()1()1(

ixxversusy

xxversusy

xxversusy

iii

Qqplot quando mn (2)

Mais geralmente, quando n>m correspondemos os quantis y(i) aos quantis de X: )( jx onde

5,0)5,0( im

nj

Se j for inteiro, fazemos o gráfico de y(i) versus x(j).

Caso contrário, se j=k+r, onde k é inteiro e 0<r<1, fazemos o gráfico de y(i) versus x*

(j) onde

)1()()(* )1( kkj rxxrx

Exercício 34 do livro

A 65 54 49 60 70 25 87 100 70 102 40 47B 48 35 45 50 52 20 72 102 46 82

Faça o gráfico qxq para os dois conjuntos A e B abaixo:

Observe que neste caso n=12 e m=10 i n/m(i-0.5)+0.5 k r x*j yi1 1.1 1 0.1 26.5 202 2.3 2 0.3 42.1 353 3.5 3 0.5 48 454 4.7 4 0.7 52.5 465 5.9 5 0.9 59.4 486 7.1 7 0.1 65.5 507 8.3 8 0.3 70 528 9.5 9 0.5 78.5 729 10.7 10 0.7 96.1 82

10 11.9 11 0.9 102 102

A quan pos.65 25 154 40 249 47 360 49 470 54 525 60 687 65 7

100 70 870 70 9

102 87 1040 100 1147 102 12

Quantis de X

cálculos

Exercício 34 do livro

Exemplo 3:

Dados: salários em dados6bm.txt. Faça o gráfico qxq da variável salário de

professor secundário contra salário de administrador.

A variável nivelmedio da base representa os salários do professor de ensino médio.

Faça comentários sobre a forma do gráfico obtido.

Comentário

É possível perceber claramente, pelo gráfico qxq que os salários de professores do nível médio são menores do que os salários dos administradores.

Exemplos computacionais

Exemplo C1: Duas variáveis quantitativas Dados: mercado em dados9bm.txt Dispõe-se dos preços de fechamento

diários de ações da telebrás (Y) e os índices IBOVESPA(X), de 2 de janeiro a 24 de fevereiro de 1995, num total de n=39 observações.

Construa o diagrama de dispersão destes dados.

Comentários A nuvem de pontos do diagrama de dispersão

de IBOVESPA contra o preço das ações da Telebrás mostra que há forte correlação positiva entre estas variáveis.

Represente no diagrama de dispersão obtido a reta de mínimos quadrados, onde IBOVESPA é a variável independente e preço das ações da Telebrás, a variável dependente.

Reta de mínimos quadrados

Correlação

cor(dados$indice,dados$telebras) [1] 0.9818552

Reta de mínimos quadrados

Coefficients: (Intercept) dados$indice -3.7588 0.8808 Modelo:

Preco_Telebras=-3.7588+0.8808x(IBOVESPA)

Valores ajustados versus resíduos

Exemplo C2: Dados sobre veículos em dados7bm.txt. Dispõe-se de preço, comprimento e a

capacidade do motor de veículos vendido no Brasil em duas categorias: Nacional e Importado.

Podemos fazer um gráfico de dispersão simbólico de preços e comprimentos, indicando por N se o carro for nacional e I, caso contrário.

Exemplo C2: (cont.)

Para a construção de tal diagrama de dispersão, vamos primeiramente ordenar a base de dados pela variável origem (nacional ou importado).

dados<-read.table(“m:\\natalie\\aed\\dados7bm.txt”,header=T)

indice<-order(dados$origem) table(dados$origem) dadosord<-dados[indice,]

Exemplo C2: (cont.)

I N 12 18 Assim, em dadosord, as observações de 1

a 12 referem-se a veículos importados e de 13 a 30 referem-se a veículos nacionais.

Exemplo C2: (cont.)

plot(dadosord$comprimento[13:30],dadosord$preco[13:30],pch="N",col="red",main="Gráfico de dispersão simbólico das variáveis comprimento e preco",sub="N: nacional, I:importado",ylab="preco",xlab="comprimento”, ylim=c(5000,39000),xlim=c(3,5))

points(dadosord$comprimento[1:12],dadosord$preco[1:12],pch="I",col="blue")

Motor e preço

Motor e comprimento

Origem versus outras variáveis

Considere os pares de variáveis: origem e preço, origem e motor e, origem e comprimento.

Há algum par de variáveis apresentando associação?

Construa os boxplots por origem e da distribuição global.

Calcule o R2.

> aov(dados$preco~dados$origem)Call: aov(formula = dados$preco ~ dados$origem)Terms: dados$origem ResidualsSum of Squares 514601743 1648021011Deg. of Freedom 1 28Residual standard error: 7671.89

514601743/(514601743+1648021011)[1] 0.2379526

R.: Cerca de 24% da variação total de preçoé explicada pela origem do veículo (nacional ou importado).

> aov(dados$comprimento~dados$origem)Call: aov(formula = dados$comprimento ~ dados$origem)Terms: dados$origem ResidualsSum of Squares 0.159609 3.750911Deg. of Freedom 1 28Residual standard error: 0.366007

> 0.159609/(0.159609+3.750911)[1] 0.04081529

R.: A origem explica apenas cerca de 4% da variaçãototal devida ao comprimento.

> aov(dados$motor~dados$origem)Call: aov(formula = dados$motor ~ dados$origem)Terms: dados$origem ResidualsSum of Squares 164.356 21328.444Deg. of Freedom 1 28Residual standard error: 27.59946

> 164.356/(164.356+21328.444)[1] 0.007647026

R.: A origem explica apenas 0,7% da variaçãototal de motor.

Comentário

Das análises realizadas, podemos perceber que apenas o par origem e preço apresenta alguma associação com os preços mais altos para importados.

A origem explica cerca de 24% da variação total de preço.

Qqplot

Exemplo C3 (Tabela de contingência)

Referência: Moore, David S., and George P. McCabe (1989). Introduction to the Practice of Statistics. Original source: World Almanac and Book of Facts, 1986

Descrição: Nível de escolaridade de americanos por idade em 1984. As contagens estão em milhares de pessoas.

Fonte: U.S. Bureau of the Census. Americanos de menos de 25 anos não foram incluídos porque muitos ainda não completaram sua formação educacional.

Exemplo C3 (Tabela de contingência)

Educacao 25-34 35-44 45-54 55-64 >64 total<HS 5416 5030 5777 7606 13746 37575HS 16431 1855 9435 8795 7558 44074C1-3 8555 5576 3124 2524 2503 22282C4+ 9771 7596 3904 3109 2483 26863total 40173 20057 22240 22034 26290 130794

Perfis-linha

Educação 25-34 35-44 45-54 55-64 >64 total<HS 0.14 0.13 0.15 0.20 0.37 1.00HS 0.37 0.04 0.21 0.20 0.17 1.00C1-3 0.38 0.25 0.14 0.11 0.11 1.00C4+ 0.36 0.28 0.15 0.12 0.09 1.00total 0.31 0.15 0.17 0.17 0.20 1.00

Perfis-coluna

Educação 25-34 35-44 45-54 55-64 >64 total<HS 0.13 0.25 0.26 0.35 0.52 0.29HS 0.41 0.09 0.42 0.40 0.29 0.34C1-3 0.21 0.28 0.14 0.11 0.10 0.17C4+ 0.24 0.38 0.18 0.14 0.09 0.21total 1.00 1.00 1.00 1.00 1.00 1.00

O qui-quadrado desta tabela é alto: 22373.57 resultando num coeficiente de contingência de Pearson de 0.382194.

Funções do R usadas na aula de hoje: read.table qqplot lm abline plot points

aov chisq.test

Recommended