30
7. Medida de associação entre duas variáveis quantitativas Considere duas variáveis aleatórias X e Y observadas conjuntamente. Então, uma amostra bivariada de tamanho n, de pares (X, Y), é dada por: (x 1 , y 1 ), (x 2 , y 2 ), (x 3 , y 3 ), . . . , (x n , y n ). Uma forma de representar graficamente os valores observados é através de um gráfico de pontos no plano cartesiano, por meio do qual podemos verificar se existe alguma relação entre X e Y, como por exemplo, uma relação linear (uma reta), conforme Figura 7.1. Figura 7.1: Plano cartesiano com pares de pontos (x, y), com relação linear aproximada.

7. Medida de associação entre duas variáveis quantitativas · Muitas vezes, na análise de dados, temos o interesse em avaliar o comportamento linear da associação entre duas

Embed Size (px)

Citation preview

Page 1: 7. Medida de associação entre duas variáveis quantitativas · Muitas vezes, na análise de dados, temos o interesse em avaliar o comportamento linear da associação entre duas

7. Medida de associação entre duas variáveis quantitativas

Considere duas variáveis aleatórias X e Y observadas

conjuntamente. Então, uma amostra bivariada de tamanho n, de

pares (X, Y), é dada por:

(x1, y1), (x2, y2), (x3, y3), . . . , (xn, yn).

Uma forma de representar graficamente os valores observados

é através de um gráfico de pontos no plano cartesiano, por meio

do qual podemos verificar se existe alguma relação entre X e Y,

como por exemplo, uma relação linear (uma reta), conforme

Figura 7.1.

Figura 7.1: Plano cartesiano com pares de pontos (x, y), com

relação linear aproximada.

Page 2: 7. Medida de associação entre duas variáveis quantitativas · Muitas vezes, na análise de dados, temos o interesse em avaliar o comportamento linear da associação entre duas

Muitas vezes, na análise de dados, temos o interesse em

avaliar o comportamento linear da associação entre duas variáveis

quantitativas.

Uma forma de medir o grau da associação linear entre duas

variáveis quantitativas é dada pelo coeficiente de correlação de

Pearson, denotado por xy e definido por

)()(

),(),(

YVarXVar

YXCovYXCorxy ,

em que, ),( YXCov é uma medida de variação conjunta de X e Y,

chamada de covariância.

7.1. O coeficiente de correlação amostral

Sejam duas variáveis aleatórias X e Y, observadas

conjuntamente. Para definirmos o coeficiente de correlação

amostral, primeiramente vamos definir a covariância amostral

entre X e Y:

1

))((

n

yyxxs ii

xy .

Com um pouco de álgebra, mostra-se que a expressão acima

pode ser escrita como

1

n

yxnyxs ii

xy .

Page 3: 7. Medida de associação entre duas variáveis quantitativas · Muitas vezes, na análise de dados, temos o interesse em avaliar o comportamento linear da associação entre duas

Desta forma, o coeficiente de correlação amostral xyr é

definido por:

22 )()(

))((

yyxx

yyxxr

ii

iixy ,

)()( 2222

ynyxnx

yxnyxr

ii

iixy

Ou seja,

yx

xy

xyss

sr ,

em que xs e ys são os desvios padrões amostrais de X e Y,

respectivamente.

Exemplo 7.1: Sejam os dados:

x 2 3 5 5 7 8

y 11 15 13 18 17 16

Logo, n = 6 e

i) 56

30x , 1762

ix e

2625617622 xnxi 2.55

262 xs

Page 4: 7. Medida de associação entre duas variáveis quantitativas · Muitas vezes, na análise de dados, temos o interesse em avaliar o comportamento linear da associação entre duas

ii) 156

90y 13842

iy e

342256138422 ynyi 8.65

342 ys

iii) 469ii yx 191556469 yxnyx ii e

8.35

19xys

Desta forma:

639.03426

19

8.62.5

8.3

xyr

Figura 7.2: Representação dos dados do exemplo.

Page 5: 7. Medida de associação entre duas variáveis quantitativas · Muitas vezes, na análise de dados, temos o interesse em avaliar o comportamento linear da associação entre duas

Comandos no R:

> x <- c(2,3,5,5,7,8)

> y <- c(11,15,13,18,17,16)

> sum(x)

[1] 30

> mean(x)

[1] 5

> sum(x^2)

[1] 176

> var(x)

[1] 5.2

> sum(y)

[1] 90

> mean(y)

[1] 15

> sum(y^2)

[1] 1384

> var(y)

[1] 6.8

> sum(x*y)

[1] 469

> cov(x,y)

[1] 3.8

> rxy <- cov(x,y)/sqrt(var(x)*var(y))

> rxy

[1] 0.6390392

> cor(x,y)

[1] 0.6390392

Page 6: 7. Medida de associação entre duas variáveis quantitativas · Muitas vezes, na análise de dados, temos o interesse em avaliar o comportamento linear da associação entre duas

Notas:

i) O coeficiente de correlação varia ente −1 e 1;

Se a relação entre X e Y é linear, do tipo Y = aX + b, então

rxy é igual a 1 se a > 0 (inclinação positiva);

rxy é igual a −1 ser a < 0 (inclinação negativa);

ii) quanto mais os pontos se aproximam de uma linha reta, mais

rxy se aproxima de 1 (ou −1).

iii) Assim, podemos classificar a relação entre X e Y em função

da magnitude do coeficiente de correlação amostral:

Valor de rxy Classificação

| rxy | = 1 correlação perfeita

0.90 ≤ | rxy | < 1 correlação muito forte

0.70 ≤ | rxy | < 0.90 correlação forte

0.40 ≤ | rxy | < 0.70 correlação moderada

0.20 ≤ | rxy | < 0.40 correlação fraca

0 ≤ | rxy | < 0.20 correlação muito fraca

Exemplo 7.2: Coeficiente de correlação linear para n = 200 pares

de pontos (x, y), calculado no R.

0.1xyr 939.0xyr 770.0xyr

Page 7: 7. Medida de associação entre duas variáveis quantitativas · Muitas vezes, na análise de dados, temos o interesse em avaliar o comportamento linear da associação entre duas

528.0xyr 331.0xyr 048.0xyr

7.2. Interpretação geométrica do coeficiente de correlação

amostral

Considere n, de pares (x1, y1), (x2, y2), (x3, y3), . . . , (xn, yn).

Então, x = (x1, x2, x3, . . . , xn) e y = (y1, y2, y3, . . . , yn) podem

ser considerados dois vetores no espaço n-dimensional.

Seja o ângulo entre os vetores x e y, mostra-se por meio do

produto escalar entre x e y, corrigidos pelas suas respectivas

médias amostrais x e y , que o cosseno de é dado por:

22 )()(

))(()cos(

yyxx

yyxx

ii

ii ,

ou seja, xyr)cos( .

Exemplo 7.3: Sejam os dados (2, 6), (4, 8), (6, 7), então, 4x e

7y . Logo )2,0,2()( xx e )0,1,1()( yy .

Como, o cosseno do ângulo entre os vetores )6,4,2(x e

)7,8,6(y é dado por:

Page 8: 7. Medida de associação entre duas variáveis quantitativas · Muitas vezes, na análise de dados, temos o interesse em avaliar o comportamento linear da associação entre duas

Figura 7.3: Representação dos vetores x e y no espaço 3D.

)()()()(

)()()cos(

yyyyxxxx

yyxxtt

t

.

Mas: ))(()()( yyxx iiyyxxt

2)()()( xxixxxxt

2)()()( yyiyyyyt

Então, xy

ii

ii ryyxx

yyxx

22 )()(

))(()cos(

Page 9: 7. Medida de associação entre duas variáveis quantitativas · Muitas vezes, na análise de dados, temos o interesse em avaliar o comportamento linear da associação entre duas

No exemplo, temos que:

8)2,0,2()2,0,2( t

2)0,1,1()0,1,1( t

2)0,1,1()2,0,2( t

Portanto, 2

1

28

2)cos(

60)5.0arcos(

De fato, cor(X, Y) = 0.5

## cálculo da correlação no R

#############################

x <- c(2,4,6)

y <- c(6,8,7)

cor(x,y)

[1] 0.5

Comandos do Maple para representação dos vetores.

with(plots):

x := arrow(`<,>`(2, 4, 6), shape = arrow, color = red);

y := arrow(`<,>`(6, 8, 7), shape = arrow, color = red);

display(x, y, scaling = CONSTRAINED);

Page 10: 7. Medida de associação entre duas variáveis quantitativas · Muitas vezes, na análise de dados, temos o interesse em avaliar o comportamento linear da associação entre duas

Exemplo 7.4: Considere as medidas da qualidade do ar no

aeroporto de Nova Iorque.

Medidas diárias da qualidade do ar em Nova Iorque entre maio e

setembro de 1973.

O conjunto de dados é formado por 154 observações em 6

variáveis. Excluindo-se os dados perdidos (missing) este número

caiu para 111.

Descrição dos dados:

Leituras diárias das seguintes medidas de qualidade do ar no

período de 1 de maio a 30 de setembro de 1973.

i) Ozone: ozônio, em partes por bilhão;

ii) Solar.R: radiação solar em Langleys, na banda de frequência

de 4000–7700 Angstroms;

iii) Wind: velocidade media do vento em milhas por hora;

iv) Temp: tempartura máxima diária em graus Fahrenheit.

Fonte: Os dados foram obtidos do Departamento de Conservação

(Department of Conservation) e do Serviço Nacional de

Meteorologia (National Weather Service) de Nova Iorque.

require(graphics)

attach(airquality)

clima <- na.omit(data.frame(Solar.R,Ozone,Temp,Wind))

attach(clima)

cor(Temp,Ozone)

[1] 0.6985414

cor(Wind,Ozone)

[1] -0.6124966

cor(Wind,Solar.R)

[1] -0.1271835

Page 11: 7. Medida de associação entre duas variáveis quantitativas · Muitas vezes, na análise de dados, temos o interesse em avaliar o comportamento linear da associação entre duas

7.3. Relações não lineares

O coeficiente de correlação linear é uma medida da

correlação linear entre duas variáveis X e Y, não sendo indicado

quando a relação não for linear (como por exemplo, quadrática).

No entanto, devido à disposição dos pontos no plano

cartesiano, uma relação não linear pode resultar num coeficiente

de correlação alto, indicando falsamente a existência de uma

relação linear entre as variáveis.

Exemplo 7.4: Considere os dois casos abaixo.

Caso 1: relação quadrática.

x 26.03 26.79 27.02 27.58 25.19 24.37 24.77 25.01 27.40

y 2330.4 2434.0 2650.5 4784.2 1208.1 1210.6 1087.1 1492.8 4291.2

x 22.40 25.82 23.66 25.81 27.12 26.88 22.82 23.25 25.52

y 868.1 1843.2 964.5 1429.7 4403.6 4273.6 711.3 753.0 1308.8

Apesar da associação quadrática, o coeficiente de correlação

linear é muito alto: 8506.0xyr .

x <- c(26.03,26.79,27.02,27.58,25.19,24.37,24.77,

25.01,27.40,22.40,25.82,23.66,25.81,27.12,

26.88,22.82,23.25,25.52)

Page 12: 7. Medida de associação entre duas variáveis quantitativas · Muitas vezes, na análise de dados, temos o interesse em avaliar o comportamento linear da associação entre duas

y <- c(2330.4,2434.0,2650.5,4784.2,1208.1,1210.6,

1087.1,1492.8,4291.2, 868.1,1843.2, 964.5,

1429.7,4403.6,4273.6, 711.3, 753.0,1308.8)

cor(x,y)

[1] 0.8506397

Caso 2: relação exponencial:

x 90.0 92.1 148.4 315.0 286.3 72.6 184.7 249.1 70.5

y 8 5 3 1 2 7 3 1 8

x 142.6 190.7 145.3 76.4 228.7 91.7 244.0 232.1 94.2

y 4 2 5 9 2 6 2 1 7

Apesar da associação exponencial, o coeficiente de

correlação linear é muito alto: 9068.0xyr

x <- c( 90.0, 92.1,148.4,315.0,286.3, 72.6,184.7,

249.1, 70.5,142.6,190.7,145.3, 76.4,228.7,

91.7,244.0,232.1, 94.2)

y <- c(8,5,3,1,2,7,3,1,8,4,2,5,9,2,6,2,1,7)

cor(x,y)

[1] -0.9068605

Page 13: 7. Medida de associação entre duas variáveis quantitativas · Muitas vezes, na análise de dados, temos o interesse em avaliar o comportamento linear da associação entre duas

74. Matriz de correlações amostrais

Quando temos várias variáveis para serem analisadas e

pretendemos calcular todas as correlações duas-a-duas, uma

forma bastante prática de representa-las é através de uma matriz.

A matriz de correlações amostrais é denotada por R,

tendo as correlações representadas nos cruzamentos das linhas

com as colunas.

A matriz de correlações amostrais R apresenta as seguintes

características:

i) os elementos da diagonal de R são iguais a 1 uma vez que a

correlação de uma variável consigo mesma é 1;

ii) a matriz R é simétrica, pois para duas variáveis quaisquer Xi

e Xj :

),(),( ijji XXcorXXcor ;

iii) os elementos de R fora da diagonal são valores entre −1 e 1.

Exemplo: matriz de correlações 44.

1 cor(X1, X2) cor(X1, X3) cor(X1, X4)

R = cor(X2, X1) 1 cor(X2, X3) cor(X2, X4)

cor(X3, X1) cor(X3, X2) 1 cor(X3, X4)

cor(X4, X1) cor(X4, X2) cor(X4, X3) 1

Page 14: 7. Medida de associação entre duas variáveis quantitativas · Muitas vezes, na análise de dados, temos o interesse em avaliar o comportamento linear da associação entre duas

Exemplo 7.5: Dados da qualidade do ar em Nova Iorque.

# criando uma matriz de dados

#############################

clima <- cbind(Solar.R,Temp,Ozone,Wind)

cor(clima)

Solar.R Temp Ozone Wind

Solar.R 1.0000000 0.2940876 0.3483417 -0.1271835

Temp 0.2940876 1.0000000 0.6985414 -0.4971897

Ozone 0.3483417 0.6985414 1.0000000 -0.6124966

Wind -0.1271835 -0.4971897 -0.6124966 1.0000000

Exemplo 7.6: Dados dos alunos de Estatística 1 no primeiro

semestre de 2015. Calcular as correlações amostrais das variáveis

Tempo para chegar na UFScar, Idade, Peso e Altura.

dados <- read.table(choose.files(), head=T)

attach(dados)

# criando um data frame

#######################

dados.q <- data.frame(Tempo,Idade,Peso,Altura)

cor(dados.q, use="na.or.complete")

Tempo Idade Peso Altura

Tempo 1.00000000 -0.09145379 0.01523087 0.04526220

Idade -0.09145379 1.00000000 0.18756244 0.09099185

Peso 0.01523087 0.18756244 1.00000000 0.66086059

Altura 0.04526220 0.09099185 0.66086059 1.00000000

Page 15: 7. Medida de associação entre duas variáveis quantitativas · Muitas vezes, na análise de dados, temos o interesse em avaliar o comportamento linear da associação entre duas

8. Associação entre variáveis quantitativas e qualitativas

Sejam duas variáveis X e Y, observadas conjuntamente, sendo

uma delas quantitativa e a outra qualitativa. A associação

entre variáveis X e Y pode ser medida basicamente de duas

maneiras:

8.1. Categorizando a variável quantitativa

Categoriza-se a variável quantitativa em classes,

adequadamente escolhidas, e cruzam-se as duas variáveis numa

tabela de dupla entrada.

Neste caso, a associação é medida pelo 2 de Pearson e das

medidas de associação (coeficiente de contingência, coeficiente V

de Cramér, coeficiente ).

Exemplo 7.7: Levantamento da dados sobre o tipo de crimes pela

da idade do praticante (dados fictícios).

Variáveis observadas: idade (anos), crime (tipo de crime).

A variável idade foi categorizada nas seguintes faixas etárias:

de 15 a 25 (incompletos);

de 25 a 35 (incompletos);

35 anos ou mais.

idade <- c(16, 17, 17, 18, 18, 18, 18, 18, 19, 19, 19, 21, 21,

21, 22, 22, 22, 23, 23, 23, 23, 23, 24, 25, 25, 26, 26, 27, 27,

28, 28, 28, 29, 29, 29, 30, 30, 31, 31, 32, 33, 33, 34, 34, 34,

35, 37, 37, 37, 38, 39, 40, 40, 41, 42, 42, 43, 44, 45, 46, 48,

50, 54, 54)

Page 16: 7. Medida de associação entre duas variáveis quantitativas · Muitas vezes, na análise de dados, temos o interesse em avaliar o comportamento linear da associação entre duas

crime <- c("Furto ou Roubo", "Furto ou Roubo", "Furto ou Roubo",

"Furto ou Roubo", "Latrocínio", "Latrocínio", "Latrocínio",

"Sequestro relâmpago", "Furto ou Roubo", "Furto ou Roubo",

"Sequestro relâmpago", "Furto ou Roubo", "Furto ou Roubo",

"Latrocínio", "Latrocínio", "Sequestro relâmpago", "Sequestro

relâmpago", "Furto ou Roubo", "Latrocínio", "Sequestro relâmpago",

"Sequestro relâmpago", "Estelionato", "Furto ou Roubo", "Furto ou

Roubo", "Estelionato", "Latrocínio", "Estupro", "Latrocínio",

"Estupro", "Latrocínio", "Sequestro relâmpago", "Receptação",

"Furto ou Roubo", "Latrocínio", "Receptação", "Estupro",

"Receptação", "Estupro", "Estelionato", "Latrocínio",

"Latrocínio", "Sequestro relâmpago", "Furto ou Roubo", "Sequestro

relâmpago", "Estupro", "Sequestro relâmpago", "Furto ou Roubo",

"Estupro", "Estelionato", "Furto ou Roubo", "Receptação", "Furto

ou Roubo", "Receptação", "Estupro", "Receptação", "Receptação",

"Estupro", "Furto ou Roubo", "Estupro", "Estelionato",

"Receptação", "Estupro", "Estelionato", "Estelionato")

fx_etar <- c("15 a 25-", "15 a 25-", "15 a 25-", "15 a 25-", "15

a 25-", "15 a 25-", "15 a 25-", "15 a 25-", "15 a 25-", "15 a 25-

", "15 a 25-", "15 a 25-", "15 a 25-", "15 a 25-", "15 a 25-", "15

a 25-", "15 a 25-", "15 a 25-", "15 a 25-", "15 a 25-", "15 a 25-

", "15 a 25-", "15 a 25-", "25 a 35-", "25 a 35-", "25 a 35-", "25

a 35-", "25 a 35-", "25 a 35-", "25 a 35-", "25 a 35-", "25 a 35-

", "25 a 35-", "25 a 35-", "25 a 35-", "25 a 35-", "25 a 35-", "25

a 35-", "25 a 35-", "25 a 35-", "25 a 35-", "25 a 35-", "25 a 35-

", "25 a 35-", "25 a 35-", "35 ou mais", "35 ou mais", "35 ou

mais", "35 ou mais", "35 ou mais", "35 ou mais", "35 ou mais", "35

ou mais", "35 ou mais", "35 ou mais", "35 ou mais", "35 ou mais",

"35 ou mais", "35 ou mais", "35 ou mais", "35 ou mais", "35 ou

mais", "35 ou mais", "35 ou mais")

Tabelas de frequências das variáveis crime e faixa etária.

Crime ni

Faixa etária ni

Furto ou roubo 17

15 a 25- 23

Latrocínio 12

25 a 35- 22

Estupro 10

35 anos ou mais 19

Sequestro relâmpago 10

Total 64

Receptação 8

Estelionato 7

Total 64

Page 17: 7. Medida de associação entre duas variáveis quantitativas · Muitas vezes, na análise de dados, temos o interesse em avaliar o comportamento linear da associação entre duas

# Histograma da variável idade (anos)

#####################################

br <- seq(15,57,by=6)

hist(idade, breaks=br, col="lightcoral", main="Idade

(anos)", xlab="", ylab="", axes=FALSE)

axis(2)

axis(1,br)

> tab <- table(crimes,fx_etar)

> tab

+----------------------------------+

| fx_etar |

+---------------------+----------+----------+------------+

| crimes | 15 a 25- | 25 a 35- | 35 ou mais |

+---------------------+----------+----------+------------+

| Furto ou Roubo | 10 | 3 | 4 |

| Latrocínio | 6 | 6 | 0 |

| Sequestro relâmpago | 6 | 3 | 1 |

| Estelionato | 1 | 2 | 4 |

| Estupro | 0 | 5 | 5 |

| Receptação | 0 | 3 | 5 |

+---------------------+----------+----------+------------+

Page 18: 7. Medida de associação entre duas variáveis quantitativas · Muitas vezes, na análise de dados, temos o interesse em avaliar o comportamento linear da associação entre duas

> chisq.test(tab) # Cálculo do X2

Pearson's Chi-squared test

data: tab

X-squared = 26.378, df = 10, p-value = 0.003264

Warning message:

In chisq.test(tab) : Chi-squared approximation may be

incorrect

Devido ao número excessivo de caselas da tabela com

frequências muito pequenas (menores do que 5), a análise pelo

quiquadro (X 2) não é válida (ver advertência, ou Warning

message).

Neste caso, podemos verificar uma evidência de associação

pelo gráfico de colunas, indicando que os crimes de furto ou

roubo, latrocínio e sequestro relâmpago são mais comuns na

faixa etária mais baixa e, os crimes de estelionato, estupro e

receptação são mais frequentes na faixa etária mais alta, vamos

calcular as medidas de associação.

Page 19: 7. Medida de associação entre duas variáveis quantitativas · Muitas vezes, na análise de dados, temos o interesse em avaliar o comportamento linear da associação entre duas

Vamos utilizar o R para calcular os coeficientes de

contingência e V de Cramér. Para isso, é necessário carregar o

pacote vcd com o comando require(vcd).

require(vcd) # carregando o pacote vcd

assocstats(tab) # commando para as medidas de associação

X^2 df P(> X^2)

Likelihood Ratio 35.192 10 0.00011578

Pearson 26.378 10 0.00326359

Phi-Coefficient : 0.642

Contingency Coeff.: 0.540

Cramer's V : 0.454

Apresentação dos cálculos:

i) Coeficiente de contingência: t = min(6, 3) = 3

540.02919.0378.90

378.26

64378.26

378.26

C

662.0)13(

3540.0*

C

ii) Coeficiente V de Cramér:

454.02061.0128

134.79

642

378.26

V

Page 20: 7. Medida de associação entre duas variáveis quantitativas · Muitas vezes, na análise de dados, temos o interesse em avaliar o comportamento linear da associação entre duas

8.2. Comparando cada classe da variável qualitativa

Avalia-se a variável quantitativa individualmente para cada uma das categorias da variável qualitativa, comparando-se os

resultados. A análise pode ser feita através das medidas

descritivas e graficamente (histogramas, box-plot’s, gráficos de

pontos).

Exemplo 7.8: Num estudo sobre a eficácia de inibidores de

ferrugem, quatro marcas (A, B, C, D) foram testadas. Ao todo, 40

corpos de prova foram distribuídos entre as quatro marcas, sendo

10 unidades para cada uma. Os 40 corpos de prova passaram por

um tratamento pelo respectivo inibidor e foram expostos à

severas condições de tempo. Os resultados são apresentados na

tabela 7.1: quanto maior o valor mais avaliado, mais eficaz é o

inibidor de ferrugem.

Tabela 7.1: Inibidores de ferrugem de 4 marcas.

Unidade Marca A Marca B Marca C Marca D

1 43.9 59.8 53.4 36.2

2 39.0 57.1 54.3 45.2

3 46.7 62.7 53.5 40.7

4 43.8 60.6 51.4 40.5

5 44.2 57.7 55.0 39.3

6 47.7 62.4 53.1 40.3

7 43.6 56.1 55.6 43.2

8 38.9 58.1 50.2 38.7

9 43.6 60.8 48.8 40.9

10 40.0 59.1 54.2 39.7 Fonte: Neter, Wasserman, Kutner - Applied Linear Statistical Models,

IRWIN, 3rd Ed. (dados modificados).

Page 21: 7. Medida de associação entre duas variáveis quantitativas · Muitas vezes, na análise de dados, temos o interesse em avaliar o comportamento linear da associação entre duas

A) No Minitab

Descriptive Statistics: Y Variable Marca N Mean Variance CoefVar Q1 Median Q3

Corrosao A 10 43.14 9.00 6.95 39.75 43.70 44.825

B 10 59.44 4.92 3.73 57.55 59.45 61.200

C 10 52.95 4.70 4.10 51.10 53.45 54.475

D 10 40.47 5.94 6.02 39.15 40.40 41.475

Variable Marca Skewness Kurtosis

Corrosao A -0.19 -0.81

B 0.09 -1.08

C -0.87 -0.07

D 0.39 1.24

63.059.556.052.549.045.542.038.5

A

B

C

D

Corrosão

Ma

rca

Gráfico de pontos de Corrosão x Marca

DCBA

65

60

55

50

45

40

35

Marca

Co

rro

o

Boxplot de Corrosão

Page 22: 7. Medida de associação entre duas variáveis quantitativas · Muitas vezes, na análise de dados, temos o interesse em avaliar o comportamento linear da associação entre duas

B) No R

Corrosao <- c(43.9, 39.0, 46.7, 43.8, 44.2, 47.7,

43.6, 38.9, 43.6, 40.0, 59.8, 57.1, 62.7, 60.6,

57.7, 62.4, 56.1, 58.1, 60.8, 59.1, 53.4, 54.3,

53.5, 51.4, 55.0, 53.1, 55.6, 50.2, 48.8, 54.2,

36.2, 45.2, 40.7, 40.5, 39.3, 40.3, 43.2, 38.7,

40.9, 39.7)

Marca <- factor(c(rep("A",10), rep("B",10),

rep("C",10), rep("D",10)))

boxplot(Corrosao ~ Marca, main="Box-plot de Corrosão

x Marca", xlab="Marca", ylab="Corrosão", pch=19,

col=c("red","blue","green","yellow2"), cex.main=1)

Page 23: 7. Medida de associação entre duas variáveis quantitativas · Muitas vezes, na análise de dados, temos o interesse em avaliar o comportamento linear da associação entre duas

# construindo a matriz mCorrosao com os dados

#############################################

y1 <- Corrosao[which(Marca=="A")]

y2 <- Corrosao[which(Marca=="B")]

y3 <- Corrosao[which(Marca=="C")]

y4 <- Corrosao[which(Marca=="D")]

mCorrosao <- cbind(y1,y2,y3,y4)

dimnames(mCorrosao)[[2]] <- c("Marca A", "Marca B",

"Marca C", "Marca D")

mCorrosao

Marca A Marca B Marca C Marca D

[1,] 43.9 59.8 53.4 36.2

[2,] 39.0 57.1 54.3 45.2

[3,] 46.7 62.7 53.5 40.7

[4,] 43.8 60.6 51.4 40.5

[5,] 44.2 57.7 55.0 39.3

[6,] 47.7 62.4 53.1 40.3

[7,] 43.6 56.1 55.6 43.2

[8,] 38.9 58.1 50.2 38.7

[9,] 43.6 60.8 48.8 40.9

[10,] 40.0 59.1 54.2 39.7

# calculando as medidas descritivas

###################################

xbar <- apply(mCorrosao, 2, mean)

vari <- apply(mCorrosao, 2, var)

cf.var <- 100*apply(mCorrosao, 2,

sd)/apply(mCorrosao, 2, mean)

Q1 <- apply(mCorrosao, 2, quantile)[2,]

mediana <- apply(mCorrosao, 2, median)

Q3 <- apply(mCorrosao, 2, quantile)[4,]

skew <- apply(mCorrosao, 2, skewness)

kurt <- apply(mCorrosao, 2, kurtosis)

Page 24: 7. Medida de associação entre duas variáveis quantitativas · Muitas vezes, na análise de dados, temos o interesse em avaliar o comportamento linear da associação entre duas

# colocando as medidas descritivas numa tabela

##############################################

Descritivas <- rbind(xbar, vari, cf.var, Q1,

mediana, Q3, skew, kurt)

round(Descritivas,3)

# medidas descritivas calculadas no R

#####################################

Marca A Marca B Marca C Marca D

xbar 43.140 59.440 52.950 40.470

vari 9.000 4.920 4.703 5.936

cf.var 6.954 3.732 4.096 6.020

Q1 40.900 57.800 51.825 39.400

mediana 43.700 59.450 53.450 40.400

Q3 44.125 60.750 54.275 40.850

skew -0.134 0.063 -0.628 0.282

kurt -1.384 -1.506 -1.045 -0.440

Page 25: 7. Medida de associação entre duas variáveis quantitativas · Muitas vezes, na análise de dados, temos o interesse em avaliar o comportamento linear da associação entre duas

Exemplo 7.9: Analisar a associação entre as variáveis Altura e

Sexo dos alunos das turmas A e B de Estatística 1, primeiro

semestre de 2015.

Análises feitas pelo R: Altura <- c(1.52, 1.55, 1.57, 1.58, 1.59, 1.60, 1.60,

1.60, 1.61, 1.63, 1.63, 1.64, 1.65, 1.65, 1.65, 1.67,

1.68, 1.68, 1.68, 1.69, 1.70, 1.70, 1.70, 1.70, 1.70,

1.72, 1.72, 1.73, 1.73, 1.73, 1.73, 1.74, 1.74, 1.74,

1.75, 1.75, 1.76, 1.77, 1.77, 1.78, 1.78, 1.78, 1.79,

1.79, 1.79, 1.80, 1.80, 1.80, 1.83, 1.83, 1.83, 1.83,

1.89, 1.90, 1.95)

Sexo <- c("Fem", "Fem", "Fem", "Fem", "Fem", "Fem",

"Fem", "Fem", "Fem", "Fem", "Masc", "Fem", "Fem",

"Masc", "Masc", "Fem", "Fem", "Fem", "Fem", "Fem",

"Masc", "Masc", "Fem", "Fem", "Masc", "Fem", "Masc",

"Fem", "Masc", "Fem", "Fem", "Masc", "Masc", "Masc",

"Masc", "Fem", "Masc", "Masc", "Masc", "Masc", "Masc",

"Fem", "Masc", "Masc", "Masc", "Masc", "Masc", "Masc",

"Masc", "Masc", "Masc", "Masc", "Masc", "Masc", "Masc")

Histograma de Altura.

Page 26: 7. Medida de associação entre duas variáveis quantitativas · Muitas vezes, na análise de dados, temos o interesse em avaliar o comportamento linear da associação entre duas

1ª. Possibilidade:

A seguir vamos analisar a variável Altura comparando-a para

classe da variável Sexo.

# calculando as medidas descritivas

###################################

require(e1071) # pacote para cálculo de

# assimetria e curtose

y1 <- Altura[which(Sexo=="Fem")]

y2 <- Altura[which(Sexo=="Masc")]

xbar <- c(mean(y1),mean(y2))

desv.pad <- c(sd(y1),sd(y2))

cf.var <- 100*desv.pad/xbar

Q1 <- c(quantile(y1)[2], quantile(y2)[2])

mediana <- c(median(y1),median(y2))

Q3 <- c(quantile(y1)[4], quantile(y2)[4])

skew <- c(skewness(y1), skewness(y2))

kurt <- c(kurtosis(y1), kurtosis(y2))

# colocando as medidas descritivas numa tabela

##############################################

Descritivas <- rbind(xbar, desv.pad, cf.var, Q1,

mediana, Q3, skew, kurt)

dimnames(Descritivas)[[2]] <- c("Feminino",

"Masculino")

round(Descritivas,4)

Page 27: 7. Medida de associação entre duas variáveis quantitativas · Muitas vezes, na análise de dados, temos o interesse em avaliar o comportamento linear da associação entre duas

# medidas descritivas por Sexo, calculadas no R

###############################################

Feminino Masculino

xbar 1.6552 1.7713

desv.pad 0.0681 0.0725

cf.var 4.1165 4.0945

Q1 1.6000 1.7325

mediana 1.6700 1.7750

Q3 1.7000 1.8000

Skew -0.1238 0.2280

kurt -1.0748 -0.0314

Podemos observar pelas médias amostrais dos dois grupos e

ainda, pelas medidas de posição (mediana e quartis) que os

homens apresentam uma altura cerca de 10cm superior às

mulheres. Resultado este, que pode ser visualizado pelos

diagramas de box-plots dos sexos feminino e masculino.

boxplot(Altura ~ Sexo, main="Box-plot de Altura x

Sexo", xlab="Sexo", ylab="Altura (m)", pch=19,

col=c("tomato", "lightseagreen"), cex.main=1)

Page 28: 7. Medida de associação entre duas variáveis quantitativas · Muitas vezes, na análise de dados, temos o interesse em avaliar o comportamento linear da associação entre duas

2ª. Possibilidade:

Para os mesmos dados, vamos categorizar a variável Altura

numa variável qualitativa Estatura, cruzando-a com a variável

Sexo numa tabela de dupla entrada.

A variável Estatura será criada pela seguinte categorização da

variável Altura:

Estatura Baixa: abaixo de 1.65m;

Estatura Mediana: entre 1.65m e 1.80 m;

Estatura Alta: 1.80 m ou mais.

Estatura <- c("Baixa", "Baixa", "Baixa", "Baixa",

"Baixa", "Baixa", "Baixa", "Baixa", "Baixa", "Baixa",

"Baixa", "Baixa", "Mediana", "Mediana", "Mediana",

"Mediana", "Mediana", "Mediana", "Mediana", "Mediana",

"Mediana", "Mediana", "Mediana", "Mediana", "Mediana",

"Mediana", "Mediana", "Mediana", "Mediana", "Mediana",

"Mediana", "Mediana", "Mediana", "Mediana", "Mediana",

"Mediana", "Mediana", "Mediana", "Mediana", "Mediana",

"Mediana", "Mediana", "Mediana", "Mediana", "Mediana",

"Alta", "Alta", "Alta", "Alta", "Alta", "Alta", "Alta",

"Alta", "Alta", "Alta")

# Cruzando Estatura com Sexo

############################

tab <- table(Estatura,Sexo)

tab

+--------------+

| Sexo |

+----------+------+-------+

| Estatura | Fem | Masc |

+----------+------+-------+

| Baixa | 11 | 1 |

| Mediana | 14 | 19 |

| Alta | 0 | 10 |

+----------+------+-------+

Page 29: 7. Medida de associação entre duas variáveis quantitativas · Muitas vezes, na análise de dados, temos o interesse em avaliar o comportamento linear da associação entre duas

> chisq.test(tab) # Cálculo do X2

Pearson's Chi-squared test

data: tab

X-squared = 18.792, df = 2, p-value = 8.307e-05

Warning message:

In chisq.test(tab) : Chi-squared appraximation may be

incorrect

Novamente, devido à restrições quanto a configuração da

tabela, a análise pelo quiquadro (X2) não é válida (ver

advertência, ou Warning message).

Também aqui, podemos observar pelo gráfico de colunas uma

forte evidência de associação, indicando que o sexo feminino

apresenta as menores estaturas enquanto que o sexo masculino as

maiores.

Page 30: 7. Medida de associação entre duas variáveis quantitativas · Muitas vezes, na análise de dados, temos o interesse em avaliar o comportamento linear da associação entre duas

require(vcd) # carregando o pacote vcd

assocstats(tab) # commando para as medidas de associação

X^2 df P(> X^2)

Likelihaad Ratia 23.920 2 6.3958e-06

Pearsan 18.792 2 8.3069e-05

Phi-Caefficient : 0.585

Cantingency Caeff.: 0.505

Cramer's V : 0.585

Apresentação dos cálculos:

i) Coeficiente de contingência: t = min(3, 2) = 2

505.02547.0792.73

792.18

55792.18

792.18

C

718.0)12(

2505.0*

C

ii) Coeficiente V de Cramér:

585.03417.055

792.18

55)12(

792.18

V

Como podemos observar pelos valores de C, C* e V-Cramér, a

associação entre Sexo e Estatura é forte.

Desta forma, temos forte evidência de que as alunas de

Estatística 1, turma 2015, são mais baixas do que os alunos 10cm,

em média.