Upload
dangcong
View
218
Download
0
Embed Size (px)
Citation preview
7. Medida de associação entre duas variáveis quantitativas
Considere duas variáveis aleatórias X e Y observadas
conjuntamente. Então, uma amostra bivariada de tamanho n, de
pares (X, Y), é dada por:
(x1, y1), (x2, y2), (x3, y3), . . . , (xn, yn).
Uma forma de representar graficamente os valores observados
é através de um gráfico de pontos no plano cartesiano, por meio
do qual podemos verificar se existe alguma relação entre X e Y,
como por exemplo, uma relação linear (uma reta), conforme
Figura 7.1.
Figura 7.1: Plano cartesiano com pares de pontos (x, y), com
relação linear aproximada.
Muitas vezes, na análise de dados, temos o interesse em
avaliar o comportamento linear da associação entre duas variáveis
quantitativas.
Uma forma de medir o grau da associação linear entre duas
variáveis quantitativas é dada pelo coeficiente de correlação de
Pearson, denotado por xy e definido por
)()(
),(),(
YVarXVar
YXCovYXCorxy ,
em que, ),( YXCov é uma medida de variação conjunta de X e Y,
chamada de covariância.
7.1. O coeficiente de correlação amostral
Sejam duas variáveis aleatórias X e Y, observadas
conjuntamente. Para definirmos o coeficiente de correlação
amostral, primeiramente vamos definir a covariância amostral
entre X e Y:
1
))((
n
yyxxs ii
xy .
Com um pouco de álgebra, mostra-se que a expressão acima
pode ser escrita como
1
n
yxnyxs ii
xy .
Desta forma, o coeficiente de correlação amostral xyr é
definido por:
22 )()(
))((
yyxx
yyxxr
ii
iixy ,
)()( 2222
ynyxnx
yxnyxr
ii
iixy
Ou seja,
yx
xy
xyss
sr ,
em que xs e ys são os desvios padrões amostrais de X e Y,
respectivamente.
Exemplo 7.1: Sejam os dados:
x 2 3 5 5 7 8
y 11 15 13 18 17 16
Logo, n = 6 e
i) 56
30x , 1762
ix e
2625617622 xnxi 2.55
262 xs
ii) 156
90y 13842
iy e
342256138422 ynyi 8.65
342 ys
iii) 469ii yx 191556469 yxnyx ii e
8.35
19xys
Desta forma:
639.03426
19
8.62.5
8.3
xyr
Figura 7.2: Representação dos dados do exemplo.
Comandos no R:
> x <- c(2,3,5,5,7,8)
> y <- c(11,15,13,18,17,16)
> sum(x)
[1] 30
> mean(x)
[1] 5
> sum(x^2)
[1] 176
> var(x)
[1] 5.2
> sum(y)
[1] 90
> mean(y)
[1] 15
> sum(y^2)
[1] 1384
> var(y)
[1] 6.8
> sum(x*y)
[1] 469
> cov(x,y)
[1] 3.8
> rxy <- cov(x,y)/sqrt(var(x)*var(y))
> rxy
[1] 0.6390392
> cor(x,y)
[1] 0.6390392
Notas:
i) O coeficiente de correlação varia ente −1 e 1;
Se a relação entre X e Y é linear, do tipo Y = aX + b, então
rxy é igual a 1 se a > 0 (inclinação positiva);
rxy é igual a −1 ser a < 0 (inclinação negativa);
ii) quanto mais os pontos se aproximam de uma linha reta, mais
rxy se aproxima de 1 (ou −1).
iii) Assim, podemos classificar a relação entre X e Y em função
da magnitude do coeficiente de correlação amostral:
Valor de rxy Classificação
| rxy | = 1 correlação perfeita
0.90 ≤ | rxy | < 1 correlação muito forte
0.70 ≤ | rxy | < 0.90 correlação forte
0.40 ≤ | rxy | < 0.70 correlação moderada
0.20 ≤ | rxy | < 0.40 correlação fraca
0 ≤ | rxy | < 0.20 correlação muito fraca
Exemplo 7.2: Coeficiente de correlação linear para n = 200 pares
de pontos (x, y), calculado no R.
0.1xyr 939.0xyr 770.0xyr
528.0xyr 331.0xyr 048.0xyr
7.2. Interpretação geométrica do coeficiente de correlação
amostral
Considere n, de pares (x1, y1), (x2, y2), (x3, y3), . . . , (xn, yn).
Então, x = (x1, x2, x3, . . . , xn) e y = (y1, y2, y3, . . . , yn) podem
ser considerados dois vetores no espaço n-dimensional.
Seja o ângulo entre os vetores x e y, mostra-se por meio do
produto escalar entre x e y, corrigidos pelas suas respectivas
médias amostrais x e y , que o cosseno de é dado por:
22 )()(
))(()cos(
yyxx
yyxx
ii
ii ,
ou seja, xyr)cos( .
Exemplo 7.3: Sejam os dados (2, 6), (4, 8), (6, 7), então, 4x e
7y . Logo )2,0,2()( xx e )0,1,1()( yy .
Como, o cosseno do ângulo entre os vetores )6,4,2(x e
)7,8,6(y é dado por:
Figura 7.3: Representação dos vetores x e y no espaço 3D.
)()()()(
)()()cos(
yyyyxxxx
yyxxtt
t
.
Mas: ))(()()( yyxx iiyyxxt
2)()()( xxixxxxt
2)()()( yyiyyyyt
Então, xy
ii
ii ryyxx
yyxx
22 )()(
))(()cos(
No exemplo, temos que:
8)2,0,2()2,0,2( t
2)0,1,1()0,1,1( t
2)0,1,1()2,0,2( t
Portanto, 2
1
28
2)cos(
60)5.0arcos(
De fato, cor(X, Y) = 0.5
## cálculo da correlação no R
#############################
x <- c(2,4,6)
y <- c(6,8,7)
cor(x,y)
[1] 0.5
Comandos do Maple para representação dos vetores.
with(plots):
x := arrow(`<,>`(2, 4, 6), shape = arrow, color = red);
y := arrow(`<,>`(6, 8, 7), shape = arrow, color = red);
display(x, y, scaling = CONSTRAINED);
Exemplo 7.4: Considere as medidas da qualidade do ar no
aeroporto de Nova Iorque.
Medidas diárias da qualidade do ar em Nova Iorque entre maio e
setembro de 1973.
O conjunto de dados é formado por 154 observações em 6
variáveis. Excluindo-se os dados perdidos (missing) este número
caiu para 111.
Descrição dos dados:
Leituras diárias das seguintes medidas de qualidade do ar no
período de 1 de maio a 30 de setembro de 1973.
i) Ozone: ozônio, em partes por bilhão;
ii) Solar.R: radiação solar em Langleys, na banda de frequência
de 4000–7700 Angstroms;
iii) Wind: velocidade media do vento em milhas por hora;
iv) Temp: tempartura máxima diária em graus Fahrenheit.
Fonte: Os dados foram obtidos do Departamento de Conservação
(Department of Conservation) e do Serviço Nacional de
Meteorologia (National Weather Service) de Nova Iorque.
require(graphics)
attach(airquality)
clima <- na.omit(data.frame(Solar.R,Ozone,Temp,Wind))
attach(clima)
cor(Temp,Ozone)
[1] 0.6985414
cor(Wind,Ozone)
[1] -0.6124966
cor(Wind,Solar.R)
[1] -0.1271835
7.3. Relações não lineares
O coeficiente de correlação linear é uma medida da
correlação linear entre duas variáveis X e Y, não sendo indicado
quando a relação não for linear (como por exemplo, quadrática).
No entanto, devido à disposição dos pontos no plano
cartesiano, uma relação não linear pode resultar num coeficiente
de correlação alto, indicando falsamente a existência de uma
relação linear entre as variáveis.
Exemplo 7.4: Considere os dois casos abaixo.
Caso 1: relação quadrática.
x 26.03 26.79 27.02 27.58 25.19 24.37 24.77 25.01 27.40
y 2330.4 2434.0 2650.5 4784.2 1208.1 1210.6 1087.1 1492.8 4291.2
x 22.40 25.82 23.66 25.81 27.12 26.88 22.82 23.25 25.52
y 868.1 1843.2 964.5 1429.7 4403.6 4273.6 711.3 753.0 1308.8
Apesar da associação quadrática, o coeficiente de correlação
linear é muito alto: 8506.0xyr .
x <- c(26.03,26.79,27.02,27.58,25.19,24.37,24.77,
25.01,27.40,22.40,25.82,23.66,25.81,27.12,
26.88,22.82,23.25,25.52)
y <- c(2330.4,2434.0,2650.5,4784.2,1208.1,1210.6,
1087.1,1492.8,4291.2, 868.1,1843.2, 964.5,
1429.7,4403.6,4273.6, 711.3, 753.0,1308.8)
cor(x,y)
[1] 0.8506397
Caso 2: relação exponencial:
x 90.0 92.1 148.4 315.0 286.3 72.6 184.7 249.1 70.5
y 8 5 3 1 2 7 3 1 8
x 142.6 190.7 145.3 76.4 228.7 91.7 244.0 232.1 94.2
y 4 2 5 9 2 6 2 1 7
Apesar da associação exponencial, o coeficiente de
correlação linear é muito alto: 9068.0xyr
x <- c( 90.0, 92.1,148.4,315.0,286.3, 72.6,184.7,
249.1, 70.5,142.6,190.7,145.3, 76.4,228.7,
91.7,244.0,232.1, 94.2)
y <- c(8,5,3,1,2,7,3,1,8,4,2,5,9,2,6,2,1,7)
cor(x,y)
[1] -0.9068605
74. Matriz de correlações amostrais
Quando temos várias variáveis para serem analisadas e
pretendemos calcular todas as correlações duas-a-duas, uma
forma bastante prática de representa-las é através de uma matriz.
A matriz de correlações amostrais é denotada por R,
tendo as correlações representadas nos cruzamentos das linhas
com as colunas.
A matriz de correlações amostrais R apresenta as seguintes
características:
i) os elementos da diagonal de R são iguais a 1 uma vez que a
correlação de uma variável consigo mesma é 1;
ii) a matriz R é simétrica, pois para duas variáveis quaisquer Xi
e Xj :
),(),( ijji XXcorXXcor ;
iii) os elementos de R fora da diagonal são valores entre −1 e 1.
Exemplo: matriz de correlações 44.
1 cor(X1, X2) cor(X1, X3) cor(X1, X4)
R = cor(X2, X1) 1 cor(X2, X3) cor(X2, X4)
cor(X3, X1) cor(X3, X2) 1 cor(X3, X4)
cor(X4, X1) cor(X4, X2) cor(X4, X3) 1
Exemplo 7.5: Dados da qualidade do ar em Nova Iorque.
# criando uma matriz de dados
#############################
clima <- cbind(Solar.R,Temp,Ozone,Wind)
cor(clima)
Solar.R Temp Ozone Wind
Solar.R 1.0000000 0.2940876 0.3483417 -0.1271835
Temp 0.2940876 1.0000000 0.6985414 -0.4971897
Ozone 0.3483417 0.6985414 1.0000000 -0.6124966
Wind -0.1271835 -0.4971897 -0.6124966 1.0000000
Exemplo 7.6: Dados dos alunos de Estatística 1 no primeiro
semestre de 2015. Calcular as correlações amostrais das variáveis
Tempo para chegar na UFScar, Idade, Peso e Altura.
dados <- read.table(choose.files(), head=T)
attach(dados)
# criando um data frame
#######################
dados.q <- data.frame(Tempo,Idade,Peso,Altura)
cor(dados.q, use="na.or.complete")
Tempo Idade Peso Altura
Tempo 1.00000000 -0.09145379 0.01523087 0.04526220
Idade -0.09145379 1.00000000 0.18756244 0.09099185
Peso 0.01523087 0.18756244 1.00000000 0.66086059
Altura 0.04526220 0.09099185 0.66086059 1.00000000
8. Associação entre variáveis quantitativas e qualitativas
Sejam duas variáveis X e Y, observadas conjuntamente, sendo
uma delas quantitativa e a outra qualitativa. A associação
entre variáveis X e Y pode ser medida basicamente de duas
maneiras:
8.1. Categorizando a variável quantitativa
Categoriza-se a variável quantitativa em classes,
adequadamente escolhidas, e cruzam-se as duas variáveis numa
tabela de dupla entrada.
Neste caso, a associação é medida pelo 2 de Pearson e das
medidas de associação (coeficiente de contingência, coeficiente V
de Cramér, coeficiente ).
Exemplo 7.7: Levantamento da dados sobre o tipo de crimes pela
da idade do praticante (dados fictícios).
Variáveis observadas: idade (anos), crime (tipo de crime).
A variável idade foi categorizada nas seguintes faixas etárias:
de 15 a 25 (incompletos);
de 25 a 35 (incompletos);
35 anos ou mais.
idade <- c(16, 17, 17, 18, 18, 18, 18, 18, 19, 19, 19, 21, 21,
21, 22, 22, 22, 23, 23, 23, 23, 23, 24, 25, 25, 26, 26, 27, 27,
28, 28, 28, 29, 29, 29, 30, 30, 31, 31, 32, 33, 33, 34, 34, 34,
35, 37, 37, 37, 38, 39, 40, 40, 41, 42, 42, 43, 44, 45, 46, 48,
50, 54, 54)
crime <- c("Furto ou Roubo", "Furto ou Roubo", "Furto ou Roubo",
"Furto ou Roubo", "Latrocínio", "Latrocínio", "Latrocínio",
"Sequestro relâmpago", "Furto ou Roubo", "Furto ou Roubo",
"Sequestro relâmpago", "Furto ou Roubo", "Furto ou Roubo",
"Latrocínio", "Latrocínio", "Sequestro relâmpago", "Sequestro
relâmpago", "Furto ou Roubo", "Latrocínio", "Sequestro relâmpago",
"Sequestro relâmpago", "Estelionato", "Furto ou Roubo", "Furto ou
Roubo", "Estelionato", "Latrocínio", "Estupro", "Latrocínio",
"Estupro", "Latrocínio", "Sequestro relâmpago", "Receptação",
"Furto ou Roubo", "Latrocínio", "Receptação", "Estupro",
"Receptação", "Estupro", "Estelionato", "Latrocínio",
"Latrocínio", "Sequestro relâmpago", "Furto ou Roubo", "Sequestro
relâmpago", "Estupro", "Sequestro relâmpago", "Furto ou Roubo",
"Estupro", "Estelionato", "Furto ou Roubo", "Receptação", "Furto
ou Roubo", "Receptação", "Estupro", "Receptação", "Receptação",
"Estupro", "Furto ou Roubo", "Estupro", "Estelionato",
"Receptação", "Estupro", "Estelionato", "Estelionato")
fx_etar <- c("15 a 25-", "15 a 25-", "15 a 25-", "15 a 25-", "15
a 25-", "15 a 25-", "15 a 25-", "15 a 25-", "15 a 25-", "15 a 25-
", "15 a 25-", "15 a 25-", "15 a 25-", "15 a 25-", "15 a 25-", "15
a 25-", "15 a 25-", "15 a 25-", "15 a 25-", "15 a 25-", "15 a 25-
", "15 a 25-", "15 a 25-", "25 a 35-", "25 a 35-", "25 a 35-", "25
a 35-", "25 a 35-", "25 a 35-", "25 a 35-", "25 a 35-", "25 a 35-
", "25 a 35-", "25 a 35-", "25 a 35-", "25 a 35-", "25 a 35-", "25
a 35-", "25 a 35-", "25 a 35-", "25 a 35-", "25 a 35-", "25 a 35-
", "25 a 35-", "25 a 35-", "35 ou mais", "35 ou mais", "35 ou
mais", "35 ou mais", "35 ou mais", "35 ou mais", "35 ou mais", "35
ou mais", "35 ou mais", "35 ou mais", "35 ou mais", "35 ou mais",
"35 ou mais", "35 ou mais", "35 ou mais", "35 ou mais", "35 ou
mais", "35 ou mais", "35 ou mais")
Tabelas de frequências das variáveis crime e faixa etária.
Crime ni
Faixa etária ni
Furto ou roubo 17
15 a 25- 23
Latrocínio 12
25 a 35- 22
Estupro 10
35 anos ou mais 19
Sequestro relâmpago 10
Total 64
Receptação 8
Estelionato 7
Total 64
# Histograma da variável idade (anos)
#####################################
br <- seq(15,57,by=6)
hist(idade, breaks=br, col="lightcoral", main="Idade
(anos)", xlab="", ylab="", axes=FALSE)
axis(2)
axis(1,br)
> tab <- table(crimes,fx_etar)
> tab
+----------------------------------+
| fx_etar |
+---------------------+----------+----------+------------+
| crimes | 15 a 25- | 25 a 35- | 35 ou mais |
+---------------------+----------+----------+------------+
| Furto ou Roubo | 10 | 3 | 4 |
| Latrocínio | 6 | 6 | 0 |
| Sequestro relâmpago | 6 | 3 | 1 |
| Estelionato | 1 | 2 | 4 |
| Estupro | 0 | 5 | 5 |
| Receptação | 0 | 3 | 5 |
+---------------------+----------+----------+------------+
> chisq.test(tab) # Cálculo do X2
Pearson's Chi-squared test
data: tab
X-squared = 26.378, df = 10, p-value = 0.003264
Warning message:
In chisq.test(tab) : Chi-squared approximation may be
incorrect
Devido ao número excessivo de caselas da tabela com
frequências muito pequenas (menores do que 5), a análise pelo
quiquadro (X 2) não é válida (ver advertência, ou Warning
message).
Neste caso, podemos verificar uma evidência de associação
pelo gráfico de colunas, indicando que os crimes de furto ou
roubo, latrocínio e sequestro relâmpago são mais comuns na
faixa etária mais baixa e, os crimes de estelionato, estupro e
receptação são mais frequentes na faixa etária mais alta, vamos
calcular as medidas de associação.
Vamos utilizar o R para calcular os coeficientes de
contingência e V de Cramér. Para isso, é necessário carregar o
pacote vcd com o comando require(vcd).
require(vcd) # carregando o pacote vcd
assocstats(tab) # commando para as medidas de associação
X^2 df P(> X^2)
Likelihood Ratio 35.192 10 0.00011578
Pearson 26.378 10 0.00326359
Phi-Coefficient : 0.642
Contingency Coeff.: 0.540
Cramer's V : 0.454
Apresentação dos cálculos:
i) Coeficiente de contingência: t = min(6, 3) = 3
540.02919.0378.90
378.26
64378.26
378.26
C
662.0)13(
3540.0*
C
ii) Coeficiente V de Cramér:
454.02061.0128
134.79
642
378.26
V
8.2. Comparando cada classe da variável qualitativa
Avalia-se a variável quantitativa individualmente para cada uma das categorias da variável qualitativa, comparando-se os
resultados. A análise pode ser feita através das medidas
descritivas e graficamente (histogramas, box-plot’s, gráficos de
pontos).
Exemplo 7.8: Num estudo sobre a eficácia de inibidores de
ferrugem, quatro marcas (A, B, C, D) foram testadas. Ao todo, 40
corpos de prova foram distribuídos entre as quatro marcas, sendo
10 unidades para cada uma. Os 40 corpos de prova passaram por
um tratamento pelo respectivo inibidor e foram expostos à
severas condições de tempo. Os resultados são apresentados na
tabela 7.1: quanto maior o valor mais avaliado, mais eficaz é o
inibidor de ferrugem.
Tabela 7.1: Inibidores de ferrugem de 4 marcas.
Unidade Marca A Marca B Marca C Marca D
1 43.9 59.8 53.4 36.2
2 39.0 57.1 54.3 45.2
3 46.7 62.7 53.5 40.7
4 43.8 60.6 51.4 40.5
5 44.2 57.7 55.0 39.3
6 47.7 62.4 53.1 40.3
7 43.6 56.1 55.6 43.2
8 38.9 58.1 50.2 38.7
9 43.6 60.8 48.8 40.9
10 40.0 59.1 54.2 39.7 Fonte: Neter, Wasserman, Kutner - Applied Linear Statistical Models,
IRWIN, 3rd Ed. (dados modificados).
A) No Minitab
Descriptive Statistics: Y Variable Marca N Mean Variance CoefVar Q1 Median Q3
Corrosao A 10 43.14 9.00 6.95 39.75 43.70 44.825
B 10 59.44 4.92 3.73 57.55 59.45 61.200
C 10 52.95 4.70 4.10 51.10 53.45 54.475
D 10 40.47 5.94 6.02 39.15 40.40 41.475
Variable Marca Skewness Kurtosis
Corrosao A -0.19 -0.81
B 0.09 -1.08
C -0.87 -0.07
D 0.39 1.24
63.059.556.052.549.045.542.038.5
A
B
C
D
Corrosão
Ma
rca
Gráfico de pontos de Corrosão x Marca
DCBA
65
60
55
50
45
40
35
Marca
Co
rro
sã
o
Boxplot de Corrosão
B) No R
Corrosao <- c(43.9, 39.0, 46.7, 43.8, 44.2, 47.7,
43.6, 38.9, 43.6, 40.0, 59.8, 57.1, 62.7, 60.6,
57.7, 62.4, 56.1, 58.1, 60.8, 59.1, 53.4, 54.3,
53.5, 51.4, 55.0, 53.1, 55.6, 50.2, 48.8, 54.2,
36.2, 45.2, 40.7, 40.5, 39.3, 40.3, 43.2, 38.7,
40.9, 39.7)
Marca <- factor(c(rep("A",10), rep("B",10),
rep("C",10), rep("D",10)))
boxplot(Corrosao ~ Marca, main="Box-plot de Corrosão
x Marca", xlab="Marca", ylab="Corrosão", pch=19,
col=c("red","blue","green","yellow2"), cex.main=1)
# construindo a matriz mCorrosao com os dados
#############################################
y1 <- Corrosao[which(Marca=="A")]
y2 <- Corrosao[which(Marca=="B")]
y3 <- Corrosao[which(Marca=="C")]
y4 <- Corrosao[which(Marca=="D")]
mCorrosao <- cbind(y1,y2,y3,y4)
dimnames(mCorrosao)[[2]] <- c("Marca A", "Marca B",
"Marca C", "Marca D")
mCorrosao
Marca A Marca B Marca C Marca D
[1,] 43.9 59.8 53.4 36.2
[2,] 39.0 57.1 54.3 45.2
[3,] 46.7 62.7 53.5 40.7
[4,] 43.8 60.6 51.4 40.5
[5,] 44.2 57.7 55.0 39.3
[6,] 47.7 62.4 53.1 40.3
[7,] 43.6 56.1 55.6 43.2
[8,] 38.9 58.1 50.2 38.7
[9,] 43.6 60.8 48.8 40.9
[10,] 40.0 59.1 54.2 39.7
# calculando as medidas descritivas
###################################
xbar <- apply(mCorrosao, 2, mean)
vari <- apply(mCorrosao, 2, var)
cf.var <- 100*apply(mCorrosao, 2,
sd)/apply(mCorrosao, 2, mean)
Q1 <- apply(mCorrosao, 2, quantile)[2,]
mediana <- apply(mCorrosao, 2, median)
Q3 <- apply(mCorrosao, 2, quantile)[4,]
skew <- apply(mCorrosao, 2, skewness)
kurt <- apply(mCorrosao, 2, kurtosis)
# colocando as medidas descritivas numa tabela
##############################################
Descritivas <- rbind(xbar, vari, cf.var, Q1,
mediana, Q3, skew, kurt)
round(Descritivas,3)
# medidas descritivas calculadas no R
#####################################
Marca A Marca B Marca C Marca D
xbar 43.140 59.440 52.950 40.470
vari 9.000 4.920 4.703 5.936
cf.var 6.954 3.732 4.096 6.020
Q1 40.900 57.800 51.825 39.400
mediana 43.700 59.450 53.450 40.400
Q3 44.125 60.750 54.275 40.850
skew -0.134 0.063 -0.628 0.282
kurt -1.384 -1.506 -1.045 -0.440
Exemplo 7.9: Analisar a associação entre as variáveis Altura e
Sexo dos alunos das turmas A e B de Estatística 1, primeiro
semestre de 2015.
Análises feitas pelo R: Altura <- c(1.52, 1.55, 1.57, 1.58, 1.59, 1.60, 1.60,
1.60, 1.61, 1.63, 1.63, 1.64, 1.65, 1.65, 1.65, 1.67,
1.68, 1.68, 1.68, 1.69, 1.70, 1.70, 1.70, 1.70, 1.70,
1.72, 1.72, 1.73, 1.73, 1.73, 1.73, 1.74, 1.74, 1.74,
1.75, 1.75, 1.76, 1.77, 1.77, 1.78, 1.78, 1.78, 1.79,
1.79, 1.79, 1.80, 1.80, 1.80, 1.83, 1.83, 1.83, 1.83,
1.89, 1.90, 1.95)
Sexo <- c("Fem", "Fem", "Fem", "Fem", "Fem", "Fem",
"Fem", "Fem", "Fem", "Fem", "Masc", "Fem", "Fem",
"Masc", "Masc", "Fem", "Fem", "Fem", "Fem", "Fem",
"Masc", "Masc", "Fem", "Fem", "Masc", "Fem", "Masc",
"Fem", "Masc", "Fem", "Fem", "Masc", "Masc", "Masc",
"Masc", "Fem", "Masc", "Masc", "Masc", "Masc", "Masc",
"Fem", "Masc", "Masc", "Masc", "Masc", "Masc", "Masc",
"Masc", "Masc", "Masc", "Masc", "Masc", "Masc", "Masc")
Histograma de Altura.
1ª. Possibilidade:
A seguir vamos analisar a variável Altura comparando-a para
classe da variável Sexo.
# calculando as medidas descritivas
###################################
require(e1071) # pacote para cálculo de
# assimetria e curtose
y1 <- Altura[which(Sexo=="Fem")]
y2 <- Altura[which(Sexo=="Masc")]
xbar <- c(mean(y1),mean(y2))
desv.pad <- c(sd(y1),sd(y2))
cf.var <- 100*desv.pad/xbar
Q1 <- c(quantile(y1)[2], quantile(y2)[2])
mediana <- c(median(y1),median(y2))
Q3 <- c(quantile(y1)[4], quantile(y2)[4])
skew <- c(skewness(y1), skewness(y2))
kurt <- c(kurtosis(y1), kurtosis(y2))
# colocando as medidas descritivas numa tabela
##############################################
Descritivas <- rbind(xbar, desv.pad, cf.var, Q1,
mediana, Q3, skew, kurt)
dimnames(Descritivas)[[2]] <- c("Feminino",
"Masculino")
round(Descritivas,4)
# medidas descritivas por Sexo, calculadas no R
###############################################
Feminino Masculino
xbar 1.6552 1.7713
desv.pad 0.0681 0.0725
cf.var 4.1165 4.0945
Q1 1.6000 1.7325
mediana 1.6700 1.7750
Q3 1.7000 1.8000
Skew -0.1238 0.2280
kurt -1.0748 -0.0314
Podemos observar pelas médias amostrais dos dois grupos e
ainda, pelas medidas de posição (mediana e quartis) que os
homens apresentam uma altura cerca de 10cm superior às
mulheres. Resultado este, que pode ser visualizado pelos
diagramas de box-plots dos sexos feminino e masculino.
boxplot(Altura ~ Sexo, main="Box-plot de Altura x
Sexo", xlab="Sexo", ylab="Altura (m)", pch=19,
col=c("tomato", "lightseagreen"), cex.main=1)
2ª. Possibilidade:
Para os mesmos dados, vamos categorizar a variável Altura
numa variável qualitativa Estatura, cruzando-a com a variável
Sexo numa tabela de dupla entrada.
A variável Estatura será criada pela seguinte categorização da
variável Altura:
Estatura Baixa: abaixo de 1.65m;
Estatura Mediana: entre 1.65m e 1.80 m;
Estatura Alta: 1.80 m ou mais.
Estatura <- c("Baixa", "Baixa", "Baixa", "Baixa",
"Baixa", "Baixa", "Baixa", "Baixa", "Baixa", "Baixa",
"Baixa", "Baixa", "Mediana", "Mediana", "Mediana",
"Mediana", "Mediana", "Mediana", "Mediana", "Mediana",
"Mediana", "Mediana", "Mediana", "Mediana", "Mediana",
"Mediana", "Mediana", "Mediana", "Mediana", "Mediana",
"Mediana", "Mediana", "Mediana", "Mediana", "Mediana",
"Mediana", "Mediana", "Mediana", "Mediana", "Mediana",
"Mediana", "Mediana", "Mediana", "Mediana", "Mediana",
"Alta", "Alta", "Alta", "Alta", "Alta", "Alta", "Alta",
"Alta", "Alta", "Alta")
# Cruzando Estatura com Sexo
############################
tab <- table(Estatura,Sexo)
tab
+--------------+
| Sexo |
+----------+------+-------+
| Estatura | Fem | Masc |
+----------+------+-------+
| Baixa | 11 | 1 |
| Mediana | 14 | 19 |
| Alta | 0 | 10 |
+----------+------+-------+
> chisq.test(tab) # Cálculo do X2
Pearson's Chi-squared test
data: tab
X-squared = 18.792, df = 2, p-value = 8.307e-05
Warning message:
In chisq.test(tab) : Chi-squared appraximation may be
incorrect
Novamente, devido à restrições quanto a configuração da
tabela, a análise pelo quiquadro (X2) não é válida (ver
advertência, ou Warning message).
Também aqui, podemos observar pelo gráfico de colunas uma
forte evidência de associação, indicando que o sexo feminino
apresenta as menores estaturas enquanto que o sexo masculino as
maiores.
require(vcd) # carregando o pacote vcd
assocstats(tab) # commando para as medidas de associação
X^2 df P(> X^2)
Likelihaad Ratia 23.920 2 6.3958e-06
Pearsan 18.792 2 8.3069e-05
Phi-Caefficient : 0.585
Cantingency Caeff.: 0.505
Cramer's V : 0.585
Apresentação dos cálculos:
i) Coeficiente de contingência: t = min(3, 2) = 2
505.02547.0792.73
792.18
55792.18
792.18
C
718.0)12(
2505.0*
C
ii) Coeficiente V de Cramér:
585.03417.055
792.18
55)12(
792.18
V
Como podemos observar pelos valores de C, C* e V-Cramér, a
associação entre Sexo e Estatura é forte.
Desta forma, temos forte evidência de que as alunas de
Estatística 1, turma 2015, são mais baixas do que os alunos 10cm,
em média.