Análise BidimensionalAnálise Bidimensional
Prof. Víctor Hugo Lachos DávilaProf. Víctor Hugo Lachos Dávila
AULA: 13-16AULA: 13-16
2
Introdução
• Freqüentemente estamos interessados em analisar duas variáveis conjuntamente
• P.E. nos dados da empresa podemos estar interessados em comparar os salários dos casados e solteiros.
• Quando consideramos duas variáveis, podemos ter 3 situações e as técnicas de análise são diferentes.
a) as duas qualitativas (tabela de contingência)
b) as duas quantitativas (gráficos de dispersão)
c) uma qualitativa e outra quantitativa (tabela de contingência)
• É possível quantificar a relação entre as variáveis em estudo
3
Variáveis Qualitativas
• Analisamos o comportamento conjunto de X: grau de instrução e Y: região de procedência.
Y\XEnsino Fundamental Ensino Médio Superior Total
Capital 4 5 2 11Interior 3 7 2 12Outra 5 6 2 13Total 12 18 6 36
Tabela 1:Tabela de freqüências absolutas das variáveis X e Y
• Podemos construir tabelas de freqüências relativas.
• Existe varias possibilidades de construção e depende do objetivo do problema.
Tabela de dupla
entrada
4
Y\XEnsino Fundamental Ensino Médio Superior Total
Capital 11% 14% 6% 31%Interior 8% 19% 6% 33%Outra 14% 17% 6% 36%Total 33% 50% 17% 100%
Tabela 1:Tabela de freqüências relativas ao total geral das variáveis X e Y
Relativa ao total geral
• 11% dos empregados vêm da capital e tem ensino fundamental.
• 31% dos indivíduos vêm da capital, 33% do interior e 36% de outras regiões.
• 33% tem ensino fundamental.
5
Tabela 1:Tabela de freqüências relativas ao total de coluna das variáveis X e Y
Relativa ao total de colunas
• Entre os empregados com instrução até o ensino fundamental, 33% vêm da capital.
• Entre os empregados com ensino médio, 28% vêm da capital.
• Comparamos a distribuição da procedência conforme o grau de instrução.
• De modo análogo, podemos construir a distribuição do grau de instrução conforme a procedência.!!!
Y\XEnsino Fundamental Ensino Médio Superior Total
Capital 33% 28% 33% 31%Interior 25% 39% 33% 33%Outra 42% 33% 33% 36%Total 100% 100% 100% 100%
6
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
EnsinoFundamental
Ensino Médio Superior Total
Outra
Interior
Capital
Gráfico 1:Distribuição da região de procedência por grau de instrução
7
Exemplo: Queremos verificar se existe ou não associação entre o sexo (X) e a carreira escolhida (Y) por 200 alunos de economia e administração
Y\X Masculino Feminino TotalEconomia 85 (61%) 35 (58%) 120 (60%)
Administração 55 (39%) 25 (42%) 80 (40%)Total 140 (100%) 60 (100%) 200 (100%)
Tabela 4:Tabela de freqüências absolutas (relativas) dos alunos segundo o sexo (X) e curso escolhido (Y)
• Independente do sexo 60% preferem economia e 40% preferem administração.
• No sexo masculino essas proporções são 61% e 39% e no feminino 58 e 42%, as quais são próximas d e 60 e 40 (marginais)
• Forte indicio de não haver dependência entre as variáveis sexo e curso (não associadas)
Associação entre variáveis qualitativas
8
Exemplo: Queremos verificar se existe ou não associação entre o sexo (X) e a carreira escolhida (Y) por 200 alunos de Física e Ciências Sociais
Tabela 5:Tabela de freqüências absolutas (relativas) dos alunos segundo o sexo (X) e curso escolhido (Y)
• Independente do sexo 60% preferem economia e 40% preferem administração.
• No sexo masculino essas proporções são 71% e 29% e no feminino 33 e 67%. Disparidade bem acentuada nas proporções
•Forte indicio de haver dependência entre as variáveis sexo e curso (associadas)
Y\X Masculino Feminino TotalFísica 100 (71%) 20 (33%) 120 (60%)
Ciências Sociais 40 (29%) 40 (67%) 80 (40%)Total 140 (100%) 60 (100%) 200 (100%)
9
Exemplo: Queremos verificar se a criação de determinado tipo de cooperativa está associada com algum fator regional
Tabela 6:Cooperativas autorizadas a funcional por tipo e estado
• Notamos que existe certa associação entre as variáveis.
• Caso não houvesse associação, esperaríamos que em cada estado tivéssemos 24% de escolas e 12% de outros tipos.
• Assim, o número esperado de cooperativas de consumidores no estado de São Paulo seria 648*0.24=156 e no Paraná 301*0.24=72....
Estado Consumidor Produtor Escola OutrasSão Paulo 214 (33%) 237(37%) 78 (12%) 119 (18%) 648(100%)
Paraná 51(17%) 102(34%) 126(42%) 22 (7%) 301(100%)Rio G. do Sul 111 (18%) 304(51%) 139(23%) 48(8%) 602(100%)
Total 376(24%) 643 (42%) 343 (22%) 189 (12%) 1551(100%)
Tipo de CooperativaTotal
10
Tabela 7:Valores esperados assumindo independência entre as variáveis tipo de cooperativa e fator regional
• Notamos fortes discrepâncias entre os valores observados (O), e esperados (E) assumindo que as variáveis não fossem associadas.
• Uma medida de afastamento global pode ser dada pela soma de todas essas medidas. (Qui-quadrado de Pearson)
. Um valor grande de X2 indica associação entre as variáveis. No exemplo acima temos:
Estado Consumidor Produtor Escola OutrasSão Paulo 156 (24%) 272(42%) 142 (22%) 78 (12%) 648(100%)
Paraná 72(24%) 127(42%) 66(22%) 36 (12%) 301(100%)Rio G. do Sul 144 (24%) 254(42%) 132(22%) 72(12%) 602(100%)
Total 376(24%) 643 (42%) 343 (22%) 189 (12%) 1551(100%)
Tipo de CooperativaTotal
Filas
jijijij
Colunas
i
EEO1
2
1
2 /)(
2 2
24,17372/)7248(...156/)156214( 222
11
Associação entre variáveis quantitativas
• Quando as duas variáveis são quantitativas podemos usar o mesmo tipo de análise para variáveis qualitativas. (transformando as variáveis)
• Uma ferramenta bastante útil é o gráfico de dispersão.
• Exemplo:
Anos de Serviço (X) Número de Clientes (Y)2 483 504 565 524 436 607 628 588 64
10 72
Tabela 8: Número de anos de serviço (X) por número de clientes (Y) de agentes de uma companhia de
seguros
• Notamos que à medida que aumenta o tempo de serviço, aumenta o número de clientes, logo parece haver uma associação entre essas variáveis
12
0
10
20
30
40
50
60
70
80
0 2 4 6 8 10 12
Anos de Serviço
Nú
me
ro d
e C
lein
tes
Gráfico 2: Gráfico de dispersão para as variáveis X: anos de serviço e Y: número de clientes
0
5
10
15
20
25
0 2 4 6 8 10 12 -12
-10-8
-6
-4-2
02
4
68
10
0 2 4 6 8 10 12
Gráfico 3: Tipos de associações entre duas variáveis
13
Coeficiente de correlação
Nun conjunto de dados com n pares de valores para as variáveis Xe Y o coeficiente de correlação (r) que mede a dependência linear entre elas é calculado como:
n
i
n
iiiii
n
iiiii
n
i
n
iiiii
n
iiiii
XY
ynyxnx
yxnyx
yyxx
yyxxr
1 1
22
1
1 1
22
1
](][[
)(
])(][)([
))((
Propriedades
• é sempre um número entre -1 e 1
• Correlação igual a zero não indica independência entre as variaveis
• |r| próximo a 1, indica alta associação entre as variáveis
• |r| próximo a 0, indica não associação entre as variáveis
•|r| próximo a 0.5, indica associação moderada