46
Mestrado Profissional em Administração Disciplina: Análise Multivariada Professor: Hedibert Freitas Lopes 1º trimestre de 2015 Agradecimento: A maioria das notas de aula sao de autoria da Professora Adriana Bruscato Bortoluzzo. Entretanto, todo e qualquer erro/inconsistencia e’ de minha inteira responsabilidade.

Mestrado Profissional em Administração - hedibert.orghedibert.org/wp-content/uploads/2015/02/AnaliseMultivariada-aula1.pdf · associado a barreiras de entrada e saída de competidores

  • Upload
    buithuy

  • View
    215

  • Download
    0

Embed Size (px)

Citation preview

Mestrado Profissional em Administração Disciplina: Análise Multivariada

Professor: Hedibert Freitas Lopes

1º trimestre de 2015

Agradecimento: A maioria das notas de aula sao de autoria da Professora Adriana Bruscato Bortoluzzo. Entretanto, todo e qualquer erro/inconsistencia e’ de minha inteira responsabilidade.

2

Tópicos do Curso

1.  Análise Exploratória de Dados Multivariados 2.  Inferência Multivariada 3.  Análise de Componentes Principais 4.  Análise Fatorial 5.  Regressão Logística 6.  Análise Discriminante 7.  Análise de Correlação Canônica 8.  Análise de Agrupamentos 9.  Escalonamento Multidimensional 10.  Análise de Correspondência 11.  Análise de Preferência Conjunta 12.  Modelagem de Equações Estruturais

3

Bibliografia Básica: !  MANLY, B. F. J. Multivariate Statistical Methods. 3 ed. New York: Chapman & Hall / CRC, 2004. !  HAIR Jr., J.F., ANDERSON, R.E., TATHAM, R.L. & BLACK, W.C. Multivariate Data Analysis. 5 ed. New Jersey: Prentice Hall, 1998. Bibliografia Complementar: !  BARROSO, L. P. e ARTES, R. Tópicos de Análise Multivariada. ! DILLON, W.R. & GOLDSTEIN, M. Multivariate Analysis: Methods and Applications. New York: Wiley, 1984. !  MALHOTRA, N.K. Marketing Research: An Applied Orientation. 3 ed. New Jersey: Prentice Hall, 1999. !  SHARMA, S. Applied Multivariate Techniques. New York: Wiley, 1996.

4

Critério de Avaliação "  Prova: 50% "  Trabalho: 25% "  Exercícios e leitura de artigos: 25%

Avisos Matéria do curso: compreende a matéria dada em sala de

aula e a apresentada nas indicações de leitura.

Softwares:

R - http://www.r-project.org

5

Análise Exploratória de Dados Multivariados MANLY, Cap. 1 e 3 & HAIR et al., Cap. 1 e 2

A seleção de métodos apropriados para representação gráfica multivariada fornece melhor entendimento de cada variável e das relações existentes entre elas.

6

Exemplo 1: descritiva.csv X5 =0.25X1 + 0.5X2 + 0.1X3 + 0.1X4 Indivíduo X1 X2 X3 X4 X5 X6

1 5,0 2,5 4,0 10,0 4,0 02 8,1 4,1 9,5 5,0 5,7 03 8,3 4,5 5,0 2,0 5,3 04 6,1 6,5 10,0 0,0 6,1 05 5,1 5,8 9,5 1,0 5,5 06 0,0 0,0 0,0 0,0 0,0 07 6,3 4,9 5,0 0,0 4,8 08 7,0 6,0 10,0 2,0 6,3 19 5,5 6,3 7,0 9,0 6,4 110 8,0 3,7 10,0 5,0 5,5 111 6,7 6,4 5,0 5,0 6,2 112 10,0 10,0 10,0 10,0 10,0 1

X1 a X5 refletem o grau de satisfação (escala de 0 a 10) de 5 produtos de uma empresa e X6 representa o gênero do cliente (1= Feminino)

7

Codigo R

8

Boxplot

X1 X2 X3 X4 X5

02

46

810

9

⎟⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜⎜

=

5,064,12 5,62 5,23 4,83 4,12 14,991,63 2,88 3,50 5,621,63 10,775,38 5,67 5,232,88 5,38 6,05 4,31 4,833,50 5,67 4,316,18

2S

⎟⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜⎜

=

1,00 0,470,76 0,950,86 0,471,00 0,13 0,30 0,36 0,760,13 1,00 0,670,70 0,950,30 0,671,00 0,70 0,860,36 0,70 0,70 1,00

R

Matrizes de covariâncias e correlações

10

11

Diagramas de dispersao X1

0 2 4 6 8 10 0 2 4 6 8 10

02

46

810

02

46

810

X2

X3

02

46

810

02

46

810

X4

0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10

02

46

810

X5

12

Representação gráfica de dados multivariados

Representação de Grupos

13

Sexo

X1

02

46

810

F M

SexoX2

02

46

810

F M

Sexo

X3

02

46

810

F M

Sexo

X4

02

46

810

F M

Sexo

X5

02

46

810

F M

14

X1

0 2 4 6 8 10 0 2 4 6 8 10

02

46

810

02

46

810

X2

X3

02

46

810

02

46

810

X4

0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10

02

46

810

X5

15

data = read.csv(descritiva.csv,header=TRUE) attach(data) summary(data) X = data[,1:5] apply(X,2,mean) var(X) cor(X) boxplot(X) pairs(X) par(mfrow=c(2,3)) for (i in 1:5){ boxplot(data[,i]~data[,6],axes=FALSE,xlab=Sexo,ylab=paste(X,i,sep=)) axis(2);box();axis(1,at=1:2,lab=c(F,M)) } pairs(X,col=1+data[,6],pch=16)

16

Outliers multivariados

! Pontos com comportamento diferente do observado para a maioria dos dados.

! Pontos distantes da massa dos dados.

! Chamados de valores aberrantes.

17

Causas mais comuns

" Erros de medida (transcrição/ digitação).

" Unidade amostra l não pertence à população em estudo.

" Ocorrência de evento extraordinário com explicação científica (variabilidade natural dos dados).

18

O que fazer? Depende de como foi gerado.

Retirar da amostra se for fruto de erros de medida, de transcrição/ digitação ou se a unidade amostral não pertence à população em estudo.

Considerar na análise se for fruto da variabilidade natural dos dados; nesse caso adotar técnicas robustas de análise ou fazer a análise com e sem o valor.

19

Como identificar valores aberrantes?

Univariado: Z-score, boxplot, histograma &

distância de Mahalanobis.

Bivariado: Gráfico de dispersão & distância de

Mahalanobis.

Multivariado: Distância de Mahalanobis.

20

Unidimensionais

Q1: primeiro quartil

Q3: terceiro quartil

Possíveis valores aberrantes:

X > Q3 + 1,5(Q3-Q1) = Q3 + 1,5 IQ

ou

X < Q1 - 1,5(Q3-Q1) = Q1 - 1,5 IQ

21

45

67

67

89

Gráfico de caixas

4 5 6 7

05

1015

Aval1

6 7 8 9 10

05

1015

Aval1

Histograma

Unidimensionais

22

Atenção para distribuições assimétricas

0100

200300

0 100200300400

0102030

405060

Aval2

Histograma Gráfico de Caixas

Valores aberrantes ou conseqüência da assimetria?

23

Teste

A distância entre a média e a observação é utilizada como medida para outliers.

Distância grande = possíveis valores aberrantes

22 )x -(x )x (x,D = 2

22M

)x -(x )x (x,DS

=ou

24

H0: x não é um outlier H1: H0 é falsa.

Se X seguir uma distribuição normal, então, para grandes amostras, a distribuição de

se aproxima de uma qui-quadrado com 1 grau de liberdade.

)x (x,D2M

Teste

25

[ ] )x (x,D P 2M

21 >χ

for pequena, então x é um possível valor aberrante (rejeita-se H0).

Regra Prática

Se p =

26

Valores aberrantes bidimensionais

2,00

7,00

12,00

17,00

22,00

27,00

32,00

37,00

42,00

47,00

52,00

2,00 7,00 12,00 17,00 22,00 27,00

X

Y

Valor aberrante em x, y e (x,y)

Valor aberrante em x e y, mas não é um valor desajustado em (x,y) pois está na linha de tendência

Valor aberrante em (x,y), mas não em x, nem em y

Valor aberrante em y e (x,y)

Valor aberrante em x e (x,y)

27

Valores Aberrantes Multidimensionais

!  p variáveis de interesse.

!  Identificação gráfica prejudicada (pode ser feita através da representação gráfica de casos)

28

Identificação Numérica Distância Euclidiana ao centro (D):

Distâncias grandes = possíveis valores

aberrantes

( ) ( ) ( )( ) ( )2pip

21i1

iT

ii

xx...xx

- - ,D

−++−=

= xxxxxx

⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜

=

ip

i2

i1

i

x

xx

!x

⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜

=

p

2

1

x

xx

!x

29

Identificação Numérica

Distância de Mahalanobis (DM):

( ) ( ) ( )xxSxxxx - - ,D i1T

ii2M

−=

Distâncias grandes = possíveis valores aberrantes

30

H0: x=(x1, x2, ..., xp)T não é um possível outlier H1: x=(x1, x2, ..., xp)T é um possível outlier

Se X1, X2, ..., Xp seguirem uma distribuição normal, então, para grandes amostras, a distribuição de

se aproxima de uma qui-quadrado com p graus de liberdade.

)x (x,D2M

Teste para valores aberrantes multidimensionais

31

H0: x=(x1, x2, ..., xp)T não é um possível outlier H1: x=(x1, x2, ..., xp)T é um possível outlier

for pequena, então x é um possível valor aberrante (rejeita-se H0).

Regra Prática

Se p =

Teste para valores aberrantes multidimensionais

[ ] )x (x,D P 2M

2p >χ

32

Exemplo 2: Avaliação de vinhos

Variáveis (vinho.txt): X1: Aroma X2: Corpo X3: Sabor

Foram dadas notas de 0 a 10 para 39 vinhos

nos quesitos aroma, corpo e sabor.

33

Boxplots

393939N =

SABORCORPOAROMA

9

8

7

6

5

4

3

2

3938

34

Gráfico Matriz

35

Observações mais distantes pelo critério de Mahalanobis

0 10 20 30 40

05

1015

20

Observation

Mah

alan

obis

dis

tanc

e

Cut-off for 5% levelCut-off for 1% levelCut-off for 0.1% level

36

Observações mais distantes pelo critério de Mahalanobis

Caso Dm Pv Aroma Corpo Sabor

39 4,59 0,0001 7,7 2,6 2,5

38 2,88 0,0403 7,7 6,6 6,7

06 2,69 0,0642 4,3 5,5 3,5

37

Exemplo 3: Índice de Liberdade Econômica (ILE-2013.csv) O ambiente institucional de um país interfere na estratégia e performance

de uma empresa. Para avaliar este ambiente, várias entidades

internacionais criaram índices comparativos entre os países.

Um deles é o Índice de Liberdade Econômica (ILE) publicado anualmente

pela Fundação Heritage e o The Wall Street Journal. O índice é calculado

através da avaliação de 10 abordagens institucionais que procuram

mensurar o grau de liberdade concedido aos agentes econômicos. Cada

indicador é classificado em uma escala de 0 a 100, onde quanto maior for

a avaliação, mais liberdade econômica é reconhecida institucionalmente.

38

1 – Negócios (Business Freedom) - liberdade para se criar negócios e está associado a barreiras de entrada e saída de competidores. Quanto mais livre for a mobilidade, mais alta será a nota do país.

2 – Comércio (Trade Freedom) - regulamentações do comércio internacional. Tarifas e taxas de importação e exportação de produtos e restrições à quotas, preços entre outros. Quanto menor forem os encargos, maior será a nota do país.

3 – Carga tributária (Fiscal Freedom) - carga tributária que incide sobre os indivíduos, empresas e percentual do PIB. Quanto menor forem as tributações, maior será a nota do país.

4 – Governo (Gov't Size) - participação do Governo na Economia. É mensurado com base nos gastos do Governo em relação ao % do PIB. Quanto menor for a participação do Governo no PIB, melhor será a avaliação do país, pois entende-se que haverá mais espaço para iniciativas privadas.

5 – Política monetária (Monetary Freedom) - política monetária. A mensuração se baseia em indicadores históricos de estabilidade da inflação descontando práticas de controle de preços, como congelamentos por exemplo. Quanto mais controlada for a inflação, melhor será a nota do país.

39

6 - Investimentos (Investment Freedom) - liberdade para entrada de investimentos estrangeiros e saída de investimentos para o exterior. Quanto mais livre for o fluxo de capitais, maior será a nota do país.

7 – Setor financeiro (Financial Freedom) - regulamentação do Estado sobre o setor financeiro, principalmente quanto à concessão de Crédito. Quanto mais livre uma Instituição Financeira for para alocar seus recursos administrados, maior será a nota do país.

8 – Direitos de propriedade (Property Rights) - direito de exercer propriedade sobre bens e acordos (enforcement). Quanto mais eficiente, rápido e transparente for o sistema judiciário de um país, maior será sua nota.

9 – Corrupção (Freedom from Corruption) - grau de transparência e corrupção de um governo, mensurado com base na classificação da Transparência Internacional. Quanto menor for a corrupção, maior será a nota do país.

10 – Trabalho (Labor Freedom) - liberdade concedida aos agentes econômicos para negociações de contratos de trabalho. Contratações, demissões, remunerações e demais aspectos da legislação trabalhista. Quanto maior for a liberdade concedida, maior será a nota do país.

40

Overall score score Property rights property Freedom from corruption corrupt Fiscal freedom fiscal Government spending govern Business freedom busin Labor freedom labor Monetary freedom monet Trade freedom trade Investment freedom invest Financial freedom finan

Nomes das variaveis

41

score property corrupt fiscal govern busin labor monet trade invest finan

020

4060

80100

42

score

20 60 40 60 80 100 20 60 100 0 20 60 0 20 60

3070

2080

property

corrupt

060

4080 fiscal

govern

060

2080

busin

labor

2080

060 monet

trade

4080

060 invest

30 50 70 90 0 20 60 0 40 80 20 40 60 80 40 60 80 20 40 60 80

2080

finan

43

Property rights 0.85 Freedom from corruption 0.78 Fiscal freedom 0.03 Government spending 0.00 Business freedom 0.77 Labor freedom 0.52 Monetary freedom 0.61 Trade freedom 0.64 Investment freedom 0.83 Financial freedom 0.86

Correlacao com Overall Score

44

0 20 40 60 80 100

020

4060

80100

property

corrupt

0 20 40 60 80 100

020

4060

80100

invest

finan

45

0 20 40 60 80 100

020

4060

80100

property

corrupt

AfricaAmericaAsiaEuropaOceania

0 20 40 60 80 100

020

4060

80100

invest

finan

46 0 50 100 150

020

4060

80

Observation

Mah

alan

obis

dis

tanc

e

Cut-off for 5% levelCut-off for 1% levelCut-off for 0.1% level

Observações mais distantes pelo critério de Mahalanobis