24
[email protected] 1 Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II Jorge Oishi

Análise Estrutural - ..:: GEPEQ - Grupo de Estudo e Pesquisa … · PPT file · Web view2006-08-09 · Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II

  • Upload
    lydiep

  • View
    224

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Análise Estrutural - ..:: GEPEQ - Grupo de Estudo e Pesquisa … · PPT file · Web view2006-08-09 · Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II

[email protected] 1

Seminário DEs/DEP

Algumas Técnicas Estatísticas Multivariadas

Parte IIJorge Oishi

Page 2: Análise Estrutural - ..:: GEPEQ - Grupo de Estudo e Pesquisa … · PPT file · Web view2006-08-09 · Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II

[email protected] 2

Técnicas Multivariadas

Tópicos abrangidos:

Análise Discriminante Análise de Cluster Análise de Correspondência

Page 3: Análise Estrutural - ..:: GEPEQ - Grupo de Estudo e Pesquisa … · PPT file · Web view2006-08-09 · Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II

[email protected] 3

Análise Discriminante Objetivo

Construir um modelo preditivo para prognosticar o grupo a qual pertence uma observação a partir de determinadas características observadas.

Permite classificar novos indivíduos em grupos previamente estabelecidos a partir das informações das variáveis observadas.

Fundamentalmente, se deseja construir uma regra ou esquema de classificação que possibilite ao investigador predizer a população que é mais provável que um indivíduo pertença.

Este é o caso onde temos uma variável dependente não métrica (que define os grupos) e várias variáveis independentes métricas.

Page 4: Análise Estrutural - ..:: GEPEQ - Grupo de Estudo e Pesquisa … · PPT file · Web view2006-08-09 · Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II

[email protected] 4

Análise Discriminante

Curiosidade: teve início com a “certeza” que um diretor de penitenciária americana tinha em ser capaz de reconhecer um criminoso andando na rua, somente através das medidas morfométricas da pessoa;

Hitler criou as medidas perfeitas de um ariano puro;

Ainda hoje existem “teorias” sobre a relação entre medidas morfométricas e estruturas psíquicas.

Page 5: Análise Estrutural - ..:: GEPEQ - Grupo de Estudo e Pesquisa … · PPT file · Web view2006-08-09 · Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II

[email protected] 5

Análise Discriminante

Exemplos: Área de crédito: dado o cadastro de clientes, estabelecer

um critério para empréstimo. (Credit Score); Área de negócios: criar uma regra, a partir de um banco de

dados sobre a previsão de insolvência de empresas; Área de negócios: regra para prever a troca de

fornecedores por parte dos clientes; Policial: através das imagens de satélite ser capaz de

reconhecer se uma plantação é de maconha. Policial: construir um critério para ajudar a PM de nossa

cidade a identificar os locais de maior risco em relação à criminalidade.

Page 6: Análise Estrutural - ..:: GEPEQ - Grupo de Estudo e Pesquisa … · PPT file · Web view2006-08-09 · Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II

[email protected] 6

Análise Discriminante

Grupos Casos X1 X2 ... Xp

1 1 X111 X112 ... X11p

1 2 X211 X212 ... X21p

... ... ... ... ... ...

1 n1 Xn1,11 Xn1,12 ... Xn1,1p

2 1 X121 X222 ... X12p

... ... ... ... ... ...

2 n2 Xn221 Xn2,22 ... Xn2,2p

... ... ... ... ... ...

m 1 X1m1 X1m2 ... X1mp

... ... ... .... ... ...

m nm Xnm,m1 Xnm,m2 ... Xnm,mp

Page 7: Análise Estrutural - ..:: GEPEQ - Grupo de Estudo e Pesquisa … · PPT file · Web view2006-08-09 · Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II

[email protected] 7

Análise Discriminante

Avaliação de um novo produto

Grupo Sujeito Durabilidade Desempenho Estilo

1 1 8 9 6

1 2 6 7 5

1 3 10 6 3

1 4 9 4 4

1 5 4 8 2

2 6 5 4 7

2 7 3 7 2

2 8 4 5 5

2 9 2 4 3

2 10 2 2 2

Page 8: Análise Estrutural - ..:: GEPEQ - Grupo de Estudo e Pesquisa … · PPT file · Web view2006-08-09 · Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II

[email protected] 8

Análise Discriminante

Curso de Multivariada\NOVPRODU.STA

Page 9: Análise Estrutural - ..:: GEPEQ - Grupo de Estudo e Pesquisa … · PPT file · Web view2006-08-09 · Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II

[email protected] 9

Análise de Cluster

Objetivo Dado um conjunto de n objetos observados através de p

variáveis, agregá-los em grupos “similares” segundo o conjunto de características avaliadas.

O que diferencia esta técnica da anterior é que nesta o número de grupos não é conhecido de antemão.

Os agrupamentos resultantes devem ter a propriedade de serem bastante homogêneos internamente ao grupo, mas bastante heterogêneos em relação aos elementos de outros grupos.

Page 10: Análise Estrutural - ..:: GEPEQ - Grupo de Estudo e Pesquisa … · PPT file · Web view2006-08-09 · Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II

[email protected] 10

Análise de Cluster A forma de agir da Análise de Cluster difere das demais técnicas

por trabalhar unicamente com o conceito de distância entre os sujeitos.

A “semelhança” utilizada é dada por proximidade dos casos segundo uma medida de distância, que em muitos casos é a distância euclidiana e em outros a distância estatística.

Ela pode ser usada também para agrupar variáveis ao invés de casos, porém a distância utilizada é a correlação entre elas. Este tipo de distância oferece alguns desafios que precisa ser entendido dentro do contexto do estudo.

Basicamente existem 3 tipos de medidas de similaridade entre os sujeitos:distância, correlação e associação.

Page 11: Análise Estrutural - ..:: GEPEQ - Grupo de Estudo e Pesquisa … · PPT file · Web view2006-08-09 · Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II

[email protected] 11

Análise de Cluster

Algorítmos de agrupamento: Como fazer para colocar no mesmo grupos os

casos? Método Hierárquico

Método aglomerativo – começa só com ele Método divisivo – começa com todos os casos Dendrograma – árvore que mostra os casos se

agrupando Algorítmos:

single linkage, average linkage e complete linkage Ward

Page 12: Análise Estrutural - ..:: GEPEQ - Grupo de Estudo e Pesquisa … · PPT file · Web view2006-08-09 · Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II

[email protected] 12

Análise de Cluster

Método Não hierárquico: não usa o processo de árvore mas partem de agrupamentos feitos a priori e corrigem o os agrupamentos reajustando as distâncias entre os elementos ao centro de cada grupo.Também são chamados de K-means. Método de Referencia Seqüencial Método da Referencia Paralela Método da Otimização

Page 13: Análise Estrutural - ..:: GEPEQ - Grupo de Estudo e Pesquisa … · PPT file · Web view2006-08-09 · Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II

[email protected] 13

Análise de Cluster

Número de Agrupamentos: quantos grupos formar? Não existem regras que possam ser recomendadas

para todos os casos. Existe a regra estatística, que a distância entre os

agrupamentos são claramente determinados a partir de um teste de hipóteses;

Existe a regra do “bom senso” onde os grupos são construídos a partir do dendrograma.

Page 14: Análise Estrutural - ..:: GEPEQ - Grupo de Estudo e Pesquisa … · PPT file · Web view2006-08-09 · Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II

[email protected] 14

Análise de Cluster

STATISTICA.lnk

Page 15: Análise Estrutural - ..:: GEPEQ - Grupo de Estudo e Pesquisa … · PPT file · Web view2006-08-09 · Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II

[email protected] 15

Análise de Correspondências

Objetivo Analisar tabelas de dupla-entrada ou de múltiplas

entradas levando-se em consideração alguma medida de correspondência entre linhas e colunas;

Ela converte uma matriz de dados não negativos em um tipo de representação gráfica em que linhas e colunas são representadas em dimensões reduzidas, isto é, por pontos num gráfico.

Page 16: Análise Estrutural - ..:: GEPEQ - Grupo de Estudo e Pesquisa … · PPT file · Web view2006-08-09 · Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II

[email protected] 16

Análise de Correspondências

Exemplo: Consideremos as vendas de três produtos A, B e C para

pessoas de três faixas etárias.

Venda de produtoFaixa etária A B C Total

18 – 35 20 20 20 60

36 – 55 40 10 40 90

56 ou + 20 10 40 70

Total 80 40 100 220

Page 17: Análise Estrutural - ..:: GEPEQ - Grupo de Estudo e Pesquisa … · PPT file · Web view2006-08-09 · Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II

[email protected] 17

Análise de Correspondências

Queremos encontrar um padrão para estabelecer que os jovens compram mais do produto X ou os idosos compram do produto Y;

Para isso precisamos de uma medida padronizada de vendas que leve em conta simultaneamente as diferenças em vendas para uma combinação específica de produto-faixa etária;

Se um grupo compra mais unidades de um produto do que o esperado, podemos associar essa faixa etária ao produto comprado.

Page 18: Análise Estrutural - ..:: GEPEQ - Grupo de Estudo e Pesquisa … · PPT file · Web view2006-08-09 · Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II

[email protected] 18

Análise de Correspondências

Em uma representação gráfica, grupos de idade seriam colocados mais proximamente de produtos com os quais eles estão mais altamente associados e mais afastados de produtos com menores associações.

Isso se faz através do cálculo dos valores observados menos os valores esperados sob a suposição de não haver qualquer associação entre produtos e consumidores.

Os valores esperados são calculados através do produto cruzado entre os totais de linhas e colunas correspondentes, dividido pelo total de vendas.

Page 19: Análise Estrutural - ..:: GEPEQ - Grupo de Estudo e Pesquisa … · PPT file · Web view2006-08-09 · Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II

[email protected] 19

Análise de Correspondências

Após a determinação dos valores esperados, encontra-se o Qui-quadrado de cada cruzamento através da seguinte fórmula:

esperadovalor esperado) valor - observadovalor (χ

22

Page 20: Análise Estrutural - ..:: GEPEQ - Grupo de Estudo e Pesquisa … · PPT file · Web view2006-08-09 · Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II

[email protected] 20

Análise de Correspondências

Venda de produtoFaixa etária A B C Total

18 – 35 21,80,15-0,15

10,97,587,58

27,31,94-1,94

609,67

36 – 55 32,71,621,62

6,42,47-2,47

40,90,02-0,02

904,11

56 ou + 25,41,17-1,17

12,70,58-0,58

31,82,102,10

703,85

Total 802,94

4010,63

1004,06

22017,63

Page 21: Análise Estrutural - ..:: GEPEQ - Grupo de Estudo e Pesquisa … · PPT file · Web view2006-08-09 · Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II

[email protected] 21

Análise de Correspondências

Row.CoordsCol.Coords

2D Plot of Row and Column Coordinates; Dimension: 1 x 2Input Table (Rows x Columns): 3 x 3

Standardization: Row and column profiles

Dimension 1; Eigenvalue: .06047 (75.44% of Inertia)

Dim

ensi

on 2

; Eig

enva

lue:

.019

69 (2

4.56

% o

f Ine

rtia)

Jovens

Adultos

Idosos

A

B

C

-0.25

-0.20

-0.15

-0.10

-0.05

0.00

0.05

0.10

0.15

0.20

0.25

-0.3 -0.2 -0.1 0.0 0.1 0.2 0.3 0.4 0.5 0.6

Page 22: Análise Estrutural - ..:: GEPEQ - Grupo de Estudo e Pesquisa … · PPT file · Web view2006-08-09 · Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II

[email protected] 22

Análise de Correspondências A partir da construção de uma estrutura de

relacionamento, determinam-se dimensões através da decomposição espectral (autovalores e autovetores) cujo gráfico das variáveis e casos são representados por pontos e cujas proximidades refletem a semelhança entre comportamentos.

A construção dessas dimensões é realizada através dos softwares estatísticos e fica muito difícil a sua obtenção através de outros meios.

A grande contribuição da AC está nesses gráficos que permitem a avaliação visual do comportamentos das linhas e colunas num único gráfico.

Page 23: Análise Estrutural - ..:: GEPEQ - Grupo de Estudo e Pesquisa … · PPT file · Web view2006-08-09 · Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II

[email protected] 23

Bibliografia

Hair Jr,J.F.; Anderson,R.E.; Tatham, R,L.; Black, W.C. Análise Multivariada de Dados. 5a. Edição, Bookman, 2005

Johnson, R.A.; Wichern, D.W. Applied Multivariate Statistical Analysis. 4a. Edição, Prentice Hall, 1998.

Manly, B.F.J. Multivariate Statistical Analysis: A primer. 2a. Edição, Chapman & Hall, 1997.

Manual do Statistica, Vol III: Statistics II. StatSoft, 1999. Lopez, C.P. Métodos Estadísticos Avanzados com

SPSS. Thomson, 2005.

Page 24: Análise Estrutural - ..:: GEPEQ - Grupo de Estudo e Pesquisa … · PPT file · Web view2006-08-09 · Seminário DEs/DEP Algumas Técnicas Estatísticas Multivariadas Parte II

[email protected] 24

Muito obrigado a todos vocês que conseguiram me agüentar nesses dois dias.

Que Deus os abençoe e os gratifiquem contribuindo com um mãozinha na

MegaSena (mas se ganharem não se esqueçam da minha comissão)