22

Texto i: INTRODUÇÃO - mat.ufrgs.brviali/cursos/ceea/multi/textos/Introducao.pdf · INTRODUÇÃO..... 1 1.1. O QUE É A ANÁLISE MULTIVARIADA ... A única diferença real entre uma

  • Upload
    voliem

  • View
    221

  • Download
    0

Embed Size (px)

Citation preview

S É R I E : E s t a t í s t i c a M u l t i v a r i a d a T e x t o i : I N T R O D U Ç Ã O

P r o f . L o r í V i a l i , D r . − v i a l i @ p u c r s . b r − h t t p : / / w w w . m a t . p u c r s . b r / ~ v i a l i / 1

SUMÁRIO

1. INTRODUÇÃO................................................................................................................................................ 1

1.1. O QUE É A ANÁLISE MULTIVARIADA?................................................................................................................ 1

1.2. FERRAMENTAS COMPUTACIONAIS...................................................................................................................... 1

1.3. DEFINIÇÃO DE ANÁLISE MULTIVARIADA............................................................................................................ 1

2. CONCEITOS BÁSICOS.................................................................................................................................. 2

2.1. COMBINAÇÃO LINEAR DE VARIÁVEIS (VARIATE) .................................................................................................. 2

2.2. ESCALAS DE MEDIDA......................................................................................................................................... 3

2.2.1. Escalas qualitativas.................................................................................................................................. 3

2.2.2. Escalas quantitativas................................................................................................................................ 4

2.3. ERROS DE MEDIDA E MEDIDA MULTIVARIADA .................................................................................................... 5

2.4. SIGNIFICÂNCIA ESTATÍSTICA VERSUS PODER ESTATÍSTICO .................................................................................. 6

3. TIPOS DE TÉCNICAS MULTIVARIADAS .................................................................................................. 8

3.1. TÉCNICAS DO TIPO REGRESSÃO.......................................................................................................................... 8

3.1.1. Regressão Múltipla................................................................................................................................... 8

3.1.2. Análise discriminante ............................................................................................................................... 8

3.1.3. Análise de variância multivariada............................................................................................................. 9

3.1.4. Correlação canônica ................................................................................................................................ 9

3.1.5. Modelos lineares de probabilidade (logit) ................................................................................................. 9

3.1.6. Análise conjunta......................................................................................................................................10

3.1.7. Modelagem por equações estruturais .......................................................................................................10

3.2. TÉCNICAS DO TIPO CORRELAÇÃO ......................................................................................................................11

3.2.1. Análise de fatores ....................................................................................................................................11

3.2.2. Análise de conglomerados .......................................................................................................................12

3.2.3. Escalonamento multidimensional.............................................................................................................12

3.2.4. Análise de correspondência .....................................................................................................................12

4. CLASSIFICAÇÃO DAS TÉCNICAS MULTIVARIADAS...........................................................................13

4.1. TÉCNICAS DEPENDENTES..................................................................................................................................14

4.2. TÉCNICAS INTERDEPENDENTES.........................................................................................................................17

5. ANÁLISE MULTIVARIADA: INTERPRETAÇÃO.....................................................................................17

5.1. ESTABELECER SIGNIFICÂNCIA PRÁTICA E ESTATÍSTICA ......................................................................................17

5.2 O TAMANHO DA AMOSTRA AFETA TODOS OS RESULTADOS ..................................................................................17

5.3. CONHEÇA OS DADOS ........................................................................................................................................18

5.4. MANTENHA UM MODELO SIMPLES.....................................................................................................................18

5.5. TOME CUIDADO COM OS ERROS.........................................................................................................................18

6. CONCLUSÃO.................................................................................................................................................19

7. REFERÊNCIAS..............................................................................................................................................20

S É R I E : E s t a t í s t i c a M u l t i v a r i a d a T e x t o i : I N T R O D U Ç Ã O

P r o f . L o r í V i a l i , D r . − v i a l i @ p u c r s . b r − h t t p : / / w w w . m a t . p u c r s . b r / ~ v i a l i / 1

11 .. IINNTTRROODDUUÇÇÃÃOO

1.1. O QUE É A ANÁLISE MULTIVARIADA?

Técnicas analíticas multivariadas estão sendo largamente aplicadas hoje na indústria, no

governo e nos centros de pesquisas das universidades. Hoje já não faz mais sentido seguir o que a

pouco tempo ainda era comum, considerar os consumidores como um grupo homogêneo e

caracterizado por um pequeno grupo de variáveis demográficas. Ao contrário, é necessário

desenvolver estratégias que atinjam grupos variados de consumidores com características

demográficas e psicográficas em um mercado com múltiplas restrições (legais, econômicas,

competitivas, tecnológicas, etc.). É somente através de técnicas multivariadas que as múltiplas relações

destes tipos podem ser adequadamente examinadas para se obter um entendimento completo e realista

da tomada de decisão.

1.2. FERRAMENTAS COMPUTACIONAIS

Todas as técnicas multivariadas foram desenvolvidas antes do aparecimento dos

computadores. No entanto, foi só após a utilização dos computadores que estas técnicas começaram a

ser conhecidas e usadas por não especialistas.

Hoje existe uma quantidade razoável de programas computacionais que permitem a utilização

de técnicas multivariadas. Os antigos programas desenvolvidos para mainframes (grandes

computadores), agora com versões em micros, como o SPSS, SAS e BMDP e os novos programas

especializados. Por exemplo, para a redução multidimensional tem-se o ASCAL, INDSCAL, KYST e

PREFMAP. Para equações estruturais ou simultâneas o LISREL e o EQS e para análise conjunta o

ACA, o CVA e CBC.

1.3. DEFINIÇÃO DE ANÁLISE MULTIVARIADA

A análise multivariada de uma forma bem geral refere-se a todos os métodos estatísticos que

analisam simultaneamente múltiplas medidas em cada indivíduo ou objeto sob investigação. Qualquer

análise simultânea de mais de duas variáveis pode ser, de certo modo, considerado como análise

multivariada. Muitas técnicas multivariadas são simplesmente extensões de análises univariadas

(análise da distribuição de uma única variável) e análise bivariada (classificação cruzada, correlação,

análise de variância e regressão simples). Por exemplo, a regressão simples (com uma variável

preditiva) é estendida para o caso multivariado para incluir várias variáveis preditivas. Da mesma

S É R I E : E s t a t í s t i c a M u l t i v a r i a d a T e x t o i : I N T R O D U Ç Ã O

P r o f . L o r í V i a l i , D r . − v i a l i @ p u c r s . b r − h t t p : / / w w w . m a t . p u c r s . b r / ~ v i a l i / 2

forma, a única variável dependente encontrada na análise de variância é estendida para incluir

múltiplas variáveis dependentes na análise de variância multivariada. Em muitos casos, como poderá

ser visto, a análise multivariada é um meio de realizar em uma única análise aquilo que exigiria

múltiplas análises no caso univariado. Outras técnicas multivariadas, no entanto, foram projetadas para

lidar somente com casos multivariados, tal como a análise de fatores, que visa identificar a estrutura

subjacente de um grupo de variáveis ou a análise discriminante, para diferenciar entre grupos baseados

em um conjunto de variáveis.

Uma das razões para a dificuldade de se definir a análise multivariada é que o termo

multivariado não é utilizado de forma consistente na literatura. Para alguns pesquisadores,

multivariado significa simplesmente examinar o relacionamento entre duas ou mais variáveis. Outros

usam o termo somente para problemas onde todas as variáveis assumem por hipótese uma distribuição

multivariada. Para ser considerado verdadeiramente multivariada, no entanto, todas as variáveis devem

ser aleatórias e interrelacionadas de tal forma que seus diferentes efeitos não podem ser interpretados

de maneira significativa separadamente. Outros autores declaram que o propósito da análise

multivariada é medir, explicar e predizer o grau de relacionamento entre variates (combinação linear

de variáveis). Desta forma, a característica multivariada repousa nas múltiplas combinações de

variáveis (variates) e não somente sobre o número de variáveis ou observações.

22.. CCOONNCCEEIITTOOSS BBÁÁSSIICCOOSS

2.1. COMBINAÇÃO LINEAR DE VARIÁVEIS (VARIATE)

A análise multivariada tem suas raízes na análise univariada e bivariada e a extensão para o

domínio multivariado introduz conceitos adicionais e questões que são particularmente relevantes.

Estes conceitos vão desde o entendimento conceitual do bloco estrutural básico da análise multivariada

- as variates - até questões específicas que lidam com o tipo de escala de medida utilizada e as

questões estatísticas da significância dos testes e intervalos. Cada conceito desempenha um papel

importante na aplicação bem sucedida de qualquer técnica multivariada.

A variate

Como já mencionado, o bloco básico da construção da análise multivariada é a combinação

linear de variáveis com pesos empiricamente determinados, ou simplesmente denominada de variate.

As variáveis são especificadas pelo pesquisador ou analista enquanto que os pesos são determinados

pelo objetivo específico das técnicas multivariadas. Uma variate de n variáveis ponderadas (X1 até Xn)

pode ser escrita da seguinte forma: Valor da variate = w1X1 + w2X2 + ... + wnXn,

S É R I E : E s t a t í s t i c a M u l t i v a r i a d a T e x t o i : I N T R O D U Ç Ã O

P r o f . L o r í V i a l i , D r . − v i a l i @ p u c r s . b r − h t t p : / / w w w . m a t . p u c r s . b r / ~ v i a l i / 3

onde Xi é a variável observada e wi é o peso obtido pela técnica multivariada.

O resultado é um único valor representando a combinação de todo o conjunto de variáveis que

melhor atinge o objetivo da técnica multivariada específica. Na regressão múltipla, o resultado

(variate) é determinado de forma que melhor se correlacione com a variável sendo prevista

(predicted). Na análise discriminante o resultado (variate) é formado de forma a criar escores para

cada variável que produzam a máxima diferença entre grupos de observações. E na análise de fatores o

resultado (variate) é formado para melhor representar a estrutura subjacente ou dimensionalidade das

variáveis como as representadas pelas suas intercorrelações.

Em cada instância, o resultado (variate) captura o caráter multivariado da análise. Assim , na

discussão de cada técnica, o resultado (variate) é o ponto central da análise em muitos aspectos. Nós

devemos entender não apenas o impacto coletivo em satisfazer os objetivos da técnica mas também a

contribuição de cada variável sobre o efeito global no resultado (variate).

2.2. ESCALAS DE MEDIDA

A análise de dados envolve a partição, identificação e medição das variações em um conjunto

de variáveis, tanto entre elas ou entre a variável dependente e uma ou mais variáveis independentes. A

palavra chave é medição, porque o pesquisador não pode identificar uma variação a menos que ela seja

capaz de ser medida. A medida é importante para representar de forma acurada o conceito de interesse

e seu instrumental na seleção do método de análise multivariada apropriado.

Existem dois tipos básicos de dados: qualitativos (não-métricos) e quantitativos (métricos).

Dados qualitativos são atributos, características ou categorias que identificam ou descrevem um

conteúdo. Eles descrevem a diferença entre tipos e elementos indicando a presença ou ausência de uma

característica ou propriedade. Muitas propriedades são discretas no sentido de que se algo tem uma

determinada característica então todas as outras estão excluídas. Por exemplo, se alguém é homem

então não pode ser mulher. Não existe quantidade de gênero, mas apenas o estado de ser homem ou

mulher. Em contraste as escalas métricas são feitas de modo que os conteúdos podem ser identificados

como diferindo em quantidade ou grau. Variáveis medidas metricamente refletem quantidades

relativas de grau ou distância. Onde se puder fazer declarações de quantidade ou magnitude, tal como

o nível de satisfação ou comprometimento com um trabalho, medidas métricas são apropriadas.

2.2.1. ESCALAS QUALITATIVAS

Medidas não-métricas podem ser feitas tanto com uma escala nominal quanto com uma

ordinal. Uma medida com escala nominal atribui valores com o objetivo de rotular ou identificar os

S É R I E : E s t a t í s t i c a M u l t i v a r i a d a T e x t o i : I N T R O D U Ç Ã O

P r o f . L o r í V i a l i , D r . − v i a l i @ p u c r s . b r − h t t p : / / w w w . m a t . p u c r s . b r / ~ v i a l i / 4

objetos. Escalas nominais, também conhecidas como escalas categóricas, fornecem o número de

ocorrências (freqüências) em cada classe ou categoria da variável sendo estudada. Os símbolos ou

números atribuídos a cada categoria não tem um significado quantitativo além o de indicar a presença

ou ausência do atributo ou característica sob investigação. Exemplos de escalas nominais são: sexo,

religião, preferência política, estado civil, etc.

A escala ordinal é o nível seguinte das escalas de medidas. Variáveis podem ser ordenadas

através de escalas ordinais com respeito a quantidade do atributo que possuem. Cada subcategoria

pode ser comparada com outra em termos das relações "maior que" ou "menos que". Por exemplo

níveis diferentes de satisfação do consumidor com alguns produtos novos podem ser ilustrados por

uma escala ordinal.

Produto A Produto B Produto C

Muito satisfeito Não satisfeito

Os números utilizados na escala ordinal são não quantitativos, porque eles indicam somente a

sua posição relativa numa série ordenada. Não existe uma medida de quanta satisfação o consumidor

recebe em termos absolutos e nem o pesquisador sabe a diferença exata entre dois pontos na escala de

satisfação. Muitas escalas nas ciências humanas estão enquadradas neste grupo.

2.2.2. ESCALAS QUANTITATIVAS

As escalas métricas incluem a de intervalo e a de razão. Estas escalas permitem uma medida

real do atributo sendo mensurado e praticamente todas as operações matemáticas podem ser aplicadas.

Estas escalas possuem unidades constantes de medida de modo que as diferenças entre duas categorias

são idênticas. A única diferença real entre uma escala de intervalo e uma escala de razão é que as de

intervalo possuem um zero arbitrário enquanto que as de razão possuem um ponto zero absoluto. As

escalas de intervalo mais conhecidas são as que medem a temperatura como a Celsius e a Fahrenheit.

Ambas possuem um ponto zero arbitrário, isto é, não significando uma quantidade zero de temperatura

ou ausência completa de temperatura. Da mesma forma não é possível afirmar que um certo valor num

escala de intervalo é múltiplo de algum outro na escala. Por exemplo, uma temperatura de 80F numa

escala diferente não é o dobro da temperatura de 40F porque 80F na escala Celsius é 26,7C. Do mesmo

modo o valor 40F na escala Celsius é 4,4C. Embora 80 seja o dobro de 40, não se pode afirmar que o

calor de 80F é o dobro do calor de 40F, porque usando uma escala diferente o calor medido não é o

dobro, isto é, 2. 4,4C ≠ 8,8C.

S É R I E : E s t a t í s t i c a M u l t i v a r i a d a T e x t o i : I N T R O D U Ç Ã O

P r o f . L o r í V i a l i , D r . − v i a l i @ p u c r s . b r − h t t p : / / w w w . m a t . p u c r s . b r / ~ v i a l i / 5

A escala de razão é o mais alto nível de medida possível, porque ela apresenta as vantagens

das demais escalas mais um zero absoluto. Todas as operações matemáticas são permitidas com este

tipo de escala. O peso, por exemplo, é medido por uma escala deste tipo. Quando se diz que alguma

coisa pesa 10 kg, isto significa exatamente o dobro de algo que pesa 5kg, não importando se for

expresso em kg ou outra unidade qualquer. Aqui um peso zero significa ausência total da

característica, isto é, peso.

Entender os diferentes tipos de escala de medida é importante por duas razões. Primeiro é

necessário identificar a escala de medida usada para cada variável para que dados métricos não sejam

usados incorretamente como se fossem não-métricos e vice-versa. Segundo, a escala de medida é um

fator crítico na determinação do tipo de técnica multivariada que será mais apropriada para os dados

levando em consideração as variáveis dependentes e independentes.

2.3. ERROS DE MEDIDA E MEDIDA MULTIVARIADA

O uso de múltiplas variáveis e a confiança na sua combinação (a variate) em técnicas

multivariadas também chama a atenção para um assunto complementar: o erro de medida. O erro de

medida é o grau com que a o valor observado não é representativo dos valores verdadeiros. Erros de

medida podem vir de várias fontes, variando de digitação errada (erro nos dados de entrada) até a

imprecisão da medida em si. Por exemplo, utilizar uma escala de 7 níveis para medir a satisfação do

consumidor quando os mesmos só podem responder com precisão a apenas três. A renda familiar pode

ser razoavelmente medida mas raramente é totalmente precisa. Desta forma toda variável utilizada em

técnicas multivariadas deve ser assumida como possuindo algum grau de erro de medida. O impacto

do erro de medida é adicionar "ruído" às variáveis observadas ou medidas. Desta forma, o valor

observado representa tanto o "verdadeiro" valor quanto o "ruído". Quando usado para calcular

correlações ou médias, o "verdadeiro" efeito é parcialmente mascarado pelo erro de medida, fazendo

com que a correlação seja mais fraca e a média menos precisa.

O objetivo de reduzir o erro de medida pode ser alcançado de várias formas. Ao tratar o grau

de erro de medida presente em qualquer medida o analista pode tanto tratar da validade quanto da

confiabilidade. A validade é o grau com que a medida acuradamente representa aquilo que ela se

propõe a representar. Assegurar a validade começa com o entendimento correto do que deve ser

medido e então com a determinação da medida tão corretamente e acuradamente quanto possível. No

entanto acurácia não assegura validade.

Supondo que a medida é válida, isto é, representa aquilo que se propõe a medir, existem ainda

considerações sobre a confiabilidade da medida. Confiabilidade é o grau com o qual a variável

S É R I E : E s t a t í s t i c a M u l t i v a r i a d a T e x t o i : I N T R O D U Ç Ã O

P r o f . L o r í V i a l i , D r . − v i a l i @ p u c r s . b r − h t t p : / / w w w . m a t . p u c r s . b r / ~ v i a l i / 6

considerada mede o verdadeiro valor e está livre de erros. Se a mesma medida, por exemplo, é feita

várias vezes, medidas confiáveis mostrarão uma consistência mais alta do que medidas menos

confiáveis.

Um outro procedimento a ser seguido é desenvolver medidas multivariadas, também

conhecidas como escalas somadas, onde várias variáveis são agrupadas para representar uma variável

composta (por exemplo, escalas de personalidade de itens múltiplos ou classe de um produto). O

objetivo é evitar o uso de uma única variável para representar um conceito e ao invés usa-se várias

variáveis como indicadores, todas representando diferentes facetas do conceito para obter uma

perspectiva mais global. O uso de múltiplos indicadores permite ao pesquisador especificar mais

precisamente as respostas desejadas e não colocar total confiança em uma única resposta mas ao invés

numa resposta média ou típica de um conjunto relacionado de respostas. A idéia é que respostas

múltiplas refletem de forma mais acurada a verdadeira resposta do que uma única.

O impacto de erros de medida e uma confiabilidade pobre não podem ser vistos diretamente

pois eles estão embutidos nas variáveis observadas. Resultados ruins nem sempre são devidos a erros

de medida, mas a presença de erros de medida seguramente distorcerá o relacionamento observado e

tornará a técnica multivariada menos poderosa.

2.4. SIGNIFICÂNCIA ESTATÍSTICA VERSUS PODER

ESTATÍSTICO

Todas as técnicas multivariadas exceto a análise de conglomerados e a redução

multidimensional (multidimensional scaling) são baseadas em inferências de valores populacionais ou

no relacionamento entre variáveis de uma amostra extraídas ao acaso de uma população. Se fosse feito

o censo então a inferência seria desnecessária, porque qualquer diferença ou relacionamento, mesmo

que pequeno, é verdadeiro e existe. Mas o censo é raramente feito, então, normalmente se é obrigado a

trabalhar com amostras.

Interpretar inferências estatísticas requer que o pesquisador especifique os níveis aceitáveis de

erro. A abordagem mais comum é especificar o Erro do Tipo I, cuja probabilidade é representada por

α (alfa). O erro do Tipo I consiste em rejeitar a hipótese nula quando ela é verdadeira, isto é, quando

ela não deveria ser rejeitada. Em outras palavras ele consiste em afirmarmos que os resultados são

significativos, no caso, estatisticamente significativos quando, de fato, eles não são. O erro do tipo I é

apenas um dos dois tipos de erros possíveis. O erro do tipo I pode ser cometido quando rejeitamos a

hipótese nula. No entanto, rejeitar a hipótese é apenas uma das duas decisões possíveis. Se a hipótese

nula for aceita então é possível se cometer o Erro do Tipo II, isto é, aceitar a hipótese quando ela não

S É R I E : E s t a t í s t i c a M u l t i v a r i a d a T e x t o i : I N T R O D U Ç Ã O

P r o f . L o r í V i a l i , D r . − v i a l i @ p u c r s . b r − h t t p : / / w w w . m a t . p u c r s . b r / ~ v i a l i / 7

deveria ser aceita. A probabilidade de se cometer o erro do tipo II é representada por β (beta). No

entanto, uma probabilidade mais interessante é 1- β, que é a probabilidade de tomar uma decisão

correta, isto é, é a probabilidade de se rejeitar a hipótese nula quando ela é falsa. Esta probabilidade é

denominada de poder do teste.

Os erros do tipo I e II variam inversamente, isto é, quando a probabilidade de se cometer erro

do tipo I é diminuída a probabilidade de se cometer erro do tipo II é aumentada. Reduzir o erro do tipo

I, reduz também o poder do teste estatístico. Desta forma é necessário fazer um balanço entre o nível

de significância (α) e o poder resultante.

O poder não é apenas uma função de α, ele é, na realidade, uma resultante de três fatores:

1. Tamanho do efeito. A probabilidade de se obter significância estatística é baseada não

somente em considerações estatísticas, mas também na real magnitude do efeito de interesse sendo

estudado (por exemplo, a diferença de médias entre dois grupos ou a correlação entre variáveis) na

população, denominado de tamanho do efeito. Como seria esperado, um efeito grande é mais

provável de ser detectado do que um pequeno e deste forma influenciam no poder do teste. Para avaliar

o poder de qualquer teste estatístico o pesquisador deve primeiramente entender o efeito sendo

estudado. O tamanho do efeito é definido em termos de desvios padrões para facilitar comparações.

Diferenças de médias são estabelecidas em termos de desvios padrões, de modo que um efeito de 0,50

indica que a diferença média é de meio desvio padrão. Para correlações o tamanho do efeito é baseado

na correlação real entre as variáveis.

2. Alfa. Como já foi discutido à medida que a probabilidade de se cometer erro do tipo I (alfa)

diminui o poder do teste também decresce. Isto significa que se o analista reduz a chance de encontrar

um efeito incorreto significativo, a probabilidade de encontrar corretamente o efeito também diminui.

Normalmente os níveis utilizados para a significância ficam em 5% e 1%, mas o analista deve

considerar o impacto desta decisão no poder do teste antes de tomar uma decisão definitiva.

3. Tamanho da amostra. A um dado nível alfa, aumentar o tamanho da amostra sempre

produz aumento no poder do teste. Mas aumentar o tamanho da amostra pode também produzir "muito

poder". Isto quer dizer que aumentando o tamanho da amostra efeitos cada vez menores serão

detectados como estatisticamente significativos até que para uma amostra muito grande quase todo

efeito será significativo. O analista deve estar sempre ciente que o tamanho da amostra pode afetar o

teste estatístico tanto tornando-o insensível (para pequenos tamanhos de amostra) ou então

extremamente sensível (para amostras realmente grandes).

S É R I E : E s t a t í s t i c a M u l t i v a r i a d a T e x t o i : I N T R O D U Ç Ã O

P r o f . L o r í V i a l i , D r . − v i a l i @ p u c r s . b r − h t t p : / / w w w . m a t . p u c r s . b r / ~ v i a l i / 8

33 .. TTIIPPOOSS DDEE TTÉÉCCNNIICCAASS MMUULLTTIIVVAARRIIAADDAASS

A análise multivariada é um conjunto de técnicas de análise de dados sempre em expansão. A

seguir estão tabeladas as mais bem estabelecidas. Elas foram divididas em duas categorias: as do tipo

regressão e as do tipo correlação.

3.1. TÉCNICAS DO TIPO REGRESSÃO

As técnicas do tipo regressão envolvem a separação das variáveis em dois subgrupos. As

variáveis dependentes ou explicadas e as variáveis independentes ou explicativas.

3.1.1. REGRESSÃO MÚLTIPLA

A regressão múltipla é o método de análise apropriado quando o problema envolve uma única

variável (métrica) dependente que se presume estar relacionada com uma ou mais (também métricas)

variáveis independentes. O objetivo da análise de regressão é prever as mudanças na variável

dependente em resposta às mudanças que ocorrem nas várias variáveis independentes. Este objetivo é

quase sempre alcançado através do método dos mínimos quadrados.

Sempre que um analista estiver interessado em prever a quantidade ou magnitude da variável

dependente a regressão múltipla será útil. Por exemplo: despesas mensais com jantares fora de casa

podem ser previstas com informações obtidas das variáveis renda familiar, tamanho da família e a

idade do líder da família. Da mesma forma é possível prever as vendas mensais de uma companhia

com base nas informações de gastos com propaganda, o número de vendedores e o número de pontos

de venda de seus produtos.

3.1.2. ANÁLISE DISCRIMINANTE

Se a única variável dependente for dicotômica (por exemplo: homem-mulher) ou categórica

(por exemplo: alto, médio, baixo) e desta forma qualitativa, a técnica multivariada apropriada é a

análise discriminante. Assim como na regressão múltipla as variáveis independentes são por hipótese

quantitativas. A análise discriminante é útil em situações onde a amostra total pode ser dividida em

grupos baseados na variável dependente caracterizando várias classes conhecidas. O principal objetivo

da análise discriminante é entender diferenças entre grupos e prever a probabilidade de que uma

entidade (indivíduo ou objeto) pertença a uma classe em particular ou grupo baseado nas várias

variáveis independentes. Por exemplo, a análise discriminante pode ser usada para diferenciar

inovadores de não-inovadores de acordo com seus perfis demográficos e psicográficos. Uma outra

aplicação inclui distinguir grande consumidores de pequenos consumidores de um determinado

S É R I E : E s t a t í s t i c a M u l t i v a r i a d a T e x t o i : I N T R O D U Ç Ã O

P r o f . L o r í V i a l i , D r . − v i a l i @ p u c r s . b r − h t t p : / / w w w . m a t . p u c r s . b r / ~ v i a l i / 9

produto, homens de mulheres e créditos bons de créditos ruins, etc. Até a receita federal americana

utiliza a análise discriminante para comparar o pagamento de impostos de renda de locais selecionados

com um contribuinte hipotético e para identificar os retornos mais promissores e as áreas de auditoria.

3.1.3. ANÁLISE DE VARIÂNCIA MULTIVARIADA

Análise de variância multivariada ou MANOVA (Multivariate Analysis of Variance) é uma

técnica estatística que pode ser utilizada para explorar simultaneamente o relacionamento entre várias

variáveis categóricas independentes (normalmente referenciadas como tratamentos) e duas ou mais

variáveis dependentes métricas. Como tal ela representa uma extensão da análise de variância

univariada ou ANOVA (Analysis of Variance). A análise multivariada de covariância ou MANCOVA

(Multivariate Analysis of Covariance) também pode ser usada em conjunto com a MANOVA para

remover, após o experimento, o efeito de qualquer variável independente não controlável sobre as

variáveis dependentes. O procedimento é semelhante ao usado na avaliação do coeficiente de

correlação parcial bivariado. A MANOVA é útil quando o pesquisador projeta uma situação

experimental (manipulação de várias variáveis não-métricas ou tratamentos) para testar hipóteses com

respeito a variância em grupos de resposta em duas ou mais variáveis dependentes métricas.

3.1.4. CORRELAÇÃO CANÔNICA

Análise canônica de correlação pode ser vista como uma extensão lógica da análise de

regressão múltipla. Lembre-se que análise de regressão múltipla envolve uma única variável

dependente métrica e várias variáveis independentes também métricas. Na correlação canônica o

objetivo é correlacionar simultaneamente várias variáveis dependentes métricas com várias variáveis

independentes também métricas. Enquanto a regressão múltipla envolve uma única variável

dependente, a correlação canônica envolve múltiplas variáveis dependentes. O princípio subjacente é

desenvolver uma combinação linear de cada conjunto de variáveis (tanto dependentes quanto

independentes) para maximizar a correlação entre os dois conjuntos. Em outras palavras, o

procedimento envolve obter um conjunto de pesos para as variáveis dependentes e independentes que

forneçam a correlação simples máxima entre o conjunto das variáveis dependentes e as independentes.

3.1.5. MODELOS LINEARES DE PROBABILIDADE (LOGIT)

A técnica do modelo linear de probabilidade também conhecida como análise de logit é uma

combinação de regressão múltipla e análise discriminante múltipla. Ela é semelhante a análise de

regressão múltipla no sentido de que uma ou mais variáveis independentes são utilizadas para prever

S É R I E : E s t a t í s t i c a M u l t i v a r i a d a T e x t o i : I N T R O D U Ç Ã O

P r o f . L o r í V i a l i , D r . − v i a l i @ p u c r s . b r − h t t p : / / w w w . m a t . p u c r s . b r / ~ v i a l i / 10

uma única variável dependente. O que distingue o modelo linear de probabilidade da regressão

múltipla é que a variável dependente é não-métrica como na análise discriminante. A escala não-

métrica da variável dependente requer uma abordagem diferenciada na estimação e nas hipóteses sobre

a distribuição subjacente, mas em muitas outras características é semelhante à regressão múltipla.

Desta forma, uma vez que a variável dependente seja corretamente especificada e a técnica de

estimação apropriada seja empregada, os fatores básicos considerados na regressão múltipla serão

utilizadas aqui da mesma forma. O modelo linear de probabilidade se diferencia da análise

discriminante primeiramente porque ele acomoda qualquer tipo de variável independente (tanto

métricas quanto não-métricas) e não necessita da hipótese de normalidade multivariada. No entanto,

em muitas situações, particularmente com mais de dois níveis na variável dependente a análise

discriminante é uma técnica mais apropriada.

3.1.6. ANÁLISE CONJUNTA

A análise conjunta é uma técnica dependente emergente que criou novas formas de avaliação

de objetos, tanto se forem produtos quanto se forem serviços ou idéias. A aplicação mais direta é no

desenvolvimento de novos produtos e serviços, permitindo a avaliação de produtos complexos

enquanto mantém um contexto realístico de decisão para o respondente. O analista de marketing é

capaz de avaliar a importância dos atributos bem como dos níveis de cada atributo enquanto que os

consumidores avaliam somente uns poucos perfis de produtos, que são combinações de níveis de

produtos. Por exemplo, suponha um conceito de produto com três atributos (preço, qualidade e cor),

cada um com três possíveis níveis (por exemplo, vermelho, amarelo e azul). Ao invés de precisar

avaliar todas as 27 (3.3.3) possíveis combinações, um subconjunto (9 ou mais) pode ser avaliado pela

sua atratividade para o consumidor e o analista sabe, não somente quão importante é cada atributo, mas

também a importância de cada nível (a atração do vermelho versus amarelo versus azul). Além disso,

quando a avaliação do consumidor é completada, os resultados da análise conjunta podem também ser

usados em simuladores de projetos de produtos, que mostram a aceitação do consumidor para qualquer

número de produtos formulados e ajudam no projeto do produto ótimo.

3.1.7. MODELAGEM POR EQUAÇÕES ESTRUTURAIS

A modelagem por equações estruturais muitas vezes denominada LISREL (que é o nome de

um dos pacotes de software mais populares), é uma técnica que permite separar relacionamentos para

cada um dos conjuntos de variáveis dependentes. Em termos simples, a técnica fornece um método de

S É R I E : E s t a t í s t i c a M u l t i v a r i a d a T e x t o i : I N T R O D U Ç Ã O

P r o f . L o r í V i a l i , D r . − v i a l i @ p u c r s . b r − h t t p : / / w w w . m a t . p u c r s . b r / ~ v i a l i / 11

estimação apropriado e eficiente para uma série de equações de regressões múltiplas separadas serem

estimadas simultaneamente. Ela é caracterizada por duas componentes básicas:

(1) O modelo estrutural e

(2) O modelo de medida.

O modelo estrutural é o caminho que relaciona as variáveis dependentes e independentes. Em

tais situações, teoria, experiência prévia e outros indicativos permitem que o analista distingue que

variável independente estima que variável dependente. Os modelos vistos anteriormente que

acomodam múltiplas variáveis dependentes (análise de variância multivariada e correlação canônica)

não são apropriados nesta situação porque eles permitem uma única relação entre as variáveis

dependentes e independentes.

O modelo de medida permite que o analista uso várias variáveis (indicadores) para uma única

variável dependente ou independente. Por exemplo, a variável dependente poderá ser um conceito

representado por uma escala agregada tal como auto-estima. No modelo de medida o analista pode

avaliar a contribuição de cada item da escala bem como incorporar quão bem a escala mede o conceito

(confiabilidade) na estimação do relacionamento entre as variáveis dependentes e independentes. Este

procedimento é semelhante a executar a análise de fatores dos itens da escala e usar os escores dos

fatores na regressão.

3.2. TÉCNICAS DO TIPO CORRELAÇÃO

As técnicas discutidas acima estão centradas em métodos multivariados aplicados a dados que

contém tanto variáveis dependentes quanto independentes. No entanto, se o pesquisador esta

investigando as interpelações e desta forma a interdependência entre todas as variáveis, sem se

preocupar se as variáveis são dependentes ou independentes então, várias outras técnicas multivariadas

são apropriadas. Estas técnicas incluem: análise de fatores, de conglomerados, escalonamento

multidimensional e análise de correspondência.

3.2.1. ANÁLISE DE FATORES

Análise de fatores, incluindo as variações tais como a análise de componentes e a análise de

fatores comuns é uma abordagem estatística que pode ser utilizada para analisar interpelações entre um

grande grupo de variáveis e para explicar estas variáveis em termos de fatores subjacentes comuns. O

objetivo é encontrar uma forma de condensar a informação contida em um determinado número de

variáveis originais em um conjunto menor de variates (fatores) com perda mínima de informação.

S É R I E : E s t a t í s t i c a M u l t i v a r i a d a T e x t o i : I N T R O D U Ç Ã O

P r o f . L o r í V i a l i , D r . − v i a l i @ p u c r s . b r − h t t p : / / w w w . m a t . p u c r s . b r / ~ v i a l i / 12

3.2.2. ANÁLISE DE CONGLOMERADOS

A análise de conglomerados é uma técnica analítica para encontrar subgrupos significativos

de indivíduos ou objetos. Especificamente, o objetivo é classificar uma amostra de entidades

(indivíduos ou objetos) em um número pequeno de grupos mutuamente exclusivos. Na análise de

conglomerados, diferentemente da análise discriminante, os grupos não são pré-definidos. Ao invés a

técnica é usada para identificar os grupos.

A análise de conglomerados normalmente envolve dois passos. O primeiro é a medida de

alguma forma de semelhança ou associação entre as entidades para determinar quantos grupos existem,

realmente, na amostra. O segundo passo é traçar o perfil das pessoas ou variáveis de modo a

determinar sua composição. Este passo pode ser acompanhado da aplicação da análise discriminante

aos grupos identificados pela técnica de conglomerados.

3.2.3. ESCALONAMENTO MULTIDIMENSIONAL

Na redução multidimensional o objetivo é transformar julgamentos de semelhança ou

preferência (por exemplo, preferência por lojas ou marcas) em distâncias representadas no espaço

multidimensional. Se objetos A e B são julgados por respondentes como sendo os mais semelhantes

comparados com todos os demais pares de objetos, a técnica posicionará os objetos A e B de forma

que a distância entre eles no espaço multidimensional seja menor do que a distância entre quaisquer

outros pares de objetos. O mapa perceptivo resultante mostra a posição relativa de todos os objetos,

mas análises adicionais serão necessárias para descobrir que atributos foram usados para estabelecer a

posição de cada objeto.

3.2.4. ANÁLISE DE CORRESPONDÊNCIA

A análise de correspondência é uma técnica interdependente recentemente desenvolvida para

facilitar tanto a redução dimensional da posição em uma escala (por exemplo, produtos, pessoas, etc.)

em um conjunto de atributos quanto o mapa perceptível destes objetos relativos a estes atributos. Os

analistas estão constantemente enfrentando o problema de "quantificar" os dados qualitativos

encontrados em variáveis nominais. A análise de correspondência difere de outras técnicas

interdependentes discutidas anteriormente na habilidade para acomodar tanto dados não-métricos

quanto relacionamentos não-lineares.

Em sua forma básica a análise de correspondência emprega uma tabela de contingência, que é

a tabulação cruzada de duas variáveis categóricas. Ela então transforma os dados não-métricos a um

nível métrico e executa a redução dimensional (semelhante a análise de fatores) e o mapa perceptível

S É R I E : E s t a t í s t i c a M u l t i v a r i a d a T e x t o i : I N T R O D U Ç Ã O

P r o f . L o r í V i a l i , D r . − v i a l i @ p u c r s . b r − h t t p : / / w w w . m a t . p u c r s . b r / ~ v i a l i / 13

(semelhante a análise multidimensional). Como um exemplo, a preferência de consumidores por

marcas pode ser posta em cruzamento com variáveis demográficas (raça, renda, ocupação) pela

indicação de quantas pessoas preferindo cada marca podem ser classificadas em cada categoria na

variável demográfica. Através da análise de correspondência, a associação ou "correspondência" de

marcas e as características distinguindo os que preferem cada marca são mostradas em um mapa de

duas ou três dimensões tanto das marcas quanto das características dos respondentes. Marcas

percebidas como semelhantes são colocadas próximas umas das outras. Da mesma forma, a principal

característica dos respondentes na preferência de cada marca é dada pela proximidade da categoria da

variável demográfica da posição da marca. A análise de correspondência fornece uma representação

multivariada da interdependência para dados não-métricos que não seria possível com outras técnicas.

44.. CCLLAASSSSIIFFIICCAAÇÇÃÃOO DDAASS TTÉÉCCNNIICCAASS MMUULLTTIIVVAARRIIAADDAASS

Para poder se familiarizar com as técnicas multivariadas específicas é apresentado na figura

4.1 uma classificação dos métodos multivariados. Esta classificação é baseado em três julgamentos

que se deve fazer sobre os objetivos da análise e a natureza dos dados:

(1) As variáveis podem ser classificadas em independentes e dependentes de acordo com

algum critério?

(2) Se sim, quantas são tratadas como dependentes em uma única análise?

(3) Qual a escala de medida utilizada para avaliar as variáveis?

A técnica multivariada selecionada depende das respostas a estas 3 questões. Quando uma

técnica multivariada for considerada, a primeira pergunta a ser formulada é: os dados podem ser

divididos em classificações dependentes e independentes? A resposta a esta questão indica se uma

técnica dependente ou interdependente deve ser utilizada. Observe que na figura 4.1 as técnicas

dependentes estão de um lado e as independentes de outro.

Uma técnica dependente pode ser definida como aquela em que uma variável ou um conjunto

de variáveis são identificadas como variáveis dependentes para serem previstas ou explicadas por

outra ou outro conjunto de variáveis conhecidas como independentes. Um exemplo de uma destas

técnicas é a análise múltipla de regressão. Em contraste, uma técnica interdependente é aquela em

que uma única variável ou um grupo de variáveis são definidas como sendo dependentes ou

independentes. Além disso, o procedimento envolve a análise de todas as variáveis no conjunto

simultaneamente. A análise de fatores é uma técnica de interdependência.

S É R I E : E s t a t í s t i c a M u l t i v a r i a d a T e x t o i : I N T R O D U Ç Ã O

P r o f . L o r í V i a l i , D r . − v i a l i @ p u c r s . b r − h t t p : / / w w w . m a t . p u c r s . b r / ~ v i a l i / 14

4.1. TÉCNICAS DEPENDENTES

Os diferentes métodos que constituem a análise de dependência podem ser categorizadas por

duas coisas:

(1) o número de variáveis dependentes e

(2) o tipo de escala de medida empregado para medir as variáveis.

Com respeito ao número de variáveis dependentes estas técnicas podem ser classificadas

como tendo uma única variável dependente, várias variáveis dependentes ou mesmo várias relações de

dependência ou independência. As técnicas dependentes podem, ainda, ser classificadas como

apresentando variáveis métricas (quantitativa/numérica) ou não-métricas (qualitativas/categóricas)

dependentes. Se a análise envolve uma única variável dependente que é métrica, a técnica apropriada é

tanto análise múltipla de regressão quanto análise conjunta. A análise conjunta é um caso especial. É

um procedimento dependente que pode tratar a variável dependente tanto como métrica ou não-

métrica, dependendo das circunstâncias. Por outro lado, se a única variável dependente é categórica

então a técnica apropriada é a análise discriminante ou modelos lineares de probabilidade. Em

contraste, quando o problema envolve várias variáveis dependentes, quatro outras técnicas de análise

são apropriadas. Se as várias variáveis dependentes são métricas deve-se então olhar para as variáveis

independentes. Se as variáveis independentes são não-métricas a técnica de análise multivariada de

variância deve ser selecionada. Se elas forem métricas então análise canônica de correlação é a técnica

a ser empregada. Se as várias variáveis dependentes são não-métricas, elas podem ser transformadas

através de variáveis dummy codificadas como 0 ou 1 e então a análise canônica pode novamente ser

empregada. Finalmente se um conjunto relacionamentos de variáveis dependentes/independentes pode

ser assumido então a modelagem por equações estruturais pode ser empregado.

Existe uma relação estreita entre os vários procedimentos dependentes e elas podem ser vistas

como uma família de técnicas. A tabela 4.1 define as várias técnicas dependentes multivariadas em

termos da natureza e do número das variáveis dependentes e independentes. Como pode ser visto, a

correlação canônica pode ser considerada como um modelo geral sobre o qual muitas outras técnicas

multivariadas estão baseadas, porque ela coloca as mais baixas restrições tanto no tipo quanto no

número de variáveis em ambas as variates dependente e independente. As restrições são colocadas nas

variates, conclusões mais precisas podem ser alcançadas baseadas na escala específica de medida dos

dados. Desta forma, as técnicas multivariadas abrangem desde o método geral de análise canônica até

o mais especializado representado pela modelagem de equações.

S É R I E : E s t a t í s t i c a M u l t i v a r i a d a T e x t o i : I N T R O D U Ç Ã O

P r o f . L o r í V i a l i , D r . − v i a l i @ p u c r s . b r − h t t p : / / w w w . m a t . p u c r s . b r / ~ v i a l i / 15

Figura 4.1 - Classificação das técnicas multivariadas

Modelagem porequações estruturais

Relações múltiplasde variáveis dependentes

e independentes?

Análise canônicacorrelação

Métrica

Análise de variânciamultivariada

Não-métrica

Qual é a escala demedida da variável

explicativa?

Métrica

Análise canônicacorrelação com

variáveis dummy

Não-métrica

Qual é o tipo devarável dependente?

Várias variáveis emuma única relação

RegressãoMúltipla

AnáliseConjunta

Métrica

AnáliseDiscriminante

ModelosLineares de

Probabilidade

Não-métrica

Qual é o tipode escala da

variável dependente?

Uma variável dependenteem uma única relação

Quantas variáveisestão sendoexplicadas?

Dependência:

Análisede Fatores

Variáveis

Análise deConglomerados

Casos/Respondentes

ReduçãoMultidimensional

Métrica

Análisede correspondência

Não-métrica

Como osatributos sãomensurados?

Objetos

A estrutura dorelacionamento é entre?

Interdependência:

Tipo de relação sendo examinada

S É R I E : E s t a t í s t i c a M u l t i v a r i a d a T e x t o i : I N T R O D U Ç Ã O

P r o f . L o r í V i a l i , D r . − v i a l i @ p u c r s . b r − h t t p : / / w w w . m a t . p u c r s . b r / ~ v i a l i /

Tabela 4.1 - As relações entre os métodos dependentes multivariados

Correlação canônica

Y1 + Y2 + Y3 + .. + Yn = X1 + X2 + X3 + ... + Xn

(Qualitativas, Quantitativas ) (Qualitativas, Quantitativas )

Análise multivariada de variância

Y1 + Y2 + Y3 + ... + Yn = X1 + X2 + X3 + ... + Xn

(Quantitativas ) (Qualitativas)

Análise de variância

Y = X1 + X2 + X3 + ... + Xn

(Quantitativas ) (Qualitativas)

Análise discriminante múltipla

Y = X1 + X2 + X3 + ... + Xn

(Qualitativa) (Quantitativas )

Análise de regressão múltipla

Y = X1 + X2 + X3 + ... + Xn

(Quantitativa) (Quantitativas, Qualitativas)

Análise conjunta

Y = X1 + X2 + X3 + ... + Xn

(Quantitativa, Qualitativa) (Qualitativas) Modelagem por equações estruturais

Y1 = X11 + X12 + X13 + ... + X1n

Y2 = X21 + X22 + X23 + ... + X2n

................................................

Ym = Xm1 + Xm2 + Xm3 + ... + Xmn

S É R I E : E s t a t í s t i c a M u l t i v a r i a d a T e x t o i : I N T R O D U Ç Ã O

P r o f . L o r í V i a l i , D r . − v i a l i @ p u c r s . b r − h t t p : / / w w w . m a t . p u c r s . b r / ~ v i a l i /

4.2. TÉCNICAS INTERDEPENDENTES

As técnicas interdependentes são mostradas no lado direito da figura 4.1. Deve-se lembrar que

neste tipo de técnica as variáveis não são classificadas como dependentes ou independentes. Ao invés,

todas as variáveis são analisadas simultaneamente em um esforço para encontrar uma estrutura

subjacente para todo o conjunto de variáveis ou elementos. Se a estrutura das variáveis é para ser

analisada, então análise de fatores é a técnica apropriada. Se casos ou respondentes devem ser

agrupados para representar a estrutura, então a análise de conglomerados é a técnica selecionada.

Finalmente, se o interesse reside na estrutura dos objetos, então a técnica da redução multidimensional

deve ser aplicada. Assim como nas técnicas dependentes, as propriedades das medidas das técnicas

devem ser consideradas. No entanto, dados não-métricos podem ser transformados através de variáveis

dummy para uso com análise de fatores e de conglomerados. A abordagem métrica e não-métrica foi

desenvolvida para a redução multidimensional. Se a interdependência dos objetos medidos por dados

não-métricos deve ser analisada, a análise de correspondência é também uma técnica apropriada.

55.. AANNÁÁLLIISSEE MMUULLTTIIVVAARRIIAADDAA:: IINNTTEERRPPRREETTAAÇÇÃÃOO

A análise multivariada, mesmo quando aplicada corretamente, pelas restrições de se acomodar

múltiplas variáveis, cria resultados complexos que podem ser difíceis de se interpretar. As orientações

gerais seguintes podem ajudar nesta interpretação. A lista não é uma coleção exaustiva de

considerações, mas uma espécie de "filosofia da análise multivariada".

5.1. ESTABELECER SIGNIFICÂNCIA PRÁTICA E ESTATÍSTICA

O analista deve considerar a significância estatística dos resultados, é claro, mas também seu

significado prático. A significância prática é obtida respondendo a questão "E agora?". Para qualquer

aplicação gerencial, os resultados devem ter um efeito demonstrável que justifique a ação.

5.2 O TAMANHO DA AMOSTRA AFETA TODOS OS RESULTADOS

Para pequenas amostras, a sofisticação e complexidade das técnicas de análise multivariada

podem facilmente resultar em (1) pouco poder estatístico para o teste para identificar resultados

significativos de forma realista; (2) facilmente oferecer um ajustamento adequado dos dados tais que

os resultados serão artificialmente bons porque se ajustam muito bem, embora não tenha generalidade.

Um impacto semelhante também ocorre para grandes tamanhos de amostras, tornando o teste muito

sensível. Toda vez que a amostra exceder a 200 ou 300 unidades, o analista deve examinar todos os

S É R I E : E s t a t í s t i c a M u l t i v a r i a d a T e x t o i : I N T R O D U Ç Ã O

P r o f . L o r í V i a l i , D r . − v i a l i @ p u c r s . b r − h t t p : / / w w w . m a t . p u c r s . b r / ~ v i a l i /

resultados significativos para se assegurar que eles possuem significância prática, devido ao

crescimento do poder estatístico em virtude do tamanho da amostra. O tamanho da amostra afeta

também os resultados quando a análise envolve grupos de resposta tal como na análise discriminante e

MANOVA. Tamanhos desiguais entre grupos influenciam os resultados e requerem interpretações

adicionais e/ou análises.

5.3. CONHEÇA OS DADOS

A análise multivariada requer um exame preliminar dos dados em virtude da influência de

outliers (valores estranhos ao conjunto), violação das hipóteses e a falta de dados (missing data). Para

aproveitar todos os benefícios da análise multivariada o analista deve saber "onde olhar", com

formulações alternativas do modelo original, tal como relacionamentos não-lineares ou interativos.

5.4. MANTENHA UM MODELO SIMPLES

As técnicas multivariadas são projetadas para acomodar múltiplas variáveis na análise. Esta

característica, no entanto, não deve substituir o desenvolvimento de um modelo conceitual antes da

aplicação da técnica. Enquanto é sempre mais importante evitar a omissão de uma variável preditiva

crítica, denominado de erro de especificação, por várias razões o analista também deve evitar o

oposto, isto é, inserir variáveis indiscriminadamente e deixar a técnica multivariada tentar identificar

as relevantes. Primeiro, porque variáveis irrelevantes normalmente aumentam a habilidade de

aderência dos dados ao modelo tornando os resultados menos generalizáveis para a população.

Segundo, variáveis irrelevantes não necessariamente distorcem os resultados das relevantes, mas elas

podem mascarar os verdadeiros efeitos devidos a multicolinearidade. A multicolinearidade representa

o grau com que qualquer variável pode ser prevista pelas outras variáveis na análise. Com o aumento

da multicolinearidade diminui a habilidade de detectar o efeito de outras variáveis. Desta forma, incluir

variáveis que não são conceitualmente relevantes pode ter efeitos potenciais danosos, mesmo se elas

não distorcem diretamente os resultados do modelo.

5.5. TOME CUIDADO COM OS ERROS

Mesmo com as técnicas multivariadas, raramente se obtém as melhores previsões na primeira

análise. O analista enfrenta então a questão: "o que fazer agora?" A melhor resposta é olhar os erros

nas previsões, se eles são residuais da análise de regressão, de má classificação na análise

discriminante ou por outliers na análise de conglomerados. Neste caso, o analista deve usar os erros na

previsão não como uma medida de falha ou meramente algo a ser eliminado, mas como um ponto de

S É R I E : E s t a t í s t i c a M u l t i v a r i a d a T e x t o i : I N T R O D U Ç Ã O

P r o f . L o r í V i a l i , D r . − v i a l i @ p u c r s . b r − h t t p : / / w w w . m a t . p u c r s . b r / ~ v i a l i /

partida para o diagnóstico da validade dos resultados obtidos e um indicação de relações

remanescentes não explicadas.

66.. CCOONNCCLLUUSSÃÃOO

Nesta introdução às técnicas multivariadas o assunto não foi absolutamente esgotado. O que

se apresentou aqui de forma introdutória foi o elenco das técnicas já sedimentadas. Técnicas ainda

pouco conhecidas ou recém desenvolvidas não foram analisadas. O que se pretendeu foi apresentar um

panorama amplo das principais técnicas, suas interelações e um guia para a escolha e a aplicação das

mesmas. Novas técnicas que estão rapidamente ganhando importância, com aplicações em quase todas

as áreas são as redes neurais (neuronais) e a mineração de dados (data mining).

S É R I E : E s t a t í s t i c a M u l t i v a r i a d a T e x t o i : I N T R O D U Ç Ã O

P r o f . L o r í V i a l i , D r . − v i a l i @ p u c r s . b r − h t t p : / / w w w . m a t . p u c r s . b r / ~ v i a l i /

77.. RREEFFEERRÊÊNNCCIIAASS

AAKER, David A., DAY, George S. Marketing Research (3e). New York: John Wiley & Sons, 1986.

CHURCHILL, A, Jr. Marketing Research:Methodological Foundations (sixth edition). Orlando, FL:

Hartcourt Brace & Company, 1995, 1117 pp.

DILLON, William R., MADDEN, Thomas J., FIRTLE, Neil H. Marketing Research in a Marketing

Environment (Third edition). Boston, Massachusetts: IRWIN, 1987, 760 pp.

HAIR, Joseph F., Jr.. ANDERSON, Rolph E., TATHAM, Ronald L., BLACK William C.

Multivariate Data Analyis: with readings (fourth edition). Upper Saddle River, New Jersey:

Prentice Hall, 1995. 745 pp.

KACHIGAN, Sam Kash. Statistical Analysis: An Interdisciplinary Introduction to Univariate &

Multivariate Methods. New York: Radius Press, 1986, 589 p.

MARKLAND, Robert E., SWEIGART, James R. Quantitative Methods: Applications to Managerial

Decision Making. New York: John Wiley & Sons, 1987. 827p.

MASON, Robert D., DOUGLAS, Lind A. Statistical Techniques in Business And Economics. IRWIN,

Boston, 1990.

NORUŠIS, Marija J., SPSS Inc. SPSS® for Windows™ Professional Statistics™, Release 5. Chicago,

IL: SPSS Inc., 1992.

STEVENS, James. Applied Multivariate Statistics For The Social Sciences. Mahwah, New Jersey:

LEA − Lawrence Erbaum Associates, Publishers. 1996.