105
Mestrado em Análise de Dados e Sistemas de Apoio à Decisão Disciplina: Análise de Dados Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares SPSS e SPAD Data: 04 de Julho de 2005 Aluna: Elisabeth Silva Fernandes Nº 050414012

Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Mestrado em Análise de Dados e Sistemas de Apoio à Decisão

Disciplina: Análise de Dados

Tema: Aplicação de métodos leccionados no curso para a análise

de dados recorrendo aos Softwares SPSS e SPAD

Data: 04 de Julho de 2005

Aluna: Elisabeth Silva Fernandes

Nº 050414012

Page 2: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

2/105

Índice

1 - Introdução .............................................................................................. 3

Descrição dos dados em estudo .................................................................................... 4

2- Análise Univariada ................................................................................. 7

2.1- Área Total, Freguesias e Densidade Populacional ................................................ 7

2.2- Taxa de Natalidade, Mortalidade ........................................................................ 15

Taxa de Mortalidade ............................................................................................... 18

2.3- Médicos por 1000, Farmácias por 1000, Hospitais Oficiais. .............................. 20

Farmácias por 1000 ................................................................................................ 22

Hospitais Oficiais ................................................................................................... 24

2.4-Variáveis relacionadas com acidentes de viação.................................................. 25

3 - Análise Bivariada ................................................................................. 33

3.1 - Algumas experiências! ....................................................................................... 36

3.2- Análise das variáveis relacionadas com acidentes de viação em conjunto com a

variável densidade populacional. ................................................................................ 39

4 - Descrição multidimensional dos dados .............................................. 40

4.1- Alguns conceitos introdutórios: .......................................................................... 40

4.2 – Análise Classificatória ....................................................................................... 43

4.2.1 – Classificação hierárquica ............................................................................ 45

4.2.2 – Classificação não hierárquica ..................................................................... 53

4.3 - Análise Discriminante ........................................................................................ 57

4.4- Análise em Componentes Principais Normada ................................................... 72

4.4.1 – ACP Normada para os concelhos da classe 1. ............................................ 82

4.4.2 - ACP para concelhos com densidade populacional inferior á média ........... 84

5 - Conclusão .............................................................................................. 91

6 – Bibliografia .......................................................................................... 92

Anexo 1 ....................................................................................................... 93

Anexo 3- Classificação Hierárquica entre variáveis - Matriz de

Proximidade ............................................................................................... 94

Anexo 4- Classificação hierárquica entre indivíduos ............................ 95

Anexo 5 ....................................................................................................... 98

Anexo 6 – Classificação não-hierárquica – dados estandardizados ... 101

Page 3: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

3/105

1 - Introdução

No âmbito da disciplina de Análise de Dados foi proposta a realização de um

trabalho cujo objectivo é estudar e analisar dados aplicando métodos leccionados no

curso. O Software utilizado foi o SPSS e o SPAD.

O objectivo deste trabalho é estudar algumas estatísticas registadas nas

diferentes unidades territoriais de Portugal com valores relacionados com acidentes de

viação, algumas variáveis podem parecer fora de contexto mas penso que para aprender

a analisar dados devemos ter um quadro variado que permita tirar o maior proveito dos

métodos leccionados.

Page 4: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

4/105

Descrição dos dados em estudo

Para a realização deste trabalho escolhi um tema que me desse um certo gozo

trabalhar os dados.

O quadro de dados utilizado foi retirado da base estatística disponibilizada pelo

INE, e tem dimensão 308 x 20. Isto é, tratam-se de estatísticas recolhidas pelo INE em

308 concelhos de Portugal (continente e ilhas) no ano de 2004 com a excepção das que

no próprio nome indicam 2001.

As 22 variáveis em estudo são as seguintes:

Variável Tipo Descrição

NUTIII String 29 Regiões de Portugal

Concelhos String Nome de cada Concelho

AreaTotal Numérica

Freguesias Numérica

Número

Dens.Pop Numérica

Pop.ResHM2001 Numérica Número

Pop.Res.H2001 Numérica Número

NadosVivosHM Numérica Número

ObitosHM Numérica Número

T.Natalidade Numérica Permilagem

T.Mortalidade Numérica Permilagem

T.ActividadeHM2001 Numérica Percentagem

T.DesempregoHM2001 Numérica Percentagem

Medicospor1000 Numérica Número por 1000

Farmaciapor1000 Numérica Número por 1000

HospitaisOficiais Numérica Número

AcViaçaoCVitimas Numérica Número

2km

2kmhab

Page 5: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

5/105

Ac.ViaçaoCVitMort Numérica Número

VitAcViaçao Numérica Número

VitMortAçViaçao Numérica Número

FerGravACViaçao Numérica Número

FerLigAcViaçao Numérica Número

Para melhor compreender alguns resultados coloquei os seguintes mapas de Portugal.

Mapa de Portugal 1

Page 6: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

6/105

Mapa de Portugal 2

Page 7: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

7/105

2- Análise Univariada

Neste capítulo apresento um pequeno estudo de algumas das variáveis mencio-

nadas anteriormente, começo com as variáveis Área Total, Freguesias e Densidade

Populacional.

2.1- Área Total, Freguesias e Densidade Populacional

Área Total

No quadro 1 é possível observar alguns valores importantes relativos à Área

Total de cada Concelho, o valor média ronda os 299 2km , verifica-se ainda que os

valores mínimo e máximo são muito diferentes da média o que mostra que esta variável

toma valores muito diferentes consoante o Concelho em causa, este facto é observável

no histograma 1. Neste histograma existe um pico por volta dos 180 2km , daí a mediana

ser 209 2km . A média desloca-se bastante para a direita devido à existência de alguns

valores elevados da área, pois esta medida não é tão resistente quanto a mediana.

Quadro 1- Estatísticas Descritivas da variável Área Total

Page 8: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

8/105

Quadro 2- Valores de máximos e mínimos de Área Total

Os Concelhos com maior área total são 221-Odemira, 222-Alcácer do Sal, e com menor

são 52-Oliveira de Azeméis e 196-Ferreira do Zêzere.

Histograma 1- Histograma da Área Total

Quanto à normalidade desta variável não tenho garantias da existência de

normalidade uma vez que o nível de significância é zero nos testes de normalidade.

Como temos mais de 30 casos o teste que se estuda é o de Kolmogorov Smirnov.

Quadro 3- Testes de Normalidade

Page 9: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

9/105

A não normalidade também se conclui nos gráficos seguintes:

-

Gráfico 1- Q-Qplot

Gráfico 2- Q-Q Plot Detrended

No Q-Qplot os pontos não acompanham a recta dos quartis o que mostra a não

normalidade. O Q-Qplot Detrended não apresenta um comportamento aleatório dos

pontos que aconteceria se houvesse normalidade.

Na caixa de bigodes seguinte é possível observar a existência de outliers severos, que

correspondem às seguintes unidades territoriais:

221- Odemira, 222- Alcácer do Sal, 245- Évora, 246- Montemor-o-Novo.

Caixa de Bigodes 1- Área Total

A caixa de bigodes seguinte indica os outliers consoante a divisão em NUTIII,

isto é, o outliers 221 pertence à região Alentejo Litoral.

Page 10: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

10/105

Caixa de Bigodes 2- Área Total (NUTIII)

Freguesias

O valor médio das Freguesias ronda os 13, a mediana é inferior à média por existem

mais Concelhos com menos que 13 freguesias do que com mais de 13, este facto é

observável no histograma 2.

Quadro 4- Estatísticas descritivas da variável Freguesias

No quadro seguinte verifica-se que é na região do Cavado que se encontram os

Concelhos com maior número de Freguesias, o Concelho com 89 freguesias é o 12-

Barcelos. O Concelho de Porto Santo (308) tem uma única freguesia, mas não é o único

por exemplo Corvo também só tem uma freguesia, o que há aqui a salientar é que é

Page 11: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

11/105

numa zona de máximo de área total (Baixo Alentejo) que encontramos concelhos com

uma ou muito poucas freguesias. As zonas com menos Área Total estão mais divididas.

Quadro 5- Valores extremos por Região

Quanto à assimetria esta variável apresenta uma assimetria positiva, que como já referi

apresenta média superior à mediana.

Histograma 2- Freguesias

Na caixa de bigodes 3 verifica-se que é na região do Cávado que cada concelho está

mais divido, é nesta região que se encontra o concelho de Barcelos.

Page 12: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

12/105

Caixa de Bigodes 3- Freguesias (NUTIII)

A distribuição desta variável também não se aproxima de uma distribuição normal

como se observa no histograma 2, e nos testes de normalidade uma vez que o valor de

significância é menos que 0,05.

Quadro 6

Page 13: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

13/105

Densidade populacional

A média da densidade populacional é 298,24 2kmhab .

Quadro 7- Estatísticas descritivas da Densidade Populacional

A Densidade populacional varia entre uma gama bastante grande de valores, de

5,9 2kmhab a 7411,2 2km

hab o que origina um elevado valor de variância 676635.1. Quanto

à assimetria esta variável apresenta uma distribuição assimétrica positiva, o valor de

curtose é positivo logo as caudas são mais pesadas que as da curva normal.

Como era de esperar os valores elevados da densidade populacional correspondem às

zonas do Grande Porto e Grande Lisboa.

Quadro 8- Valores extremos da Densidade Populacional

Também era de esperar que os valores mais pequenos desta variável estivessem

associados às zonas mais inóspitas do país, isto é, Alentejo e Algarve.

Page 14: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

14/105

Aplicando os testes da normalidade verifica-se que esta variável não segue uma

distribuição normal, uma vez que o valor de significância é inferior a 0,05.

Quadro 9- Testes de Normalidade

Na caixa de bigodes 4 verifica-se, mais uma vez, a não normalidade uma vez que a

caixa não é simétrica e apresenta muitos outliers severos. Os outliers severos

correspondem aos seguintes concelhos: 210- Amadora, 204- Lisboa, 29– Porto, 211-

Odivelas, 207- Oeiras, 52- São João da Madeira.

Caixa de Bigodes 4- Densidade Populacional

Isto indica que o concelho com maior densidade populacional é o concelho da Amadora.

Page 15: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

15/105

2.2- Taxa de Natalidade, Mortalidade

Taxa de Natalidade

A média da taxa de Natalidade e a mediana são muito próximas logo a distribuição é

quase simétrica, a variância é pequena o que leva a concluir que a taxa de natalidade em

Portugal não varia muito de região para região.

Quadro 10- Estatísticas Descritivas

Quadro 11- Máximos e mínimos da Taxa de Natalidade

A taxa de Natalidade é elevada nos concelhos 284-Vila Franca do Campo, 304-Ribeira

Brava, 305-Santa Cruz, e é mínima nos concelhos 133-Pampilhosa da Serra,

88- Alcoutim e 177- Vila Velha de Ródão.

As caudas desta variável são mais leves que as caudas da normal porque a curtose é

negativa.

Os testes de normalidade indicam que não se deve rejeitar a normalidade desta variável

com 95% de confiança (0,2 > 0,05).

Page 16: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

16/105

Quadro 12- Testes da Normalidade

Histograma 3- Taxa de Natalidade

O Q-Qplot que se segue mostra a sobreposição dos pontos na recta dos quartis, isto

indica a normalidade da variável.

Gráfico 3- Q-Qplot

A caixa de Bigodes 5 é simétrica e apresenta dois valores muito elevados na Região

Autónoma dos Açores - Ribeira Grande e na Região Autónoma da Madeira - Santa

Cruz.

Page 17: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

17/105

Caixa de Bigodes 5- Taxa de Natalidade

Apesar de ser interessante ter uma variável normal não me parece nada boa ideia que

esta seja a Taxa Natalidade! Pois estes dados indicam uma queda acentuada da taxa de

natalidade o que reafirma o problema do envelhecimento do país.

Page 18: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

18/105

Taxa de Mortalidade

A Taxa de Mortalidade apresenta distribuição assimétrica positiva, uma vez que,

a média é maior que a mediana

Quadro 13- Estatísticas Descritivas

Pelos testes de normalidade rejeita-se a normalidade da taxa de Mortalidade.

Quadro 14- Testes de Normalidade

No histograma seguinte verifica-se o pico à esquerda da média.

Histograma 4- Taxa de Mortalidade

Page 19: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

19/105

O Q-Qplot apresenta os pontos não sobrepostos sobre a recta dos quartis.

Gráfico 4- Q-Qplot

A caixa de bigodes 6 apresenta valores extremos que são os concelhos:

88- Alcoutim

238- Nisa

177- Vila Velha de Ródão

Caixa de Bigodes 6- Taxa de Mortalidade

É de notar que o concelho 177 tem taxa de Natalidade muito baixa e taxa de mortalidade

muito elevada.

T.Mortalidade

25

20

15

10

5

88

238

177

Page 20: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

20/105

2.3- Médicos por 1000, Farmácias por 1000, Hospitais Oficiais.

Médicos por 1000

Esta variável apresenta 3 missing values.

A média e a mediana estão bastante afastadas logo a distribuição não vai ser

simétrica. Os valores de mínimo e de máximo são muitos diferentes o que indica que há

concelhos com muitos e outros com poucos médios.

Quadro 15- Estatísticas descritivas

Pelos testes de normalidade concluo que com 95% de confiança esta variável não é

normal.

Quadro 16- Testes de Normalidade

Page 21: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

21/105

O mesmo se verifica no Q-Qplot seguinte:

Gráfico 5- Q-Qplot

Na caixa de bigodes seguinte é possível observar a presença de outliers, que

correspondem aos concelhos 116- Coimbra, 29-Porto, 204- Lisboa, 207-Oeiras, 203-

Cascais, isto mostra que os médicos estão em maior número nas zonas urbanas.

Caixa de Bigodes 7- Médicos por 1000

O caso de Coimbra é um exemplo de um outlier severo uma vez que o seu valor é

20,50, isto é, é superior a 2,433 DQ em que 9,0D e 5.13 Q .

Page 22: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

22/105

Farmácias por 1000

A média e a mediana desta variável são próximas.

Quadro 17- Estatíticas Descritivas

Quanto à normalidade esta variável não é gaussiana, uma vez que nos testes de

Kolmogorov-Smirnov se rejeita essa hipótese com 99% de confiança.

Quadro 18 – Testes de Normalidade

Page 23: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

23/105

O Concelho que tem mais farmácias por 1000 hab. é o Corvo (207), de seguida surge o

concelho Crato (232).

Caixa de Bigodes 8- Farmácias por 1000

Page 24: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

24/105

Hospitais Oficiais

No quadro seguinte apresento algumas estatísticas destas variáveis.

Quadro 19- Estatísticas descritivas

Esta variável não segue uma distribuição normal.

Quadro 20- Testes de Normalidade

Os concelhos com mais hospitais são Lisboa (204) e Porto (29) como era de esperar!

Caixa de Bigodes 9- Hospitais Oficiais

Page 25: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

25/105

2.4-Variáveis relacionadas com acidentes de viação

Acidentes de Viação com Vitimas

Esta variável apresenta 30 Missing Values que correspondem aos Concelhos da Região

Autónoma da Madeira e dos Açores, visto que na base de dados do INE não aparecem

valores desta variável para estes Concelhos, o mesmo acontece nas variáveis seguintes.

Quadro 21- Valores em estudo

A média desta variável é muito maior que a mediana, logo esta variável tem uma

distribuição assimétrica positiva.

Quadro 22- Estatísticas Descritivas

No quadro seguinte é possível verificar que o maior número de acidentes com vitimas

em 2004 foi em Lisboa (204) e Sintra (208), o concelho com menos acidentes com

vitimas foi Barrancos (258) seguido de Alvito (257).

Page 26: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

26/105

Quadro 23- Valores extremos

Os testes de Normalidade rejeitam a hipótese nula, isto é, esta variável não segue uma

distribuição normal.

Quadro 24- Testes de Normalidade

Na caixa de bigodes 10 verifica-se a existência de um outlier severo, que se trata do

concelho de Lisboa.

AcViaçaoCVitimas

3.000

2.500

2.000

1.500

1.000

500

0

94

204

208

33

205

Caixa de Bigodes 10- AcViaçaoCVitimas

Page 27: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

27/105

Acidentes de Viação com Vitimas Mortais

Quadro 25- Valores em estudo

A média de acidentes de viação com vitimas mortais é de 3,68.

Quadro 26- Estatísticas Descritivas

Os testes da normalidade mostram que esta variável não é normal.

Quadro 27- Testes de Normalidade

Page 28: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

28/105

Os valores mais elevados registam-se em Lisboa (204) e no Pombal (126).

Caixa de Bigodes 11- Acidentes de Viação com Vitimas Mortais

Dos valores mais elevados também me parece importante referir:

33- Vila Nova de Gaia

124- Leiria

Procurei perceber porque é que o concelho de Pombal regista um valor tão elevado de

acidentes com vítimas mortais. Como é possível observar no Mapa de Portugal 2 este

concelho situa-se no Centro do Pais, e no mapa seguinte observa-se que se trata de uma

zona de confluência de várias vias. As informações que obtive foram de que estas vias

têm muita circulação de trânsito tanto vinda de Norte como de Sul, e que o IC8 e o IC3

apresentam inclinações muito acentuadas.

Page 29: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

29/105

Análise conjunta das seguintes variáveis:

Vitimas de Acidentes de Viação, Vitimas mortais em Acidentes de Viação,

Feridos Graves em Acidentes de Viação, Feridos ligeiros em Acidentes de

Viação

Quadro 28 – Valores em estudo

No quadro seguinte podemos analisar algumas estatísticas destas variáveis.

Quadro 29- Estatísticas Descritivas

Page 30: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

30/105

Em todas estas variáveis os valores da média são maiores que o valor das respectivas

medianas.

Em todas estas variáveis o valor máximo é registado em Lisboa.

Os testes de normalidade rejeitam a hipótese de normalidade das variáveis para um

nível de confiança de 5%.

Quadro 30- Testes de Normalidade

Page 31: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

31/105

Os valores mais elevados de vítimas de acidentes de viação registaram-se em Lisboa e

em Sintra, seguidos de Vila Nova de Gaia (33) e Braga (13)

VitAcViaçao

4.000

3.000

2.000

1.000

0

213

204

208

33

13

Caixa de Bigodes 12

Na variável Vitimas mortais em Acidentes de Viação mais uma vez Lisboa destaca-se

como um valor muito elevado, outros concelhos que também se destacam são Pombal

(126), Amarante (37), Vila Nova de Gaia (33).

Caixa de Bigodes 13

Os concelhos de Lisboa e Mafra apresentam um elevado valor de Feridos Graves em

Acidentes de Viação como podemos observar na caixa de bigodes seguintes.

Page 32: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

32/105

Caixa de Bigodes 14

Mais uma vez Lisboa destaca-se na variável Feridos ligeiros em Acidentes de Viação.

Caixa de Bigodes 15

Page 33: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

33/105

3 - Análise Bivariada

Neste capítulo apresento uma pequena análise em que estudo as correlações

entre as variáveis para ver quais as que estão mais correlacionadas, apesar de se rejeitar

a hipótese de normalidade em quase todas as variáveis decido fazer este estudo pois

penso que pode fornecer alguma informação a confirmar nos próximos métodos.

O quadro seguinte apresenta o coeficiente de Correlação de Pearson.

AreaTotal Freg Dens.Pop Pop.ResHM2001 Pop.Res.H2001

AreaTotal 1 0,216 -0,242 -0,084 -0,088

Freguesias 0,216 1 0,070 0,380 0,377

Dens.Pop -0,242 0,070 1 0,719 0,717

Pop.ResHM2001 -0,084 0,380 0,719 1 0,987

Pop.Res.H2001 -0,088 0,377 0,717 0,987 1

NadosVivosHM -0,113 0,342 0,690 0,976 0,990

ObitosHM -0,040 0,336 0,716 0,940 0,935 T.Natalidade -0,274 0,006 0,244 0,325 0,334

T.Mortalidade 0,282 -0,244 -0,297 -0,405 -0,425

T.ActividadeHM2001 -0,184 -0,013 0,411 0,501 0,520

T.Des.HM2001 0,215 -0,119 0,005 -0,062 -0,063

Medicospor1000 -0,024 0,197 0,523 0,615 0,602

Farmaciapor1000 0,187 -0,217 -0,153 -0,208 -0,221

HospitaisOficiais -0,023 0,266 0,567 0,705 0,675

AcViaçaoCVitimas -0,032 0,369 0,620 0,934 0,930 Ac.ViaçaoCVitMort 0,169 0,392 0,322 0,670 0,665

VitAcViaçao -0,007 0,394 0,525 0,894 0,895

VitMortAçViaçao 0,170 0,403 0,304 0,641 0,636

FerGravACViaçao 0,070 0,335 0,509 0,812 0,802

FerLigAcViaçao -0,019 0,394 0,529 0,898 0,900

NadosV.HM ObitosHM T.Nat T.Mort. T.Act.HM2001

AreaTotal -0,113 -0,040 -0,274 0,282 -0,184

Freguesias 0,342 0,336 0,006 -0,244 -0,013

Dens.Pop 0,690 0,716 0,244 -0,297 0,411

Pop.ResHM2001 0,976 0,940 0,325 -0,405 0,501

Pop.Res.H2001 0,990 0,935 0,334 -0,425 0,520

NadosVivosHM 1 0,902 0,394 -0,451 0,546

ObitosHM 0,902 1 0,247 -0,266 0,387

T.Natalidade 0,394 0,247 1 -0,685 0,642

T.Mortalidade -0,451 -0,266 -0,685 1 -0,715

T.ActividadeHM2001 0,546 0,387 0,642 -0,715 1

T.DesHM2001 -0,073 -0,025 -0,194 0,217 -0,243

Medicospor1000 0,553 0,644 0,167 -0,203 0,322

Farmaciapor1000 -0,240 -0,131 -0,457 0,551 -0,284

HospitaisOficiais 0,607 0,852 0,100 -0,097 0,190

AcViaçaoCVitimas 0,907 0,946 0,296 -0,365 0,496

Ac.ViaçaoCVitMort 0,640 0,642 0,270 -0,366 0,466

Page 34: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

34/105

VitAcViaçao 0,889 0,891 0,313 -0,387 0,509

VitMortAçViaçao 0,612 0,612 0,262 -0,361 0,446

FerGravACViaçao 0,776 0,891 0,222 -0,248 0,378

FerLigAcViaçao 0,895 0,887 0,319 -0,397 0,517

T.Des.HM2001 Medicos Farm HospOf AcViaCVit

AreaTotal 0,215 -0,024 0,187 -0,023 -0,032

Freguesias -0,119 0,197 -0,217 0,266 0,369

Dens.Pop 0,005 0,523 -0,153 0,567 0,620

Pop.ResHM2001 -0,062 0,615 -0,208 0,705 0,934

Pop.Res.H2001 -0,063 0,602 -0,221 0,675 0,930

NadosVivosHM -0,073 0,553 -0,240 0,607 0,907

ObitosHM -0,025 0,644 -0,131 0,852 0,946

T.Natalidade -0,194 0,167 -0,457 0,100 0,296

T.Mortalidade 0,217 -0,203 0,551 -0,097 -0,365

T.ActividadeHM2001 -0,243 0,322 -0,284 0,190 0,496

T.DesHM2001 1 -0,002 0,147 0,007 -0,089

Medicospor1000 -0,002 1 -0,053 0,725 0,640

Farmaciapor1000 0,147 -0,053 1 0,006 -0,172

HospitaisOficiais 0,007 0,725 0,006 1 0,789

AcViaçaoCVitimas -0,089 0,640 -0,172 0,789 1

Ac.ViaçaoCVitMort -0,139 0,465 -0,224 0,495 0,763

VitAcViaçao -0,110 0,537 -0,196 0,690 0,967

VitMortAçViaçao -0,144 0,427 -0,215 0,477 0,734

FerGravACViaçao -0,056 0,487 -0,097 0,777 0,915

FerLigAcViaçao -0,113 0,542 -0,202 0,680 0,966

Ac.ViaCVitMort VitAcVia VitMortAçVia FerGravACVia FerLigAcVia

AreaTotal 0,169 -0,007 0,170 0,070 -0,019

Freguesias 0,392 0,394 0,403 0,335 0,394

Dens.Pop 0,322 0,525 0,304 0,509 0,529

Pop.ResHM2001 0,670 0,894 0,641 0,812 0,898

Pop.Res.H2001 0,665 0,895 0,636 0,802 0,900

NadosVivosHM 0,640 0,889 0,612 0,776 0,895

ObitosHM 0,642 0,891 0,612 0,891 0,887

T.Natalidade 0,270 0,313 0,262 0,222 0,319

T.Mortalidade -0,366 -0,387 -0,361 -0,248 -0,397

T.ActividadeHM2001 0,466 0,509 0,446 0,378 0,517

T.DesHM2001 -0,139 -0,110 -0,144 -0,056 -0,113

Medicospor1000 0,465 0,537 0,427 0,487 0,542

Farmaciapor1000 -0,224 -0,196 -0,215 -0,097 -0,202

HospitaisOficiais 0,495 0,690 0,477 0,777 0,680

AcViaçaoCVitimas 0,763 0,967 0,734 0,915 0,966

Ac.ViaçaoCVitMort 1 0,770 0,983 0,711 0,763

VitAcViaçao 0,770 1 0,745 0,917 0,999

VitMortAçViaçao 0,983 0,745 1 0,692 0,736

FerGravACViaçao 0,711 0,917 0,692 1 0,901

FerLigAcViaçao 0,763 0,999 0,736 0,901 1

As variáveis mais correlacionadas são Pop.Res.H2001e Nados Vivos HM em que o

coeficiente de Correlação de Pearson é 0,99.

Page 35: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

35/105

As variáveis menos correlacionadas são Médicospor1000 e T.Desemprego2001, cuja

correlação é de -0,002.

No quadro seguinte apresentam-se as variáveis mais correlacionadas. As correlações são

todas positivas logo à medida que uma variável aumenta a outra também aumenta.

Uma vez que as variáveis em estudo (com excepção da Taxa de Natalidade) não são

normais, não faz sentido efectuar uma análise variância uma vez que esta tem como

pressuposto a normalidade dos dados.

Page 36: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

36/105

3.1 - Algumas experiências!

1- Estudo dos concelhos com densidade populacional superior a 298 2/ kmhab .

Decidi usar só os Concelhos com Densidade populacional superior à média 298

2/ kmhab , para ver o que acontecia. Ora os concelhos considerados, como seria de

esperar correspondem, na sua generalidade, às zonas urbanas (ver anexo 2).

O que verifiquei é que em algumas variáveis já não se rejeita a normalidade,

como se vê no quadro seguinte:

Quadro 31- Testes da Normalidade

Nas variáveis T.Natalidade, T.Mortalidade T.Actividade HM1991, T.Actividade

HM2001, T.DesempregoHM1991, T.DesempregoHM2001, T.Analfab.HM1991,

T.Analf.HM2001, não se rejeita a hipótese de normalidade. No entanto os histogramas

seguintes mostram um grande desfasamento entre a curva normal e as barras.

Page 37: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

37/105

Apesar de estar a correr algum risco, uma vez que esta correlação pressupõe a

normalidade e esta pode ser duvidosa, decidi observar as correlações entre estas

variáveis e verifiquei que as que apresentavam maior coeficiente de correlação de

Pearson era T.Analfab.HM1991 e T.Analfab.HM2001.

Após esta análise efectuei uma análise de variância com o objectivo de estudar

o efeito da variável independente (T.Analfab.HM1991) na variável resposta

(T.Analfab.HM2001), uma vez que não se rejeita a normalidade, as observações são

independentes entre si e o número de observações é igual.

Page 38: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

38/105

Quadro 32- Anova a um factor

Este teste rejeita a hipótese nula para um nível de significância de 5%, isto é, existe

diferença entre estas variáveis. Quanto à existência de relação neste caso é quadrática

para um nível de significância de 5%.

Análise de regressão

Nesta análise de regressão posso concluir que 91.4% da variabilidade total da

T.Analfab.HM2001 é explicada pela T.Analafab.HM1991.

Quadro 33- Análise de Regressão

Posso concluir ainda que, a variação de T.AnalfabHM2001 é explicada pela

T.ANalfab.HM1991.

O modelo obtido é: 1991..*123.12001. HMAnalfabTHMTAnalfab

Page 39: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

39/105

3.2- Análise das variáveis relacionadas com acidentes de viação em

conjunto com a variável densidade populacional.

Apesar destas variáveis não verificarem o pressuposto da normalidade decidi analisar as

correlações de Pearson entre elas.

As variáveis com maior coeficiente de correlação são FerLigACViação e VitAcViaçao.

Quadro 34- Correlações

Efectuei um Análise de regressão em que a variável dependente é Pop.Res.HM2001 e as

restantes variáveis são explicativas, obtive os seguintes resultados:

- 91.1% da variabilidade total da variável dependente é explicada pelas restantes

variáveis.

- O modelo obtido é constituído pelos coeficientes dados na tabela seguinte:

Page 40: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

40/105

4 - Descrição multidimensional dos dados

4.1- Alguns conceitos introdutórios:

Matriz dos dados

Seja n é o número de observações da amostra e p o número de variáveis

observadas, então o quadro de dados que se obtêm contêm as pn observações e terá n

linhas e p colunas. Cada linha é considerada como um ponto no espaço de dimensão p

munido de uma estrutura euclideana. As coordenadas de cada ponto são obtidas a partir

dos valores das p variáveis da observação/indivíduo correspondente.

pj

j

ix

n

iX

.........................1

.

.

....

.

.

.

.

1

Neste trabalho a matriz de dados tem 308 indivíduos e 22 variáveis.

j

ix - é o valor que o concelho i assume na variável j .

Matriz dos pesos

Matriz diagonal em que cada valor ii, da diagonal é o peso do individuo i ,

neste caso os pesos são todos iguais e a matriz dos pesos é ID148

1 .

Centro de gravidade

Vector das médias aritméticas de cada variável,

)1(,...,,' 21 DXxxxg tt

Page 41: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

41/105

Matriz das variâncias e covariâncias

DYYggDXXV '''

Matriz de correlações

1,

.

.

1,

,,1

1

12

121

xxr

xxr

xxrxxr

R

p

p

21

21

21

21

diagVVdiagVdiagVDXXdiagVR t

onde

pxs

xs

diagV

1

1

0

.

.

.

01

21

Como já referi o espaço dos indivíduos de dimensão p é munido de uma

estrutura euclideana, logo podemos calcular distâncias entre indivíduos. Considere-seQ

a métrica no espaço dos indivíduos. Na Análise em componentes principais as métricas

mais usuais são:

- IQ , que corresponde a usar o produto escalar usual. Esta métrica tem

tendência a privilegiar a variáveis mais dispersas.

- A métrica mais utilizada é a métrica da diagonal das inversas das variâncias:

2

22

21

21

1

1

1

0

.

.

0

n

s

s

s

s

DQ

Page 42: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

42/105

Esta métrica restabelece o equilíbrio entre as variáveis fornecendo a todas a

variância 1.

Como todas as matrizes simétricas positivas podem ser escritas da forma

TTQ ' o produto escalar entre dois indivíduos com a métrica Q pode ser escrito da

seguinte forma:

IjiIjijijijiji yyTxTxTxTxTxTxQxxxx ,,)(''',

Inércia

A inércia total de uma nuvem de pontos é a media ponderada dos quadrados das

distâncias ao centro de gravidade.

2

11

'

n

i

ii

n

i

iiig gxpgxQgxpI

A inércia da nuvem de pontos num ponto a é definida como sendo,

2

1

n

i

iia axpI

Relação de Huyghens

2agII ga

Nos dados em estudo neste trabalho 1p logo gI é a variância da variável em

estudo.

Page 43: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

43/105

4.2 – Análise Classificatória

A partir da representação dos n pontos da matriz de dados no espaço, tendo em

conta a distância entre eles, estes irão ser agrupados em classes de tal forma que, a

distâncias dentro da mesma classe sejam pequenas e as distâncias entre classes sejam

grandes.

Métodos:

- Métodos não-hierárquicos cujo objectivo é obter partições.

- Métodos hierárquicos cujo objectivo é obter estruturas encaixadas.

Para classificar é necessário definir um índice de comparação, ou medida de

proximidade, entre elementos a classificar, existem essencialmente dois tipos de

medidas de proximidade:

1 – Índices de semelhança-Similarities: calcula a matriz de proximidades,

semelhanças entre pares de sujeitos ou variáveis. Por defeito, a correlação de Pearson

para medidas de intervalo e o coeficiente de Russell e Rao para binomiais.

2 – Índices de dissemelhança- Dissimilarities: calcula a matriz de

distâncias entre pares de sujeitos ou variáveis. Por defeito, o SPSS usa a distância

euclideana para medidas de intervalo ou binomiais e 2 para frequências.

- Exemplos de distâncias entre objectos descritos por variáveis quantitativas:

- Distância euclideana genérica: 21

jkik

t

jkikij xxAxxd

- IA temos a distância euclideana;

- IAp1 temos a distância euclideana média;

- 1

21

s

DA temos a distância euclideana estandardizada;

- 1ˆ A temos a distância estatística ou de Mahalanobis.

- Distância distribucional do qui-quadrado:

p

l j

jl

i

il

l

ijX

X

X

X

Xd

1

2

...

1

- Métricas de Minkowski: rp

k

r

jkikij xxd

1

1

, em que 1r ;

Page 44: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

44/105

a) 1r : Distância dos valores absolutos;

b) 2r : Distância euclideana;

c) r : Métrica de Chebychev.

- Medidas de proximidade.

- para variáveis quantitativas: Coeficiente de correlação de Pearson.

- para dados binários: Índice de Jacard, Índice de Russel Rao, e etc.

Page 45: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

45/105

4.2.1 – Classificação hierárquica

No SPSS encontramos a classificação hierárquica no menu Analyse>

Classify>Hierarquical Cluster na opção Statistics seleccionando

Aglomeration Schedule obtém-se uma tabela resumo dos passos seguidos na

obtenção das classes, seleccionando ainda Proximity matrix obtém-se a matriz de

proximidade ( de semelhança ou dissemelhança consoante o que pretendemos estudar).

- Classificação Hierárquica entre indivíduos:

O método utilizado para esta classificação foi o método de Ward que calcula

para cada classe a média de todas as variáveis. Depois para cada indivíduo calcula a

distância euclidiana ao quadrado e soma-se para todos eles. Em cada passo as classes

que se vão formando são aquelas que resultam num menor incremento da soma global

de distâncias ao quadrado dentro da classe.

O dendograma obtido com o método de Ward encontra-se no anexo 4, as

classes obtidas foram as seguintes:

Classe 1: {Ansião, Cadaval, Murtosa, ViladoBispo, Óbidos,Nazaré,

SãoBrásdeAlportel, VilaNovadePoiares, Redondo, ReguengosdeMonsara, Mira,Nelas,

CampoMaior, Borba, VilaViçosa, Tavira, Estremoz, Elvas, Portalegre, PesodaRégua,

CarregaldoSal, MesãoFrio, Lamego,SãoPedrodoSul,SeverdoVouga,Montemor-o-Velho,

SãoJoãodaPesqueir, Mortágua, Vouzela,Belmonte, Manteigas,Soure, SantaCombaDão,

Penacova, OliveiradoHospital, Anadia, Cantanhede, TorresNovas, Tomar, Covilhã,

Amares, MarcodeCanaveses, PóvoadeLanhoso, PontedeLima, VilaVerde, Estarreja,

Bombarral, MirandadoCorvo, VilaNovadaBarquin, Arouca, RioMaior, Mealhada,

Vagos, Albergaria-a-Velha, ValedeCambra, VendasNovas, OliveiradeFrades, Lourinhã,

Condeixa-a-Nova, OliveiradoBairro, Alcanena, SobraldeMonteAgra, Lagoa,Lousã,

ArrudadosVinhos, CastelodePaiva, VilaRealdeSantoA, Peniche,Sines, Almeirim,

Alpiarça, SalvaterradeMagos, CastelodeVide, Marvão, FigueiródosVinhos,

Góis,Mação,Monchique,Arronches,VilaVelhadeRódão,AlterdoChão,Avis,Crato,Alcouti

m,Nisa,Penamacor,Gavião,PedrógãoGrande,Constância,VianadoAlentejo,Monforte,Sou

sel,Alvito,Fronteira,Mourão,Golegã,Cuba,Arraiolos,Chamusca,FerreiradoAlentejo,Ouri

que,Portel,CastroVerde,Mora,Aljustrel,Alandroal,VieiradoMinho,CastroDaire,Baião,M

Page 46: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

46/105

ondimdeBasto,Tarouca,Resende,FornosdeAlgodres,PenalvadoCastelo,Vidigueira,Pared

esdeCoura,VilaNovadeCerveir,SantaMartadePenag,Sabrosa,Sernancelhe,Armamar,Vila

PoucadeAguiar,Sertã,CabeceirasdeBasto,Mangualde,Caminha,Valença,PontedaBarca,C

eloricodeBasto,Alijó,Gouveia,Vimioso,Pinhel,Trancoso,VilaNovadeFozCôa,Celoricoda

Beira164Alvaiázere, FigueiradeCastelo, Aljezur, Tábua, Sardoal, Penela,

FerreiradoZêzere, ViladeRei, MirandadoDouro, Arganil, CastroMarim, Proença-a-

Nova, Almodôvar, Tabuaço, Meda,Melgaço, Boticas, AguiardaBeira, Penedono,

FreixodeEspadaàC,CarrazedadeAnsiães,AlfândegadaFé,TorredeMoncorvo,Valpaços,Ri

beiradePena,VilaNovadePaiva,Murça,VilaFlor,Sátão,CastanheiradePêra,Barrancos,Cast

eloBranco,Évora,Beja,Grândola,PontedeSor,Abrantes,SantiagodoCacém,Coruche,Alcác

erdoSal,Mirandela,Chaves,Bragança,Guarda,Tondela,Seia,Mogadouro,Fundão,Monção,

Almeida,ArcosdeValdevez,MacedodeCavaleiros,Vinhais,Montalegre,Sabugal,Idanha-a-

Nova, Odemira, Montemor-o-Novo, Moura,Serpa, Mértola}

Classe 2 ={VilaNovadeFamalic, SantaMariadaFeira, Braga, Guimarães,

Barcelos,VilaNovadeGaia,Loures, Sintra, Porto, Coimbra, Amadora, Odivelas, Cascais,

Oeiras, Matosinhos,Almada,Maia,Seixal,Setúbal, Lisboa, Olhão, Sesimbra, Alcochete,

Portimão, Montijo, Benavente, Albufeira, Mafra, Espinho, SãoJoãodaMadeira, Barreiro,

Vizela, Trofa, Entroncamento, Moita, Azambuja, Cartaxo, Batalha, CaldasdaRainha,

Alenquer, Lagos, Ílhavo, Batalha, Esposende, Lousada, Paredes, PaçosdeFerreira,

PóvoadeVarzim, Valongo, Faro, VilaFrancadeXira, SantoTirso, ViladoConde,

OliveiradeAzeméis, Ovar, Gondomar, Aveiro,Amarante, Batalha, Loulé, Palmela,

Batalha, FigueiradaFoz, Santarém, Águeda, Alcobaça, TorresVedras, Ourém, Silves,

Felgueiras, Penafiel, VianadoCastelo, Viseu,Fafe, VilaReal}

Desta classificação não constam os concelhos das ilhas porque estas apresentam muitos

missing values.

Page 47: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

47/105

Comparação de medias das classes com a média global

Neste ponto pretendo comparar estatísticas das duas classes com as estatísticas

do quadro de dados completo.

N Minimum Maximum Mean Std. Deviation

AREATOTA 233 17,10 1720,60 325,0614 299,89334

FREGUESI 233 1,00 58,00 12,4421 10,58575

DENS.POP 233 5,90 1331,80 80,7588 116,26266

POP.RESH 233 425,00 103961,00

15055,3348

13022,23710

POP.RES 233 224,00 48497,00 7285,6996 6241,20333

NADOSVIV 233 2,00 1115,00 137,7468 144,96620

OBITOSHM 233 8,00 1127,00 181,5193 133,10192

T.NATALI 233 3,30 17,00 8,4343 2,33436

T.MORTAL 233 6,90 25,20 13,5635 3,47903

T.ACTIVI 233 27,60 51,90 41,1446 4,60712

T.DESEMP 233 2,30 22,10 7,3339 2,65283

MEDICOSP 230 ,10 4,50 1,0961 ,81215

FARMACIA 233 ,10 2,20 ,4021 ,22732

HOSPITAI 233 ,00 2,00 ,1288 ,34826

ACVIAÇAO 203 2,00 244,00 60,9901 52,06964

AC.VIAÇA 203 ,00 12,00 2,1429 2,21701

VITACVIA 203 2,00 341,00 85,4778 71,88731

VITMORTA 203 ,00 13,00 2,3596 2,58398

FERGRAVA 203 ,00 40,00 7,8966 8,24045

FERLIGAC 203 1,00 299,00 75,2217 63,90521

Quadro 35 - Estatísticas da primeira classe.

No gráfico seguinte é possível observar as caixas de bigodes de todas as variáveis para a

primeira classe, apesar de não ser um gráfico muito elucidativo, este permite-nos usá-lo

como termo de comparação com o gráfico seguinte.

Caixa de Bigodes 16 – Classe 1

Page 48: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

48/105

Para a segunda classe obtêm-se o quadro seguinte:

N Minimum Maximum Mean Std. Deviation

AREATOTA 75 7,90 764,20 218,4053 168,85628

FREGUESI 75 1,00 89,00 18,1067 16,26601

DENS.POP 75 25,90 7411,20 973,8720 1467,36881

POP.RESH 75 7642,00 564657,00

89336,3200

86611,81726

POP.RES 75 3693,00 257987,00

44034,3067

40603,79548

NADOSVIV 75 42,00 5668,00 1029,3200 946,92247

OBITOSHM 75 111,00 7528,00 795,4267 942,20453

T.NATALI 75 5,80 14,80 11,0507 1,49787

T.MORTAL 75 4,80 15,30 8,6640 2,15912

T.ACTIVI 75 33,30 56,40 50,2000 3,48786

T.DESEMP 75 2,50 10,70 6,2573 1,84597

MEDICOSP 75 ,30 20,50 2,6800 3,28745

FARMACIA 75 ,10 ,60 ,2440 ,08094

HOSPITAI 75 ,00 23,00 1,1200 2,99982

ACVIAÇAO 75 21,00 2621,00 353,9867 331,22041

AC.VIAÇA 75 ,00 27,00 7,8533 5,17189

VITACVIA 75 ,00 3290,00 462,0133 415,33202

VITMORTA 75 ,00 30,00 8,7467 6,02718

FERGRAVA 75 1,00 366,00 34,4933 42,92903

FERLIGAC 75 ,00 2894,00 419,4800 372,20110

Quadro 36 – Estatísticas da segunda classe.

O que se observa de imediato é que é nesta classe que se encontram os concelhos

das zonas urbanas.

Caixa de Bigodes 17 – Classe 2

No quadro seguinte pode observar-se a primeira classe apresenta média superior que o

total dos dados para as variáveis: Área Total, Taxa Mortalidade, Taxa Desemprego e

Page 49: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

49/105

Farmácias. Para as restantes variáveis é na classe dois que se apresentam os valores

mais elevados.

N Mean1 Mean2 Mean

AREATOTA 308 325,0614 218,4053 299,0899

FREGUESI 308 12,4421 18,1067 13,8214

DENS.POP 308 80,7588 973,8720 298,2377

POP.RESH 308 15055,3348 89336,3200 33143,2370

POP.RES 308 7285,6996 44034,3067 16234,2240

NADOSVIV 308 137,7468 1029,3200 354,8506

OBITOSHM 308 181,5193 795,4267 331,0097

T.NATALI 308 8,4343 11,0507 9,0714

T.MORTAL 308 13,5635 8,6640 12,3705

T.ACTIVI 308 41,1446 50,2000 43,3497

T.DESEMP 308 7,3339 6,2573 7,0718

MEDICOSP 305 1,0961 2,6800 1,4856

FARMACIA 308 ,4021 ,2440 ,3636

HOSPITAI 308 ,1288 1,1200 ,3701

ACVIAÇAO 278 60,9901 353,9867 140,0360

AC.VIAÇA 278 2,1429 7,8533 3,6835

VITACVIA 278 85,4778 462,0133 187,0612

VITMORTA 278 2,3596 8,7467 4,0827

FERGRAVA 278 7,8966 34,4933 15,0719

FERLIGAC 278 75,2217 419,4800 168,0971

Quadro 37- Comparação das médias

Como verifiquei a segunda classe apresenta médias, em geral, mais elevadas que a

primeira classe. Esta classificação separa concelhos com valores elevados das varáveis,

Densidade populacional, Pop. Residente, dos restantes como se pode ver na caixa de

bigodes seguinte, logo esta classificação separa as zonas urbanas e densas

populacionalmente das zonas interiores.

SelectedNot Selected

clasHier = 2 (FILTER)

600.000

500.000

400.000

300.000

200.000

100.000

0

204125 3716 204174 29240 2954232 5482 204

204

7

208

33

204

168

208

33

186 21094FERLIGAC

FERGRAVA

VITMORTA

VITACVIA

AC.VIAÇA

ACVIAÇAO

HOSPITAI

FARMACIA

MEDICOSP

T.DESEMP

T.ACTIVI

T.MORTAL

T.NATALI

OBITOSHM

NADOSVIV

POP.RES

POP.RESH

DENS.POP

FREGUESI

AREATOTA

Caixa de Bigodes 18 – Comparação do comportamento das variáveis nas duas classes.

Page 50: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

50/105

- Classificação hierárquica entre variáveis

O critério de ligação que usei nesta classificação foi o critério de Ward.

Se escolher para medida de proximidade distância euclideana obtenho os

seguintes resultados:

- Resumo dos passos seguidos na obtenção das classes:

Stage

Cluster Combined

Coefficients

Stage Cluster First Appears

Next Stage Cluster 1 Cluster 2 Cluster 1 Cluster 2

1 17 20 ,037 0 0 7

2 5 6 ,182 0 0 3

3 4 5 ,383 0 2 10

4 7 15 ,598 0 0 6

5 16 18 ,847 0 0 16

6 7 19 1,165 4 0 7

7 7 17 1,613 6 1 8

8 7 14 2,315 7 0 10

9 3 12 3,229 0 0 11

10 4 7 4,351 3 8 11

11 3 4 5,504 9 10 17

12 11 13 7,001 0 0 15

13 8 10 8,644 0 0 18

14 1 2 10,303 0 0 16

15 9 11 12,379 0 12 18

16 1 16 14,657 14 5 17

17 1 3 18,981 16 11 19

18 8 9 24,593 13 15 19

19 1 8 41,949 17 18 0

Page 51: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

51/105

- Dendograma:

C A S E 0 5 10 15 20 25

Label Num +---------+---------+---------+---------+---------+

VitAcVia 17

FerLigAc 20

ObtiosHM 7

AcViaCVi 15

FerGravA 19

Hosp.Ofi 14

Pop.Res. 5

NadosViv 6

PopResHM 4

DensPop 3

Medicosp 12

AcViaC_1 16

VitMorAc 18

AreaTota 1

Freguesi 2

TNatalid 8

TActivid 10

TDesempr 11

Farmacia 13

TMortali 9

Este dendograma sugere a divisão em duas classes, a minha escolha para

“cortar” seria por volta de 15. As classes que obteria eram:

Classe1 = { VitAcVia, FerLigAc,ObtiosHM, AcViaCVi, FerGravA, Hosp.Ofi, Pop.Res., NadosViv, PopResHM, DensPop, Medicosp, AcViaC_1,

VitMorAc,AreaTota, Freguesi}

Classe2 = { TNatalid, TActivid, TDesempr, TMortali, Farmacia}.

Page 52: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

52/105

Se utilizar para medida de proximidade o coeficiente de correlação de Pearson

obtenho o seguinte dendograma:

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25

Label Num +---------+---------+---------+---------+---------+

VitAcVia 17

FerLigAc 20

AcViaCVi 15

Pop.Res. 5

NadosViv 6

PopResHM 4

ObtiosHM 7

FerGravA 19

AcViaC_1 16

VitMorAc 18

Medicosp 12

Hosp.Ofi 14

DensPop 3

TNatalid 8

TActivid 10

Freguesi 2

TMortali 9

Farmacia 13

AreaTota 1

TDesempr 11

A partição que penso mais adequada é em duas classe por volta de 20.

Classe1 = { TNatalid, TActivid, VitAcVia, FerLigAc,ObtiosHM, AcViaCVi, FerGravA, Hosp.Ofi, Pop.Res., NadosViv, PopResHM, DensPop, Medicosp,

AcViaC_1, VitMorAc, Freguesi}

Classe2 = { TMortali, Farmácia, AreaTota, TDesempr }.

Que era de esperar uma vez que como vimos na análise bivariada as variáveis mais

correlacionadas são as que primeiro se juntam e que nesta classificação pertencem à

classe 1.

Page 53: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

53/105

Proximity Matrix

4.2.2 – Classificação não hierárquica

A Classificação hierárquica aglomerativa que acabei de apresentar não é o único

método deste tipo. Existem outros métodos hierárquicos, partitivos ou de optimização

que têm por objectivo realizar uma só partição dos indivíduos em K grupos, o que

implica que previamente se deve fixar o número de grupos. Esta é uma das grandes

diferenças dos métodos não- hierárquicos relativamento ao hierárquicos.

“Os métodos não-hierárquicos são capazes de reagrupar os sujeitos numa

determinada classe diferente daquele em que estes foram inicialmente incluídos o que

não acontece com os métodos hierárquicos onde a inclusão de um sujeito numa

determinada classe é definitiva. A probabilidade de classificação errada de um

determinado sujeito numa determinada classe é pois menor nos métodos não-

hierárquicos, e esta vantagem sobrepõe-se à dificuldade de adivinhar à partida o

número de classes a usar.” [1]

Um dos procedimentos não hierárquicos, bastante conhecido, é “K-Médias”,

baseado na filosofia da atribuir ao indivíduo a classe cujo centro está mais próximo.

Passos deste método:[1]

i) Partição dos concelhos em k classes

ii) Cálculo dos centróides para cada uma das k classes (no SPSS as

primeiras k observações são usadas como centróides das k classes no

primeiro passo do algoritmo) e cálculo da distância euclideana dos

centróides a cada concelho na base de dados;

iii) Agrupar os ceoncelhos às classes cujos centros estão mais próximos, e

voltar ao passo anterior até que não ocorra variação significativa na

distância mínima de cada concelho da base de dados a cada um dos

centros das k classes.

Page 54: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

54/105

Os centros das classes podem ser conhecidos ou não. No caso aqui em estudo os

centros não são conhecidos. A escolha do valor k foi feita com base na classificação

obtida anteriormente, logo o k escolhido foi 2.

Cluster

1 2

Zscore: AREATOTA -,77255 -,47152

Zscore: FREGUESI 3,15313 -1,03188

Zscore: DENS.POP 7,23076 -,34944

Zscore: NADOSVIV 8,63132 -,55534

Zscore: OBITOSHM 13,20548 -,56516

Zscore: T.NATALI ,62803 -,80999

Zscore: T.MORTAL ,45100 ,03378

Zscore: T.ACTIVI ,81316 -,05986

Zscore: T.DESEMP ,13022 5,96198

Zscore: MEDICOSP 6,07342 ,06036

Zscore: FARMACIA 1,11111 ,64102

Zscore: HOSPITAI 14,48028 -,23684

Zscore: ACVIAÇAO 11,29368 -,62836

Zscore: AC.VIAÇA 5,62581 -,88874

Zscore: VITACVIA 11,11863 -,66312

Zscore: VITMORTA 5,44700 -,85806

Zscore: FERGRAVA 13,44063 -,53896

Zscore: FERLIGAC 10,82435 -,66353

Quadro 38 – Centros iniciais

Em anexo consta a tabela dos concelhos com a respectiva classe atribuída por

este método.

Cluster

1 2

Zscore: AREATOTA -,77255 ,07561

Zscore: FREGUESI 3,15313 ,05008

Zscore: DENS.POP 7,23076 -,00775

Zscore: NADOSVIV 8,63132 ,00008

Zscore: OBITOSHM 13,20548 -,01246

Zscore: T.NATALI ,62803 -,06476

Zscore: T.MORTAL ,45100 -,00453

Zscore: T.ACTIVI ,81316 ,03289

Zscore: T.DESEMP ,13022 ,05723

Zscore: MEDICOSP 6,07342 ,00339

Zscore: FARMACIA 1,11111 -,00342

Zscore: HOSPITAI 14,48028 -,03440

Zscore: ACVIAÇAO 11,29368 -,03691

Zscore: AC.VIAÇA 5,62581 -,01487

Zscore: VITACVIA 11,11863 -,03614

Zscore: VITMORTA 5,44700 -,01433

Zscore: FERGRAVA 13,44063 -,04509

Zscore: FERLIGAC 10,82435 -,03510

Page 55: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

55/105

Quadro 39 – Centros finais

Cluster 1 2

1 34,297

2 34,297

Quadro 40 – Distância entre os centros finais

No quadro seguinte vemos que uma classe contêm um único concelho e os restantes

estão na outra classe, penso que esta classificação não é satisfatória, um vez que

apresenta um partição desajustada dos concelhos.

Cluster 1 1,000

2 275,000

Valid 276,000

Missing 32,000

Quadro 41 – Numero de casos em casa cluster

Se não estandardizar os dados a partição obtida já é melhor porque uma classe contêm

22 concelhos, o que é melhor que um único concelho.

Os resultados obtidos sem estandardizar são os seguintes:

Centros iniciais

Cluster

1 2

AREATOTA 84,80 168,30

FREGUESI 53,00 1,00

DENS.POP 6246,10 10,80

POP.RESH 564657,00 1924,00

POP.RES 257987,00 942,00

NADOSVIV 5668,00 13,00

OBITOSHM 7528,00 23,00

T.NATALI 10,60 7,10

T.MORTAL 14,10 12,50

T.ACTIVI 48,10 43,00

T.DESEMP 7,40 22,10

MEDICOSP 13,00 1,60

FARMACIA ,60 ,50

HOSPITAI 23,00 ,00

ACVIAÇAO 2621,00 2,00

AC.VIAÇA 27,00 ,00

VITACVIA 3290,00 2,00

VITMORTA 30,00 ,00

FERGRAVA 366,00 1,00

FERLIGAC 2894,00 1,00

Page 56: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

56/105

Iteration History(a)

Iteration

Change in Cluster Centers

1 2

1 72211,845 33464,188

2 75066,245 918,904

3 51945,640 935,601

4 88979,562 1872,101

5 27020,581 552,755

6 89731,610 6338,735

7 7396,816 459,277

8 321,601 1,801

9 13,983 ,007

10 ,608 2,77E-005

11 ,026 1,09E-007

12 ,001 4,30E-010

13 5,00E-005 3,64E-012

14 2,17E-006 ,000

15 9,45E-008 ,000

16 4,11E-009 ,000

17 1,30E-010 ,000

18 7,38E-015 ,000

19 ,000 ,000

Final Cluster Centers

Cluster

1 2

AREATOTA 176,47 331,57

FREGUESI 26,64 13,54

DENS.POP 2185,54 151,29

POP.RESH 187937,95 21948,07

POP.RES 90004,68 10943,68

NADOSVIV 2111,23 223,70

OBITOSHM 1609,14 241,29

T.NATALI 11,07 8,73

T.MORTAL 7,89 12,75

T.ACTIVI 52,36 42,80

T.DESEMP 6,94 7,24

MEDICOSP 4,91 1,24

FARMACIA ,24 ,37

HOSPITAI 2,64 ,20

ACVIAÇAO 653,64 96,54

AC.VIAÇA 10,41 3,13

VITACVIA 808,14 134,56

VITMORTA 11,36 3,48

FERGRAVA 57,50 11,50

FERLIGAC 741,68 119,58

Cluster 1 2

1

183885,920

2 183885,920

Quadro 42- Distância entre centros finais

Cluster 1 22,000

2 254,000

Valid 276,000

Missing 32,000

Quadro 43- Número de casos em casa cluster

Page 57: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

4.3 - Análise Discriminante

Uma outra técnica de estatística multivariada é a Análise Dicriminante e cujos

objectivos são:

- Identificação das variáveis que melhor diferenciam entre dois ou mais grupos de

indivíduos estruturalmente diferentes e mutuamente exclusivos;

- Utilização destas variáveis para criar uma função discriminante que represente as

diferenças entre os indivíduos;

- Utilização da função discriminante para classificar à priori novos indivíduos.

Com o Método STEPWISE

No método Stepwise a análise começa sem nenhuma variável e nos passos

seguintes as variáveis são adicionadas ou removidas consoante a sua contribuição para a

capacidade discriminante da 1ª função discriminante. Desta forma, uma variável

presente na função discriminante é removida se a capacidade da função discriminante

não for significativamente reduzida pela remoção dessa variável. Por outro lado, uma

variável é adicionada se aumentar significativamente a capacidade discriminativa da

função discriminante.

Analise discritiva

Unweighted Cases N Percent

Valid 276 89,6

Excluded Missing or out-of-range group codes 0 ,0

At least one missing discriminating variable 32 10,4

Both missing or out-of-range group codes and at least one missing discriminating variable

0 ,0

Total 32 10,4

Total 308 100,0

Quadro 44 – Sumário da análise

Page 58: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

58/105

Como já referi, na análise bivariada, as variáveis mais correlacionadas são:

Logo estas variáveis não deveriam ser incluídas na análise, no entanto de

seguida apresento os resultados obtidos com todas as variáveis e sem as variáveis da

tabela anterior.

O quadro seguinte apresenta a ANOVA one-way para cada uma das variáveis

independentes: Tests of Equality of Group Means

Wilks'

Lambda F df1 df2 Sig.

Zscore: AREATOTA ,953 13,522 1 274 ,000

Zscore: FREGUESI ,972 7,993 1 274 ,005

Zscore: DENS.POP ,781 76,858 1 274 ,000

Zscore: NADOSVIV ,610 175,440 1 274 ,000

Zscore: OBITOSHM ,770 81,753 1 274 ,000

Zscore: T.NATALI ,663 139,384 1 274 ,000

Zscore: T.MORTAL ,651 146,917 1 274 ,000

Zscore: T.ACTIVI ,546 228,290 1 274 ,000

Zscore: T.DESEMP ,945 15,999 1 274 ,000

Zscore: MEDICOSP ,872 40,127 1 274 ,000

Zscore: FARMACIA ,851 48,070 1 274 ,000

Zscore: HOSPITAI ,928 21,269 1 274 ,000

Zscore: ACVIAÇAO ,650 147,862 1 274 ,000

Zscore: AC.VIAÇA ,626 163,584 1 274 ,000

Zscore: VITACVIA ,641 153,239 1 274 ,000

Zscore: VITMORTA ,645 150,638 1 274 ,000

Zscore: FERGRAVA ,796 70,238 1 274 ,000

Zscore: FERLIGAC ,632 159,714 1 274 ,000

Uma vez que os valores de significância são quase nulos posso assumir que para

estas variáveis existe pelo menos um grupo onde as médias são diferentes.

Page 59: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

59/105

Nos quadros seguintes é possível verificar os pressupostos da análise discriminante.

Log Determinants

clasHier Rank Log

Determinant

classe 1 8 -20,627

classe2 8 -5,287

Pooled within-groups 8 -8,157

The ranks and natural logarithms of determinants printed are those of the group covariance matrices.

O valor de significância do teste de box é inferior a 5% logo rejeita-se a hipótese

da igualdade das matrizes de variância-covariância para os dois grupos em estudo.

Test Results

Box's M 2281,605

F Approx. 60,711

df1 36

df2 70471,209

Sig. ,000

Tests null hypothesis of equal population covariance matrices.

Apesar de se rejeitar a hipótese nula penso que não haverá problema em

continuar a análise uma vez que este método é bastante robusto.

O próximo quando são apresentadas as variáveis de entrada-saída do modelo com o

método Stepwise. As variáveis vão entrando e saindo do modelo à medida que

diminui.

Step Entered Wilks' Lambda

Statistic df1 df2 df3 Exact F

Statistic df1 df2 Sig.

1 Zscore: T.ACTIVI

,546 1 1 274,000 228,290 1 274,000 ,000

2 Zscore: AC.VIAÇA

,433 2 1 274,000 178,985 2 273,000 ,000

3 Zscore: AREATOTA

,405 3 1 274,000 133,255 3 272,000 ,000

4 Zscore: DENS.POP

,390 4 1 274,000 105,852 4 271,000 ,000

5 Zscore: HOSPITAI

,375 5 1 274,000 89,844 5 270,000 ,000

6 Zscore: ACVIAÇAO

,365 6 1 274,000 78,071 6 269,000 ,000

Page 60: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

60/105

7 Zscore: OBITOSHM

,351 7 1 274,000 70,927 7 268,000 ,000

8 Zscore: T.NATALI

,345 8 1 274,000 63,443 8 267,000 ,000

At each step, the variable that minimizes the overall Wilks' Lambda is entered. a Maximum number of steps is 36. b Minimum partial F to enter is 3.84. c Maximum partial F to remove is 2.71. d F level, tolerance, or VIN insufficient for further computation.

No quadro seguinte apresentam-se as variáveis em análise em cada passo da análise

discriminante. Neste quadro aparece a tolerância é uma estatística que mede as relações

lineares entre as variáveis. O valor é igual a 21 R , sendo 2R o coeficiente de

correlação múltipla entre uma variável e todas as outras, actuando a primeira como

dependente no modelo de regressão múltipla e o resto como independentes. Quanto

mais próximo de zero for este coeficiente, maior a probabilidade de que a variável possa

ser uma combinação linear das outras variáveis independentes. No passo 0 e como

nenhuma variável entrou no modelo, os níveis de tolerância são 1 para todas as

variáveis. Logo interessa um valor de tolerância elevado pois significa essas variáveis

contribuíram muito para o modelo.

Verifica-se que das variáveis que não entram no primeiro passo a que vai ser escolhida

para entra do segundo passo é a que tem maior valor de F e um valor de de Wilks

relativamente baixo.

Step Tolerance F to Remove Wilks'

Lambda

1 Zscore: T.ACTIVI 1,000 228,290

2 Zscore: T.ACTIVI ,991 122,092 ,626

Zscore: AC.VIAÇA ,991 71,195 ,546

3 Zscore: T.ACTIVI ,976 91,866 ,542

Zscore: AC.VIAÇA ,881 90,350 ,539

Zscore: AREATOTA ,882 18,651 ,433

4 Zscore: T.ACTIVI ,963 75,887 ,500

Zscore: AC.VIAÇA ,871 75,986 ,500

Zscore: AREATOTA ,847 12,016 ,408

Zscore: DENS.POP ,940 10,167 ,405

5 Zscore: T.ACTIVI ,942 59,546 ,458

Zscore: AC.VIAÇA ,665 88,063 ,498

Zscore: AREATOTA ,845 12,570 ,393

Zscore: DENS.POP ,653 20,105 ,403

Zscore: HOSPITAI ,545 10,684 ,390

6 Zscore: T.ACTIVI ,897 43,204 ,423

Zscore: AC.VIAÇA ,494 34,227 ,411

Zscore: AREATOTA ,843 11,183 ,380

Zscore: DENS.POP ,615 12,563 ,382

Zscore: HOSPITAI ,285 18,753 ,390

Zscore: ACVIAÇAO ,216 7,835 ,375

7 Zscore: T.ACTIVI ,840 27,136 ,386

Zscore: AC.VIAÇA ,485 26,568 ,385

Zscore: AREATOTA ,821 7,178 ,360

Zscore: DENS.POP ,402 23,441 ,381

Zscore: HOSPITAI ,255 8,143 ,361

Zscore: ACVIAÇAO ,056 18,484 ,375

Page 61: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

61/105

Zscore: OBITOSHM ,046 10,870 ,365

8 Zscore: T.ACTIVI ,580 8,751 ,356

Zscore: AC.VIAÇA ,485 25,275 ,377

Zscore: AREATOTA ,797 5,003 ,351

Zscore: DENS.POP ,396 25,380 ,377

Zscore: HOSPITAI ,254 7,287 ,354

Zscore: ACVIAÇAO ,056 18,467 ,369

Zscore: OBITOSHM ,045 11,348 ,359

Zscore: T.NATALI ,634 4,525 ,351

Quadro 45 – Variáveis em analise

Em anexo 5 apresento o quadro das variáveis que ficam de fora em cada passo.

De todas as variáveis que ficam de fora do modelo no primeiro passo, a seguinte a

entrar no mesmo será a que tem F maior e um de Wilks com valor mais pequeno.

No quadro seguinte é testada a significância das funções discriminantes, em todas as

comparações o valor de significância é nulo logo pode concluir-se que pelo menos uma

função discriminante é altamente significativa.

Step Number of Variables Lambda df1 df2 df3 Exact F

Statistic df1 df2 Sig.

1 1 ,546 1 1 274 228,290 1 274,000 ,000

2 2 ,433 2 1 274 178,985 2 273,000 ,000

3 3 ,405 3 1 274 133,255 3 272,000 ,000

4 4 ,390 4 1 274 105,852 4 271,000 ,000

5 5 ,375 5 1 274 89,844 5 270,000 ,000

6 6 ,365 6 1 274 78,071 6 269,000 ,000

7 7 ,351 7 1 274 70,927 7 268,000 ,000

8 8 ,345 8 1 274 63,443 8 267,000 ,000

Quadro 46 – Lambda de Wilks

Os próximos quadros resumem a análise discriminante mas agora apenas com as

variáveis seleccionadas com o método Stepwise. Estes quadros teriam mais interesse se

fosse um caso de mais de dois grupos.

Function Eigenvalue % of Variance Cumulative % Canonical Correlation

1 1,901(a) 100,0 100,0 ,809

a First 1 canonical discriminant functions were used in the analysis.

Este quadro apresenta a proporção de variância explicada pela função, como só tenho

uma função, esta explica 100% da variância.

A correlação canónica de 0,809 é a raiz quadrada do quociente entre a soma entregrupos

e o total da função discriminante.

O quadro seguinte mostra que a função discriminante é estatisticamente significativa,

como era de esperar!

Page 62: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

62/105

Test of Function(s) Wilks'

Lambda Chi-square df Sig.

1 ,345 287,556 8 ,000

No quadro seguinte temos uma forma de interpreter a contribuição de cada variável na

função discriminante através dos coeficientes estandardizados da função discriminante.

Function

1

AREATOTA -,188

DENS.POP ,578

OBITOSHM -1,169

T.NATALI ,200

T.ACTIVI ,289

HOSPITAI -,399

ACVIAÇAO 1,322

AC.VIAÇA ,522

Quadro 47 - Coeficientes estandardizados das funções discriminante

Correlações entre as variáveis e as funções

discriminante

Function

1

Zscore: T.ACTIVI ,662

Zscore: AC.VIAÇA ,560

Zscore: NADOSVIV(a)

,540

Zscore: FERLIGAC(a)

,540

Zscore: VITMORTA(a)

,536

Zscore: VITACVIA(a) ,534

Zscore: ACVIAÇAO ,533

Zscore: T.NATALI ,517

Zscore: T.MORTAL(a)

-,513

Zscore: FERGRAVA(a)

,403

Zscore: OBITOSHM ,396

Zscore: DENS.POP ,384

Zscore: MEDICOSP(a)

,265

Zscore: FARMACIA(a)

-,229

Zscore: HOSPITAI ,202

Zscore: T.DESEMP(a)

-,181

Zscore: AREATOTA -,161

Zscore: FREGUESI(a)

,048

a Variável não usada na análise.

Coeficientes não estandardizados da função

discriminante

Function

1

Zscore: AREATOTA -,187

Zscore: DENS.POP ,622

Zscore: OBITOSHM -1,276

Zscore: T.NATALI ,266

Zscore: T.ACTIVI ,378

Zscore: HOSPITAI -,393

Zscore: ACVIAÇAO 1,634

Zscore: AC.VIAÇA ,657

(Constant) ,047

Page 63: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

No quadro seguinte observa-se que os valores são muito distintos o que mostra que as

classes estão bem separadas.

Médias dos Grupos para a função discriminante

clasHier

Function

1

classe 1 -,839

classe2 2,249

O quadro seguinte apresenta as probabilidade á priori calculadas apartir da

amostra porque seleccionei a opção Compute from group sizes. E no seguinte apresento

os coeficientes das funções de Classificação.

A 1ª função discriminante é :

107.1.535.0062.2293.0

066.0436.0786.1651.0200.0

VIAÇAACACVIACAOHOSP

TACTTNATOBITDENSPAREAT

Prior Probabilities for Groups

clasHier Prior

Cases Used in Analysis

Unweighted Weighted

classe 1 ,728 201 201,000

classe2 ,272 75 75,000

Total 1,000 276 276,000

Classification Function Coefficients

clasHier

classe 1 classe2

Zscore: AREATOTA ,200 -,378

Zscore: DENS.POP -,651 1,270

Zscore: OBITOSHM 1,786 -2,154

Zscore: T.NATALI -,436 ,386

Zscore: T.ACTIVI -,066 1,102

Zscore: HOSPITAI ,293 -,922

Zscore: ACVIAÇAO -2,062 2,983

Zscore: AC.VIAÇA -,535 1,494

(Constant) -1,107 -3,138

Fisher's linear discriminant functions

Page 64: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

64/105

Os histogramas seguintes apresentam as pontuações discriminantes para cada um dos

grupos separadamente. As medias do primeiro grupo é de 0,66 , do segundo é 2,25.

210-1-2-3-4

25

20

15

10

5

0

clasHier = classe 1

Mean =-0,66Std. Dev. =0,946

N =233

Canonical Discriminant Function 1

5,02,50,0

20

15

10

5

0

clasHier = classe2

Mean =2,25Std. Dev. =1,35

N =75

Canonical Discriminant Function 1

Os resultados da classificação, apresentados a seguir, mostram que 93,2% dos casos

foram classificados correctamente e que 2 concelhos da classe 2 (classe com concelhos

mais densos populacionalmente) foram classificados na classe 1.

clasHier

Predicted Group Membership

Total classe 1 classe2

Original Count classe 1 214 19 233

classe2 2 73 75

% classe 1 91,8 8,2 100,0

classe2 2,7 97,3 100,0

Quadro 48 – Resultados da classificação

a 93,2% of original grouped cases correctly classified.

Page 65: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

65/105

Um análise que considerei pertinente foi fazer a análise discriminante com o

método stepwise mas sem as variáveis mais correlacionadas. Os resultados obtidos

foram os seguintes.

Tests of Equality of Group Means

Wilks'

Lambda F df1 df2 Sig.

Zscore: AREATOTA ,953 13,522 1 274 ,000

Zscore: FREGUESI ,972 7,993 1 274 ,005

Zscore: DENS.POP ,781 76,858 1 274 ,000

Zscore: T.NATALI ,663 139,384 1 274 ,000

Zscore: T.MORTAL ,651 146,917 1 274 ,000

Zscore: T.ACTIVI ,546 228,290 1 274 ,000

Zscore: T.DESEMP ,945 15,999 1 274 ,000

Zscore: MEDICOSP ,872 40,127 1 274 ,000

Zscore: FARMACIA ,851 48,070 1 274 ,000

Zscore: HOSPITAI ,928 21,269 1 274 ,000

Zscore: AC.VIAÇA ,626 163,584 1 274 ,000

Zscore: VITACVIA ,641 153,239 1 274 ,000

Zscore: VITMORTA ,645 150,638 1 274 ,000

Log Determinants

clasHier Rank Log

Determinant

classe 1 7 -15,726

classe2 7 -2,405

Pooled within-groups 7 -4,355

The ranks and natural logarithms of determinants printed are those of the group covariance matrices.

Test Results

Box's M 2130,095

F Approx. 73,266

df1 28

df2 72558,687

Sig. ,000

Tests null hypothesis of equal population covariance matrices.

Page 66: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

66/105

Variables Entered/Removed(a,b,c,d)

Step Entered Wilks' Lambda

Statistic df1 df2 df3 Exact F

Statistic df1 df2 Sig.

1 Zscore: T.ACTIVI

,546 1 1 274,0

00 228,290 1 274,000 ,000

2 Zscore: AC.VIAÇA

,433 2 1 274,0

00 178,985 2 273,000 ,000

3 Zscore: AREATOTA

,405 3 1 274,0

00 133,255 3 272,000 ,000

4 Zscore: DENS.POP

,390 4 1 274,0

00 105,852 4 271,000 ,000

5 Zscore: HOSPITAI

,375 5 1 274,0

00 89,844 5 270,000 ,000

6 Zscore: VITACVIA

,367 6 1 274,0

00 77,437 6 269,000 ,000

7 Zscore: T.NATALI

,361 7 1 274,0

00 67,691 7 268,000 ,000

Variables in the Analysis

Step Tolerance F to Remove Wilks'

Lambda

1 Zscore: T.ACTIVI 1,000 228,290

2 Zscore: T.ACTIVI ,991 122,092 ,626

Zscore: AC.VIAÇA ,991 71,195 ,546

3 Zscore: T.ACTIVI ,976 91,866 ,542

Zscore: AC.VIAÇA ,881 90,350 ,539

Zscore: AREATOTA ,882 18,651 ,433

4 Zscore: T.ACTIVI ,963 75,887 ,500

Zscore: AC.VIAÇA ,871 75,986 ,500

Zscore: AREATOTA ,847 12,016 ,408

Zscore: DENS.POP ,940 10,167 ,405

5 Zscore: T.ACTIVI ,942 59,546 ,458

Zscore: AC.VIAÇA ,665 88,063 ,498

Zscore: AREATOTA ,845 12,570 ,393

Zscore: DENS.POP ,653 20,105 ,403

Zscore: HOSPITAI ,545 10,684 ,390

6 Zscore: T.ACTIVI ,903 45,355 ,428

Zscore: AC.VIAÇA ,523 41,115 ,423

Zscore: AREATOTA ,844 11,608 ,382

Zscore: DENS.POP ,649 17,750 ,391

Zscore: HOSPITAI ,402 16,986 ,390

Zscore: VITACVIA ,375 6,407 ,375

7 Zscore: T.ACTIVI ,618 16,933 ,384

Zscore: AC.VIAÇA ,523 39,609 ,415

Zscore: AREATOTA ,821 8,856 ,373

Zscore: DENS.POP ,642 19,208 ,387

Zscore: HOSPITAI ,402 15,943 ,383

Zscore: VITACVIA ,374 5,720 ,369

Zscore: T.NATALI ,635 4,012 ,367

Page 67: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

67/105

Variables Not in the Analysis

Step Tolerance Min.

Tolerance F to Enter Wilks'

Lambda

0 Zscore: AREATOTA 1,000 1,000 13,522 ,953

Zscore: FREGUESI 1,000 1,000 7,993 ,972

Zscore: DENS.POP 1,000 1,000 76,858 ,781

Zscore: T.NATALI 1,000 1,000 139,384 ,663

Zscore: T.MORTAL 1,000 1,000 146,917 ,651

Zscore: T.ACTIVI 1,000 1,000 228,290 ,546

Zscore: T.DESEMP 1,000 1,000 15,999 ,945

Zscore: MEDICOSP 1,000 1,000 40,127 ,872

Zscore: FARMACIA 1,000 1,000 48,070 ,851

Zscore: HOSPITAI 1,000 1,000 21,269 ,928

Zscore: AC.VIAÇA 1,000 1,000 163,584 ,626

Zscore: VITACVIA 1,000 1,000 153,239 ,641

Zscore: VITMORTA 1,000 1,000 150,638 ,645

1 Zscore: AREATOTA ,993 ,993 3,088 ,539

Zscore: FREGUESI ,959 ,959 19,552 ,509

Zscore: DENS.POP ,979 ,979 24,194 ,501

Zscore: T.NATALI ,662 ,662 7,512 ,531

Zscore: T.MORTAL ,654 ,654 8,704 ,529

Zscore: T.DESEMP ,974 ,974 1,396 ,543

Zscore: MEDICOSP ,989 ,989 12,386 ,522

Zscore: FARMACIA ,984 ,984 13,941 ,519

Zscore: HOSPITAI 1,000 1,000 11,234 ,524

Zscore: AC.VIAÇA ,991 ,991 71,195 ,433

Zscore: VITACVIA ,968 ,968 52,407 ,458

Zscore: VITMORTA ,995 ,995 68,136 ,437

2 Zscore: AREATOTA ,882 ,881 18,651 ,405

Zscore: FREGUESI ,832 ,832 1,665 ,430

Zscore: DENS.POP ,978 ,972 16,752 ,408

Zscore: T.NATALI ,662 ,658 6,358 ,423

Zscore: T.MORTAL ,654 ,651 6,446 ,423

Zscore: T.DESEMP ,970 ,968 ,309 ,432

Zscore: MEDICOSP ,881 ,881 ,473 ,432

Zscore: FARMACIA ,982 ,977 8,931 ,419

Zscore: HOSPITAI ,802 ,796 ,157 ,432

Zscore: VITACVIA ,603 ,603 5,380 ,424

Zscore: VITMORTA ,055 ,054 ,038 ,433

3 Zscore: FREGUESI ,824 ,791 2,821 ,401

Zscore: DENS.POP ,940 ,847 10,167 ,390

Zscore: T.NATALI ,649 ,649 3,444 ,400

Zscore: T.MORTAL ,622 ,622 2,446 ,401

Zscore: T.DESEMP ,937 ,851 ,057 ,405

Zscore: MEDICOSP ,876 ,781 ,123 ,405

Zscore: FARMACIA ,949 ,852 4,647 ,398

Zscore: HOSPITAI ,784 ,691 1,036 ,403

Zscore: VITACVIA ,594 ,547 3,003 ,400

Zscore: VITMORTA ,055 ,054 ,044 ,405

Page 68: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

68/105

4 Zscore: FREGUESI ,824 ,785 2,562 ,387

Zscore: T.NATALI ,637 ,637 5,084 ,383

Zscore: T.MORTAL ,615 ,615 3,537 ,385

Zscore: T.DESEMP ,899 ,805 ,160 ,390

Zscore: MEDICOSP ,715 ,715 1,215 ,389

Zscore: FARMACIA ,943 ,815 5,569 ,382

Zscore: HOSPITAI ,545 ,545 10,684 ,375

Zscore: VITACVIA ,507 ,507 ,302 ,390

Zscore: VITMORTA ,054 ,054 ,154 ,390

5 Zscore: FREGUESI ,814 ,539 3,698 ,370

Zscore: T.NATALI ,637 ,545 4,688 ,369

Zscore: T.MORTAL ,607 ,538 2,212 ,372

Zscore: T.DESEMP ,898 ,544 ,072 ,375

Zscore: MEDICOSP ,493 ,376 ,717 ,374

Zscore: FARMACIA ,909 ,525 2,988 ,371

Zscore: VITACVIA ,375 ,375 6,407 ,367

Zscore: VITMORTA ,054 ,052 ,055 ,375

6 Zscore: FREGUESI ,765 ,352 1,762 ,364

Zscore: T.NATALI ,635 ,374 4,012 ,361

Zscore: T.MORTAL ,605 ,373 1,740 ,364

Zscore: T.DESEMP ,898 ,375 ,055 ,367

Zscore: MEDICOSP ,477 ,275 1,706 ,364

Zscore: FARMACIA ,906 ,374 2,472 ,363

Zscore: VITMORTA ,054 ,050 ,155 ,366

7 Zscore: FREGUESI ,762 ,352 1,406 ,359

Zscore: T.MORTAL ,543 ,373 ,504 ,361

Zscore: T.DESEMP ,897 ,373 ,090 ,361

Zscore: MEDICOSP ,477 ,275 1,763 ,359

Zscore: FARMACIA ,843 ,373 1,152 ,360

Zscore: VITMORTA ,054 ,050 ,115 ,361

Wilks' Lambda

Step Number of Variables Lambda df1 df2 df3 Exact F

Statistic df1 df2 Sig.

1 1 ,546 1 1 274 228,290 1 274,000 ,000

2 2 ,433 2 1 274 178,985 2 273,000 ,000

3 3 ,405 3 1 274 133,255 3 272,000 ,000

4 4 ,390 4 1 274 105,852 4 271,000 ,000

5 5 ,375 5 1 274 89,844 5 270,000 ,000

6 6 ,367 6 1 274 77,437 6 269,000 ,000

7 7 ,361 7 1 274 67,691 7 268,000 ,000

Eigenvalues

Function Eigenvalue % of Variance Cumulative % Canonical Correlation

1 1,768(a) 100,0 100,0 ,799

Page 69: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

69/105

Wilks' Lambda

Test of Function(s) Wilks'

Lambda Chi-square df Sig.

1 ,361 275,408 7 ,000

Standardized Canonical Discriminant Function Coefficients

Function

1

Zscore: AREATOTA -,247

Zscore: DENS.POP ,404

Zscore: T.NATALI ,191

Zscore: T.ACTIVI ,388

Zscore: HOSPITAI -,468

Zscore: AC.VIAÇA ,621

Zscore: VITACVIA ,296

Function

1

Zscore: T.ACTIVI ,686

Zscore: AC.VIAÇA ,581

Zscore: VITACVIA ,562

Zscore: VITMORTA(a)

,552

Zscore: T.NATALI ,536

Zscore: T.MORTAL(a)

-,511

Zscore: DENS.POP ,398

Zscore: FARMACIA(a)

-,240

Zscore: MEDICOSP(a)

,218

Zscore: HOSPITAI ,210

Zscore: AREATOTA -,167

Zscore: T.DESEMP(a)

-,160

Zscore: FREGUESI(a)

,049

Mais uma vez as classes estão bem discriminadas. Canonical Discriminant Function Coefficients

Function

1

Zscore: AREATOTA -,246

Zscore: DENS.POP ,435

Zscore: T.NATALI ,253

Zscore: T.ACTIVI ,508

Zscore: HOSPITAI -,461

Zscore: AC.VIAÇA ,782

Zscore: VITACVIA ,368

(Constant) ,010

Functions at Group Centroids

clasHier Function

1

classe 1 -,809

classe2 2,169

Classification Processing Summary

Processed 308

Excluded Missing or out-of-range group codes 0

At least one missing discriminating variable

0

Used in Output 308

Prior Probabilities for Groups

clasHier Prior

Cases Used in Analysis

Unweighted Weighted

classe 1 ,728 201 201,000

classe2 ,272 75 75,000

Total 1,000 276 276,000

Page 70: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

As variáveis que entraram na função discriminante no modelo anterior foram:

AREAT- área total, DENSP- densidade populacional, OBIT- Obitos2001, TNAT- taxa

natalidade, HOSP- nº hospitais, ACVIACAO- acidentes de viação com vitimas, e

AC.VIAÇA- acidentes de viação com vitimas mortais.

Enquanto que nesta análise entram TACT- Taxa de actividade, VITACVIA- vitimas em

acidentes de viação, e não entram OBIT- Obitos2001, ACVIACAO- acidentes de viação

com vitimas.

A primeira função discriminante é :

665.0324.0663.0404.0

220.0407.0347.0269.0

VITACVIAACVIAHOSP

TACTTNATDENSPAREAT

Coeficientes da Função de Classificação

clasHier

classe 1 classe2

Zscore: AREATOTA ,269 -,464

Zscore: DENS.POP -,347 ,947

Zscore: T.NATALI -,407 ,348

Zscore: T.ACTIVI -,220 1,293

Zscore: HOSPITAI ,404 -,968

Zscore: AC.VIAÇA -,663 1,667

Zscore: VITACVIA -,324 ,772

(Constant) -,665 -3,646

Fisher's linear discriminant functions

210-1-2-3-4

30

25

20

15

10

5

0

clasHier = classe 1

Mean =-0,68Std. Dev. =0,904

N =233

Canonical Discriminant Function 1

5,02,50,0

20

15

10

5

0

clasHier = classe2

Mean =2,17Std. Dev. =1,305

N =75

Canonical Discriminant Function 1

Page 71: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

71/105

Resultados da Classificação

clasHier

Predicted Group Membership

Total classe 1 classe2

Original Count classe 1 228 5 233

classe2 8 67 75

% classe 1 97,9 2,1 100,0

classe2 10,7 89,3 100,0

a 95,8% of original grouped cases correctly classified.

A percentagem de classificação correcta foi superior neste caso de 95,8%.

Page 72: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

72/105

4.4- Análise em Componentes Principais Normada

Nesta secção mostro como apliquei o método ACP ao quadro de dados em

estudo que, como já referi, tem dimensão 308 x 22.

Quero encontrar a matriz T que representa uma transformação linear dos dados

X por forma a obter umas novas coordenadas Y , isto é:

XTY t

Esta transformação toma o nome de transformação de Karhunen-Loéwe ou de

Hotelling.

O objectivo é encontrar o espaço W de dimensão q que representa

aproximadamente a nuvem de pontos dos n indivíduos e em que pq . Esse espaço é

obtido da seguinte forma:

- quero minimizar a deformação em projecção da nuvem de indivíduos inicial ou

seja, maximizar a inércia da nuvem dos indivíduos projectados.

k

q

k

t

k

n

i

k

q

k

t

kQiiW VQuQuMaxVQuQuxpMinIMin11 1

2

Considerando kk uQv 21

e 21

21

VQQS quero maximizar

q

k

k

t

k Svv1

.

S é uma matriz simétrica definida não negativa, então S é diagonizável e existe

uma base ortonormada de vectores próprios pwww ,...,, 21 em que os valores próprios

são não negativos. Sejam pqq ...... 121 os valores próprios de S

por ordem crescente.

Proposição: Os vectores quuu ,...,, 21 , com kk vQu 21

, são os vectores próprios

de VQ associados aos valores próprios p ,...,, 21 , que são também os valores

próprios de S .(6)

Os eixos de inércia são os eixos gerados por quuu ,...,, 21 . As projecções dos n

indivíduos em W formam uma nova nuvem de pontos, em que cada ponto possui q

coordenadas. (6)

Definição: ky é a kª componente principal que é um vector cujas componentes

são as coordenandas dos pontos da nuvem no kº eixo principal de inércia, ku . (6)

Page 73: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

73/105

Este método consiste basicamente em obter uma combinação linear de todas as

variáveis de modo a que a primeira componente principal seja uma combinação que

explique a maior percentagem da variância da amostra.

A comunalidade é a proporção da variança explicada pelos factores comuns de

uma variavel. Logo a comunalidade inicial é sempre igual à unidade porque se

utilizarmos tantas componentes principais como variáveis cada variável pode ser

explicada por ela mesma e portanto toda a variabilidade de cada variável é igual à

unidade como mostra o quadro seguinte:

Comunalidades

Initial Extraction

AreaTotal 1,000 ,560

Freguesias 1,000 ,470

Dens.Pop 1,000 ,714

Pop.ResHM2001 1,000 ,941

Pop.Res.H2001 1,000 ,931

NadosVivosHM 1,000 ,896

ObitosHM 1,000 ,967

T.Natalidade 1,000 ,713

T.Mortalidade 1,000 ,812

T.ActividadeHM2001 1,000 ,725

T.DesempregoHM2001 1,000 ,243

Medicospor1000 1,000 ,510

Farmaciapor1000 1,000 ,492

HospitaisOficiais 1,000 ,772

AcViaçaoCVitimas 1,000 ,976

Ac.ViaçaoCVitMort 1,000 ,819

VitAcViaçao 1,000 ,924

VitMortAçViaçao 1,000 ,801

FerGravACViaçao 1,000 ,839

FerLigAcViaçao 1,000 ,921

Extraction Method: Principal Component Analysis.

Na coluna Extraccion temos a capacidade que têm as componentes retidas de

explicar a variação de cada variável original, por exemplo 56.0% da variação da

variável AreaTotal é explicada pelas componentes retidas.

Page 74: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

74/105

Quadro da variância total explicada - onde constam percentagens individuais

e acumuladas, e a proporção de variância total explicada por cada factor. Esta proporção

é obtida da seguinte forma:

%100%100)(

1

p

k

k

kk

VQtr

Como os três maiores valores próprios são maiores que um decido reter os três

primeiros eixos, pois estes são suficientes para retirar conclusões sobre o quadro de

dados em estudo, uma vez que são capazes de explicar 76.27 % da variabilidade total,

que é uma percentagem relativamente alta.

A soma dos valores próprios dá 20 que é o número de componentes.

Gráfico dos resultados, nas abcissas vem o número de factores e nas ordenadas

os valores próprios respectivos;

Page 75: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

75/105

Este gráfico fornece-nos uma forma visual de avaliar quantas componentes se

devem seleccionar, neste caso seriam seleccionadas as três primeiras porque da quarta

para a quinta a linha que as une é quase horizontal (Critério Screen Plot). O SPSS retém

as componentes principais com valor próprio superior a um (Critério de Keiser).

O quadro seguinte contêm os coeficientes utilizados para expressar cada variável

estandardizada, estes coeficientes indicam-nos o peso de cada variável em cada

componente.

Component

1 2 3

AREATOTA -,105 ,436 ,599

FREGUESI ,382 ,078 ,564

DENS.POP ,668 ,050 -,515

POP.RESH ,959 ,096 -,113

POP.RES ,956 ,077 -,105

NADOSVIV ,940 ,014 -,111

OBITOSHM ,936 ,271 -,135

T.NATALI ,491 -,685 -,057

T.MORTAL -,514 ,739 -,040

T.ACTIVI ,590 -,603 -,115

T.DESEMP -,170 ,401 -,230

MEDICOSP ,651 ,211 -,207

FARMACIA -,307 ,615 -,141

HOSPITAI ,750 ,425 -,170

ACVIAÇAO ,978 ,136 -,019

AC.VIAÇA ,794 -,032 ,433

VITACVIA ,955 ,076 ,081

VITMORTA ,767 -,037 ,460

FERGRAVA ,881 ,241 ,071

FERLIGAC ,955 ,062 ,070

Extraction Method: Principal Component Analysis. a 3 components extracted.

Na figura 1 podemos pode observar-se que as variáveis estão quase todas bem

representadas uma vez que estão quase todas muito próximo da circunferência, à

excepção das variáveis T.Desemp., AREA TOTAL, DENS.POP.

Page 76: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

76/105

As variáveis que mais contribuíram para a formação do primeiro eixo foram, por

exemplo, NADOSVIV e VITAÇVIA. As variáveis relacionadas com os acidentes de

viação são as que mais contribuíram para o 1º eixo.

Figura 1- Gráfico da projecção das variáveis no plano formado pelos eixos factoriais 1 e 2

O mesmo resultado se obtém no SPSS.

È possível ainda observar que as variáveis T.Natalidade e T.Activi se opõem às

variáveis T.Mortalidade, Farmácia, T.Desemp, AreaTotal, logo o segundo eixo está

associado ao envelhecimento dos concelhos.

Page 77: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

77/105

Na figura 2 obtemos as projecções das variáveis nos eixos factoriais 1 e 3, aqui

hà variáveis em todos os quadrantes. Este eixo opõe concelhos com elevada densidade

populacional e pequena área, isto é, está relacionado com a dimensão do Concelho.

As variáveis pior representadas são a T.Desemp. e Farmácia.

Pode observar-se ainda que associados a elevadas áreas estão concelhos com

elevados valores de acidentes de viação e com baixas densidades populacionais o que

contribui para a desertificação do país.

Figura 2 - Gráfico da projecção das variáveis no plano formado pelos eixos factoriais 1 e 3

Na figura 3 obtemos as projecções das variáveis nos eixos factoriais 2 e 3, nestas

projecções a maior parte das variáveis estão mal representadas porque se encontram

muito afastadas do círculo das correlações.

Page 78: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

78/105

Figura 3- Gráfico da projecção das variáveis no plano formado pelos eixos factoriais 2 e 3

No quadro seguinte é possível observar os valores das contribuições do

indivíduo Sintra para a formação dos eixos e o valor do quadrado do coseno, que se for

próximo de 1 indica que o indivíduo sofreu pouca deformação na projecção.

- Gráficos da projecção dos indivíduos sobre os eixos factoriais

Os concelhos do lado positivo do eixo estão associados a valores elevados das

variáveis Feridos Graves, Feridos Ligeiros, Vitimas em Acidentes de Viação, Acidentes

de Viação, Nados vivos e População Residente. A azul encontram-se os concelhos da

classe 1 obtida na classificação hierárquica.

Verifica-se que Sintra e Vila Nova de Gaia são zonas problemáticas a nível de

acidentes. Os concelhos da classe 2 estão mais no primeiro quadrante o que indica que

na sua generalidade estes concelhos têm taxas de Natalidade e Taxas de actividade

Page 79: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

79/105

elevadas. Os concelhos mais desertificados estão no terceiro quadrante e um deles é por

exemplo Corvo.

Ilustração 1- Projecção dos concelhos no plano formado pelo eixo 1 e 2.

Na ilustração 2 é possível observar que os concelho de Lisboa, Sintra, Oeiras,

Matosinhos, Porto e Amadora (2º quadrante) têm elevada Densidade populacional e

baixa área total Os concelhos com maior valor nas variáveis relacionadas com acidentes

são, como já tinha referido, Sintra e Vila Nova de Gaia.

O concelho de Pombal destaca-se no primeiro quadrante que corresponde a

concelhos com elevado número de Vitimas Mortais em Acidentes de Viação, e

Acidentes de Viação com Vitimas Mortais (este facto está justificado na página 28).

Ilustração 2 - Projecção dos concelhos no plano formado pelo eixo 1 e 3.

Page 80: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

80/105

O concelho de Santa Cruz tem elevada taxa de Natalidade e Taxa de actividade A

2ºclasse encontra-se quase toda do lado direito, associada ao lado positivo do eixo 2,

isto é associadas as valores elevados de Taxa de Natalidade e Taxa de Actividade.

Ilustração 3 - Projecção dos concelhos no plano formado pelo eixo 2 e 3.

No quadro seguinte é possível observar mais uma vez que, por exemplo, a taxa de

Natalidade se encontra do lado positivo dos 3 eixos, e a apresenta maior correlação no

2º eixo, e correlação nula com o 3º eixo. A variável que apresenta maior correlação no

1º eixo é ACVIAÇAO, todas as variáveis relacionadas com acidentes de viação

apresentam correlações elevadas no 1º eixo dai que o 1º eixo esteja associado aos

problemas das estradas portuguesas.

Page 81: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

81/105

Concelhos com maiores contribuições para o 1º eixo:

Logo estes são os concelhos mais problemáticos a nível de acidentes, e são os que

apresentam mais hospitais.

Concelhos com maiores contribuições para o 2º eixo:

Os concelhos Vizela, Lousada, Paços de Ferreira estão associados a valores elevados de

Taxa de Natalidade e Taxa de Actividade, enquanto os restantes concelhos (do lado

negativo de eixo) estão associados a valores elevados de taxa de Mortalidade.

Concelhos com maiores contribuições para o 3º eixo:

Page 82: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

82/105

4.4.1 – ACP Normada para os concelhos da classe 1.

Nesta secção apresento um pequeno estudo aos concelhos de classe 1.

Nesta ACP os eixos a reter são os 3 primeiros que explicam 76,27% da variabilidade

total dos dados.

O comportamento das variáveis no plano formado pelo 1º e 2º eixos é análogo ao

comportamento das mesmas mas com todos os concelhos.

O mesmo acontece com a projecção das variáveis no plano formado pelos eixos 1 e 3, e

pelos eixos 2 e 3.

Page 83: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

83/105

Projecção dos concelhos nos planos formados pelos eixos 1vs2 e 1vs3.

O que verifiquei é que os concelhos associados à classe 1 são concelhos muito densos

populacionalmente, e que como o comportamento da ACP para estes é análogo à ACP

dos dados todos, achei que estes concelhos estavam a esconder alguns comportamentos

que poderiam ser importantes dos concelhos menos densos. Logo na próxima secção

apresento um estudo dos concelhos com densidade populacional inferior à média.

Page 84: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

84/105

4.4.2 - ACP para concelhos com densidade populacional inferior á média

O número de eixos a reter neste caso são 4 que explicam 80.15% da variância total dos

dados.

Projecção das variáveis:

As variáveis relacionadas com os acidentes de viação e a variável NadosVivos

são as que mais contribuíram para o 1º eixo.

Page 85: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

85/105

No gráfico seguinte observam-se as projecções das variáveis no plano formado pelo

primeiro e terceiros eixos factoriais, o terceiro eixo está associado aos recursos de saúde

disponíveis (Médicos e Hospitais).

As variáveis taxa de desemprego e Farmácia foram as que mais contribuíram para a

formação do quarto eixo.

O segundo eixo está relacionado com o envelhecimento da população, as variáveis que

mais contribuíram para a sua formação foram AreaTotal (que se encontra do lado

positivo do eixo) e Taxa de Natalidade e Dens. Populacional (que se encontram do lado

negativo do eixo).

Page 86: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

86/105

No gráfico seguinte a azul encontram-se os concelhos da primeira classe com

densidade populacional inferior a 298 2/ kmhab .

Os concelhos da classe 2 encontram-se quase todos do lado positivo do primeiro

eixo isto indica que estarão associados a valores elevados de variáveis relacionadas com

acidentes de viação. O concelho de Leiria é o que mais se destaca quando ás

contribuições, é um concelho com valores elevados de Hospitais e Vitimas mortais em

acidentes de Viação assim como Pombal e Viseu.

Os concelhos melhor representados por esta projecção são os que apresentam valores de

cos2 próximos de 1. Que neste caso correspondem aos concelhos seleccionados em

cima.

Page 87: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

87/105

Os concelhos com mais recursos de saúde são, por exemplo, Viana do Castelo e Viseu.

Por exemplo Carrezeda de Ansiães e Manteigas estão associados a elevadas taxas de

mortalidade e Recursos de saúde baixos.

O concelho de Monforte é um exemplo de um concelho associado a valores elevados de

farmácias e elevada taxa de mortalidade. Carrezeda de Ansiães e Barrancos estão

associados a uma elevada taxa de desemprego.

É interessante verificar que Carrezeda de Ansiãos é a “ovelha negra” da classe 2, porque

é um concelho com características diferentes dos restantes concelhos desta classe.

Quanto ao plano formado pelos eixo 2 e 4 posso concluir que alguns concelhos

associados a taxa de desemprego elevadas estão também associados a taxas de

natalidade elevadas, por exemplo, Vila Franca do Campo.

Page 88: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

88/105

Os concelhos como Pombal, Castelo Branco e Santarém sofrem de desertificação

porque apresentam AreaTotal elevada e elevada Taxa de Mortalidade.

Page 89: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

89/105

4.5- Classificação em SPAD

A classificação em SPAD é feita apartir das coordenades dos eixos factoriais.

Utilizam-se o subconjunto dos primeiros k eixos factoriais que projectem no mínimo

80% da inércia original. Este procedimento realiza-se aplicando sobre os dados dois

algoritmos: classificação hierárquica, com o objectivo de escolher em quantos grupoe se

devem classificar os indivíduos e o algoritmo de centros móveis, com o objectivo de

majorar a classificação.

Classif ication hiérarchique direct e

527 470 545 556 558 512 534 491 539 553 Corv 475 Barr 544 535 557 546 542 550 529 563 499 562 560 566 513 528 564 555 565 549 505 561 559 554 540 551 522 538 Coim Port 501 548 541 485 547 537 Vila Sint Lisb

O dendograma que o SPAD fornece é parecido com a que foi utilizada ao longo

do trabalho, no entanto decidi colocar esta experiência para experimentar uma outra

modalidade da classificação hierárquica. No SPSS a classe 2 tem 75 concelhos, neste

caso o SPAD fornece a 2ª classe com 23 concelhos.

Os resultados que o SPAD apresenta são os seguintes:

Page 90: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

90/105

A divisão nesta classificação foi de 23 concelhos para a classe 2 e os restantes para a

primeira classe, os elementos de cada classe foram os seguintes:

É de notar que os concelhos da classe 2 são quase os mesmos que os obtidos pela

classificação não-hierárquica com os dados em bruto. Após obter este resultado fiquei a

duvidar da classificação que escolhi anteriormente.

Apesar da classificação não-hierárquica ter a desvantagem de se decidir o número de

classes iniciais, pensei que neste caso, talvez esta classificação seria melhor que a que

considerei anteriormente. Mas depois comparei os elementos das classes 2 obtidas na

classificação não-hierárquica com os obtidos na hierárquica e o que observei é que os

concelhos da classe 2 – não-hierárquica estão contidos na classe 2-hierárquica logo a

partição que considerei é razoável.

Classe 2 da classificação não-hierárquica = {Barcelos, Braga, Guimarães, Vila Nova de

Famalicão, Maia, Matosinhos, Porto, Gaia, Santa Maria da Feira, Leiria, Coimbra,

Lisboa, Cascais, Loures, Oeiras, Sintra, Vila Franca de Xira, Amadora, Seixal e

Setúbal} (ver anexo 5)

Page 91: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

91/105

5 - Conclusão

Este trabalho permitiu observar a situação de estatísticas importantes do nosso

país.

Este trabalho permitiu detectar que existem concelhos problemáticos a nível de

acidentes rodoviários como o concelho de Pombal, e existem zonas problemáticas

quanto aos recursos de saúde e quanto á desertificação populacional.

Quanto á classificação obtida, penso que discrimina bem os concelhos em dois

grupos, este facto foi verificado na análise discriminante que efectuei e pode ser

observado na projecção dos concelhos no plano formado pelo primeiro e segundo eixo

principais, neste plano observa-se claramente a separação dos dois grupos.

Os métodos aqui implementados foram de grande utilidade porque facilitam a

interpretação das características do nosso país, e permitem detectar casos interessantes

que ainda não tinham sido detectados!

Page 92: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

92/105

6 – Bibliografia

[1] – “Análise Estatística- Com utilização do SPSS”- João Maroco – Edições Silabo;

[2] - “Análisis Estadísitico com SPSS para Windows”- Volume II – Bienvenido

Visauta Vinacua _ Mc Graw Hill;

[3] - Manual de SPAD- Universidade de Barcelona

Page 93: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

93/105

Anexo 1

Concelhos com Densidade Populacional superior a 298 2/ kmhab

Barcelos,

Braga,

Esposende,

Vizela,

Santo Tirso,

Trofa,

Espinho,

Gondomar,

Maia,

Matosinhos,

Porto,

Póvoa de Varzim,

Valongo,

Vila do Conde,

Vila Nova de Gaia,

Santa Maria da Feira,

Oliveira de Azeméis,

São João da Madeira,

Sintra,

Vila Franca de Xira,

Amadora,

Odivelas,

Almada,

Barreiro,

Moita,

Setúbal

Lagoa (R.A.A),

Câmara de Lobos,

Funchal,

Machico.

Page 94: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Anexo 3- Classificação Hierárquica entre variáveis - Matriz de Proximidade

Proximity Matrix

Case Matrix File Input

AREATOTA

FREGUESI

DENS.POP

POP.RESH

POP.RES

NADOSVIV

OBITOSHM

T.NATALI

T.MORTAL

T.ACTIVI

T.DESEMP

MEDICOSP

FARMACIA

HOSPITAI

ACVIAÇAO

AC.VIAÇA

VITACVIA

VITMORTA

FERGRAVA

FERLIGAC

AREATOTA

,000 3,317 4,435 3,938 3,945 4,051 3,856 8,087 5,950 10,37

9 3,796 3,718 3,852 4,120 3,854 3,608 3,805 3,657 3,800 3,822

FREGUESI

3,317 ,000 3,598 2,899 2,885 2,986 3,024 8,047 6,675 10,55

0 4,242 3,008 4,586 3,401 2,943 2,819 2,883 2,843 3,074 2,877

DENS.POP

4,435 3,598 ,000 1,416 1,457 1,559 1,361 9,700 8,274 12,29

5 5,437 1,828 5,575 1,648 1,529 3,091 1,703 3,173 1,673 1,709

POP.RESH

3,938 2,899 1,416 ,000 ,300 ,447 ,703 9,303 7,951 11,92

1 5,108 1,453 5,260 1,397 ,596 2,258 ,726 2,367 1,034 ,707

POP.RES

3,945 2,885 1,457 ,300 ,000 ,291 ,802 9,232 7,922 11,84

6 5,072 1,508 5,251 1,526 ,680 2,229 ,780 2,342 1,135 ,752

NADOSVIV

4,051 2,986 1,559 ,447 ,291 ,000 ,982 9,230 7,998 11,86

3 5,141 1,675 5,342 1,699 ,835 2,284 ,873 2,395 1,270 ,837

OBITOSHM

3,856 3,024 1,361 ,703 ,802 ,982 ,000 9,563 8,002 12,18

2 5,189 1,328 5,247 ,819 ,431 2,492 ,638 2,591 ,558 ,672

T.NATALI

8,087 8,047 9,700 9,303 9,232 9,230 9,563 ,000 5,027 3,287 5,745 9,170 6,630 10,08

0 9,418 8,228 9,354 8,259 9,638 9,333

T.MORTAL

5,950 6,675 8,274 7,951 7,922 7,998 8,002 5,027 ,000 6,172 3,851 7,632 3,873 8,374 7,980 7,241 7,944 7,281 8,061 7,942

T.ACTIVI

10,379 10,55

0 12,29

5 11,92

1 11,84

6 11,86

3 12,182 3,287 6,172 ,000 7,957

11,755

8,602 12,69

2 12,047

10,804

11,988

10,832 12,264 11,96

8 T.DESEMP

3,796 4,242 5,437 5,108 5,072 5,141 5,189 5,745 3,851 7,957 ,000 4,858 2,994 5,596 5,167 4,676 5,135 4,736 5,270 5,130

MEDICOSP

3,718 3,008 1,828 1,453 1,508 1,675 1,328 9,170 7,632 11,75

5 4,858 ,000 4,948 1,451 1,313 2,512 1,475 2,636 1,548 1,477

FARMACIA

3,852 4,586 5,575 5,260 5,251 5,342 5,247 6,630 3,873 8,602 2,994 4,948 ,000 5,546 5,244 4,966 5,226 5,011 5,283 5,230

HOSPITAI

4,120 3,401 1,648 1,397 1,526 1,699 ,819 10,08

0 8,374

12,692

5,596 1,451 5,546 ,000 1,039 2,973 1,226 3,047 ,878 1,269

ACVIAÇAO

3,854 2,943 1,529 ,596 ,680 ,835 ,431 9,418 7,980 12,04

7 5,167 1,313 5,244 1,039 ,000 2,242 ,371 2,345 ,612 ,389

AC.VIAÇA

3,608 2,819 3,091 2,258 2,229 2,284 2,492 8,228 7,241 10,80

4 4,676 2,512 4,966 2,973 2,242 ,000 2,193 ,497 2,493 2,185

VITACVIA

3,805 2,883 1,703 ,726 ,780 ,873 ,638 9,354 7,944 11,98

8 5,135 1,475 5,226 1,226 ,371 2,193 ,000 2,292 ,638 ,074

VITMORTA

3,657 2,843 3,173 2,367 2,342 2,395 2,591 8,259 7,281 10,83

2 4,736 2,636 5,011 3,047 2,345 ,497 2,292 ,000 2,573 2,287

FERGRAVA

3,800 3,074 1,673 1,034 1,135 1,270 ,558 9,638 8,061 12,26

4 5,270 1,548 5,283 ,878 ,612 2,493 ,638 2,573 ,000 ,708

FERLIGAC

3,822 2,877 1,709 ,707 ,752 ,837 ,672 9,333 7,942 11,96

8 5,130 1,477 5,230 1,269 ,389 2,185 ,074 2,287 ,708 ,000

Page 95: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Anexo 4- Classificação hierárquica entre indivíduos

* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * *

Dendrogram using Ward Method

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25

Label Num +---------+---------+---------+---------+---------+

Ansião 137

Cadaval 187

Murtosa 110

Vila do Bispo 101

Óbidos 183

Nazaré 182

São Brás de Alportel 98

Vila Nova de Poiares 135

Redondo 247

Reguengos de Monsara 248

Mira 119

Nelas 146

Campo Maior 228

Borba 241

Vila Viçosa 251

Tavira 100

Estremoz 242

Elvas 231

Portalegre 238

Peso da Régua 61

Carregal do Sal 142

Mesão Frio 60

Lamego 66

São Pedro do Sul 150

Sever do Vouga 113

Montemor-o-Velho 120

São João da Pesqueir 69

Mortágua 145

Vouzela 155

Belmonte 176

Manteigas 167

Soure 122

Santa Comba Dão 149

Penacova 121

Oliveira do Hospital 132

Anadia 105

Cantanhede 115

Torres Novas 198

Tomar 197

Covilhã 177

Amares 11

Marco de Canaveses 41

Póvoa de Lanhoso 19

Ponte de Lima 7

Vila Verde 16

Estarreja 107

Bombarral 180

Miranda do Corvo 131

Vila Nova da Barquin 199

Arouca 49

Rio Maior 274

Mealhada 109

Vagos 114

Albergaria-a-Velha 104

Vale de Cambra 53

Vendas Novas 249

Oliveira de Frades 147

Lourinhã 188

Condeixa-a-Nova 117

Oliveira do Bairro 111

Alcanena 192

Sobral de Monte Agra 189

Lagoa 92

Lousã 130

Arruda dos Vinhos 186

Castelo de Paiva 34

Vila Real de Santo A 102

Peniche 184

Sines 223

Almeirim 267

Alpiarça 268

Salvaterra de Magos 275

Castelo de Vide 229

Marvão 234

Figueiró dos Vinhos 139

Góis 129

Mação 159

Monchique 95

Arronches 226

Vila Velha de Ródão 175

Alter do Chão 225

Avis 227

Page 96: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

96/105

Crato 230

Alcoutim 88

Nisa 236

Penamacor 174

Gavião 233

Pedrógão Grande 140

Constância 193

Viana do Alentejo 250

Monforte 235

Sousel 252

Alvito 255

Fronteira 232

Mourão 245

Golegã 273

Cuba 259

Arraiolos 240

Chamusca 271

Ferreira do Alentejo 260

Ourique 263

Portel 246

Castro Verde 258

Mora 224

Aljustrel 253

Alandroal 239

Vieira do Minho 20

Castro Daire 143

Baião 38

Cinfães 47

Terras de Bouro 15

Moimenta da Beira 67

Mondim de Basto 45

Tarouca 72

Resende 48

Fornos de Algodres 160

Penalva do Castelo 148

Vidigueira 265

Paredes de Coura 5

Vila Nova de Cerveir 10

Santa Marta de Penag 63

Sabrosa 62

Sernancelhe 70

Armamar 65

Vila Pouca de Aguiar 86

Sertã 157

Cabeceiras de Basto 35

Mangualde 144

Caminha 2

Valença 8

Ponte da Barca 6

Celorico de Basto 36

Alijó 59

Gouveia 161

Vimioso 79

Pinhel 169

Trancoso 171

Vila Nova de Foz Côa 58

Celorico da Beira 164

Alvaiázere 136

Figueira de Castelo 165

Aljezur 89

Tábua 134

Sardoal 196

Penela 133

Ferreira do Zêzere 195

Vila de Rei 158

Miranda do Douro 76

Arganil 128

Castro Marim 90

Proença-a-Nova 156

Almodôvar 254

Tabuaço 71

Meda 168

Melgaço 3

Boticas 81

Aguiar da Beira 141

Penedono 68

Freixo de Espada à C 55

Carrazeda de Ansiães 54

Alfândega da Fé 73

Torre de Moncorvo 56

Valpaços 85

Ribeira de Pena 46

Vila Nova de Paiva 153

Murça 84

Vila Flor 57

Sátão 151

Castanheira de Pêra 138

Barrancos 256

Castelo Branco 172

Évora 243

Beja 257

Grândola 221

Ponte de Sor 237

Abrantes 191

Santiago do Cacém 222

Coruche 272

Alcácer do Sal 220

Page 97: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

97/105

Mirandela 77

Chaves 82

Bragança 74

Guarda 166

Tondela 152

Seia 162

Mogadouro 78

Fundão 178

Monção 4

Almeida 163

Arcos de Valdevez 1

Macedo de Cavaleiros 75

Vinhais 80

Montalegre 83

Sabugal 170

Idanha-a-Nova 173

Odemira 219

Montemor-o-Novo 244

Moura 262

Serpa 264

Mértola 261

Vila Nova de Famalic 21

Santa Maria da Feira 50

Braga 13

Guimarães 18

Barcelos 12

Vila Nova de Gaia 33

Loures 203

Sintra 206

Porto 29

Coimbra 116

Amadora 208

Odivelas 209

Cascais 201

Oeiras 205

Matosinhos 28

Almada 211

Maia 27

Seixal 216

Setúbal 218

Lisboa 202

Olhão 96

Sesimbra 217

Alcochete 210

Portimão 97

Montijo 214

Benavente 269

Albufeira 87

Mafra 204

Espinho 25

São João da Madeira 52

Barreiro 212

Vizela 22

Trofa 24

Entroncamento 194

Moita 213

Azambuja 266

Cartaxo 270

Batalha 123

Batalha 127

Caldas da Rainha 181

Alenquer 185

Lagos 93

Ílhavo 108

Batalha 125

Esposende 14

Lousada 40

Paredes 43

Paços de Ferreira 42

Póvoa de Varzim 30

Valongo 31

Faro 91

Vila Franca de Xira 207

Santo Tirso 23

Vila do Conde 32

Oliveira de Azeméis 51

Ovar 112

Gondomar 26

Aveiro 106

Amarante 37

Batalha 126

Loulé 94

Palmela 215

Batalha 124

Figueira da Foz 118

Santarém 276

Águeda 103

Alcobaça 179

Torres Vedras 190

Ourém 200

Silves 99

Felgueiras 39

Penafiel 44

Viana do Castelo 9

Viseu 154

Fafe 17

Vila Real 64

Page 98: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

98/105

Anexo 5 Variables Not in the Analysis

Step Tolerance Min.

Tolerance F to Enter Wilks'

Lambda

0 Zscore: AREATOTA 1,000 1,000 13,522 ,953 Zscore: FREGUESI 1,000 1,000 7,993 ,972

Zscore: DENS.POP 1,000 1,000 76,858 ,781

Zscore: NADOSVIV 1,000 1,000 175,440 ,610

Zscore: OBITOSHM 1,000 1,000 81,753 ,770

Zscore: T.NATALI 1,000 1,000 139,384 ,663

Zscore: T.MORTAL 1,000 1,000 146,917 ,651

Zscore: T.ACTIVI 1,000 1,000 228,290 ,546

Zscore: T.DESEMP 1,000 1,000 15,999 ,945

Zscore: MEDICOSP 1,000 1,000 40,127 ,872

Zscore: FARMACIA 1,000 1,000 48,070 ,851

Zscore: HOSPITAI 1,000 1,000 21,269 ,928

Zscore: ACVIAÇAO 1,000 1,000 147,862 ,650

Zscore: AC.VIAÇA 1,000 1,000 163,584 ,626

Zscore: VITACVIA 1,000 1,000 153,239 ,641

Zscore: VITMORTA 1,000 1,000 150,638 ,645

Zscore: FERGRAVA 1,000 1,000 70,238 ,796

Zscore: FERLIGAC 1,000 1,000 159,714 ,632

1 Zscore: AREATOTA ,993 ,993 3,088 ,539

Zscore: FREGUESI ,959 ,959 19,552 ,509 Zscore: DENS.POP ,979 ,979 24,194 ,501

Zscore: NADOSVIV ,953 ,953 56,814 ,452

Zscore: OBITOSHM ,992 ,992 32,394 ,488

Zscore: T.NATALI ,662 ,662 7,512 ,531

Zscore: T.MORTAL ,654 ,654 8,704 ,529

Zscore: T.DESEMP ,974 ,974 1,396 ,543

Zscore: MEDICOSP ,989 ,989 12,386 ,522

Zscore: FARMACIA ,984 ,984 13,941 ,519 Zscore: HOSPITAI 1,000 1,000 11,234 ,524

Zscore: ACVIAÇAO ,973 ,973 52,435 ,458

Zscore: AC.VIAÇA ,991 ,991 71,195 ,433

Zscore: VITACVIA ,968 ,968 52,407 ,458

Zscore: VITMORTA ,995 ,995 68,136 ,437

Zscore: FERGRAVA ,989 ,989 25,284 ,499

Zscore: FERLIGAC ,965 ,965 54,253 ,455

2 Zscore: AREATOTA ,882 ,881 18,651 ,405

Zscore: FREGUESI ,832 ,832 1,665 ,430

Zscore: DENS.POP ,978 ,972 16,752 ,408

Zscore: NADOSVIV ,783 ,783 15,144 ,410 Zscore: OBITOSHM ,739 ,739 2,172 ,429

Zscore: T.NATALI ,662 ,658 6,358 ,423

Zscore: T.MORTAL ,654 ,651 6,446 ,423

Zscore: T.DESEMP ,970 ,968 ,309 ,432

Zscore: MEDICOSP ,881 ,881 ,473 ,432

Zscore: FARMACIA ,982 ,977 8,931 ,419

Zscore: HOSPITAI ,802 ,796 ,157 ,432

Zscore: ACVIAÇAO ,616 ,616 5,652 ,424

Page 99: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

99/105

Zscore: VITACVIA ,603 ,603 5,380 ,424

Zscore: VITMORTA ,055 ,054 ,038 ,433

Zscore: FERGRAVA ,639 ,639 ,000 ,433

Zscore: FERLIGAC ,619 ,619 6,596 ,422

3 Zscore: FREGUESI ,824 ,791 2,821 ,401

Zscore: DENS.POP ,940 ,847 10,167 ,390 Zscore: NADOSVIV ,765 ,707 10,076 ,390

Zscore: OBITOSHM ,724 ,645 ,700 ,404

Zscore: T.NATALI ,649 ,649 3,444 ,400

Zscore: T.MORTAL ,622 ,622 2,446 ,401

Zscore: T.DESEMP ,937 ,851 ,057 ,405 Zscore: MEDICOSP ,876 ,781 ,123 ,405 Zscore: FARMACIA ,949 ,852 4,647 ,398

Zscore: HOSPITAI ,784 ,691 1,036 ,403

Zscore: ACVIAÇAO ,599 ,545 2,637 ,401

Zscore: VITACVIA ,594 ,547 3,003 ,400

Zscore: VITMORTA ,055 ,054 ,044 ,405

Zscore: FERGRAVA ,638 ,583 ,040 ,405

Zscore: FERLIGAC ,608 ,561 3,774 ,399 4 Zscore: FREGUESI ,824 ,785 2,562 ,387

Zscore: NADOSVIV ,500 ,500 2,469 ,387

Zscore: OBITOSHM ,372 ,372 3,606 ,385

Zscore: T.NATALI ,637 ,637 5,084 ,383

Zscore: T.MORTAL ,615 ,615 3,537 ,385

Zscore: T.DESEMP ,899 ,805 ,160 ,390 Zscore: MEDICOSP ,715 ,715 1,215 ,389

Zscore: FARMACIA ,943 ,815 5,569 ,382

Zscore: HOSPITAI ,545 ,545 10,684 ,375

Zscore: ACVIAÇAO ,412 ,412 ,034 ,390

Zscore: VITACVIA ,507 ,507 ,302 ,390 Zscore: VITMORTA ,054 ,054 ,154 ,390 Zscore: FERGRAVA ,518 ,518 2,946 ,386

Zscore: FERLIGAC ,522 ,522 ,616 ,389 5 Zscore: FREGUESI ,814 ,539 3,698 ,370

Zscore: NADOSVIV ,469 ,469 5,751 ,368

Zscore: OBITOSHM ,174 ,174 ,477 ,375

Zscore: T.NATALI ,637 ,545 4,688 ,369

Zscore: T.MORTAL ,607 ,538 2,212 ,372 Zscore: T.DESEMP ,898 ,544 ,072 ,375

Zscore: MEDICOSP ,493 ,376 ,717 ,374

Zscore: FARMACIA ,909 ,525 2,988 ,371

Zscore: ACVIAÇAO ,216 ,216 7,835 ,365

Zscore: VITACVIA ,375 ,375 6,407 ,367

Zscore: VITMORTA ,054 ,052 ,055 ,375 Zscore: FERGRAVA ,316 ,316 ,170 ,375

Zscore: FERLIGAC ,394 ,394 7,338 ,365

6 Zscore: FREGUESI ,771 ,204 1,676 ,363

Zscore: NADOSVIV ,121 ,056 ,001 ,365

Zscore: OBITOSHM ,046 ,046 10,870 ,351 Zscore: T.NATALI ,636 ,215 4,034 ,359 Zscore: T.MORTAL ,605 ,215 1,757 ,362

Zscore: T.DESEMP ,898 ,216 ,057 ,365 Zscore: MEDICOSP ,490 ,214 1,131 ,363

Zscore: FARMACIA ,907 ,216 2,556 ,361

Page 100: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

100/105

Zscore: VITACVIA ,072 ,041 ,001 ,365

Zscore: VITMORTA ,054 ,048 ,300 ,364

Zscore: FERGRAVA ,178 ,122 3,518 ,360 Zscore: FERLIGAC ,071 ,039 ,165 ,365

7 Zscore: FREGUESI ,771 ,046 1,705 ,348

Zscore: NADOSVIV ,088 ,033 3,702 ,346

Zscore: T.NATALI ,634 ,045 4,525 ,345 Zscore: T.MORTAL ,600 ,045 1,006 ,349

Zscore: T.DESEMP ,886 ,045 ,018 ,351 Zscore: MEDICOSP ,458 ,043 ,052 ,350

Zscore: FARMACIA ,907 ,046 2,581 ,347

Zscore: VITACVIA ,070 ,030 ,224 ,350

Zscore: VITMORTA ,053 ,045 ,036 ,351

Zscore: FERGRAVA ,168 ,043 1,176 ,349 Zscore: FERLIGAC ,070 ,028 ,536 ,350 8 Zscore: FREGUESI ,767 ,045 1,324 ,343

Zscore: NADOSVIV ,088 ,033 3,175 ,341 Zscore: T.MORTAL ,536 ,045 ,104 ,345

Zscore: T.DESEMP ,886 ,045 ,006 ,345

Zscore: MEDICOSP ,458 ,043 ,061 ,345

Zscore: FARMACIA ,844 ,045 1,151 ,343

Zscore: VITACVIA ,070 ,030 ,173 ,344 Zscore: VITMORTA ,053 ,045 ,014 ,345

Zscore: FERGRAVA ,168 ,043 1,346 ,343

Zscore: FERLIGAC ,070 ,028 ,466 ,344

Page 101: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

101/105

Anexo 6 – Classificação não-hierárquica – dados estandardizados

Case Number Cluster Distance

1 2 3,660

2 2 1,462

3 2 3,344

4 2 2,675

5 2 2,230

6 2 2,024

7 2 3,529

8 2 1,507

9 2 4,019

10 2 1,878

11 2 2,247

12 2 7,313

13 2 7,389

14 2 2,330

15 2 2,792

16 2 4,211

17 2 2,863

18 2 7,978

19 2 2,420

20 2 1,960

21 2 5,595

22 2 3,862

23 2 2,997

24 2 2,979

25 2 2,894

26 2 4,360

27 2 5,087

28 2 5,957

29 2 14,238

30 2 3,204

31 2 3,925

32 2 3,406

33 2 9,848

34 2 2,631

35 2 1,982

36 2 1,662

37 2 5,952

38 2 2,254

39 2 3,853

40 2 3,371

41 2 2,624

42 2 3,685

43 2 3,722

44 2 5,070

45 2 2,560

46 2 3,318

47 2 2,069

48 2 2,590

49 2 1,382

50 2 5,445

51 2 2,807

52 2 4,386

53 2 2,192

54 2 3,130

55 2 4,037

56 2 2,967

57 2 3,151

58 2 2,676

59 2 2,265

60 2 2,716

61 2 1,911

62 2 2,375

63 2 2,773

64 2 3,064

65 2 2,232

66 2 1,476

67 2 2,784

68 2 3,184

69 2 2,104

70 2 2,433

71 2 3,095

72 2 2,268

73 2 3,192

74 2 4,382

75 2 3,214

76 2 2,578

77 2 2,970

78 2 2,992

79 2 3,215

80 2 4,686

81 2 2,947

82 2 3,696

83 2 4,067

84 2 2,969

85 2 3,308

86 2 2,004

87 2 3,986

88 2 4,897

89 2 1,815

90 2 2,523

91 2 4,684

92 2 2,374

93 2 1,957

94 2 5,263

95 2 3,265

96 2 2,418

97 2 3,304

98 2 2,064

99 2 2,807

100 2 1,388

101 2 2,003

102 2 1,960

103 2 3,252

104 2 1,814

105 2 1,855

106 2 3,822

107 2 1,491

108 2 2,649

109 2 1,675

110 2 2,014

111 2 2,122

112 2 2,538

113 2 1,957

114 2 1,705

115 2 1,559

116 2 13,145

117 2 2,343

118 2 3,584

119 2 1,826

120 2 1,017

121 2 1,537

122 2 1,546

123 2 2,748

124 2 7,914

125 2 2,585

126 2 7,171

127 2 2,467

128 2 2,286

129 2 3,447

130 2 2,330

131 2 2,065

132 2 1,609

133 . .

134 2 2,399

135 2 1,576

136 2 1,787

137 2 2,976

Page 102: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

102/105

138 2 1,757

139 2 4,612

140 2 3,724

141 2 4,243

142 2 2,993

143 2 2,088

144 2 2,239

145 2 1,848

146 2 1,874

147 2 1,470

148 2 1,903

149 2 2,536

150 2 1,910

151 2 1,534

152 2 3,253

153 2 1,475

154 2 2,962

155 2 5,300

156 2 1,645

157 . .

158 2 2,593

159 2 1,546

160 2 3,220

161 2 3,318

162 2 2,247

163 2 2,594

164 2 2,096

165 2 2,751

166 2 2,254

167 2 2,841

168 2 3,960

169 2 2,613

170 2 3,177

171 2 2,617

172 2 4,864

173 2 2,930

174 2 5,238

175 2 5,767

176 2 4,374

177 2 4,070

178 2 2,743

179 2 1,911

180 2 2,314

181 2 4,000

182 2 1,400

183 2 1,963

184 2 2,054

185 2 1,728

186 2 1,699

187 2 1,973

188 2 3,031

189 2 1,463

190 2 1,864

191 2 2,526

192 2 2,804

193 2 2,253

194 2 1,857

195 2 3,545

196 2 3,464

197 2 2,561

198 2 2,526

199 2 1,615

200 2 1,158

201 2 1,964

202 2 4,130

203 2 7,267

204 1 ,000

205 2 7,871

206 2 3,459

207 2 8,057

208 2 11,662

209 2 5,310

210 2 9,718

211 2 7,540

212 2 3,282

213 2 5,728

214 2 3,812

215 2 3,456

216 2 2,857

217 2 5,601

218 2 5,192

219 2 2,782

220 2 4,924

221 2 5,281

222 2 5,233

223 2 3,132

224 2 3,345

225 2 2,498

226 2 3,710

227 2 4,609

228 2 3,649

229 2 4,320

230 2 2,118

231 2 3,495

232 2 5,696

233 2 2,327

234 2 3,526

235 2 4,878

236 2 3,629

237 2 4,518

238 2 4,528

239 2 2,769

240 2 2,154

241 2 2,737

242 2 2,935

243 2 2,516

244 2 1,450

245 2 4,856

246 2 3,745

247 2 2,532

248 2 3,125

249 2 2,078

250 2 1,832

251 2 2,256

252 2 2,793

253 2 2,372

254 2 2,740

255 2 3,118

256 2 2,730

257 2 3,006

258 2 6,399

259 2 3,721

260 2 2,644

261 2 2,908

262 2 3,355

263 2 4,997

264 2 4,544

265 2 3,746

266 2 5,042

267 2 2,328

268 2 2,071

269 2 2,176

270 2 2,611

271 2 3,203

272 2 1,566

273 2 3,622

274 2 3,937

275 2 2,414

276 2 1,441

277 2 2,502

278 2 4,168

279 . .

280 . .

281 . .

282 . .

283 . .

284 . .

285 . .

286 . .

287 . .

288 . .

289 . .

290 . .

Page 103: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

103/105

291 . .

292 . .

293 . .

294 . .

295 . .

296 . .

297 . .

298 . .

299 . .

300 . .

301 . .

302 . .

303 . .

304 . .

305 . .

306 . .

307 . .

308 . .

Classificação não-hierárquica com os dados brutos Case Number Cluster Distance

1 2 2843,409

2 2 5767,753

3 2 13606,577

4 2 2738,436

5 2 13947,621

6 2 10278,210

7 2 24547,410

8 2 8913,798

9 2 73475,859

10 2 14739,537

11 2 3943,797

12 1 72665,672

13 1 26228,863

14 2 12463,582

15 2 15253,874

16 2 27218,964

17 2 34002,217

18 1 30679,249

19 2 857,138

20 2 8100,477

21 1 66363,232

22 2 1117,110

23 2 55988,807

24 2 17360,021

25 2 12956,958

26 2 69440,972

27 1 74844,412

28 1 22798,531

29 1 80947,379

30 2 45925,040

31 2 71165,911

32 2 58275,189

33 1 112449,451

34 2 5208,520

35 2 4641,556

36 2 1812,828

37 2 41811,580

38 2 475,789

39 2 39565,498

40 2 25351,602

41 2 33898,971

42 2 34797,737

43 2 68532,096

44 2 55564,978

45 2 14973,556

46 2 16250,366

47 2 503,220

48 2 10758,288

49 2 2465,546

50 1 57062,195

51 2 54246,976

52 2 2859,478

53 2 3131,669

54 2 16041,530

55 2 19884,502

56 2 13522,684

57 2 15731,372

58 2 15118,036

59 2 8569,469

60 2 19066,108

61 2 3655,048

62 2 16699,476

63 2 15018,352

64 2 30917,974

65 2 16201,855

66 2 6646,864

67 2 12259,053

68 2 20713,519

69 2 14869,480

70 2 17598,879

71 2 17004,516

72 2 15276,278

73 2 17894,456

74 2 14091,291

75 2 5169,782

76 2 15561,077

77 2 4201,238

78 2 11994,413

79 2 18609,578

80 2 12665,899

81 2 17370,861

82 2 24014,307

83 2 10318,319

84 2 16998,668

85 2 2847,224

86 2 7825,471

87 2 10758,647

88 2 20306,486

89 2 18620,706

90 2 17137,856

91 2 39966,340

92 2 1428,147

93 2 3773,260

94 2 41520,717

95 2 16690,818

96 2 20988,102

97 2 25366,325

98 2 13315,078

99 2 13438,870

100 2 3429,285

101 2 18522,266

102 2 4562,999

103 2 29975,918

104 2 2920,247

105 2 10506,605

106 2 56840,361

107 2 6797,325

108 2 16837,752

109 2 1489,587

110 2 14049,887

111 2 1170,610

112 2 36871,898

113 2 9896,914

114 2 329,715

115 2 17549,981

Page 104: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

104/105

116 1 44503,230

117 2 7586,922

118 2 44851,935

119 2 10292,546

120 2 3795,080

121 2 6001,007

122 2 1318,722

123 2 7830,942

124 1 75057,111

125 2 15057,541

126 2 38070,603

127 2 2502,616

128 2 9429,611

129 2 19156,998

130 2 7038,752

131 2 9987,415

132 2 359,035

133 . .

134 2 17200,602

135 2 10546,687

136 2 16691,861

137 2 15202,481

138 2 9313,687

139 2 20405,136

140 2 16393,128

141 2 19657,288

142 2 17610,289

143 2 12981,561

144 2 5617,815

145 2 1283,434

146 2 12976,193

147 2 8655,739

148 2 12787,796

149 2 14516,552

150 2 10725,235

151 2 3380,473

152 2 9964,822

153 2 10045,388

154 2 17708,203

155 2 79148,776

156 2 11279,221

157 . .

158 2 13815,749

159 2 6001,875

160 2 20817,132

161 2 15167,912

162 2 18284,818

163 2 6736,818

164 2 6705,432

165 2 15185,526

166 2 14674,155

167 2 16592,341

168 2 24034,941

169 2 19991,656

170 2 17623,771

171 2 12375,502

172 2 8107,565

173 2 12471,400

174 2 37236,138

175 2 11659,697

176 2 17136,886

177 2 19983,694

178 2 16130,469

179 2 35970,276

180 2 10468,944

181 2 37161,002

182 2 9683,567

183 2 29681,539

184 2 7788,233

185 2 12386,709

186 2 5903,161

187 2 19148,109

188 2 12988,543

189 2 9006,663

190 2 1434,355

191 2 14590,671

192 2 55929,985

193 2 22425,301

194 2 8284,440

195 2 20291,566

196 2 4535,696

197 2 14086,647

198 2 19964,418

199 2 23128,611

200 2 16417,889

201 2 16066,220

202 2 26691,089

203 1 19387,554

204 1 412570,283

205 1 13331,474

206 2 36176,136

207 1 29003,716

208 1 196330,518

209 1 71574,047

210 1 14314,557

211 1 59606,935

212 2 10040,570

213 1 29731,887

214 2 63325,183

215 2 50533,330

216 2 18953,832

217 2 34912,054

218 1 41046,991

219 2 17451,747

220 1 81696,824

221 2 4979,431

222 2 8687,513

223 2 7858,932

224 2 10206,573

225 2 9328,102

226 2 18095,997

227 2 20171,047

228 2 20742,872

229 2 18757,935

230 2 15193,331

231 2 20226,044

232 2 19710,285

233 2 1518,912

234 2 20389,845

235 2 19111,062

236 2 20051,342

237 2 20796,596

238 2 15016,266

239 2 4407,581

240 2 4363,700

241 2 17205,476

242 2 16074,749

243 2 15838,195

244 2 7146,200

245 2 38139,231

246 2 3941,968

247 2 20868,695

248 2 16617,947

249 2 16407,808

250 2 11871,721

251 2 11580,898

252 2 18286,407

253 2 14644,402

254 2 18145,125

255 2 12716,656

256 2 15388,905

257 2 21533,405

258 2 22386,977

259 2 15187,363

260 2 16024,102

261 2 18977,501

262 2 14502,809

263 2 14828,676

264 2 5991,001

265 2 17584,770

266 2 5923,290

267 2 17637,268

268 2 1191,900

Page 105: Aplicação de métodos leccionados no curso para a análise de … · 2018-04-12 · Tema: Aplicação de métodos leccionados no curso para a análise de dados recorrendo aos Softwares

Analise de Dados MADSAD-FEP

105/105

269 2 478,019

270 2 15620,339

271 2 1452,616

272 2 1526,421

273 2 11770,963

274 2 1182,990

275 2 18217,517

276 2 1026,274

277 2 2146,199

278 2 45947,136

279 . .

280 . .

281 . .

282 . .

283 . .

284 . .

285 . .

286 . .

287 . .

288 . .

289 . .

290 . .

291 . .

292 . .

293 . .

294 . .

295 . .

296 . .

297 . .

298 . .

299 . .

300 . .

301 . .

302 . .

303 . .

304 . .

305 . .

306 . .

307 . .

308 . .