129
1 UNIVERSIDADE DE LISBOA FACULDADE DE CIÊNCIAS DEPARTAMENTO DE ESTATÍSTICA E INVESTIGAÇÃO OPERACIONAL ANÁLISE ESTATÍSTICA MULTIVARIADA APLICADA A DADOS HIDROGEOLÓGICOS Vânia Sofia Pires Simões Gomes Dissertação Mestrado em Estatística 2013

Análise multivariadae

Embed Size (px)

DESCRIPTION

werwerw

Citation preview

  • 1

    UNIVERSIDADE DE LISBOA

    FACULDADE DE CINCIAS

    DEPARTAMENTO DE ESTATSTICA E INVESTIGAO OPERACIONAL

    ANLISE ESTATSTICA MULTIVARIADA APLICADA A

    DADOS HIDROGEOLGICOS

    Vnia Sofia Pires Simes Gomes

    Dissertao

    Mestrado em Estatstica

    2013

  • 2

    UNIVERSIDADE DE LISBOA

    FACULDADE DE CINCIAS

    DEPARTAMENTO DE ESTATSTICA E INVESTIGAO OPERACIONAL

    ANLISE ESTATSTICA MULTIVARIADA APLICADA A

    DADOS HIDROGEOLGICOS

    Vnia Sofia Pires Simes Gomes

    Dissertao orientada pela Prof. Doutora Fernanda Diamantino e

    coorientada pela Prof. Doutora Catarina Silva

    Mestrado em Estatstica

    2013

  • 3

  • i

    ndice

    ndice de Figuras ............................................................................................................. iii

    ndice de Tabelas .............................................................................................................. v

    ndice de Anexos ............................................................................................................. vi

    Resumo ........................................................................................................................... vii

    Abstract ............................................................................................................................ ix

    Captulo 1: Introduo ...................................................................................................... 1

    1.1. Objetivos do estudo ........................................................................................... 1

    1.2. Enquadramento geolgico ................................................................................. 6

    Captulo 2: Metodologia ................................................................................................... 9

    2.1. Conceitos de lgebra matricial ............................................................................... 9

    2.1.1. Conceito de matriz .......................................................................................... 9

    2.1.2. Tipos de matrizes ............................................................................................ 9

    2.1.3. Igualdade de matrizes .................................................................................... 10

    2.1.4. Operaes com matrizes................................................................................ 11

    2.1.5. Trao de uma matriz ...................................................................................... 11

    2.1.6. Vetores linearmente dependentes e independentes ....................................... 11

    2.1.7. Caracterstica de uma matriz ......................................................................... 12

    2.1.8. Determinante ................................................................................................. 12

    2.1.9. Matriz adjunta e matriz inversa ..................................................................... 13

    2.1.10. Matriz ortogonal .......................................................................................... 13

    2.1.11. Valores prprios e vetores prprios ............................................................ 13

    2.1.12. Decomposio espetral ................................................................................ 14

    2.2. Caractersticas amostrais .................................................................................. 15

    2.2.1. Caractersticas amostrais univariadas ....................................................... 15

    2.2.2. Caractersticas amostrais bivariadas ......................................................... 16

    2.3. Tcnicas de Anlise Multivariada .................................................................... 18

    2.3.1. Anlise em Componentes Principais ........................................................ 19

    2.3.1.1. Introduo ............................................................................................... 19

    2.3.1.2. O modelo matemtico ............................................................................. 20

    2.3.1.3. Nmero de componentes a reter ............................................................. 22

  • ii

    2.3.2. Anlise Fatorial ........................................................................................ 23

    2.3.2.1. Introduo ............................................................................................... 23

    2.3.2.2. O modelo matemtico ............................................................................. 23

    2.3.2.3. Nmero de fatores a reter ....................................................................... 24

    2.3.2.4. Rotao dos fatores ................................................................................. 25

    2.3.2.5. Mtodo de extrao dos fatores .............................................................. 26

    2.3.2.6. Validao do modelo de anlise fatorial................................................. 27

    2.3.2.7. Anlise em Componentes Principais versus Anlise Fatorial ................ 28

    2.3.3. Anlise de Clusters ................................................................................... 29

    2.3.3.1. Introduo.......................................................................................... 29

    2.3.3.2. Medidas de proximidade ................................................................... 30

    2.3.3.3. Mtodos de agregao ....................................................................... 32

    2.3.3.4. Critrios de agregao ....................................................................... 33

    Captulo 3: Anlise de dados hidrogeolgicos ............................................................... 35

    3.1. Anlise Exploratria dos Dados ...................................................................... 39

    3.1.1. Caractersticas amostrais .......................................................................... 39

    3.1.2. Correlao linear de Pearson .................................................................... 45

    3.1.3. Representaes grficas ............................................................................ 47

    3.2. Anlise Multivariada ........................................................................................ 63

    3.2.1. Anlise em Componentes Principais ........................................................ 63

    3.2.2. Anlise Fatorial ........................................................................................ 71

    3.2.3. Anlise de Clusters ................................................................................... 78

    Captulo 4: Concluses ................................................................................................... 89

    Consideraes Finais ...................................................................................................... 95

    Bibliografia ..................................................................................................................... 97

    Anexos .......................................................................................................................... 101

  • iii

    ndice de Figuras

    Figura 1: Localizao geogrfica das amostras de gua e respetivas formaes

    geolgicas ....................................................................................................... 4

    Figura 2: Localizao geogrfica das amostras de gua ................................................ 36

    Figura 3: Localizao geogrfica das amostras de gua e respetivas formaes

    geolgicas ....................................................................................................... 37

    Figura 4: Diagramas em caixa de bigodes paralelos de cada varivel comparando

    cada formao geolgica ................................................................................. 48

    Figura 5: Diagramas em caixa de bigodes paralelos de cada formao geolgica,

    para cada io.................................................................................................... 51

    Figura 6: Diagramas de disperso das observaes reorganizadas versus cada uma

    das variveis em estudo .................................................................................. 54

    Figura 7: Matriz de diagramas de disperso para cada formao geolgica com as

    variveis condutividade eltrica, clcio, sdio e cloreto ................................. 58

    Figura 8: Matriz de diagramas de disperso para cada formao geolgica com as

    variveis bicarbonato, clcio e magnsio ........................................................ 60

    Figura 9: Matriz de diagramas de disperso para cada formao geolgica com as

    variveis bicarbonato, clcio e sulfato ............................................................ 61

    Figura 10: Diagrama de disperso para cada formao geolgica com as variveis

    nitrato e sulfato ............................................................................................... 62

    Figura 11: Scree plot (nmero de componentes principais versus valores prprios) ..... 65

    Figura 12: Representao grfica dos loadings das duas primeiras componentes

    principais....................................................................................................... 67

    Figura 13: Representao grfica dos scores (observaes) das duas primeiras

    componentes principais ................................................................................ 68

    Figura 14: Representao grfica dos scores (formaes geolgicas) das duas

    primeiras componentes principais ................................................................ 69

    Figura 15: Representao grfica (biplot) dos loadings e dos scores (observaes)

    das duas primeiras componentes principais .................................................. 70

    Figura 16: Representao grfica (biplot) dos loadings e dos scores (formaes

    geolgicas) das duas primeiras componentes principais .............................. 70

    Figura 17: Representao grfica dos loadings dos 2 primeiros fatores ........................ 75

  • iv

    Figura 18: Dendograma (variveis estandardizadas) para a amostra global

    utilizando o mtodo de Ward ........................................................................ 79

    Figura 19: Localizao geogrfica das amostras de gua que constituem os clusters

    (cluster1, cluster2 e cluster3) obtidos quando se utiliza o mtodo de

    Ward com as variveis estandardizadas ....................................................... 79

    Figura 20: Dendograma (variveis estandardizadas) para a amostra global

    utilizando o mtodo de Complete Linkage ................................................ 80

    Figura 21: Localizao geogrfica das amostras de gua que constituem os clusters

    (cluster1, cluster2 e cluster3) obtidos quando se utiliza o mtodo de

    Complete Linkage com as variveis estandardizadas ................................... 81

    Figura 22: Dendograma (com os scores das 5 primeiras componentes principais)

    para a amostra global usando o mtodo de Ward ......................................... 83

    Figura 23: Localizao geogrfica das amostras de gua que constituem os clusters

    (cluster1, cluster2 e cluster3) obtidos quando se utiliza o mtodo de

    Ward com as 5 primeiras componentes principais ....................................... 84

    Figura 24: Dendograma (com os scores das 5 primeiras componentes principais)

    para a amostra global usando o mtodo de Complete Linkage .................... 85

    Figura 25: Localizao geogrfica das amostras de gua que constituem os clusters

    (cluster1, cluster2 e cluster3) obtidos quando se utiliza o mtodo de

    Complete Linkage com os scores das 5 primeiras componentes

    principais....................................................................................................... 86

    Figura 26: Dendogramas (observaes) para cada formao geolgica utilizando o

    mtodo de Ward (variveis estandardizadas) ............................................... 87

  • v

    ndice de Tabelas

    Tabela 1: Escala de avaliao da anlise fatorial............................................................ 27

    Tabela 2: Provenincia das amostras .............................................................................. 38

    Tabela 3: Caractersticas amostrais das variveis (amostra global) ............................... 39

    Tabela 4: Caractersticas amostrais (mdia e desvio padro) das variveis em cada

    grupo de formaes geolgica ........................................................................ 44

    Tabela 5: Valores prprios da matriz de correlaes amostral ....................................... 63

    Tabela 6: Proporo de varincia explicada por cada componente e proporo de

    varincia acumulada explicada at componente j. ....................................... 64

    Tabela 7: Matriz dos loadings das componentes principais ........................................... 66

    Tabela 8: Valores prprios da matriz de correlaes amostral ....................................... 71

    Tabela 9: Proporo de varincia explicada por cada fator e proporo de varincia

    acumulada pelo fator j ..................................................................................... 72

    Tabela 10: Comunalidades iniciais e extradas atravs do mtodo das componentes

    principais....................................................................................................... 73

    Tabela 11: Matriz dos loadings (sem rotao dos fatores) ............................................. 73

    Tabela 12: Matriz da transformao ortogonal obtida pelo mtodo de rotao

    varimax ....................................................................................................... 74

    Tabela 13: Matriz dos loadings (aps rotao varimax) ................................................ 74

    Tabela 14: Designao dos fatores ................................................................................. 75

    Tabela 15: KMO e teste de esfericidade de Bartlett ....................................................... 76

    Tabela 16: Medida de adequao amostral para cada varivel (MSA) .......................... 77

    Tabela 17: Caracterizao dos grupos de formaes geolgicas.................................... 89

    Tabela 18: Tabela resumo dos outliers por cada grupo de formao geolgica e por

    cada varivel ................................................................................................. 90

  • vi

    ndice de Anexos

    Anexo 1: Matriz dos dados ............................................................................................ 104

    Anexo 2: Caracterizao dos grupos de formaes geolgicas .................................... 105

    Anexo 3: Tabelas com os valores extremos (os 5 maiores e os 5 menores valores)

    para cada varivel.......................................................................................... 107

    Anexo 4: Matriz de correlaes de Peason - amostra gobal.......................................... 108

    Anexo 5: Matriz de correlaes de Pearson - Aluvies ................................................ 109

    Anexo 6: Matriz de correlaes de Pearson - Formao de Benfica............................. 110

    Anexo 7: Matriz de correlaes de Pearson - Complexo Vulcnico de Lisboa ............ 111

    Anexo 8: Matriz de correlaes de Pearson - Calcrios de Entrecampos ..................... 112

    Anexo 9: Matriz de correlaes de Pearson - Areolas da Estefnia e Areias do Vale

    de Chelas ....................................................................................................... 113

    Anexo 10: Matriz de correlaes de Pearson - Argilas do Forno do Tijolo e Argilas

    e Calcrios dos Prazeres ................................................................................ 114

    Anexo 11: Scores das 5 primeiras componentes principais .......................................... 116

  • vii

    Resumo

    Para o presente estudo utilizaram-se anlises qumicas de 48 amostras de gua

    subterrnea da cidade de Lisboa das quais se selecionaram 13 variveis referentes a

    espcies dissolvidas (anies e caties) e parmetros fsico-qumicos.

    Este estudo teve como objetivo avaliar a existncia de relao entre a composio

    qumica da gua subterrnea e as formaes geolgicas por onde esta circulou, ou seja,

    pretendeu-se identificar as espcies dissolvidas que caracterizavam cada formao

    geolgica, bem como, identificar o que distinguia cada uma das formaes geolgicas.

    Deste modo, numa fase inicial procedeu-se a uma anlise exploratria com o intuito de

    caracterizar a amostra global e as amostras parciais (correspondentes a cada formao

    geolgica) e, numa fase final procedeu-se a uma anlise multivariada, onde se

    utilizaram tcnicas de reduo de dimensionalidade (anlise em componentes principais

    e anlise fatorial) e tcnicas de agrupamento de dados (anlise de clusters).

    Concluiu-se que as amostras provenientes da Formao de Benfica e do Complexo

    Vulcnico de Lisboa tinham composio qumica idntica. Relativamente s restantes

    formaes geolgicas, no existia uma homogeneidade entre amostras provenientes da

    mesma formao, nem entre amostras provenientes de formaes distintas, pelo que, a

    caracterizao das formaes geolgicas tornou-se muito complexa.

    Como os valores das correlaes de Pearson, entre as variveis, eram baixos, a

    aplicao das tcnicas de reduo de dimensionalidade no surtiu o efeito desejado.

    Palavras chave: gua subterrnea, anlise exploratria, anlise em componentes

    principais, anlise fatorial, anlise de clusters.

  • viii

  • ix

    Abstract

    For the present study we used chemical analyzes of 48 groundwater samples of Lisbon

    in which was selected 13 variables related to dissolved species (anions and cations) and

    physico-chemical parameters.

    This study aims to evaluate whether there is a relationship between the chemical

    composition of the groundwater and the geological formations where it circulated, this

    is, it was intended to identify the dissolved species that characterize each geological

    formation, as well as to identify what distinguishes each geological formations.

    Thus, initially we proceeded with an exploratory analysis in order to characterize the

    sample and partial samples (corresponding to each geological formation), and in a final

    stage, we applied a multivariate analysis, where techniques were used to reduce the

    dimensionality (principal component analysis and factor analysis) and techniques to

    data clustering (cluster analysis).

    It was concluded that the samples from the Formao de Benfica and Complexo

    Vulcnico de Lisboa had identical chemical composition. For the other geological

    formations, there was no homogeneity among samples from the same formation, or

    between samples from different formations. Therefore, the characterization of the

    geologic formations has become very complex.

    Since the values of the Pearson correlations among the variables were low, the

    application of reduce the dimensionality techniques do not have the desired effect.

    Keywords: Groundwater, exploratory analysis, principal component analysis, factor

    analysis, cluster analysis

  • x

  • 1

    Captulo 1: Introduo

    Este trabalho surge com o intuito de dar resposta a algumas questes relativas

    caracterizao de guas subterrneas da cidade de Lisboa, tendo como ponto de partida

    um conjunto de 48 anlises de guas subterrneas recolhidas no especificamente para

    este trabalho. Este conjunto resultou de recolhas para a concretizao de unidades

    curriculares do 1 ciclo de estudos em Geologia da FCUL (Caria et al, 2009, Manca et

    al, 2008 e Sanches et a,l 2006) e 2 ciclo de estudos em Geologia Aplicada e do

    Ambiente da FCUL (Oliveira, 2010) e em Engenharia do Ambiente do IST (Lopes,

    2007). A localizao geogrfica de, cada amostra de gua encontra-se na figura 1, onde

    se pode observar a que formao geolgica corresponde.

    1.1. Objetivos do estudo

    Para a realizao deste trabalho foram definidos alguns objetivos, nomeadamente:

    Calcular, analisar e interpretar as caractersticas amostrais;

    Aferir sobre a qualidade das guas subterrneas para consumo humano;

    Analisar e interpretar as representaes grficas (anlise exploratria);

    Identificar as espcies dissolvidas que caracterizam cada formao geolgica;

    Relacionar a composio qumica da gua subterrnea com a formao

    geolgica aflorante no local de recolha;

    Descrever a variabilidade dos dados com um menor nmero de variveis no

    correlacionadas;

    Explicar atravs de um menor nmero de fatores (no observados) as

    correlaes entre as variveis;

    Utilizar uma anlise de clusters para reagrupar as amostras de gua subterrnea

    de acordo com a sua composio qumica;

    Identificar caractersticas distintivas de cada uma das formaes geolgicas;

    Identificar caractersticas comuns entre as formaes geolgicas.

  • 2

  • 3

    Destaca-se como objetivo principal a caracterizao de cada grupo de formaes

    geolgicas, atravs da anlise das concentraes das espcies qumicas dissolvidas nas

    guas subterrneas, bem como de alguns parmetros fsico-qumicos.

    O trabalho ser dividido em duas partes. A primeira parte ser constituda pelos

    captulos 1 e 2 e corresponder ao desenvolvimento terico. A segunda parte ser

    constituda pelos captulos 3 e 4 e corresponder ao desenvolvimento prtico.

    No captulo 1 ser feito o enquadramento geolgico, no qual se far uma breve

    introduo s caractersticas das formaes geolgicas.

    No captulo 2 ser abordada a metodologia a desenvolver. Na primeira seco iro

    definir-se alguns conceitos de lgebra matricial. Na segunda seco, com o intuito de se

    efetuar uma anlise exploratria dos dados, iro definir-se algumas caractersticas

    amostrais. Na terceira e ltima seco ser feita uma breve abordagem das tcnicas de

    anlise multivariada a serem utilizadas, nomeadamente a anlise em componentes

    principais, a anlise fatorial e a anlise de clusters.

    No captulo 3 sero apresentados os resultados obtidos.

    No captulo 4 sero apresentadas as concluses.

    A anlise estatstica ser efetuada com a utilizao do software SPSS, verso 19.

  • 4

    Figura 1: Localizao geogrfica das amostras de gua e respetivas formaes geolgicas

  • 5

  • 6

    1.2. Enquadramento geolgico

    A composio qumica da gua subterrnea da rea de Lisboa est intimamente

    relacionada com as caractersticas do meio geolgico, das condies climticas e

    tambm das atividades humanas que decorrem na cidade.

    O Concelho de Lisboa situa-se na Orla mesocenozica, a qual constituda por espessas

    sries de sedimentos, onde predominam os sedimentos carbonatados, os arenitos e os

    argilitos (Almeida et al., 2000).

    Na rea do concelho de Lisboa os terrenos mais antigos, cujos principais afloramentos

    se encontram nas zonas de Monsanto, Ajuda e Vale de Alcntara, so

    predominantemente constitudos por calcrios, calcrios margosos e margas. A geologia

    de Lisboa, de elevada complexidade, pode ser descrita de um modo simplificado em trs

    setores: Setor SW, Monsanto-Ajuda-Alcntara; Setor NW, Formao de Benfica e

    Miocnico; Setor E, Srie Miocnica.

    Setor SW: Monsanto-Ajuda-Alcntara

    As formaes calcrias do Cenomaniano, que se apresentam dobradas e fraturadas

    (Cabral, 2006), esto sobrepostas por formaes baslticas do Complexo Vulcnico de

    Lisboa (1). Neste setor, as formaes cretcicas estendem-se desde a zona central e

    mais elevada da Serra de Monsanto, seguindo pelo Vale de Alcntara at praticamente

    ao Rio Tejo, prolongando-se para SW ao longo da encosta do Bairro da Ajuda,

    aflorando no seio do Complexo Vulcnico de Lisboa (Pais et al., 2006).

    Esta zona compreende formaes do Cretcico superior, como a Formao de Caneas

    (C2 cn), constituda por calcrios margosos e dolomticos, datados do Albiano superior a

    Cenomaniano mdio. Sobre a formao anterior, assenta a Formao de Bica (C2 Bi), do

    Cenomaniano superior, representada por calcrios compactos e apinhoados, com

    ndulos de slex e com rudistas. No topo do Cretcico superior aflora o Complexo

    Vulcnico de Lisboa, constitudo por rochas eruptivas bsicas (Basaltos), sob a forma

    de escoadas lvicas alternando com piroclastos e aglomerados vulcnicos, com idade

    provvel do Cenomaniano (Pais et al., 2006).

  • 7

    Setor NW: Formao de Benfica e Miocnico

    constitudo por formaes cenozicas correspondentes Formao de Benfica ( Bf)

    e ao Miocnico. Este setor est na continuidade da estrutura de Monsanto e apresenta

    uma sucesso de ondulaes suaves.

    Sobre o Complexo Vulcnico de Lisboa, assenta, em discordncia, a Formao de

    Benfica ( Bf), constituda por depsitos continentais, onde se intercalam nveis mais

    argilosos, detrticos e carbonatados.

    Setor Este: Srie Miocnica

    Compreende intercalaes de formaes detrticas e carbonatadas da Srie Miocnica.

    Apresenta-se, de um modo geral, em monoclinal, inclinando suavemente para E-SE.

    O Neognico abrange unidades miocnicas como as Camadas de Prazeres (Mpr), do

    Aquitaniano a Burdigaliano inferior, constitudas por argilitos, argilitos siltosos e

    margosos, margas e calcrios.

    Sobrepostas a estas, esto as Areolas de Av. da Estefnia (MEs), datada do Burdigaliano

    e constituda por areias finas, siltosas, micceas (areolas) argilas silto arenosas e

    arenitos mais ou menos consolidados. De seguida, depositaram-se os Calcrios de

    Entrecampos (MEC), formao representada por biocalcarenitos com frao detrtica

    abundante, por vezes argilosa, ricos de moldes e/ou fragmentos de moluscos e calcrios

    margosos, cinzento-esverdeado.

    A formao anterior passa superiormente a areias muito finas argilosas, piritosas, e a

    siltitos argilosos de cor cinzenta, com moluscos, peixes e abundantes microfsseis,

    correspondente unidade de Argilas de Forno do Tijolo (MFT).

    A formao Areias do Vale de Chelas (Mvb) constituda por areias feldspticas,

    fluviais, incoerentes ou fracamente cimentadas, s vezes grosseiras e compactas; em

    posio superior ocorrem areias dunares.

    As aluvies (a) do Concelho de Lisboa incluem os depsitos diretamente associados ao

    leito principal do Rio Tejo e a todas as ribeiras e linhas de gua que a este afluem, na

    sua margem direita. As espessuras das aluvies do Tejo so muito variveis de local

    para local. Estas so predominantemente lodosas, com abundante matria orgnica, ou

    arenosas. As aluvies das ribeiras afluentes do Tejo tm composio em muitos casos

    dependentes das litologias erodidas, contendo frequentemente, matria orgnica

    (Almeida, 1991).

  • 8

  • 9

    Captulo 2: Metodologia

    Neste captulo procede-se ao desenvolvimento terico das metodologias aplicadas no

    estudo a realizar.

    2.1. Conceitos de lgebra matricial

    Nesta seco relembram-se alguns conceitos cruciais de lgebra matricial que se

    utilizam no desenvolvimento das tcnicas de anlise multivariada. Naturalmente

    comea-se com o conceito de matriz (Monteiro, 2001, Searle, 1982 e Timm, 2002).

    2.1.1. Conceito de matriz

    Designa-se por matriz de ordem n m, a tabela A =

    , com n linhas e

    m colunas.

    Pode denotar-se a matriz A por [ ] com i = 1,, n e j = 1,, m.

    As entradas aij so os elementos de A, em que i indica a linha e j indica a coluna.

    Quando uma matriz tem ordem n 1 ou ordem 1 n designa-se por vetor, ou seja, tem

    n linhas e uma coluna ou tem 1 linha e n colunas, respetivamente. No primeiro caso

    designa-se por vetor coluna e representa-se do seguinte modo: x =

    . No segundo

    caso designamos por vetor linha e representa-se do seguinte modo: xT = .

    Uma matriz de ordem 1 1 designa-se por escalar.

    2.1.2. Tipos de matrizes

    No que se segue definem-se alguns tipos de matizes, nomeadamente matriz quadrada,

    diagonal, identidade, transposta e simtrica.

  • 10

    Uma matriz quadrada a matriz em que o nmero de linhas igual ao nmero de

    colunas e diz-se que tem ordem n n, ou simplesmente ordem n.

    Caso contrrio, se o nmero de linhas for diferente do nmero de colunas, diz-se que a

    matriz retangular de ordem n m.

    Uma matriz quadrada de ordem n, em que

    com i, j = 1, , n, designa-se

    por uma matriz diagonal, ou seja, a uma matriz da forma:

    Em particular, se d11 = 1,, dnn = 1, tem-se a matriz Identidade, que se denota por In, e

    representa-se da forma:

    .

    Para qualquer matriz A quadrada de ordem n, verifica-se a seguinte propriedade:

    AI = IA = A.

    Seja A uma matriz de ordem n m. Designa-se por matriz transposta de A, e

    representa-se por AT, matriz que se obtm trocando as linhas com as colunas, ou seja,

    as linhas de A so as colunas de AT e as colunas de A so as linhas de A

    T.

    Assim sendo, tem-se que:

    se A = de ordem n m, ento AT = de ordem m n.

    Seja A uma matriz quadrada de ordem n. Diz-se que A simtrica se e s se A = AT.

    2.1.3. Igualdade de matrizes

    Duas matrizes so iguais se os elementos de uma coincidirem com os elementos da

    outra, tendo ambas, naturalmente, a mesma ordem.

  • 11

    Sejam A e B duas matrizes com a mesma ordem (n m), tais que A = e B = .

    Diz-se que as matrizes A e B so iguais se e s se = , para todo i = 1,, n e

    j = 1,, m.

    2.1.4. Operaes com matrizes

    Por vezes torna-se necessrio efetuar algumas operaes entre matrizes, como o caso

    da adio, da subtrao ou do produto de duas ou mais matrizes, bem como a

    multiplicao de um escalar por uma matriz.

    Sejam A e B duas matrizes com a mesma ordem (n m), tais que A = e B = .

    A sua soma (diferena), A + B (A B) igual a C, onde C = =

    (C = = ), com i = 1, , n e j = 1, , m.

    Seja A uma matriz de ordem n m, tal que A = e um escalar. A multiplicao

    da matriz A por um escalar representa-se por A ou A e igual a , com

    i = 1, , n e j = 1, , m.

    Sejam A e B duas matrizes de ordem n m e m p, respetivamente. O produto de A

    por B origina C de ordem n p, tal que AB = C = , onde = .

    2.1.5. Trao de uma matriz

    Seja A uma matriz quadrada de ordem n n, tal que os elementos da diagonal so da

    forma aii, com i = 1,, n. Ento o trao de A igual soma dos elementos da diagonal,

    ou seja, tr(A) = .

    2.1.6. Vetores linearmente dependentes e independentes

    Os vetores dizem-se linearmente dependentes se for possvel escrever o

    vetor nulo como combinao linear de sem que os escalares sejam todos

  • 12

    nulos. Se o vetor nulo s se puder escrever como combinao linear de sendo

    os escalares todos nulos, ento os vetores so linearmente independentes.

    2.1.7. Caracterstica de uma matriz

    Designa-se por caracterstica de uma matriz A de ordem n n o nmero de linhas (ou

    colunas) linearmente independentes. Representa-se a caracterstica de A por r(A).

    2.1.8. Determinante

    O determinante de uma matriz quadrada de ordem n dado

    por onde K o nmero de inverses1 da

    permutao ( e p indica que a soma ocorre sobre todas as permutaes de

    (1, 2, , n), ou seja, existem n! permutaes. O determinante de uma matriz A pode

    denotar-se por detA ou |A|.

    Designa-se por menor complemento de um elemento de um determinante, ao

    determinante que se obtm, suprimindo a linha e a coluna a que pertence esse elemento

    (linha i e coluna j). Representa-se por .

    O complemento algbrico de um elemento igual ao menor complemento ou ao seu

    simtrico e representa-se por .

    Pode-se calcular o determinante de outra forma.

    Teorema de Laplace: Seja A uma matriz quadrada de ordem n, o seu determinante

    igual soma dos produtos dos elementos de uma linha (ou coluna) pelos respetivos

    complementos algbricos. Assim sendo,

    , onde o complemento algbrico de .

    1 Dada uma permutao dos inteiros 1, 2, , n, existe uma inverso quando um inteiro precede outro

    menor do que ele.

  • 13

    2.1.9. Matriz adjunta e matriz inversa

    matriz que se obtm calculando os respetivos complementos algbricos para cada

    entrada e fazendo a sua transposta, designa-se por matriz adjunta. Representa-se

    por adj A.

    Uma matriz A quadrada de ordem n invertvel se existir uma matriz B quadrada de

    ordem n tal que AB = BA = In. Designamos B por matriz inversa de A e representa-se

    por A-1.

    Notas:

    1) Uma matriz invertvel se e s se o seu determinante for diferente de zero.

    2) A matriz inversa nica.

    3) Pode ser obtida por: A-1 =

    .

    2.1.10. Matriz ortogonal

    Uma matriz A quadrada de ordem n, invertvel, diz-se ortogonal se a inversa e a

    transposta coincidirem, ou seja, A-1

    = AT.

    2.1.11. Valores prprios e vetores prprios

    Seja A uma matriz quadrada (n n), um escalar e x um vetor no nulo tal que

    Ax = x. Diz-se que o valor prprio de A e x um vetor prprio associado.

    Considere-se a equao |A I| = 0, cujas solues so os valores prprios da matriz A.

    O polinmio |A I| designa-se por polinmio caracterstico.

    Observaes:

    Uma vez que a matriz A tem ordem n, ento o polinmio caracterstico tem n

    razes e deste modo tm-se n valores prprios, sejam , . Aps a

    determinar os valores prprios determinam-se os vetores prprios, , , ,

  • 14

    , associados a cada valor prprio. Para esse efeito usa-se a igualdade

    (A I)x=0.

    O vetor prprio obtido associado a cada valor prprio no nico, deste modo se

    x for vetor prprio ento cx (c um escalar no nulo) tambm vetor prprio.

    Notas:

    1) A soma dos valores prprios igual ao trao de A, ou seja, tr(A) = .

    2) O produto dos valores prprios igual ao determinante de A, ou seja,

    det(A) = .

    2.1.12. Decomposio espetral

    Teorema da decomposio espetral: (Decomposio em valores prprios e vetores

    prprios)

    Seja A uma matriz simtrica e considere-se ainda os valores prprios de A e os vetores

    prprios normalizados. Temos que AQ = Q com QTQ = I, onde a matriz diagonal

    dos valores prprios, =

    e Q a matriz ortogonal dos vetores prprios. Se

    QT = Q

    -1, ento A = Q QT.

  • 15

    2.2. Caractersticas amostrais

    Nesta seco definem-se algumas caractersticas amostrais a utilizar na anlise

    exploratria dos dados.

    2.2.1. Caractersticas amostrais univariadas

    Para se caracterizar um conjunto de dados, comea-se por calcular algumas

    caractersticas amostrais, de localizao e de disperso. No que se segue, definem-se

    algumas dessas caractersticas amostrais. Mais precisamente, a mdia, o desvio padro,

    os extremos, a mediana e os quartis (Murteira, 2007).

    Dado um conjunto de observaes (x1, , xn), diz-se que

    a mdia

    amostral e que =

    a varincia amostral. O desvio padro

    amostral dado pela raiz quadrada positiva da varincia, ou seja, .

    A mdia amostral uma medida de localizao, a varincia e o desvio padro amostrais

    so medidas de disperso. Estas permitem medir a variabilidade dos em torno da mdia

    amostral.

    Um conjunto de observaes (x1, x2, , xn) pode ser ordenado ordenado de modo

    ascendente, tal que x1:n x2:n xn:n, sendo x1:n o mnimo e xn:n o mximo.

    Tendo um conjunto ordenado de observaes, pode-se calcular a mediana do seguinte

    modo

  • 16

    Define-se quantil de ordem p por:

    onde [np] designa a parte inteira de np.

    Observaes:

    1) O quantil de ordem 0,5 designa-se por mediana.

    2) Os quantis de ordem 0,25 e 0,75 designam-se por primeiro quartil e terceiro

    quartil respetivamente.

    3) Os quantis de ordem 0,1; ; 0,9 designam-se por decis.

    4) Os quantis de ordem 0,01; ; 0,99 designam-se por percentis.

    Uma representao grfica usual para representar os extremos, os quartis e a mediana

    o diagrama em caixa de bigodes.

    2.2.2. Caractersticas amostrais bivariadas

    Na seco anterior definiram-se algumas caractersticas amostrais (no caso univariado).

    Nesta seco definem-se as caractersticas amostrais para o caso bivariado, ou seja,

    caractersticas que permitem comparar as variveis duas a duas, de forma a avaliar o

    grau de associao entre as duas variveis. Neste caso, calculam-se as covarincias e

    correlaes amostrais.

    Considere-se um par de observaes (xi, yi), com i, j = 1, , n. Pode-se proceder sua

    representao grfica num referencial cartesiano. Esse grfico designa-se por diagrama

    de disperso.

    Esta representao grfica permite avaliar o grau de associao entre duas variveis.

    Para quantificar essa associao podem usar-se duas medidas: a covarincia amostral e /

    ou coeficiente de correlao linear.

    A covarincia amostral dada por cov(x,y) =

    . Tambm

    pode ser denotada por .

  • 17

    A covarincia uma estatstica bivariada utilizada para quantificar a associao linear

    entre duas variveis. Porm, influenciada pelas unidades de medida. Neste caso, teria

    de se proceder estandardizao do conjunto de dados, ou por outro lado, calcular-se o

    coeficiente de correlao amostral.

    O coeficiente de correlao ou coeficiente de correlao de Pearson dado por

    r =

    , ou seja,

    .

    O coeficiente de correlao varia entre -1 e 1 e usado para variveis quantitativas.

    Se as variveis no forem quantitativas, usa-se o coeficiente de correlao de

    Spearman.

    Para calcular o coeficiente de correlao de Spearman procede-se de igual modo, mas

    substituem-se as observaes (qualitativas) pelas respetivas ordens.

  • 18

    2.3. Tcnicas de Anlise Multivariada

    Nesta seco procede-se ao desenvolvimento terico das tcnicas de anlise

    multivariada a utilizar neste estudo, nomeadamente, a anlise em componentes

    principais (ACP), a anlise fatorial (AF) e a anlise de clusters (AC).

    Com estas tcnicas pretende-se resumir a informao contida nos dados, de forma a

    tornar mais fcil a sua interpretao.

    As duas primeiras tcnicas (ACP e AF) relacionam-se diretamente com as variveis,

    designam-se por anlise modo-R, ao passo que a ltima tcnica (AC) relaciona-se com

    os indivduos, designa-se por anlise modo-Q.

    Mais claramente, a anlise-modo R permite identificar as variveis que mais contribuem

    para a explicao da variabilidade dos dados, com a menor perda de informao. A

    anlise modo-Q usada para agrupamento de indivduos em classes/grupos

    homogneos, atravs de caractersticas comuns entre os indivduos.

  • 19

    2.3.1. Anlise em Componentes Principais

    2.3.1.1. Introduo

    A anlise em componentes principais uma tcnica de anlise multivariada introduzida

    pelo estatstico Karl Pearson em 1901 e mais tarde desenvolvida por Hotelling em 1933

    (Mardia et al, 1979).

    A anlise em componentes principais um mtodo de anlise multivariada que consiste

    em transformar um conjunto de variveis originais correlacionadas num conjunto de

    novas variveis no correlacionadas: as componentes principais. As variveis originais e

    as componentes principais tm a mesma dimenso.

    O principal objetivo da ACP a reduo da dimensionalidade, ou seja, a diminuio do

    nmero de componentes, de forma a explicar a variabilidade dos dados. Esta reduo

    consegue-se uma vez que as variveis originais esto correlacionadas, sendo algumas

    delas redundantes, ao passo que as componentes principais so no correlacionadas,

    podendo explicar a informao dada pelas variveis originais com um menor nmero de

    componentes. Caso as variveis originais estejam fracamente correlacionadas, as

    componentes principais vo coincidir com as variveis originais.

    Estas novas variveis (as componentes principais) so uma combinao linear das

    variveis originais, com uma ordem decrescente de importncia. A primeira

    componente principal a mais importante, uma vez que descreve a maior parte da

    variabilidade dos dados.

    Pretende-se que este nmero de componentes principais seja o menor possvel, ou seja,

    parte-se de p variveis originais para k componentes principais, com k muito inferior a

    p, de modo que a perda de informao seja a menor possvel.

    Assim sendo, se as variveis originais estiverem muito correlacionadas, o nmero de

    componentes principais que expliquem a variabilidade reduzido. Caso as variveis

    originais estejam pouco correlacionadas essa reduo pouco significativa.

  • 20

    2.3.1.2. O modelo matemtico

    Considere-se o modelo matemtico para as componentes principais

    Yj = a1jX1 + a2jX2 + + apjXp

    ou, Y = AX, em que X1, , Xp so as variveis originais, Y1, , Yp so as

    componentes principais no correlacionadas e de varincia decrescente e aij o peso da

    j-sima varivel com a i-sima componente principal, representados na matriz A de

    ordem p (Chatfield, 1980).

    Para a determinao das componentes principais tem de se utilizar a matriz de

    covarincias amostral ou a matriz de correlaes amostral. Quando as escalas de medida

    das variveis so diferentes usa-se a matriz de correlaes amostral. Desta forma torna-

    se possvel a comparao.

    De salientar que, pelo facto de no existir invarincia de escala na ACP, as componentes

    obtidas so diferentes quando se usa a matriz de covarincias e quando se usa a matriz

    de correlaes. As componentes principais obtidas tambm so diferentes quando a

    unidade de medida das variveis originais alterada (Gnanadesikan,1997).

    Para determinar as componentes principais, comea-se por calcular os valores prprios

    da matriz de correlaes amostral, seguidamente determinam-se os vetores prprios

    associados a cada valor prprio.

    Desta forma, cada componente principal um vetor prprio associado a cada um dos

    valores prprios. Mais precisamente, a primeira componente principal corresponde ao

    vetor prprio associado ao maior valor prprio. A segunda componente principal

    corresponde ao vetor prprio associado ao segundo maior valor prprio e, assim por

    diante, de modo que as componentes principais sejam ortogonais entre si.

    Designam-se os valores prprios da matriz de correlaes amostral por , e

    tem-se que 0. Estes valores prprios representam a varincia das

    componentes principais, ou seja, var(Yj) = . A ordenao das componentes principais

    feita atravs da ordenao dos valores prprios, de modo que i-sima componente

    principal corresponda o i-simo maior valor prprio.

  • 21

    No modelo matemtico para as componentes principais

    com j = 1, , p, os aij so estimados de modo que a primeira componente contenha a

    maior varincia (maior valor prprio) e assim por diante. Esses pesos so dados pelos

    vetores prprios associados a cada valor prprio. Tem-se que,

    = 1 com i = 1, , p e,

    ai1aj1 + + aipajp = 0 para todo o i diferente de j.

    Os pesos das componentes principais (aij) representam a importncia relativa das

    variveis originais em cada componente principal.

    Os yj observados designam-se por scores das componentes principais.

    A correlao entre as variveis originais e as componentes principais designa-se por

    loading. Estes fornecem a indicao de como as variveis originais so importantes para

    a formao das componentes principais. Assim sendo, loadings prximos de um

    indicam que essa varivel importante na formao da componente principal, enquanto

    loadings prximos de zero indicam que a varivel no importante na formao da

    componente principal. Os loadings so significantes se forem maiores que 0,3 em valor

    absoluto. O loading da j-sima varivel com a i-sima componente principal dado por

    , em que aij o peso da j-sima varivel com a i-sima componente

    principal, o valor prprio da i-sima componente principal e sj o desvio padro da

    j-sima varivel.

    A comunalidade da j-sima varivel dada por

    , que se refere proporo

    de varincia das variveis que so explicadas pelas componentes principais.

    Neste processo, a varincia preservada, uma vez que a soma das varincias das

    variveis originais igual soma das varincias das componentes principais.

  • 22

    2.3.1.3. Nmero de componentes a reter

    Ao usar esta tcnica de anlise multivariada tem de se decidir o nmero de componentes

    a reter, ou seja, quantas componentes so necessrias para explicar a variabilidade dos

    dados. Desta forma, existem algumas regras para decidir o nmero de componentes

    principais a reter, de modo que estas expliquem a variabilidade dos dados e que a perda

    de informao seja a menor possvel.

    Um primeiro critrio reter o nmero de componentes principais que expliquem pelo

    menos 80% da variabilidade total. Sendo a varincia da j-sima componente principal

    e a varincia total, tem-se que

    a proporo explicada pela j-

    sima componente principal e

    a proporo explicada pelas k primeiras

    componentes principais. Este valor deve ser superior a 80%.

    O segundo critrio (critrio de Kaiser, proposto em 1960) consiste em excluir as

    componentes principais cujos valores prprios sejam inferiores sua mdia aritmtica

    (quando usada a matriz de correlaes, a mdia dos valores prprios um).

    O terceiro critrio consiste em utilizar uma representao grfica do nmero de

    componentes principais versus os valores prprios. Este grfico designa-se por scree

    plot, proposto por Cattell em 1966. O grfico tem a forma de um cotovelo. Deve-se

    reter o nmero de componentes principais at o grfico se tornar praticamente paralelo

    ao eixo Ox, uma vez que esses valores prprios so muito reduzidos e praticamente

    iguais, pouco ou nada contribuem para a explicao da variabilidade dos dados

    (Rencher, 1995).

  • 23

    2.3.2. Anlise Fatorial

    2.3.2.1. Introduo

    A Anlise Fatorial comeou a ser desenvolvida pelo psiclogo Charles Spearman em

    1904, para testar os fatores de inteligncia e habilidade nos jovens, quando realizados

    testes a diferentes reas do conhecimento (cincias e humanidades). Mais tarde foi

    tambm desenvolvida por Thurstone em 1931 (Harman, 1976).

    A Anlise Fatorial uma tcnica de anlise multivariada que consiste em escrever p

    variveis y1, y2, , yp como combinao linear de novas variveis f1, f2, , fm, com m

    menor que p. Estas novas variveis designam-se por fatores latentes, sendo no

    observadas. As variveis y1, y2, , yp so moderadamente correlacionadas (Rencher,

    1995).

    O objetivo da anlise fatorial reduzir o nmero de fatores latentes, de forma a explicar

    a maior correlao existente no conjunto de dados. Pretende-se exprimir o que de

    comum existe nas variveis iniciais, de modo a perder-se a menor informao possvel.

    2.3.2.2. O modelo matemtico

    Considere-se o modelo matemtico para a anlise fatorial:

    Ou, alternativamente, usando notao matricial, Y = , onde

    y = [y1, y2, , yp]T

    o vetor das variveis, f = [f1, f2, , fm]T

    o vetor dos fatores

    comuns , T o vetor dos fatores especficos e

    a matriz dos pesos fatoriais, que no nica.

    Assim sendo, cada varivel decomposta em duas: a parte comum e a parte especfica.

    Os coeficientes so designados por loadings ou pesos, que permitem mostrar de que

    modo a varivel yi depende do fator fj. Estes loadings representam a covarincia entre

  • 24

    as variveis e os fatores, ou seja, cov(yi, fj) = com i = 1, , p e j = 1, , m desde

    que cov(y, f) = .

    Tem-se que E(fj) = 0, var(fj) = 1, cov(fi, fj) = 0, i j.

    O a parte residual de Yi, tendo-se E( ) = 0, var( = , que a varincia

    especfica, cov( ) = 0, i j e cov( fj) = 0 para todo i e j.

    Tem-se ainda que var(Yi) = +

    + + + =

    , em que a

    comunalidade, que se refere varincia comum e a varincia especfica ou nica,

    que se refere varincia residual (Rencher, 1995).

    Se a matriz de correlaes tiver valores elevados significa que as variveis tm bastante

    em comum, formando grupos homogneos. Se os valores das correlaes forem

    reduzidos, significa que as variveis tm pouco ou nada em comum, formando grupos

    heterogneos.

    2.3.2.3. Nmero de fatores a reter

    Na anlise em componentes principais tinha de se selecionar um nmero de

    componentes mais reduzido, ou seja, era necessrio analisar o nmero de componentes a

    reter de modo que estas explicassem a variabilidade dos dados, mas tambm que o seu

    nmero fosse bastante reduzido. Teria de se encontrar uma relao parcimoniosa, no

    sentido de no se usar um nmero excessivo de componentes, mas tambm de no se

    perder informao preciosa. Na anlise fatorial pretende-se fazer algo semelhante,

    decidir o nmero de fatores a reter de modo a explicar pelo menos 80% da variabilidade

    total. Escolher um nmero de fatores igual ao nmero de valores prprios maiores que a

    mdia dos valores prprios. Se for utilizada a matriz de correlaes (R), a mdia 1, se

    for utilizada a matriz de covarincias (S), a mdia

    , em que o valor prprio

    da matriz S. semelhana da anlise em componentes principais, pode-se usar o teste

    do scree plot dos valores prprios de S ou R versus o nmero de fatores. O grfico

    obtido apresenta inicialmente uma acentuada inclinao e no final uma reduzida

    inclinao, pelo que os valores prprios sero praticamente iguais e reduzidos. Deve-se

    ento reter o nmero de fatores (m) a partir dos quais o grfico fica uma reta paralela ao

    eixo das abcissas, tendo este grfico a forma de um cotovelo (Rencher, 1995).

  • 25

    2.3.2.4. Rotao dos fatores

    Para uma melhor interpretao dos fatores obtidos inicialmente, recorre-se rotao dos

    eixos. Existem vrias tcnicas de rotao.

    Este mtodo de rotao consiste na transformao da soluo inicial atravs da

    multiplicao de uma matriz de rotao ortogonal pela matriz dos loadings, de modo

    que a soluo seja interpretada de uma forma mais eficiente. Com esta rotao pretende-

    se aumentar os valores absolutos dos grandes loadings e reduzir os valores absolutos

    dos pequenos loadings, distinguindo assim loadings significantes de loadings

    insignificantes.

    As rotaes podem ser ortogonais ou oblquas. As mais utlizadas so as ortogonais,

    destacando-se, a rotao varimax, a rotao quartimax e a rotao equimax.

    Com o mtodo varimax pretende-se maximizar a varincia dos loadings de cada coluna

    da matriz , de forma a existirem alguns loadings significativos e todos os

    outros prximos de zero. Pretende-se maximizar V, com a restrio das comunalidades

    permanecerem inalteradas.

    Para um dado fator j, tem-se

    , onde a varincia da comunalidade das

    variveis no fator j, o quadrado do loading da i-sima varivel no j-simo fator,

    a mdia do quadrado dos loadings para o fator j, p o nmero de

    variveis e k o nmero de fatores.

    A varincia total V de todos os fatores dada por:

    Este mtodo, desenvolvido por Kaiser em 1958, tornou-se muito popular.

    Com o mtodo quartimax pretende-se simplificar as linhas da matriz de loadings, ou

    seja, tornar os loadings de cada varivel elevados para um pequeno nmero de fatores e

    prximos de zero para os restantes. Pretende-se maximizar Q, com a restrio das

    comunalidades no se alterarem.

  • 26

    Para uma dada varivel i, tem-se

    , onde a varincia da comunalidade na

    varivel i e

    a mdia do quadrado dos loadings na varivel i.

    A varincia total Q de todas as variveis dada por:

    Com o mtodo equamax pretende-se fazer uma mistura dos dois anteriores mtodos

    (Afifi, 1996, Harman, 1976, Rencher, 1995, Sharma, 1996 e Timm, 2002).

    2.3.2.5. Mtodo de extrao dos fatores

    Os mtodos de extrao dos fatores disponveis no SPSS so: mtodo das componentes

    principais (principal components), mtodo da mxima verosimilhana (maximum

    likelihood), mtodo dos mnimos quadrados (unweighted least squares and generalized

    least squares), principal axis factoring, alpha factoring e image factoring.

    Com estes mtodos procede-se extrao dos fatores e consequentemente estimao

    dos loadings e das comunalidades.

    O mtodo das componentes principais bastante usual. O SPSS utiliza-o por defeito.

  • 27

    2.3.2.6. Validao do modelo de anlise fatorial

    Para avaliar a qualidade da anlise efetuada realizam-se alguns testes. A anlise fatorial

    usada para descrever as correlaes entre as variveis. Deste modo, torna-se

    necessrio que a matriz de correlaes seja significativamente diferente da matriz

    identidade, efetuando-se o teste de esfericidade de Bartlett. Este teste usa-se para

    testar H0: R = I versus H1: R I, em que R a matriz de correlaes amostral e I a

    matriz identidade.

    A estatstica de teste (n 1

    )

    com distribuio qui-

    quadrado com

    p (p - 1) graus de liberdade (Rencher, 1995).

    Para avaliar se a anlise fatorial adequada aos dados usa-se a medida de adequao

    de amostragem de Kaiser-Meyer-Olkin (KMO) ou measure of sampling adequacy

    (MSA), proposta por Kaiser em 1970. Define-se por:

    KMO / MSA =

    ,

    onde R = e Q = = DR-1

    D, com D =

    .

    O KMO toma valores entre 0 e 1. Recomendam-se valores superiores a 0.8. Na tabela 1

    encontra-se a escala de avaliao da anlise fatorial efetuada (Maroco, 2007, Reis, 2001

    e Timm, 2002).

    KMO / MSA AF

    0.9 1 Muito boa

    0.8 0.9 Boa

    0.7 0.8 Mdia

    0.6 0.7 Medocre

    0.5 -0.6 M

    < 0.5 Inaceitvel

    Tabela 1: Escala de avaliao da anlise fatorial

  • 28

    2.3.2.7. Anlise em Componentes Principais versus Anlise Fatorial

    Na anlise fatorial escrevem-se as variveis como combinao linear dos fatores,

    enquanto na anlise em componentes principais escrevem-se as componentes principais

    como combinao linear das variveis, so procedimentos inversos. A anlise em

    componentes principais permite explicar a maior parte da variabilidade total das

    variveis, enquanto na anlise fatorial pretende-se explicar as correlaes entre as

    variveis. No caso da ACP as componentes principais obtidas so nicas, no caso da AF

    os fatores dependem da rotao efetuada. No caso da ACP a soluo obtida pode ser

    diferente se usada uma escala de medio diferente, enquanto na AF, h invarincia de

    escala, ou seja, as solues so invariantes com a mudana da escala de medio.

    Quando se aumenta o nmero de componentes retidas, as primeiras componentes

    principais mantm-se inalteradas, enquanto na anlise fatorial, os fatores podem tornar-

    se bastante diferentes quando o nmero de fatores retidos modificado. (Everitt, 2011 e

    Maroco, 2007).

  • 29

    2.3.3. Anlise de Clusters

    2.3.3.1. Introduo

    A anlise de clusters uma tcnica de anlise multivariada que tem como principal

    objetivo o agrupamento de elementos. Este agrupamento efetuado de forma que

    elementos pertencentes ao mesmo grupo tenham caractersticas semelhantes e

    elementos de diferentes grupos tenham caractersticas dissemelhantes. Genericamente,

    parte-se de um conjunto com n observaes e pretende-se formar k grupos com um

    menor nmero de observaes.

    Para a construo desses grupos usam-se mtodos hierrquicos ou mtodos no

    hierrquicos. Entre os mtodos hierrquicos, estes podem ser aglomerativos ou

    divisivos.

    Considere-se um conjunto de n observaes e p variveis dispostos na seguinte matriz

    de ordem n p,

    .

    O elemento representa o valor do objeto (indivduo) i na varivel j.

    Seguidamente constri-se a matriz D de ordem n, dada por

    , em

    que dkl representa a distncia entre os objetos k e l, com k, l = 1, , n. Esta matriz

    designa-se por matriz de proximidade.

    Deste modo, o passo que se segue escolher a medida de proximidade entre os

    indivduos (Everitt et al, 2001, Maroco, 2007 e Reis, 1997).

  • 30

    2.3.3.2. Medidas de proximidade

    Para a construo da matriz de proximidade D, definida anteriormente, necessrio

    selecionar uma medida de proximidade, podendo ser uma medida de distncia, de

    dissemelhana ou de semelhana.

    Segundo Everitt (2001), dois indivduos esto prximos se a dissemelhana ou a

    distncia entre eles pequena ou, se a semelhana entre eles grande.

    Uma medida de semelhana caracteriza-se pelas seguintes propriedades:

    1) 0 1

    2) = 1

    3) =

    onde denota a medida de semelhana entre os indivduos i e j.

    Nos dados categricos habitual usar-se uma medida de semelhana.

    Uma medida de dissemelhana caracteriza-se pelas seguintes propriedades:

    1) 0

    2) = 0

    3) =

    onde denota a medida de dissemelhana entre os indivduos i e j.

    Uma medida de distncia caracteriza-se pelas seguintes propriedades:

    1) 0

    2) = 0

    3) =

    4) (desigualdade triangular)

    onde denota a medida de distncia entre os indivduos i e j.

  • 31

    Apresentam-se em seguida algumas medidas de distncia (Everitt et al, 2001 Maroco,

    2007, Reis, 1997 e Timm, 2002).

    1) Distncia Euclidiana

    =

    2) Quadrado da Distncia Euclidiana

    3) Distncia de Manhattan ou distncia absoluta ou City-Block Metric

    4) Distncia de Minkowski

    uma generalizao da distncia Euclidiana e coincidem quando r = 2.

    5) Distncia de Mahalanobis

    onde S denota a matriz de covarincias amostral.

    A medida de distncia mais usada a euclidiana.

    Em seguida, definem-se algumas medidas de dissemelhana.

    1) Correlao de Pearson:

    com

  • 32

    onde

    e .

    2) Separao Angular

    com

    .

    2.3.3.3. Mtodos de agregao

    Um dos objetivos da anlise de clusters reduzir a distncia dentro dos grupos e

    aumentar a distncia entre os grupos.

    Aps selecionada a medida de proximidade e construda a respetiva matriz de

    proximidade, pretende-se saber quantos clusters se obtm. Assim sendo, para a

    determinao desses k grupos usam-se mtodos hierrquicos ou mtodos no

    hierrquicos. Quanto aos mtodos hierrquicos, estes podem ser aglomerativos ou

    divisivos. Um processo diz-se aglomerativo se no final do processo se obtm um nico

    cluster com todos os elementos e diz-se divisivo se no fim do processo existirem n

    clusters com um nico elemento cada.

    Em qualquer dos mtodos tem-se como objetivo a escolha da soluo tima, ou seja,

    nmero timo de clusters. Essa deciso fica a cargo do investigador.

    As etapas resultantes deste processo hierrquico (aglomerativo ou divisivo) podem ser

    representadas atravs de um grfico o dendograma (Everitt, 2001).

    Os mtodos aglomerativos so os mais utilizados.

  • 33

    2.3.3.4. Critrios de agregao

    Aps definidas as medidas de proximidade entre dois elementos, necessrio definir

    medidas de proximidade entre os clusters, ou seja, definir critrios de agregao entre os

    grupos (Everitt et al, 2001 Maroco, 2007, Reis, 1997 e Timm, 2002).

    1) Complete Linkage ou mtodo do vizinho mais afastado

    A distncia entre dois grupos medida como sendo a distncia mxima entre um par de

    objetos, entre todos os clusters. Utilizando este critrio os clusters obtidos so mais

    compactos.

    2) Single Linkage ou mtodo do vizinho mais prximo

    A distncia entre dois grupos medida como sendo a distncia mnima entre um par de

    objetos, entre todos os clusters. Utilizando este critrio os clusters obtidos so

    desequilibrados e desalinhados, em particular quando o nmero de dados elevado.

    3) Average Linkage

    A distncia entre dois grupos medida como sendo a mdia da distncia entre todos os

    pares de objetos dos dois grupos. Utilizando este critrio os clusters obtidos tm

    pequenas varincias.

    Este um critrio intermdio entre o Complete Linkage e o Single Linkage, sendo

    relativamente robusto.

    4) Critrio do Centride

    A distncia entre dois grupos medida como sendo a distncia entre os seus centrides.

    Cada centride corresponde mdia ponderada dos elementos dos dois grupos.

  • 34

    5) Critrio de Ward

    Neste mtodo no so calculadas distncias, formam-se os clusters de modo a

    minimizar a soma dos quadrados dos erros.

    No que se segue, apresentam-se as etapas do mtodo hierrquico aglomerativo.

    Agrupamento hierrquico (mtodo aglomerativo):

    Dada a matriz de proximidades D = [dij] de ordem n n, seguem-se os passos seguintes

    (Timm, 2002):

    1. Comea-se com n clusters, cada um deles com um elemento.

    2. Usando a matriz D, escolhemos os elementos mais semelhantes, digamos i e j.

    3. Juntam-se esses dois elementos, i e j, formando um novo cluster (ij).

    Recalculam-se as distncias entre o novo cluster (ij) e os elementos j existentes,

    usando o critrio de agregao selecionado. Obtm-se uma nova matriz de

    proximidade de ordem (n 1) (n 1).

    4. Repetem-se os passos 2 e 3, (n 1) vezes.

    Nota: O agrupamento no hierrquico no ser considerado neste trabalho.

  • 35

    Captulo 3: Anlise de dados hidrogeolgicos

    O estudo baseia-se num conjunto de 48 amostras de gua subterrnea recolhidas em

    furos, minas, nascentes e poos da cidade de Lisboa, conforme se pode visualizar na

    figura 2. Utilizam-se as anlises qumicas dessas 48 amostras de gua e selecionam-se

    13 variveis referentes a parmetros fsico-qumicos e espcies dissolvidas (anies e

    caties). Mais precisamente:

    Os parmetros fsico-qumicos: o pH, a condutividade eltrica (C.E.) e o

    potencial redox (Eh);

    As espcies dissolvidas: o bicarbonato ( ), o clcio (Ca

    2+), o sdio (Na

    +), o

    potssio (K+)

    , o magnsio (Mg2+

    ), o fluoreto ( ), o cloreto ( ), o brometo

    ( ), o nitrato ( ) e o sulfato (

    ).

    As amostras de guas subterrneas agora utilizadas no foram recolhidas

    especificamente para este trabalho, resultaram de recolhas para a concretizao de

    unidades curriculares do 1 ciclo de estudos em Geologia da FCUL (Caria et al, 2009,

    Manca et al, 2008 e Sanches et al, 2006) e 2 ciclo de estudos em Geologia Aplicada e

    do Ambiente da FCUL (Oliveira, 2010) e em Engenharia do Ambiente do IST (Lopes,

    2007).

  • 36

    Figura 2: Localizao geogrfica das amostras de gua

    Como j foi referido anteriormente, a geologia de Lisboa de grande complexidade,

    pelo que, para facilitar a anlise estatstica das amostras de gua, as formaes

    geolgicas foram agrupadas, tendo em conta as suas semelhanas litolgicas, da

    seguinte forma: Aluvies (1); Formao de Benfica (2); Complexo Vulcnico de Lisboa

    (CVL) (3); Calcrios de Entrecampos (4); Areolas da Estefnia e Areias do Vale de

    Chelas (5) e Argilas do Forno do Tijolo e Argilas e Calcrios dos Prazeres (6).

    Na figura 3 encontram-se as localizaes das amostras recolhidas e a respetiva formao

    geolgica aflorante.

  • 37

    Figura 3: Localizao geogrfica das amostras de gua e respetivas formaes geolgicas

  • 38

    A partir da figura 3 pode construir-se a tabela 2 em que se indica a provenincia de cada

    amostra.

    Grupos de formaes geolgicas Amostras recolhidas

    (1) Aluvies Lis10/ Lis11/ Lis12/ Lis13/ Lis16 / Lis37

    (2) Formao de Benfica Lis23/ Lis24/ Lis25/ Lis26/ Lis28/ Lis31/

    Lis33/ Lis34/ Lis35/ Lis36/ Lis46

    (3) CVL Lis27/ Lis29/ Lis30/ Lis32/ Lis44/ Lis47/ Lis48

    (4) Calcrios de Entrecampos Lis1/ Lis2/ Lis5/ Lis14/ Lis17/ Lis19

    (5) Areolas da Estefnia e Areias

    do Vale de Chelas

    Lis3/ Lis4/ Lis6/ Lis15/ Lis18/ Lis20/ Lis21/

    Lis38/ Lis39/ Lis40/ Lis41/ Lis45

    (6) Argilas do Forno do Tijolo e

    Argilas e Calcrios dos Prazeres

    Lis7/ Lis8/ Lis9/ Lis22/ Lis42/ Lis43

    Tabela 2: Provenincia das amostras

  • 39

    3.1. Anlise Exploratria dos Dados

    3.1.1. Caractersticas amostrais

    Na tabela 3 encontram-se algumas caractersticas amostrais obtidas para as 48 amostras

    de gua provenientes de 6 grupos de formaes geolgicas distintas:

    Variveis Mdia Desvio

    Padro Mediana 1 Quartil 3 Quartil Mnimo Mximo

    pH 7,53 0,80 7,460 6,985 8,030 6,13 10,45

    C.E. 1161,96 364,27 1174,500 953,500 1411,500 395,00 2220,00

    Eh 30,43 151,13 34,250 -102,100 187,000 -258,10 248,00

    359,3 111,55 374,000 291,120 426,500 43,00 575,00

    Ca2+

    123,17 49,39 114,500 82,000 152,500 40,00 245,60

    Na+ 99,31 52,83 89,450 67,650 132,000 9,70 275,40

    K+ 16,40 23,21 8,550 3,035 17,200 0,00 109,00

    Mg2+

    32,39 20,45 28,650 17,650 42,300 0,00 91,40

    0,26 0,22 0,185 0,132 0,335 0,00 1,01

    93,48 43,72 88,100 58,950 118,900 18,50 195,00

    0,44 0,83 0,180 0,000 0,385 0,00 3,40

    43,35 48,13 30,800 5,785 52,250 0,00 206,00

    138,20 111,88 113,700 71,800 160,750 6,10 653,00

    Tabela 3: Caractersticas amostrais das variveis (amostra global)

    Da anlise da tabela 3, podem-se observar algumas caractersticas amostrais para as 13

    variveis em estudo. O pH das amostras recolhidas varia entre 6.13 e 10.45, as amostras

    de gua Lis4, Lis13, Lis5, Lis6 e Lis9 tm valores de pH 6.13, 6.20, 6.25, 6.26 e 10.45,

    respetivamente, que esto fora dos valores paramtricos, de acordo com o Decreto Lei

    306-2007 da qualidade da gua para consumo humano (o pH deve estar compreendido

    entre 6.5 e 9, inclusive). A condutividade eltrica varia entre 395 e 2220 S/cm e a sua

    mediana (1174.5 S/cm) superior mdia (1161.96 S/cm). O Eh varia entre -258.1 e

    248 mV e tem mediana (34.25 mV) superior mdia (30.43 mV). Como existem

    valores Eh positivos e negativos a variabilidade em torno da mdia muito grande,

    sendo o desvio padro elevado (151.13 mV) e a mdia relativamente baixa (30.43 mV).

    As concentraes do io bicarbonato variam entre 43 e 575 mg/L, apresentando uma

    mediana (374 mg/L) superior mdia (359.3 mg/L). As concentraes do io clcio

    variam entre 40 e 245,6 mg/L, existindo um grande nmero de amostras de gua com

    concentraes deste io superiores ao valor paramtrico (100 mg/L), mais precisamente

    29 amostras de gua. As concentraes do io sdio variam entre 9.7 e 275.4 mg/L e

  • 40

    apresentam uma grande variabilidade em torno da mdia, sendo o desvio padro 52.83

    mg/L. As amostras Lis21 e Lis31 apresentam concentraes, deste io, de 275.4 e 217

    mg/L, respetivamente, acima do valor paramtrico (200 mg/L). As concentraes do io

    potssio variam entre 0 e 109 mg/L. O desvio padro elevado (23.21 mg/L), em

    comparao com a mdia (16.4 mg/L). Das 48 amostras, 19 apresentam concentraes

    do io potssio acima do valor paramtrico (12 mg/L) e 20 amostras tm concentraes

    inferiores a 6 mg/L. Deste modo, a variabilidade em torno da mdia muito grande. As

    concentraes do io magnsio variam entre 0 e 91.4 mg/L. Nas amostras Lis22, Lis16,

    Lis20, Lis48, Lis47, Lis43 e Lis30 as concentraes deste io so 91.4, 73.5, 69.5, 65.1,

    65, 60.3 e 57.5 mg/L, respetivamente. Todas essas concentraes so superiores ao

    valor paramtrico (50 mg/L). As concentraes do io fluoreto variam entre 0 e 1.01

    mg/L. A variabilidade em torno da mdia muito elevada, sendo a mdia de 0.26 mg/L

    e o desvio padro de 0.22 mg/L. As concentraes do io cloreto variam entre 18.5 e

    195 mg/L. As concentraes do io brometo variam entre 0 e 3.4 mg/L. Das 48

    amostras, 40 apresentam concentraes deste io inferior a 0.5 mg/L e em 17 dessas 40

    amostras no se deteta a presena deste io (0 mg/L). Desta forma, a variabilidade em

    torno da mdia muito grande, sendo o desvio padro de 0.83 mg/L e a mdia de

    0.44mg/L. As concentraes do io nitrato variam entre 0 e 206 mg/L. Das 48 amostras,

    12 apresentam uma concentrao superior ao valor paramtrico (50 mg/L). A

    variabilidade em relao mdia elevada, sendo a mdia e o desvio padro 43.35 e

    48.13 mg/L, respetivamente. As concentraes do io sulfato variam entre 6.1 e 653

    mg/L. Nas amostras Lis21, Lis9, Lis42 e Lis37 as concentraes deste io so 653,

    459.2, 329 e 271 mg/L, respetivamente, todas superiores ao valor paramtrico (250

    mg/L). O desvio padro muito grande (111.88 mg/L) indicador de uma grande

    variabilidade em torno da mdia.

    Sobre a qualidade da gua para consumo humano pode-se aferir que, das 48 amostras de

    gua, apenas 8 (Lis7, Lis12, Lis27, Lis29, Lis30, Lis33, Lis36 e Lis44) so

    consideradas apropriadas para o consumo humano, embora fosse necessrio averiguar

    se, do ponto de vista bacteriolgico, estariam de acordo com as recomendaes da

    legislao que regula a qualidade das guas para o consumo humano.

    Tal como sugere a tabela 2, a amostra global das 48 amostras de gua pode ser

    subdividida em 6 amostrais parciais, correspondendo a cada grupo de formaes

  • 41

    geolgicas. Desta forma, na tabela 4 encontram-se as caractersticas amostrais (mdia e

    desvio padro) das 48 amostras de gua separadas pelos grupos de formaes

    geolgicas a que pertencem.

    Por observao da tabela 4, pode afirmar-se que o pH mdio nas Aluvies e nas Areolas

    da Estefnia e Areias do Vale de Chelas praticamente igual, 7.39 e 7.38,

    respetivamente. A variabilidade em torno da mdia inferior nas Areolas da Estefnia e

    Areias do Vale de Chelas. A maior mdia e o maior desvio padro surgem no grupo de

    formaes geolgicas Argilas do Forno do Tijolo e Argilas e Calcrios dos Prazeres,

    tomando os valores de 7.87 e de 1.49, respetivamente. Os Calcrios de Entrecampos

    apresentam o menor pH mdio de valor 7.2. O menor desvio padro surge na Formao

    de Benfica, cujo valor 0.32. Embora a mdia seja relativamente alta, cujo valor 7.71.

    Quanto condutividade eltrica, na Formao de Benfica e no CVL as mdias so

    inferiores a 950 S/cm, enquanto nas restantes formaes geolgicas as mdias

    ultrapassam os 1200 S/cm. A menor variabilidade em torno da mdia verifica-se no

    CVL, onde o desvio padro 131.79 S/cm e a maior variabilidade em torno da mdia

    ocorre nas Aluvies, onde o desvio padro 466.19 S/cm.

    Quanto ao Eh, a sua mdia positiva na Formao de Benfica e no CVL, sendo 192.34

    e 143.71 mV, respetivamente; a mdia negativa nas restantes formaes.

    Relativamente variabilidade em torno da mdia menor na Formao de Benfica e

    nos Calcrios de Entrecampos, cujo desvio padro 42.34 mV e 41.59 mV,

    respetivamente.

    Quanto ao io bicarbonato, verifica-se a maior variabilidade em torno da mdia nas

    Argilas e a menor no CVL, sendo o desvio padro de 189.99 e 48.72 mg/L,

    respetivamente. A maior concentrao mdia encontra-se nos Calcrios de Entrecampos

    (415.17 mg/L) e a menor na Formao de Benfica (278.61 mg/L).

    Quanto ao io de clcio, observa-se que a maior concentrao mdia nas Aluvies

    (172.97 mg/L), enquanto as menores concentraes mdias so na Formao de Benfica

    e no CVL, cujos valores so 88.15 e 80.86 mg/L, respetivamente. Tambm estas duas

    ltimas apresentam a menor variabilidade em torno da mdia, uma vez que os seus

    desvios padro so os menores, 15.88 mg/L no CVL e 29.21 mg/L na Formao de

    Benfica.

    Quanto ao io sdio, a menor concentrao mdia no CVL (58.69 mg/L) e a maior

    na Areolas da Estefnia e Areias do Vale de Chelas (123.58 mg/L). A menor

  • 42

    variabilidade em torno da mdia surge nos Calcrios de Entrecampos, onde o desvio

    padro 21.72 mg/L.

    Quanto ao io potssio, as suas concentraes mdias tomam valores bastante

    diferentes, nomeadamente, as Aluvies e o CVL tm mdias mais reduzidas (5.7 e 3.7

    mg/L, respetivamente), enquanto os Calcrios de Entrecampos e as Areolas da Estefnia

    e Areias do Vale de Chelas tm mdias muito elevadas (27.35 e 33.54 mg/L,

    respetivamente). Para este io, em todas as formaes geolgicas verifica-se uma

    grande variabilidade em torno da mdia, visvel atravs do seu desvio padro elevado,

    destacando as Areolas da Estefnia e Areias do Vale de Chelas com o maior desvio

    padro (34.13 mg/L).

    Quanto ao io magnsio, nas Aluvies a mdia no muito elevada (28.63 mg/L), mas

    a variabilidade em torno da mdia muito elevada, uma vez que o seu desvio padro

    23.61 mg/L. No CVL a concentrao mdia a mais elevada (53.63 mg/L), mas a

    variabilidade em torno da mdia a menor, uma vez que o desvio padro 10.04 mg/L.

    A menor mdia (21.20 mg/L) nos Calcrios de Entrecampos e a maior variabilidade

    em torno da mdia nas Argilas do Forno do Tijolo e Argilas e Calcrios dos Prazeres,

    cujo desvio padro 29.20 mg/L.

    Quanto ao io fluoreto, a menor concentrao mdia (0.11 mg/L) surge no CVL,

    enquanto a maior concentrao mdia (0.39 mg/L) surge nas Argilas. O mesmo se pode

    afirmar quanto variabilidade em torno da mdia, pois o desvio padro no CVL 0.08

    mg/L e nas Argilas 0.33 mg/L. Os Calcrios de Entrecampos e as Areolas da Estefnia

    e Areias do Vale de Chelas apresentam a mesma concentrao mdia (0.31 mg/L), mas

    a variabilidade em torno da mdia muito inferior nos Calcrios de Entrecampos, uma

    vez que o desvio padro consideravelmente inferior, sendo 0.13 mg/L nos Calcrios

    de Entrecampos e 0.30 mg/L nas Areolas da Estefnia e Areias do Vale de Chelas.

    Quanto ao io cloreto, o CVL aparece como a formao geolgica com a menor

    concentrao mdia deste io (61.16 mg/L). As Aluvies, as Areolas da Estefnia e

    Areias do Vale de Chelas e as Argilas aparecem com as maiores concentraes mdias

    deste io, em torno dos 100 mg/L, destacando as Aluvies cuja concentrao mdia a

    mais elevada (105.13 mg/L). A maior variabilidade em torno da mdia ocorre nas

    Aluvies e nas Argilas, onde os desvios padro so 61.65 e 70.93 mg/L, respetivamente,

    em oposio menor variabilidade que ocorre nos Calcrios de Entrecampos, cujo

    desvio padro 18.12 mg/L.

  • 43

    Quanto ao io brometo, a variabilidade em torno da mdia bastante elevada, em

    particular nas Aluvies, nas Areolas da Estefnia e Areias do Vale de Chelas e nas

    Argilas, onde os desvios padro tomam os valores de 1.23, de 1.06 e de 1.23 mg/L,

    respetivamente. As concentraes mdias, deste io, tambm so elevadas nestas

    formaes geolgicas, nas Aluvies 0.85 mg/L, nas Areolas 0.66 mg/L e nas Argilas

    0.82 mg/L. Nos Calcrios de Entrecampos a concentrao mdia bem menor (0.14

    mg/L), mas a variabilidade em torno da mdia muito elevada (0.17 mg/L). O CVL

    aparece como a formao geolgica que tem a menor concentrao mdia deste io,

    cujo valor 0.05 mg/L.

    Quanto ao io nitrato, as Argilas apresentam a menor concentrao mdia (5.67 mg/L),

    por sua vez a variabilidade em torno da mdia muito elevada (7.9 mg/L). A maior

    concentrao mdia (79.72 mg/L) deste composto ocorre na Formao de Benfica. As

    Aluvies e as Areolas da Estefnia e Areias do Vale de Chelas apresentam

    concentraes mdias prximas dos 50 mg/L e desvios padro elevados.

    Quanto ao io sulfato, a maior concentrao mdia (223.7 mg/L) deste composto ocorre

    nas Argilas e a menor concentrao mdia (71.73 mg/L) no CVL. A formao de

    Benfica e o CVL apresentam valores mdios e desvios padro semelhantes e baixos.

  • 44

    Tabela 4: Caractersticas amostrais (mdia e desvio padro) das variveis em cada grupo de formaes geolgica

    Formaes geolgicas

    1 2 3 4 5 6

    Mdia

    Desvio

    Padro Mdia

    Desvio

    Padro Mdia

    Desvio

    Padro Mdia

    Desvio

    Padro Mdia

    Desvio

    Padro Mdia

    Desvio

    Padro

    pH 7,39 0,95 7,71 0,32 7,59 0,34 7,20 0,80 7,38 0,83 7,87 1,49

    C.E. 1266,33 466,19 934,45 298,32 844,71 131,79 1226,33 194,72 1333,92 343,64 1436,50 314,94

    Eh -76,15 109,83 192,34 42,35 143,71 108,16 -113,18 41,59 -27,44 133,30 -32,62 131,83

    360,33 95,85 278,61 108,39 382,12 48,72 415,17 137,02 378,25 52,49 385,83 189,99

    Ca2+

    172,97 60,00 88,15 29,21 80,86 15,88 124,00 38,40 141,28 42,07 149,87 46,15

    Na+ 78,88 36,76 94,32 53,33 58,69 24,38 108,15 21,72 123,58 62,02 118,87 68,66

    K+ 5,70 4,70 10,08 7,12 3,70 5,60 27,35 29,56 33,54 34,13 8,27 9,40

    Mg2+

    28,63 23,61 25,15 11,90 53,63 10,04 21,20 12,76 27,48 18,71 45,67 29,20

    0,32 0,16 0,18 0,09 0,11 0,08 0,31 0,13 0,31 0,30 0,39 ,33

    105,13 61,65 93,77 38,08 61,16 22,58 87,90 18,12 103,98 38,40 103,57 70,93

    0,85 1,23 0,18 0,12 0,05 0,05 0,14 0,17 0,66 1,06 0,82 1,23

    49,02 43,92 79,72 68,93 18,90 20,50 30,43 14,48 46,76 41,81 5,67 7,90

    171,15 95,55 81,53 24,97 71,73 26,02 116,57 30,58 180,53 152,99 223,70 160,79

  • 45

    3.1.2. Correlao linear de Pearson

    Na amostra global as correlaes apresentam valores baixos, inferiores a 0.8 em

    mdulo, veja-se o anexo 4.

    As tabelas da matriz de correlaes entre as variveis, em cada um dos grupos de

    formaes geolgicas, encontram-se em anexo (anexo 5 a 10).

    Nas Aluvies, apenas 7 pares de variveis tm valores de correlao superiores a 0.8,

    salientando a condutividade eltrica com o sdio e o sdio com o cloreto que

    apresentam valores de correlaes muito elevados. Deste modo, pode afirmar-se que

    amostras com menores concentraes de sdio tm menor condutividade eltrica e

    menores concentraes de cloreto, assim como amostras com maiores concentraes de

    sdio tm maior condutividade eltrica e maiores concentraes de cloreto.

    Na Formao de Benfica, apenas 4 pares de variveis apresentam valores de correlao

    linear superior a 0.8. Existem 10 pares de variveis cujos valores das correlaes so

    inferiores a 0.8, em mdulo, porm, significantes2. O cloreto com o sdio, com a

    condutividade eltrica e o com brometo e o magnsio com a condutividade eltrica.

    Assim sendo, nestas amostras, quanto maior for a concentrao de cloreto, maior a

    concentrao de sdio e de brometo, bem como os nveis de condutividade eltrica.

    No Complexo Vulcnico de Lisboa existem 5 pares de variveis com valores de

    correlao superiores a 0.8, em mdulo, dos quais dois pares tm valores de correlao

    negativos. O Eh correlaciona-se negativamente com o clcio e com o magnsio, ou seja,

    medida que os valores de Eh aumentam as concentraes de clcio e de magnsio

    diminuem. O sdio correlaciona-se positivamente com o bicarbonato e com o nitrato.

    Deste modo, amostras com pequenas (ou grandes) concentraes de sdio tm pequenas

    (ou grandes) concentraes de bicarbonato e de nitrato. Existe um par de variveis com

    valor de correlao abaixo de 0.8, mas significante.

    Nos Calcrios de Entrecampos existem 8 pares de variveis com valores de correlao

    superiores a 0.8, em mdulo. Desses valores, dois so negativos. O fluoreto

    correlaciona-se negativamente com a condutividade eltrica e com o magnsio. A

    2 Uma correlao diz-se significante, se ao nvel de significncia 0.05 se rejeitar a hiptese nula no teste

  • 46

    condutividade eltrica e o magnsio correlacionam-se positivamente, tal como o nitrato

    com o sulfato, com o Eh, com o bicarbonato e com o clcio.

    Nas Areolas da Estefnia e Areias do Vale de Chelas existem 4 pares de variveis com

    valores de correlao maiores que 0.8. A condutividade eltrica correlaciona-se

    positivamente com o sdio e com o sulfato. Tambm existem 8 pares de variveis com

    valores de correlaes inferiores a 0.8, mas significantes.

    Nas Argilas do Forno do Tijolo e Argilas e Calcrios dos Prazeres existem 8 pares de

    variveis que tm valores de correlao superiores a 0.8, em mdulo. Desses valores,

    quatro so negativos, nomeadamente, o pH e o bicarbonato, o bicarbonato com o

    potssio e com o nitrato e este ltimo com o sdio, e quatro so positivos; o pH com o

    potssio e com o nitrato, a condutividade eltrica com o magnsio e o nitrato com o

    potssio.

    Mais frente, na seco 3.1.3 (representaes grficas) ser efetuada uma anlise dos

    diagramas de disperso para alguns pares de variveis.

  • 47

    3.1.3. Representaes grficas

    Nas figuras que se seguem podem observar-se os diagramas em caixa de bigodes

    paralelos e os diagramas de disperso. Na figura 4 encontram-se os diagramas em caixa

    de bigodes paralelos para cada varivel (comparando por formao geolgica) e na

    figura 5 encontram-se os diagramas em caixa de bigodes paralelos para cada formao

    geolgica (comparando por variveis).

  • 48

    Figura 4: Diagramas em caixa de bigodes paralelos de cada varivel comparando cada formao geolgica

    Para o pH, a amostra de gua Lis30 considerada outlier severo superior do CVL,

    apesar de no ser o mximo da amostra global. Excluindo essa observao os valores do

    pH no CVL so muito prximos, como visvel no respetivo diagrama em caixa de

    bigodes. Em relao s Aluvies, Calcrios de Entrecampos e Areolas da Estefnia e

    Areias do Vale de Chelas a variao dos valores do pH muito similar. Nas Argilas, se

    excluir a amostra de gua Lis9, cujo valor de pH 10.45, tambm se encontra uma

    distribuio idntica s anteriores.

    Para a condutividade eltrica, a amostra de gua Lis21 outlier moderado superior das

    Areolas da Estefnia e Areias do Vale de Chelas e tambm o maior valor da amostra

    global. As amostras de gua do CVL so caracterizadas por apresentar baixa

    condutividade eltrica.

  • 49

    Para o Eh, a amostra de gua Lis37 outlier moderado superior das Aluvies e a

    amostra de gua Lis46 outlier severo inferior na Formao de Benfica, no sendo o

    mximo nem o mnimo da amostra global, respetivamente. As amostras de gua

    recolhidas nas Aluvies caracterizam-se pelos valores de Eh negativos, com exceo da

    amostra de gua Lis37 que apresenta valor positivo. Nas amostras da Formao de

    Benfica, se excluir o outlier, o Eh apresenta valores muito prximos e elevados, em

    relao s outras formaes geolgicas. Nas amostras do CVL os valores de Eh so

    maioritariamente positivos. Nas amostras dos Calcrios de Entrecampos os valores de

    Eh so negativos. Nas amostras das Areolas e das Argilas o Eh apresenta valores, quer

    positivos, quer negativos.

    Quanto ao io bicarbonato, as amostras de gua Lis24 e Lis46 surgem como outliers da

    Formao de Benfica, o primeiro severo superior e o segundo moderado inferior. As

    amostras Lis44 e Lis47 aparecem como outliers do CVL, o primeiro severo inferior e

    o segundo moderado superior. Nas amostras de gua do CVL, excluindo os outliers,

    as concentraes deste io apresentam valores muito prximos. Nas amostras de gua

    recolhidas nas outras formaes geolgicas a concentrao deste io apresenta uma

    maior disparidade de valores, destacando as Argilas pela elevada variabilidade.

    Quanto ao io de clcio, as amostras Lis24 e Lis47 so outliers moderados superiores da

    Formao de Benfica e do CVL, respetivamente. As amostras de guas do CVL

    caracterizam-se por baixas concentraes deste io e pela pequena variabilidade

    relativamente s outras formaes geolgicas, enquanto as amostras das Aluvies

    caracterizam-se por concentraes mais elevadas deste io.

    Quanto ao io sdio, a amostra Lis31 representa um outlier moderado superior da

    Formao de Benfica e a amostra Lis21 um outlier moderado superior das Argilas. As

    amostras do CVL caracterizam-se por menores concentraes deste io, em relao s

    outras formaes geolgicas.

    Quanto ao io potssio, as amostras Lis32, Lis14 e Lis9 representam outliers para as

    formaes CVL, Calcrios de Entrecampos e Argilas, respetivamente, sendo os dois

    primeiros severos superiores e o ltimo moderado superior. Por observao do diagrama

    em caixa de bigodes constata-se que nenhum destes outliers mximo na amostra

    global. nas Areolas da Estefnia e Areias do Vale de Chelas que a concentrao e a

    variabilidade so maiores. Sem considerar os outliers, as amostras do CVL e das

    Argilas apresentam concentraes deste io muito baixas, bem como pequenas

    variabilidades.

  • 50

    Quanto ao io magnsio, a amostra Lis16 outlier moderado superior das Aluvies. As

    amostras de gua das Areolas e das Argilas apresentam grande variabilidade. As

    amostras de gua provenientes do CVL caracterizam-se por valores mais altos do io

    magnsio.

    Quanto ao io fluoreto, as amostras do CVL apresentam baixas concentraes deste io,

    relativamente s restantes formaes geolgicas. As amostras de gua das Areolas e das

    Argilas apresentam uma grande variabilidade e diagramas em caixa de bigodes

    idnticos.

    Quanto ao io cloreto, a amostra Lis48 outlier severo superior do CVL. As amostras

    do CVL caracterizam-se por baixas concentraes e pequena variabilidade. Nas

    amostras das Aluvies e das Argil