12
Eunice M. de Andrade 1 , Ana C. M. Meireles 1 & Helba A. Q. Palácio 2 1 Universidade Federal do Ceará 2 Instituto Federal de Educação Ciência e Tecnologia do Ceará - Campus Iguatu Manejo da salinidade na agricultura: Estudos básicos e aplicados ISBN 978-85-7563-489-9 Fortaleza - CE 2010 Introdução Estatística multivariada Análise de agrupamento Medidas de similaridade Algoritmo de agrupamento Número de grupos Estudo de caso: Salinidade nos solos na Chapada do Apodi Análise de componentes principais - ACP Estudo de caso: Qualidade das águas na bacia hidrográfica do rio Acaraú, Ceará Referências Técnicas de estatística multivariada aplicadas a estudos de qualidade de água e solo 8 Sem título-8 26/09/2010, 12:32 115

Técnicas de estatística multivariada 8 aplicadas a estudos ... · Na análise de agrupamentos (cluster analysis), a similaridade entre duas amostras pode ser expressa como uma função

  • Upload
    ngodang

  • View
    216

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Técnicas de estatística multivariada 8 aplicadas a estudos ... · Na análise de agrupamentos (cluster analysis), a similaridade entre duas amostras pode ser expressa como uma função

Eunice M. de Andrade1, Ana C. M. Meireles1 & Helba A. Q. Palácio2

1 Universidade Federal do Ceará2 Instituto Federal de Educação Ciência e Tecnologia do Ceará - Campus Iguatu

Manejo da salinidade na agricultura: Estudos básicos e aplicadosISBN 978-85-7563-489-9

Fortaleza - CE2010

IntroduçãoEstatística multivariada

Análise de agrupamentoMedidas de similaridadeAlgoritmo de agrupamentoNúmero de grupos

Estudo de caso: Salinidade nos solos na Chapada do ApodiAnálise de componentes principais - ACPEstudo de caso: Qualidade das águas na bacia hidrográfica do rio Acaraú, CearáReferências

Técnicas de estatística multivariadaaplicadas a estudos de qualidadede água e solo

8

Sem título-8 26/09/2010, 12:32115

Page 2: Técnicas de estatística multivariada 8 aplicadas a estudos ... · Na análise de agrupamentos (cluster analysis), a similaridade entre duas amostras pode ser expressa como uma função

116 Eunice M. de Andrade et al.

INTRODUÇÃO

Nos últimos anos, a importância da água e do solo temse tornado cada vez mais evidente, tanto pela suaescassez como pela larga demanda em decorrência docrescimento da população mundial. A maior demandapela produção de alimentos vem impulsionando o uso dairrigação, não só para complementar as necessidadeshídricas das regiões úmidas, mas também para tornarprodutivas as regiões áridas e semiáridas do globo.

A prática da irrigação, associada ao regime irregulardas chuvas e às elevadas taxas de evapotranspiração nasregiões secas promovem alterações nos teores de saisnos solos e nas águas com consequente elevação naconcentração de íons tóxicos. Ante esta condição, torna-se imprescindível o conhecimento do status salino nosolo e na água, bem como quais os sais que estão seacumulando, uma vez que os mesmos atuamdiferentemente sobre a estrutura do solo.

No monitoramento de sais adotam-se medidas demúltiplos parâmetros, as quais são efetuadas emdiferentes épocas e originadas de diferentes áreas,gerando uma complexa matriz multivariada de difícilinterpretação decorrente do grande número deinformações interdependentes contidas na mesma.

Em oposição a este fato, intuitivamente, o ser humanotende a analisar as variáveis de um fenômeno qualquerisoladamente e a partir desta análise fazer inferênciassobre a realidade. Esta simplificação tem vantagens edesvantagens. Quando um fenômeno depende de muitasvariáveis, geralmente este tipo de análise falha, pois nãobasta conhecer informações estatísticas isoladas, mas énecessário também conhecer a totalidade destasinformações fornecida pelo conjunto das variáveis. Destamaneira as relações existentes entre as variáveis não sãopercebidas e assim efeitos antagônicos ou sinérgicos

entre variáveis dificultam a interpretação do fenômeno(Everitt, 1993).

Um caminho que pode ser adotado para se reduziresta limitação é o emprego da estatística multivariada. Adenominação “Análise Multivariada” corresponde a umgrande número de métodos e técnicas que utilizamsimultaneamente todas as variáveis na interpretaçãoteórica do conjunto de dados obtidos, sendo, portanto,ferramentas estatísticas que apresentam uma visão maisglobal do fenômeno que aquela possível numa abordagemunivariada (Everitt & Dunn, 1991).

Há mais de duas décadas que pesquisadores dediferentes partes do mundo (Nathan & MCmahon, 1990;Mohan & Arumugam, 1996; Singh et al., 2004) vêmempregando técnicas de estatística multivariada nasciências naturais para auxiliar na interpretação dematrizes geradas pelo monitoramento dos processosnaturais multivariados. Recentemente, pesquisadorescomo Andrade et al. (2008); Meireles (2007) e Palácio(2004) iniciaram a aplicação de técnicas de estatísticamultivariada - análise de agrupamento hierárquico eanálise fatorial/análise de componentes principais naidentificação de grupos similares e dos fatoresdeterminantes da qualidade das águas em áreas irrigadasno estado do Ceará, respectivamente.

Neste capítulo serão apresentadas as etapas de comose aplicar as técnicas de análise de agrupamentohierárquico e análise fatorial/análise de componentesprincipais em investigações sobre processos de salinidadeno solo e na água.

ESTATÍSTICA MULTIVARIADA

Análise de agrupamentoPode-se dizer que análise de agrupamento consiste de

uma técnica multivariada cujo objetivo primário é formar

Técnicas de estatística multivariada aplicadasa estudos de qualidade de água e solo

Sem título-8 26/09/2010, 12:32116

Page 3: Técnicas de estatística multivariada 8 aplicadas a estudos ... · Na análise de agrupamentos (cluster analysis), a similaridade entre duas amostras pode ser expressa como uma função

117Técnicas de estatística multivariada aplicadas a estudos de qualidade de água e solo

grupos de objetos homogêneos com base na semelhançade suas características. Deste modo, cada objeto deveráapresentar a maior semelhança possível com outros noagrupamento com relação aos critérios de seleçãopredeterminados. Um dos métodos mais utilizado deanálise multivariada, para se classificar objetos emcategorias de similaridade, é a análise de agrupamento.

Os agrupamentos resultantes dos objetos deverãoentão apresentar elevada homogeneidade interna (dentrodos grupos) e elevada heterogeneidade externa (entregrupos). De fato, trata-se de uma metodologiaclassificatória com base em métodos numéricos onde seconsidera um conjunto inicial de objetos aos quais sãoassociadas medidas de várias grandezas, denominadasvariáveis classificatórias. Essas grandezas são utilizadaspara se definir grupos de objetos similares em relaçãoaos valores assumidos por essas variáveis (Everitt, 1993).

Um ponto importante que não pode ser esquecidopelo pesquisador, no momento de empregar a técnica deanálise de agrupamento, é investigar as unidades e asescalas de grandeza das variáveis que serão empregadasna definição de grupos homogêneos. A similaridade entreas variáveis é extremamente dependente da escala e dasunidades em que as mesmas são expressas (Dillon &Goldstein, 1984).

Esta dependência de escala ou unidade é superadaefetuando-se a padronização dos dados. A forma maiscomum de padronização é a conversão de cada variávelpara escore padrão (escores Z), a qual consiste emsubtrair a média da variável X e dividir por seu desviopadrão (Eq. 1). Este processo converte cada valor do dadooriginal em um valor padronizado para = 0 e = 1.

em que:Xij - representa o valor observado da j-ésima e

i-ésima variável;Xi - representa a média da amostra Xij;Si - representa o desvio padrão da variável Xij;Xsij - representa a observação da variável

j-ésima e i-ésima normalizada;i = 1...m - variáveis;j = 1...n - amostragens.

Finalizada a padronização dos dados, torna-senecessário responder os seguintes pontos:

Qual a medida de similaridade ou de distância entreos grupos a ser empregada?

Qual o algoritmo de agrupamento a ser selecionado?Qual o número de grupos a ser formado?A resposta a cada uma destas indagações será

abordada nos três sub-itens subsequentes.

Medidas de similaridadeNa análise de agrupamentos (cluster analysis), a

similaridade entre duas amostras pode ser expressacomo uma função da distância entre os dois pontosrepresentativos destas amostras no espaço n-dimensional. A maneira mais usual de calcular adistância entre dois pontos a e b no espaço n-dimensionalé conhecida por distância Euclidiana. No entanto,existem outros métodos para se calcular distâncias, taiscomo: quadrado da distância Euclidiana, a distância deMahalanobis, entre outras (Moita Neto & Moita, 1998).

Como em estudos de qualidade de água ou dos saisno solo as variáveis classificatórias escolhidas sãovariáveis reais e, portanto, são mensuradas em umaescala de intervalo, convencionou-se adotar uma medidade distância com propriedades métricas, tendo a escolharecaída no quadrado da distância Euclidiana (Eq. 2), pora mesma ser bastante utilizada em estudos de recursosnaturais (Nathan & MCmahon, 1990).

em que:De é a distância Euclidiana; e Pp,j e Pk,j são as

variáveis quantitativas j dos pontos de amostragem p e k,respectivamente.

Algoritmo de agrupamentoMuitos são os algoritmos propostos para se efetuar a

análise de agrupamento. O algoritmo ou conjunto deregras mais usado no agrupamento de objetos similarespodem ser classificados em duas categorias: hierárquicose não hierárquicos. Existem basicamente dois tipos deprocedimentos hierárquicos de agrupamentoaglomerativos e divisivos.

Entre as técnicas supra citadas, será abordada ahierárquica aglomerativa, a qual produz um arranjohierárquico em forma de árvore, conhecido comodendrograma, onde as amostras semelhantes, segundo asvariáveis escolhidas, são agrupadas entre si. A suposiçãobásica de sua interpretação é esta: quanto menor adistância entre os pontos, maior a semelhança entre asamostras (Moita Neto & Moita, 1998).

Uma primeira idéia do que seja um dendrograma éapresentada na Figura 1. Este dendrograma expressa o

(1)

(2)

Sem título-8 26/09/2010, 12:32117

Page 4: Técnicas de estatística multivariada 8 aplicadas a estudos ... · Na análise de agrupamentos (cluster analysis), a similaridade entre duas amostras pode ser expressa como uma função

118 Eunice M. de Andrade et al.

arranjo hierárquico da qualidade das águas coletadas emsete pontos de amostragem no açude Orós, Ceará. Oarranjo de similaridade das águas do Orós se fundamentounos seguintes atributos: Condutividade Elétrica (CE), pH, Ca,Mg, Na, K, Cl, HCO3, SO4, NH4, NO3, PT, PO4, OxigênioDissolvido (OD), Demanda Bioquímica de Oxigênio (DBO),sólidos totais, sólidos totais fixos e voláteis, total de sólidosem suspensão, sólidos em suspensão fixos e voláteis,turbidez, cor verdadeira e aparente, transparência,temperatura e Razão de Adsorção de Sódio (RAS). Asinformações utilizadas na elaboração deste dendrogramasão oriundas do projeto de pesquisa “Aplicabilidade desensoriamento remoto como sistema de suporte aomonitoramento da qualidade das águas superficiais dosemiárido cearense”, financiado pelo CNPq.

Os cinco tipos de algoritmos aglomerativos maisutilizados na definição de grupos semelhantes são: ligaçãoindividual (single linkage), ligação completa (completelinkage), ligação média (average linkage), método deWard (Ward’s method) e método do centróide (Centroidmethod) (Hair et al., 2005).

No método de Ward, a distância entre doisagrupamentos é a soma dos quadrados entre ambos, feitasobre todas as variáveis. Em cada estágio do procedimentode agrupamento, a soma interna de quadrados éminimizada sobre todas as partições (o conjunto completode agrupamentos disjuntos ou separados) que podemser obtidas pela combinação de dois agregados doestágio anterior. Esse procedimento tende a combinaragrupamentos com um pequeno número de observações(Hair et al., 2005).

Número de gruposPossivelmente, a questão mais complexa quando se

utiliza a análise de agrupamentos é a determinação donúmero final de classes a serem formadas (também

Figura 1. Dendrograma de análise de agrupamento hierárquico pelo método de Ward dos sete pontos de coleta de águano açude Orós

chamada regra de parada). Infelizmente não existe umprocedimento padrão objetivo de seleção. Como não hácritério estatístico interno usado para inferência, tal comoos testes de significância estatística de outros métodosmultivariados, vários critérios e guias para tratar doproblema foram desenvolvidos.

O principal obstáculo é que existem muitosprocedimentos de ocasião (ad hoc), envolvendo técnicasbastante complexas que devem ser computadas (Corraret al., 2009). Um tipo de regra de parada relativamentesimples é examinar alguma medida de similaridade oudistância entre grupos. A parada deverá ocorrer quandoa distância de similaridade exceder a um valorespecificado ou quando ocorrer uma súbita elevação. Asmedidas de similaridades, comumente, empregadas nestatomada de decisão são os coeficientes aglomerativos ea distância reescalonada.

O coeficiente de aglomeração é particularmenteutilizado para uso em uma regra de parada que avalieas mudanças no coeficiente em cada estágio doprocesso hierárquico. Pequenos coeficientes indicamque agrupamentos bem homogêneos estão sendofundidos. Reunir dois agregados de baixa similaridaderesulta em um elevado coeficiente ou uma grandevariação percentual no coeficiente. Desta forma, paraajudar na identificação de grandes aumentos nahomogeneidade dos agrupamentos, calcula-se opercentual de mudança no coeficiente de agrupamento(Hair et al., 2005).

ESTUDO DE CASO: SALINIDADE NOSSOLOS NA CHAPADA DO APODI

Para ilustrar a aplicação de análise de agrupamentoserão investigadas as concentrações de sais presentes no

Sem título-8 26/09/2010, 12:32118

Page 5: Técnicas de estatística multivariada 8 aplicadas a estudos ... · Na análise de agrupamentos (cluster analysis), a similaridade entre duas amostras pode ser expressa como uma função

119Técnicas de estatística multivariada aplicadas a estudos de qualidade de água e solo

extrato de saturação do solo em áreas irrigadas ecampos naturais da Chapada do Apodi, Ceará.

A pesquisa foi desenvolvida em três áreas, sendo umacom campos naturais (Mata Nativa) e duas irrigadas doDistrito de Irrigação Jaguaribe-Apodi (DIJA), nosmunicípios de Limoeiro do Norte e Quixeré. As áreasestão localizadas entre as coordenadas geográficas05o06’38” e 05o11’39” de latitude Sul e ao Oeste deGreenwich entre os paralelos 37o52’21” e 37o56’05” delongitude. A região apresenta clima quente e semi-árido,BSw’h’, com temperatura média mensal sempre superiora 18 ºC. A pluviosidade média de 750 mm, sendo que operíodo mais seco ocorre de julho a dezembro. Aevaporação média anual da região é de 3.215 mm e aumidade relativa média anual é de 62%.

O questionamento a ser investigado será: Tomando-se variáveis indicadoras da salinidade do solo, é possívelidentificar padrões significativos de similaridade oudissimilaridade, que permitam afirmar a existência degrupos semelhantes ou distintos entre e dentre os solos

explorados pela agricultura irrigada e sob condições decampos naturais?

As variáveis selecionadas na investigação foramCEes (Condutividade Elétrica do extrato de saturação dosolo), Ca2+ + Mg2+, Cl-, Na+ e K+ e a RAS (Razão deAdsorção do Sódio). As análises resultaram em umamatriz de 6 colunas e 30 linhas totalizando 180 entradas(Tabela 1). Optou-se por uma matriz de poucas entradaspara uma melhor compreensão e interpretação dos dadosobtidos pela técnica de análise de agrupamento.

Entre os pacotes computacionais que executamanálises multivariadas e que podem ser usados semgrandes dificuldades por iniciantes em estatísticamultivariada cita-se o SPSS, MINITAB e Stata.Destaca-se que o SPSS, v. 13 ou superior apresenta aelaboração de gráficos de boa qualidade e de umainterface bem amigável.

Investigando-se a matriz (Tabela 1) observa-se queos dados apresentam três unidades distintas (dS m-1,mmolc L-1, (mmolc L-1)0,5) e números variando em até

Tabela 1. Dados empregados na investigação de similaridade das condições salinas em solos da Chapada do Apodi, Ceará

1 Local, camada e data de coleta de solo. DJ –DIJA, MN – mata nativa e QX - Quixeré

Sem título-8 26/09/2010, 12:32119

Page 6: Técnicas de estatística multivariada 8 aplicadas a estudos ... · Na análise de agrupamentos (cluster analysis), a similaridade entre duas amostras pode ser expressa como uma função

120 Eunice M. de Andrade et al.

três magnitudes (0,04 – 35,96), portanto os dadosnecessitam ser padronizados para ( = 0; = 1). Ospacotes estatísticos que executam este tipo de análiseoferecem a opção de padronizar os dados por ocasião derealização das análises, não havendo a necessidade deefetuar a padronização antecipadamente. Bem como, emcaso de matrizes compostas por um grande número decolunas e linhas, se torna imprópria a realização de umapadronização antecipada.

Como já definido anteriormente no início destecapítulo, a similaridade foi estimada por meio da distânciaEuclidiana ao quadrado, uma vez que se trata devariáveis quantitativas, e na definição dos agregadosempregou-se o algoritmo de Ward. A escolha recaiusobre o método de Ward devido o mesmo ser usado pordiferentes pesquisadores em estudos de água e solo(Palácio et al., 2009; Meireles, 2007; Andrade, 1997).

O resultado final da técnica de análise multivariada/análise de agrupamento é expresso em um gráfico comforma de árvore, conhecido como dendrograma (Figura2). De acordo com o output gerado observa-seclaramente a existência da similaridade e dissimilaridadeentre os objetos investigados (Na+, Cl-, Ca2+ + Mg2+, K+,CEes e a RAS para distintas camadas, datas e local decoletas). O dendrograma expressa claramente que asimilaridade da salinidade do solo para as áreasestudadas foi definida pelo uso da terra, não ocorrendouma maior influência da variabilidade temporal ouespacial. Na construção dos arranjos, os objetosrepresentativos da área não cultivada se agruparam

separadamente daqueles que representam as áreasirrigadas do DIJA e do Quixeré de forma independenteda data de amostragem.

Neste estudo, o número ótimo de grupos a seremformados foi definido examinando-se a medida desimilaridade ou distância entre grupos, a cada passo. Asolução foi definida quando os sucessivos valores entreos passos tiveram uma súbita elevação, evidenciando umsubstancial decréscimo na similaridade (Tabela 2).

Figura 2. Dendrograma das amostras de solos agrupadasquanto a concentração iônica em áreas de mata nativa ecampos irrigados na Chapada do Apodi, Ceará

Tabela 2. Coeficientes de agrupamentos gerados paradeterminação do ponto ótimo de corte

No dendrograma estes aumentos são representadospelos maiores valores da distância reescalonada dacombinação de agregados (Corrar et al., 2009). Este fatofoi registrado entre o estágio 28 e 29 quando a diferençaentre os coeficientes de aglomeração foi de 48%, o quecorresponde a uma variação na distância reescalonadade 12,9, originando dois grupos.

O grupo 1 contém todas as coletas realizadas nossolos da Mata Nativa, nove oriundas do DIJA e uma doQuixeré, independentemente da profundidade amostradaou da época de coleta. Identifica-se que dentro do grupo,as variáveis investigadas (Na+, Cl-, Ca2+ + Mg2+, K+,

Sem título-8 26/09/2010, 12:32120

Page 7: Técnicas de estatística multivariada 8 aplicadas a estudos ... · Na análise de agrupamentos (cluster analysis), a similaridade entre duas amostras pode ser expressa como uma função

121Técnicas de estatística multivariada aplicadas a estudos de qualidade de água e solo

CEes e a RAS para distintas camadas, datas e local decoletas) para a mata nativa apresentaram a maiorsimilaridade, visto que todos os objetos se uniram com omenor valor da distância reescalonada. A homogeneidadedas variáveis para a Mata Nativa expressa a suacondição de equilíbrio com relação aos sais solúveis noextrato de saturação do solo.

Percebe-se, também, que embora não existadiferença significativa ao nível de 5% entre os objetosque compõem o grupo 1, existe uma dissimilaridade entreas informações representativas da mata nativa e aquelasoriundas do DIJA e do Quixeré. Esta diferença expressaa sensibilidade do teste em identificar as diferenças entreos objetos do mesmo grupo, embora a diferença entre asmesmas não seja estatisticamente significativa.

O grupo 2 foi composto por nove informaçõesprovenientes das amostras realizadas no campo irrigadodo Quixeré e uma oriunda do DIJA, expressando umacompleta dissimilaridade das informações da Mata Nativa,visto que nenhuma informação desta área se fazpresente neste grupo. Investigando-se o dendrogramacom um pouco mais de detalhe se observa que asinformações representativas da profundidade de 15 cm(QX15) para as datas de 11/2001 e 12/2001 apresentamum menor grau de homogeneidade em relação asinformações representativas das outras datas e camadas.Esta característica identificada pelo teste deagrupamento pode ser confirmada na Tabela 1, onde seobserva que os maiores valores dos atributosinvestigados foram registrados nestes dois meses.

O grupo 2 é composto por solos que receberammaiores adições de sais pelo manejo da irrigação. Estesmaiores acúmulos podem ser explicados pela qualidade daágua empregada na irrigação, C3S1, e pelo emprego dafertiirrigação (D’Almeida, 2002). Destaca-se que emborano período estudado o total precipitado (1.275 mm) tenhasido 62% superior a média da região, a mesma não foisuficiente para efetuar a lixiviação dos sais adicionadospelo manejo da irrigação. Portanto a técnica de análise deagrupamento mostra-se como uma ferramenta que podeser empregada na identificação de áreas similares commaiores ou menores riscos de salinidade

ANALISE DE COMPONENTESPRINCIPAIS - ACP

A análise de componentes principais (ACP) é umatécnica estatística de análise multivariada, quetransforma linearmente um conjunto original de variáveisnum conjunto substancialmente menor de variáveis nãocorrelacionadas, que contêm a maior parte dasinformações do conjunto original. Esta idéia foidesenvolvida por Hotteling (1933), embora Pearson

(1901) já o tivesse lançado de forma geométrica. Oobjetivo da ACP é similar ao da Análise Fatorial, nosentido de que ambas as técnicas tentam explicar parteda variabilidade de um conjunto de dados.Resumidamente, a principal diferença entre as duastécnicas é a de que a ACP parte da ausência de ummodelo estatístico e focaliza a explicação da variânciatotal das variáveis observadas, baseando-se naspropriedades da variância máxima dos componentesprincipais. A análise fatorial, por outro lado, parte de ummodelo estatístico prévio que divide a variância total(Dunteman, 1989). Atualmente, estas técnicas sãotambém utilizadas no campo da sociologia, medicina,tecnologia de alimentos, educação, economia, agronomia,liminologia e hidrologia (Shoji et al., 1966; Possoli, 1984;Vidal et al., 2000; Bressan et al., 2001; Silveira &Andrade, 2002).

Esta técnica possibilita, em investigações com umgrande número de dados disponíveis, a identificação dasmedidas responsáveis pelas maiores variações entre osresultados sem perdas significativas de informações. Oconjunto de dados referentes a um trabalho contém muitasinter-relações imperceptíveis numa avaliação inicial, poisos resultados correspondentes às variáveis podem serdiferentes em ordem de magnitude. Assim, na ACP, osvalores das medidas são transformados em escalaspadronizadas, onde as distâncias entre os pontos individuais(dados referentes a uma unidade experimental) sãointerpretadas em termos de similaridade padrão, e otamanho da variação é representado pela extensão dovetor a partir do ponto de origem.

Um problema comumente encontrado na aplicaçãode modelos estatísticos multivariados é que estes sãodependentes das unidades e escalas em que as variáveisforam medidas (Nathan & MCmahon, 1990). Porexemplo, enquanto a condutividade elétrica é expressaem desissimens por metro (dS m-1); o cálcio édeterminado em milimol carga por litro (mmolc L-1), o pH(admensional) e os sólidos suspensos em miligrama porlitro (mg L-1).

A solução padrão para este problema é anormalização dos dados ( = 0; = 1). Esta forma éassumida pelas variáveis no momento em que se calculaa matriz de correlação. A nível de entendimento serãoapresentadas as etapas de como efetuar o cálculo damatriz de correção, no entanto esclarece-se que todoeste processo é efetuado pelo pacote computacional queexecuta análises multivariadas.

Os dados em forma de matriz corrigida sãorepresentados pelas Eqs. 3 e 4.

(3)

Sem título-8 26/09/2010, 12:32121

Page 8: Técnicas de estatística multivariada 8 aplicadas a estudos ... · Na análise de agrupamentos (cluster analysis), a similaridade entre duas amostras pode ser expressa como uma função

122 Eunice M. de Andrade et al.

em que:Xd - matriz da variável corrigida;X - matriz dos dados na dimensão (N = amostragens

x M = variáveis);a’ - [a11 a22 ...a1M]; sendo a = 1

representa a matriz linha contendo a média das Mvariáveis.

A variância da amostra pode ser calculada para cadavariável Xd como:

Normalização é efetuada empregando-se as Eq. 5 e6.

em que:D-1/2 - representa a matriz da variância individual

da i-ésima variável, a qual é uma matriz diagonal naforma:

em que:S = Xd’Xd representa matriz da soma dos quadrados

dos valores corrigidos pela média

Após a definição da matriz de correlação, deve-serealizar a inspeção entre as variáveis com o objetivo dese identificar as variáveis mais específicas, visto que afinalidade da ACP é obter “fatores” que ajudem aexplicar estas correlações. Para averiguar se o modeloda ACP pode ser aplicado aos dados levantados nesteestudo deve-se aplicar o teste proposto por Kaiser,Meyer e Olkin (1974), apresentado por Norusis (1990).

O teste Kaiser-Meyer-Olkin (KMO) é um índice quecompara a magnitude de coeficientes de correlaçãoobservada e as magnitudes dos coeficientes decorrelação parciais, sendo computado pela Eq. 8.

em que:rij - coeficiente de correlação simples entre a variável

i e j;aij - coeficiente de correlação parcial entre a variável

i e j.

Se a soma do quadrado dos coeficientes decorrelação parciais entre todos os pares de variáveis forpequena quando comparada à soma dos coeficientes decorrelação simples ao quadrado, a medida de KMO serápróxima de um. Valores pequenos para KMO indicamque o modelo de análise de fator não deve serempregado. Os intervalos do teste podem ser vistos naTabela 3.

A ACP pode ser representada, geometricamente, soba forma de uma nuvem de pontos individuais das

em que:Xs - matriz dos dados normalizados composta pelos

valores Xij (i = M e j = N)

A Matriz de Correlação, R, é calculada empregando-se da Eq. 7. Adaptada por Silveira e Andrade (2002).

Tabela 3. Intervalo de validade do teste KMO, para aplicaçãodo modelo de análise de fator

(4)

(5)

(6)

(7)

(8)

Sem título-8 26/09/2010, 12:32122

Page 9: Técnicas de estatística multivariada 8 aplicadas a estudos ... · Na análise de agrupamentos (cluster analysis), a similaridade entre duas amostras pode ser expressa como uma função

123Técnicas de estatística multivariada aplicadas a estudos de qualidade de água e solo

variáveis no espaço. Os fatores ou eixos principais saídosde uma ACP fornecem imagens aproximadas dessanuvem de pontos e a ACP propõe-se a medir a qualidadedessa aproximação (Dunteman, 1989). Na realidade aACP fundamenta-se em encontrar os autovalores eautovetores da matriz de covariância amostral. Osautovalores da matriz expressam a variância de cadacomponente principal. Quanto maior o autovalor, maior ésua capacidade de resumir as variáveis e, portanto, maiorexplicabilidade é apresentada por este fator. Umautovalor inferior a 1,0 indica que o eixo sintetiza menosdados que uma variável isolada.

A determinação do número de fatores representativosdos dados deve se fundamentar no preceito que se tenhaum menor número de fatores com a máximaexplicabilidade da variância contida nos dados originais.Foram propostos vários procedimentos para determinaro número de fatores para ser usado em um modelo.Porém, o critério mais aceito pela comunidade científicaé aquele em que apenas fatores com variância maior queum (autovalores maiores que um) sejam incluídos(Norusis, 1990). Este critério fundamenta-se no fato deque qualquer fator deve explicar uma variância superioràquela apresentada por uma simples variável. Os fatoressão chamados de componentes principais, que sãoformados por combinações lineares das variáveisobservadas. O primeiro componente principal é acombinação entre as variáveis que respondem pela maiorquantidade de variância na amostra. O segundocomponente principal responde pela segunda maiorvariância sem estar correlacionada com a primeira.Componentes sucessivos explicam porçõesprogressivamente menores da variância da amostra total,sem apresentarem correlação com os componentesanteriores (Manly, 2008).

Segundo Norusis (1990), o modelo matemático paraanálise de fator apresenta semelhança com uma equaçãode regressão múltipla. Cada variável é expressa comouma combinação linear de fatores que não sãoobservados de fato.

O modelo para a i-ésima variável normalizada éescrito através da regressão linear múltipla entre fatores:

em que:F - fatores comuns, isto é, uma nova variável;Ai - constantes de ajuste do modelo (i = 1, ... L ); - erro experimental;L - total de fatores.

O modelo assume que os erros experimentais não têmcorrelação com os fatores comuns. Os fatores sãodeduzidos das variáveis observadas e podem sercalculados como combinações lineares. É possível quetodas as variáveis contribuam para um dado fator, noentanto, espera-se que o fator seja caracterizado por umúnico subconjunto de variáveis com elevados coeficientes.Os fatores são obtidos através da combinação linear dasvariáveis normalizadas observadas (Eq. 10):

em que:W - coeficiente de contagem de cada fator;XSi - valor de cada variável normalizada,M - número de variáveis.

Mesmo com a matriz de componentes obtidos na fasede extração, onde o resultado descreve a relação entre osfatores e as variáveis individuais, às vezes este resultadoé de difícil interpretação dos fatores significantes. Parasuperar esta limitação efetua-se a rotação da análise defator, a qual transforma a matriz em uma outra de maisfácil interpretação (Dillon & Goldstein, 1984).

A rotação não afeta o valor de ajuste de uma soluçãode fator; ou seja, embora a matriz de fator mude, apercentagem de variância total explicada não é alterada.A percentagem de variância considerada por cada umdos fatores faz, porém, a mudança.

Um método de rotação que vem sendo bastanteempregado pelos pesquisadores (Palácio, 2004; Mondalet al., 2010; Huang et al, 2010) é o Varimax. O referidométodo tem por finalidade minimizar a contribuição dasvariáveis com menor significância no fator, e assim, asvariáveis passam a apresentar pesos próximos a um ouzero, eliminando os valores intermediários, que dificultama interpretação dos fatores (Wunderlin et al., 2001).

Para uma melhor compreensão da aplicação daAnálise de componentes principais apresentaremos umestudo de caso sobre a investigação da qualidade daságuas na bacia do Acaraú, Ceará.

ESTUDO DE CASO: QUALIDADE DAS ÁGUASNA BACIA HIDROGRÁFICA DO RIO

ACARAÚ, CEARÁ

A referida bacia está localizada ao norte do Estado doCeará e detém uma área de 10.000 km2, abrangendo 15municípios, com uma população de 314.455 habitantes. Acapacidade de acumulação da bacia é de

(9)

(10)

Sem título-8 26/09/2010, 12:32123

Page 10: Técnicas de estatística multivariada 8 aplicadas a estudos ... · Na análise de agrupamentos (cluster analysis), a similaridade entre duas amostras pode ser expressa como uma função

124 Eunice M. de Andrade et al.

aproximadamente 1.215.390.000m3, distribuída nosprincipais açudes: o Araras Norte, no rio Acaraú, nomunicípio de Varjota, com capacidade de 860,96 milhõesde m3; o Edson Queiroz, localizado no rio Groaíras,município de Santa Quitéria, com capacidade de 250milhões de m3; e o Forquilhas, no rio Madeira, municípiode Sobral, com capacidade de 50,13 milhões de m3

(DNOCS, 1977). Na bacia estão inseridos quatroperímetros irrigados a saber: Araras Norte, São Vicente,Forquilhas e Baixo Acaraú.

O clima da região é do tipo BSw’h’ – semiáridoquente com precipitações de outono e temperaturasmédias mensais sempre superiores a 18 ºC. Apluviosidade média anual da bacia é de aproximadamente938 mm, com estação chuvosa ocorrendo geralmente dejaneiro/fevereiro a maio/junho, concentrando-se 80% nosmeses de março e abril. A evapotranspiração médiaanual, estimada por tanque classe “A”, é de 1.900 mme a média da umidade relativa do ar situa-se em torno de70%. Predominam na bacia solos como Luvissolos eNeossolos (CEARÁ, 1992).

O questionamento para esta pesquisa será: Levando-se em consideração a condição natural, as atividadesagropecuárias, a agricultura irrigada e a presença deaglomerados populacionais existentes na bacia, é possívelidentificar quais os fatores que determinam osindicadores da qualidade da água?

As variáveis selecionadas na investigação foram: pH,temperatura, cor, turbidez, nitrato, amônia total, amônialivre, amônia ionizada, sódio, cloretos, potássio, sulfato,dureza, cálcio, magnésio, alcalinidade total, alcalinidadedo bicarbonato, condutividade elétrica, sólidos suspensos,oxigênio dissolvido (OD), demanda bioquímica deoxigênio (DBO), fósforo total, ortofosfato solúvel,clorofila “a”, coliformes totais e coliformestermotolerantes.

A associação entre as variáveis que influenciam aqualidade das águas superficiais foi identificada medianteas técnicas de estatística multivariada, Análise Fatorial/Análise de Componentes Principais (AF/ACP). Tendopor base os dados normalizados foi construída a matrizde correlação com todas as variáveis estudadas.

Para averiguar se o modelo da ACP poderia seraplicado aos dados levantados neste estudo foi aplicadoum teste de adequacidade do modelo AF/ACP. O testede adequacidade aplicado ao modelo foi o Kaiser-Meyer-Olkin (KMO), o qual apresentou um índice igual a 0,625(regular), demonstrando que o modelo promoverásignificante redução na dimensão dos dados originais. Amatriz resultante neste exemplo foi formada por 16colunas e 16 linhas totalizando 256 entradas.

Após avaliar a adequacidade do modelo, realizou-sea extração dos fatores/componentes sendo selecionadoum modelo com três componentes. Os pesos fatoriaisatribuídos a cada componente, bem como a percentagemda variância total explicada por cada componente, podemser vistos na Tabela 4. Nota-se que os três primeiroscomponentes explicaram respectivamente 46,44, e 25,12e 16,62% da variância total dos dados, concentrando emtrês dimensões 88,18% das informações antes dissolvidasem 16 dimensões.

CP – Componente Principal.

Tabela 4. Matriz do peso fatorial das variáveis nos trêscomponentes principais selecionados

Os valores elevados dos pesos fatoriais sugeremquais são as variáveis mais significativas em cada fator,explicando, assim, o relacionamento entre um conjunto devariáveis. No primeiro CP, as variáveis CE, sódio,alcalinidade do bicarbonato, dureza, cloreto, cálcio emagnésio apresentaram um peso superior a 0,82,indicando que estas variáveis são as mais significativasna definição da qualidade da água estudada, evidenciandoque o CP 1 está relacionada com o processo natural deintemperismo dos componentes geológicos do solo(Brodnjak-Voncina et al., 2002).

Já o segundo CP é explicado, principalmente, pelasvariáveis pH, sólidos suspensos, sulfato, potássio e nitrato(peso > 0,62), as quais indicam o uso da terra pelaagropecuária. A presença do nitrato em águassuperficiais pode ter sua origem em fertilizantesorgânicos, enquanto que o sulfato e o potássio emfertilizantes químicos (Elmi et al., 2004). O CP 3apresentou uma maior interrelação com cor e turbidez

Sem título-8 26/09/2010, 12:32124

Page 11: Técnicas de estatística multivariada 8 aplicadas a estudos ... · Na análise de agrupamentos (cluster analysis), a similaridade entre duas amostras pode ser expressa como uma função

125Técnicas de estatística multivariada aplicadas a estudos de qualidade de água e solo

(peso >0,8), sugerindo serem estas as únicas variáveissignificativas neste componente. Este componente,basicamente, expressa o efeito do escoamento superficialcom uma carga de sedimentos oriundos das áreasagrícolas e a contribuição de esgotos e resíduos sólidosdispostos, inadequadamente, próximos às margens doscursos d’águas. Segundo dados do Censo 2000 (IBGE,2002), 40% dos domicílios da área urbana e 99% da árearural realizam a queima, enterram ou dispõem o lixo emterreno baldio, rio, lago, mar ou então destino que não acoleta.

De um modo geral, a matriz do peso fatorial (Tabela4) apresenta dificuldades na identificação das variáveismais significativas, em decorrência de valores muitopróximos entre si (Dillon & Goldstein, 1984). Parasuplantar essa limitação, aplicou-se a transformaçãoortogonal pelo emprego do algoritmo Varimax. A adoçãoda matriz transformada, neste estudo, gerou mudançassignificativas em relação à matriz original (Tabela 5).

Pisuerga, na Espanha. O CP 2 passou a ser compostapor sulfato, nitrato, fósforo total, ortofosfato solúvel epotássio, sendo eliminado o percentual de explicação davariância pelo pH para esta componente.

O CP 2 sugere que as atividades agrícolas e pastorisda região, fontes de poluição difusa, influenciamsignificativamente a concentração dos nutrientes naságuas superficiais. O nitrato e o fósforo, elementosdefinidos pela literatura como indicadores das atividadesagropecuárias (Brooks et al., 1992; Palácio, 2004; Elmiet al., 1996), fazem-se presentes nesse componente compesos superiores a 0,8. O CP 3 mostrou inter-relação coma cor, a turbidez, os sólidos suspensos e o pH,apresentando-se como um fator de transporte desedimentos. Os altos pesos (> 0,96) atribuídos à cor e àturbidez podem ser explicados pelas característicasclimáticas das regiões semiáridas (baixa coberturavegetal e chuvas de alta intensidade).

Verifica-se assim, que o emprego da Análise Fatorial/Análise de Componentes Principais (AF/ACP) é umatécnica adequada para ser empregada na identificaçãodos fatores determinantes da qualidade das águas, bemcomo concentrar em poucos fatores a explicabilidade davariância antes dissolvida em um grande número devariáveis.

REFERÊNCIAS

Andrade, E. M. Regionalization of average annual runoffmodels for ungaged watersheds in arid and semiaridregions. Tucson: School of Renewable Natural Resources.The University of Arizona, 1997. 192p. PhD Thesis

Andrade, E. M.; Palácio, H. A. Q.; Crisóstomo, L. A.; Souza,I. H.; Leão, R. A. O.; Guerreiro, M. J. Land use effects ingroundwater composition of an alluvial aquifer (TrussuRiver, Brazil) by multivariate techniques. EnvironmentalResource, v.106, p.170-177, 2008. doi: 10.1016/j.envres.2007.10.008

Bressan, M. C.; Beraquet, N. J.; Lemos, A. L. S. C.Características de qualidade de carne em peito de frangoutilizando a análise da componente principal. Boletim daSociedade Brasileira de Ciência e Tecnologia de Alimentos.n.35, 2001.

Brodnjak-Voncina, D. Dobcnik, D.; Marjana Novic, M.; Zupan,J. Chemometrics characterisation of the quality of riverwater. Analytica Chimica Acta, v.462, p.87-100, 2002.

Brooks, K. N.; Falliott, P. E.; Gregersen, H. M.; Thames, J. L.Hydrology and the management of watersheds. 1. ed.Ames: Iowa State University, 1992. 392p.

Ceará, Secretaria dos Recursos Hídricos. Plano estadual dosrecursos hídricos: estudo de base II. v.2. Fortaleza, CE,1992. 1471p.

Corrar, L. J.; Paulo, E.; Dias Filho, J. M. Análise multivariadapara os cursos de administração, ciências contábeis eeconomia. 1. ed. 2. reimpr. São Paulo: Atlas, 2009. 541p.

Tabela 5. Fatores dos componentes da matriz transformadapelo algoritmo Varimax

CP – Componente Principal.

Após a rotação, CP 1 expressou uma maiorassociação com os parâmetros indicadores doenriquecimento por íons solúveis (pesos > 0,941). Umamenor associação foi registrada com o cloreto, ocorrendoum acréscimo do indicativo da origem de sais nãonaturais, os quais podem ser atribuídos ao aporte deesgotos ao rio ou ao carreamento de fertilizantesquímicos. Helena et al. (2000) associaram a contribuiçãode esgotos residenciais e industriais a uma maiorconcentração de cloreto nas águas aluvionais do rio

Sem título-8 26/09/2010, 12:32125

Page 12: Técnicas de estatística multivariada 8 aplicadas a estudos ... · Na análise de agrupamentos (cluster analysis), a similaridade entre duas amostras pode ser expressa como uma função

126 Eunice M. de Andrade et al.

D’Almeida, M. B. A. Risco de salinização de um cambissolo nachapada do Apodi-CE.Fortaleza: UFC, 2002. 68p.Dissertação Mestrado

Dillon, W. R.; Goldstein, M. Multivariate analysis methodosand applications. New York: John Wiley & Sons, 1984.587p.

DNOCS. Plano director do Vale do Acarau. Disgnóstico. v.1,Fortaleza, 1977. 136p.

Dunteman, G. H. Principal components analysis. 1st. ed.London: Sage, 1989. 96p.

Elmi, A. A.; Madramootoo, C. A.; Hamel, C. Water and fertilizernitrogen management to minimize nitrate polution from acropped soil in southwestern Quebec Canada. Water Airand Soil Polution, v.151, n.1, p.117-134, 2004.

Everitt, B .S. Cluster analysis. 3rd ed. London: HeinemannEducational Books, 1993. 122p.

Everitt, B. S.; Dunn, G. Applied multivariate analysis. London:Edward Arnold, 1991. 400p.

Hair, J. F.; Anderson, R. E.; Tatham, R. L.; Black, W. C. AnáliseMultivariada de Dados. Trad. Santanna, A. S.; ChavesNeto, A. 1. Ed. Porto Alegre: Bookman, 2005. 593p.

Helena, B.; Pardo, R.; Vega, M.; Barrado, E.; Fernandez J. M.;Fernandez, L. Temporal evolution of groundwatercomposition in an alluvial aquifer (Pisuerga river, Spain) byprincipal component analysis. Water Research, v.34, n.3,p.807-816, 2000.

Hotteling, H. Analysis of a complex of statistical variables intoprincipal components. Journal Education Psychology, v.24,p.498-520, 1933.

Huang, F.; Wang, X.; Lou, L.; Zhou, Z.; Wu, J. Spatialvariation and source apportionment of water pollution inQiantang river (China) using statistical techniques. WaterResearch, v.44, p.1562-1572, 2010.

IBGE. Indicadores de desenvolvimento sustentável: Brasil2002. Rio de Janeiro, 2002. 195p.

Manly, B. F. J. Métodos estatísticos multivariados: Umaintrodução. 3. ed. Porto Alegre: Bookman, 2008. 229p.

Meireles, A. C. M. Dinâmica qualitativa das águas superficiaisda bacia do Acaraú e uma proposta de classificação parafins de irrigação. Fortaleza: UFC, 2007. 180p. TeseDoutorado

Mohan, S.; Arumugam, N. Relative importance ofmeteorological variables in evapotranspiration: Factoranalysis approach. Water Resources Management, v.10,p.1-20, 1996.

Moita Neto, J. M.; Moita, G. C. Uma introdução à análiseexploratória de dados multivariados. Química Nova. v.21,n.4, p.467- 469, 1998.

Mondal, N. C.; Singh, V. P.; Singh, V. S.; Saxena, V. K.Determining the interaction between groundwater andsaline water through groundwater major ions chemistry.Journal of Hidrology, v.388, p.100-111, 2010.

Monteiro, V. P.; Pinheiro, J. C. V. Critério para implantação detecnologias de suprimentos de água potável emmunicípios cearenses afetados pelo alto teor de sal.Revista de Economia e Sociologia Rural, v.42, n.2, p.365-387, 2004.

Nathan, R. J.; MCmahon, T. A. Identification of homogeneousregions for the purposes of regionalization. Journal ofHydrology, v.121, p.217-238, 1990.

Norusis, M. J. SPSS Base system user’s guide. Chicago: SPSSInc, 1990. 520p.

Palácio, H. A. Q.; Andrade, E. M.; Lopes, F. B.; Alexandre, D.M. B.; Arraes, F. D. D. Similaridade da qualidade das águassuperficiais da bacia do Curu, Ceará. Ciência Rural, v.39,n.9, p. 2494-2500, 2009.

Palácio, H. A. Q. Índice de qualidade de água na parte baixada bacia hidrográfica do rio Trussu - CE. Fortaleza: UFC,2004, 95p. Dissertação Mestrado

Pearson, K. On lines and planes of closest fitto systems ofpoints in space. Philos. Mag., v.2, p.559-572, 1901.

Possoli, S. Técnicas de análise multivariada pela avaliação dascondições de saúde dos municípios do Rio Grande do Sul,Brasil. Revista de Saúde Pública, v.18, p.288-300, 1984.

Shoji, H.; Yamanote, T.; Nakamura, T. Factor analysis on streampollution of the Yodo river system. Air & Water Pollution,v. 10, p. 291-299, 1966.

Silveira, S. S.; Andrade, E. M. Análise de componenteprincipal na investigação da estrutura multivariada daevapotranspiração. Engenharia Agrícola, v.22, n.2, p.171-177, 2002.

Singh, K. P.; Mailk, A.; Mohan, D.; Sinha, S. Multivariatestatistical techniques for the evaluation of spatial andtemporal variations in water quality of Gomti River (Índia)- a case study. Water Research, v.38, n.18, p.3980-3992,2004.

Vidal, M.; López, A.; Santoalla, M. C.; Valles, V. Factor analysisfor the study of water resources contamination due to theuse of livestock slurries as fertilizer. Agricultural WaterManagement, v.45, p.1-15, 2000.

Wunderlin, D. A.; Díaz, M del P.; amé, M. V.; Pesce, S. F.; Hued,A. C.; Bistoni, M. de L. A. Pattern recognition techniquesfor the evaluation of spatial and temporal variations inwater quality. A case study: Suquía river basin (Córdoba-Argentina). Water Research, Amsterdam, v.35, n.1, p.2881-2894, 2001.

Sem título-8 26/09/2010, 12:32126