Upload
dinhdan
View
217
Download
0
Embed Size (px)
Citation preview
1
Classificação Regionalizada
Uma das mais importantes tarefas em modelagem é resolver problemas por medição de atributos regionalizados.
A classificação multivariada de unidades estratigráficas, perfis de poços ou amostras petrográficas combinada com o conceito de variáveis regionalizadas podem fornecer procedimentos para uma identificação de regiões geográficas homogêneas.
Os resultados podem, então, serem usados para a formulação de hipóteses de trabalho que procurarão explicar os processos que levaram à formação do fenômeno em estudo.
Como os processos na natureza são bastante complexos e a amostragem geralmente não é suficiente, a simplificação da realidade se impõe por meio de modelos.
Classificação regionalizada de amostras geológicas em grupos é um desses modelos simplificadores, segundo o qual os resultados de análises de dados multidimensionais georreferenciados podem ser transferidos para o espaço geográfico real possibilitando mapeamentos.
2
Classificação regionalizada (CR)
Procura-se atribuir, em termos probabilísticos, amostras multivariadas e georreferenciadas à grupos previamente determinados
Primeiro, e fundamental, passo é a definição dos grupos o que pode ser feito por uma manipulação matemática usando, por exemplo, análise de agrupamentos ou por um conhecimento específico “a priori”.
Definido os grupos, as amostras serão submetidas a uma análise discriminante multigrupos e com o auxílio de medidas, como a distância generalizada de Mahalanobis associada à krigagem, verificar a respectiva atribuição para os grupos considerados.
3
CR: principais problemas
Interpretação física (geológica) dos grupos e se os mesmos são espacialmente autocorrelacionados ou não
Atribuição de amostras que não apresentam probabilidades bem definidas de pertencer a um determinado grupo.
4
APLICAÇÃO DA ANÁLISE DISCRIMINANTE À DADOS MULTIVARIADOS REGIONALIZADOS (PACHECO & LANDIM(2005) – TWO-WAY REGIONALIZED CLASSIFICATION OF MULTIVARIATE DATASETS AND ITS APPLICATION TO THE ASSESSMENT OF HYDRODYNAMIC DISPERSON: MATH.GEOLOGY, 37(4):393-417)
Matriz de dados composta por 160 análises geoquímicas de águas subterrâneas, provenientes de Fundão/Portugal com teores em mmol/L dos maiores anions e sílica dissolvida: Cl-
,SO42-, NO3-, HCO3- e SiO2.
Dados já analisados por Pacheco (1998). Segundo esse estudo, que conseguiu identificar águas poluídas e não poluídas, três seriam os fatores controladores: alteração por intemperismo, contaminação agrícola e contaminação doméstica
5
Fundão/Portugal: amostragem
6
2
Matriz de dados
7
Fundão: áreas contaminadas
8
Método aglomerativo: Ward
270
78
583
213
63
219
266
202
236
233
263
262
269
218
59
267
45
243
407
220
424
42
444
404
225
208
41
536
75
463
423
421
420
410
241
434
433
256
251
72
252
242
411
402
573
258
85
74
457
92
61
443
514
60
246
438
427
435
280
525
221
238
226
249
415
96
87
589
458
265
275
235
432
255
278
254
253
257
534
204
210
79
227
212
234
274
272
232
539
99
206
591
237
39
51
268
239
264
32
66
31
248
223
207
244
209
247
84
214
250
245
222
35
71
276
229
574
535
230
215
430
90
76
231
203
205
77
30
28
261
217
86
524
441
425
522
216
453
67
575
447
211
224
406
279
442
452
228
259
530
523
408
277
440
273
260
439
540
271
446
0
20000
40000
60000
80000
100000
120000
140000
160000
Distâ
ncia e
uclidiana
9 10
11
Como os grupos estão discriminados, as amostras pertencentes a cada um deles são dispostas de maneira a indicar a que distâncias estão do seu respectivo centróide.
Para cada caso são utilizadas as funções discriminantes calculadas e em seguida verificado se as classificações originais estavam corretas ou não.
Esse resultado é apresentado em termos probabilísticos.
Como se tem à disposição a coordenada geográfica de cada uma das amostras foram construídos três mapas de probabilidade de ocorrência
12
3
Grupo 1: Probabilidades de distribuição das águas com composição química controlada por fertilizantes agrícolas
13
Grupo 2: Probabilidades de distribuição das águas com composição química controlada por efluente domésticos
14
Grupo 3: Probabilidades de distribuição das águas com composição química controlada pelo intemperismo
15
Esses resultados mostram a aplicação da análise discriminante em dados multivariados georreferenciados, porém, são apresentados três mapas em separados, quando o ideal seria os resultados num único mapa.
Para tanto: aplicação da Classificação Regionalizada.
16
17
A definição inicial dos agrupamentos, denominado natural, foi feita baseada na análise de correspondências, sendo os grupos interpretados em termos de processos e/ou fontes controladores.
Num segundo momento foi feita uma classificação baseada na análise de agrupamentos, com o método de Ward como critério de aglomeração.
Ambos os resultados foram submetidos a uma análise discriminante multigrupos que forneceu a probabilidade de cada amostra pertencer a um dos três grupos considerados
18
4
Escolhendo duas diferentes metodologias para separar os grupos espera-se que as amostras que forem mantidas nos mesmos grupos, independentemente do método, estejam realmente bem classificadas dentro de um certo espaço geográfico.
Aquelas, porem, que mudarem de grupo, conforme o método aplicado, são consideradas como pertencentes a regiões hibridas. 19
Como os dados são geo-referenciados o produto de ambas as Classificações Regionalizadas originam arranjos reticulares regulares com o auxilio de algoritmos estimadores como a krigagem.
Nos nós desses retículos estarão distribuídos espacialmente as amostras identificadas pelos agrupamentos encontrados.
Desse modo pela comparação entre ambos os retículos encontrados faz-se uma análise dos nós.
Havendo coincidência de identificação as amostras permanecem no grupo em questão.
Caso contrario passam a pertencer a um grupo hibrido, ou de transição entre grupos bem caracterizados.
20
Análise de Correspondências, otimizada pela Análise Discriminante, revelou tres agrupamentos naturais com geoquimismo controlado por: intemperismo; efluentes domésticos e fertilizantes.
21
Análise de Agrupamentos, otimizada pela Análise Discriminante, apresentou uma distribuição alternativa dessas mesmas amostras, também em três grupos.
22
Empregando a análise dos nós dos retículos, ou seja, combinando essas duas figuras anteriores obteve-se o resultado final.
O recadastramento dos nós foram obtidos da seguinte maneira:
1) quando os nós da Classificação Regionalizada/primeiro modo apresentaram os mesmos valores (1, 2 e 3, indicando os grupos 1/A, 2/C e 3/B) que os da Classificação Regionalizada/segundo modo esses valores foram mantidos;
2) quando o valor 3 não coincidia, recebia o valor 4 e passou a ser interpretado como mistura entre fertilizante e outras influências;
3) em todos os outros casos o valor passou a 0 e interpretado como mistura de intemperismo e efluentes domésticos.
23
A B C Total w%-Poluição w%-Agricultura
1 88 0 36 124 29.0 35.6
2 1 7 5 13 74.2 36.1
3 12 5 6 23 63.3 64.4
Total 101 12 47 160
w%-Poluição 30.5 78.4 40.8
w%-Agricultura 37.5 56.7 38.7
24
5
Resultado da análise dos nós do reticulado, pela Classificação Regionalizada
25
Análise estatística multivariada com enfoque espacial
A planilha de dados contem valores de 8 variáveis agrícolas (densidade por milha quadrada) obtidas em 73 Municípios de Porto Rico •Número de fazendas (DFRM). •“cuerdas” (1 milha quadrada = 658,94 cuuerdas) de terras ocupadas por fazendas, apresentadas em unidades de 10 (DCD). •Quartos de galão de leite vendido, apresentados em unidades de 4.000 quartos de galão (DMLK). •Toneladas de cana de açúcar colhidas, aparesentadas em unidades de 200 toneladas (DSGR). •Libras de café colhidas (DCF) •Libras de tabaco colhidas, apresentadas em unidades de 200 libras (DTB) •Centenas de bananas colhidas, apresentadas em unidades de 1.000 (DBN). •Famílias vivendo em fazendas (DFAM).
Alem disso são fornecidas as seguintes informações: •Nomes dos Municípios •Classificação administrativa: ADM 1 (Região de San Juan); ADM 2 (Região de Arecibo); ADM 3 (Região de Mayaguez); ADM 4 (Região de Ponce); ADM 5 (Região de Caguas). •Classificação geomorflógica (LND): 0 (Município localizado em terras baixas, litorâneas); 1 (Município localizado em terras altas, no interior). •Classificação urbana (RU): 0 (Município com população <=50% urbana); 1 (Município com população > 50% urbana) •Área do Município •Coordenadas u (=X) e v (=Y) da sede do Município. • U.S. Census of Agriculture and Commonwealth of Puerto Rico (1974-75), Facts and Figures on Puerto Rico's Agriculture (Daniel A. Griffith & Carl G. Amrhein (1997): Multivariate Statistical Analysis for Geographers – Prentice Hall)
30
6
31
Adotada a classificação administrativa: ADM 1 (Região de San Juan); ADM 2 (Região de Arecibo); ADM 3 (Região de Mayaguez); ADM 4 (Região de Ponce); ADM 5 (Região de Caguas) foi efetuada uma Análise discriminante entre os 5 grupos considerados.
32
33
San Juan, Caguas e Arecibo são considerados como grupos não discriminados. Mayaguez e Ponce são grupos discriminados
34
Mayagues e Ponce produzem mais cana e mais café; produzem menos leite e tabaco
35
Análise de Correspondências Múltiplas para verificar as associações entre as regiões e a geomorfologia e as zonas urbanas
36
7
37 38
Associações entre San Juan e zonas urbanas; Mayaguez e zonas rurais; Arecibo e terras litorâneas e Caguas e regiões altas do interior
39
Pela Análise discriminante San Juan, Caguas e Arecibo foram consideradas um único grupo (SCA). Nova análise discriminante entre os 3 grupos
40
41
Mayaguez e Ponce produzem mais cana e mais café e menos tabaco
42 Na nova Análise de Correspondências, SCA esta associada à terras baixas e zona urbana
8
Calvin e Haroldo
43
Os fenômenos naturais não podem ser explicados por crenças. A Matemática não é uma crença. A Matemática pode ser usada para explicar os fenômenos naturais.
44
Teria o Calvin razão? Os métodos multivariados são um milagre? Ao aplica-los a uma matriz de dados surge um resultado. Por magia?
45
1. arenitos praiais 2. arenitos siltosos de canais 3. arenitos siltosos de margem de canais 4. siltitos orgânicos basais 5. lamitos orgânicos
AM: areia média AF: areia fina AMF: areia muito fina SG: silte grosso SM: silte médio SF: silte fino SMF: silte muito fino
Dados granulométricos provenientes de sedimentos de fundo da região de Baratara Bay/Delta do Mississipi, Lousiana/EUA (Krumbein & Aberdeen, 1937).
46
47 48
9
49 50
Os dados são do trabalho clássico de “Fisher, M. (1936). The Use of Multiple Measurements in Taxonomic Problems. Annals of Eugenics, 7:179 -188”. e correspondem à 150 flores de Iris. Foram medidas quatro variáveis (comprimento da sépala, largura da sépala, comprimento da pétala, largura da pétala) em tres espécies Setosa, Versicolor e Virginica. 1) Aplicar a análise de agrupamentos e a análise de
componentes principais considerando todas as tres espécies como um único grupo e verificar se ocorre separação, ou não, entre as tres espécies tendo como base as variáveis medidas.
2) Aplicar análise discriminante para verificar se ocorrem tres grupos discriminados segundo Fisher
Exercício 5: análise multivariada
51 52
53