6
Sistemas de Informação Geográfica II Alexandre Gonçalves DECivil - IST [email protected] Estatística espacial MAUP Autocorrelação Espacial Os dados de locais próximos entre si tendem a ser mais similares que os de locais mais afastados. Primeira lei da geografia, enunciada por Waldo Tobler: «Todas as coisas estão relacionadas entre si, mas as coisas mais próximas [no espaço] têm maior relação que as mais distantes» Exemplos: Preço das casas Altitude Temperatura Estatísticas espaciais Manipulação de informação espacial Operações mais comuns: queries (por atributo ou por localização), medições, sobreposições da análise espacial Análise de dados espaciais: descritiva e exploratória – Visualização Análise estatística espacial: teste de hipóteses Serão os dados “esperados” ou “inesperados” em relação a algum modelo estatístico habitualmente algo é comparado com um processo aleatório Modelação espacial: predição Construção de modelos (de processos) para predizer resultados (padrões) – Análises what if ? Estatística espacial Estatística espacial estatística para entidades com uma distribuição espacial Avalia as propriedades espaciais do conjunto de dados, i.e., distância, padrões de distribuição, etc, etc. Pode ser descritiva ou quantitativa Descritiva: qualifica um padrão de distribuição espacial Quantitativa: avalia e mede um padrão ou relação com outros dados espaciais Medidas de distribuição espacial Análise de padrões Distribuição de padrões de pontos Média do Vizinho mais Próximo (Average Nearest Neighbor) Ripley’s K Diagramas de Voronoi Semivariograma e ferramentas analíticas exploratórias da geoestatística Análise quadrat: comparação de contagens esperadas e verificadas de objetos com áreas de amostragem (quadrats) para testar padrões de distribuição como aleatoriedade e clustering Distribuição de padrões de pontos Contínuos: gradientes e variabilidade local Moran’s I Getis-Ord General G Dados discretos ou categóricos Métricas de paisagem Join count

Autocorrelação Espacial Estatística espacial MAUP ... · agrupamento de unidades espaciais menores pode ser feito, mesmo considerando um nível fixo de agregação. MAUP Efeitos

Embed Size (px)

Citation preview

Sistemas de Informação Geográfica II

Alexandre GonçalvesDECivil - IST

[email protected]

Estatística espacialMAUP

Autocorrelação Espacial

Os dados de locais próximos entre si tendem a ser mais similares que os de locais mais afastados.

Primeira lei da geografia, enunciada por Waldo Tobler: «Todas as coisas estão relacionadas entre si, mas as coisas mais próximas [no espaço] têm maior relação que as mais distantes»

Exemplos:• Preço das casas• Altitude• Temperatura

Estatísticas espaciais

• Manipulação de informação espacial– Operações mais comuns: queries (por atributo ou por

localização), medições, sobreposições da análise espacial– Análise de dados espaciais: descritiva e exploratória– Visualização

• Análise estatística espacial: teste de hipóteses– Serão os dados “esperados” ou “inesperados” em relação a

algum modelo estatístico � habitualmente algo é comparado com um processo aleatório

• Modelação espacial: predição– Construção de modelos (de processos) para predizer resultados

(padrões)– Análises what if ?

Estatística espacial

Estatística espacial ≠ estatística para entidades com uma distribuição espacial

�Avalia as propriedades espaciais do conjunto de dados, i.e., distância, padrões de distribuição, etc, etc.

�Pode ser descritiva ou quantitativa�Descritiva: qualifica um padrão de distribuição

espacial�Quantitativa: avalia e mede um padrão ou relação

com outros dados espaciais

Medidas de distribuição espacial Análise de padrões

• Distribuição de padrões de pontos• Média do Vizinho mais Próximo (Average Nearest Neighbor)• Ripley’s K• Diagramas de Voronoi• Semivariograma e ferramentas analíticas exploratórias da

geoestatística• Análise quadrat: comparação de contagens esperadas e verificadas

de objetos com áreas de amostragem (quadrats) para testar padrões de distribuição como aleatoriedade e clustering

• Distribuição de padrões de pontos– Contínuos: gradientes e variabilidade local

• Moran’s I• Getis-Ord General G

– Dados discretos ou categóricos• Métricas de paisagem• Join count

Average Nearest Neighbor Ripley’s K

• Multi-distance Spatial Cluster Analysis

• Ripley’s K determina se um conjunto de dados está agrupado (clustered) a múltiplas distâncias distintas

• O resultado é uma tabela

• Distância variávelhhhh

h

Ripley’s K

• Conta as entidade em [classes de] distâncias definidas

• Avalia a distribuição espacial (agrupada, uniforme, aleatória)

• Deteta a escala desses padrões em função de intervalos

• Supõe:– Estacionariedade: inexistência de tendências nos dados– Isotropia: sem deteção direcional– Área de estudo regular (raramente encontrada)

Ripley’s K

Ripley’s K Diagrama de Voronoi

Semivariograma

• O variogram teórico 2γ(x,y) é uma função que descreve o grau de dependência espacial de uma processo estocástico Z(x).

• O que é construído é o semivariograma empírico:

onde N(h) denota o conjunto de pares de observações tais que| xi − xj | = h, e | N(h) | é o número de pares de pontos

Semivariograma

Semivariograma

• Range (alcance): distância média na qual a variável permanece espacialmente autocorrelacionada � a extensão das tendências epaciais, distância além da qual a amostragem relvela aleatoriedade

• Sill (patamar): máxima variância dos dados amostrados

• Nugget (pepita): erros de medição ou pequenas variações na distância mínima de amostragem sampling distance

Análise quadrat

• Se a distribuição de pontos pelas células de uma grelha é aleatoria, pode ser modelada pela distribuição de Poisson

• Estatísticas calculáveis– média de pontos por bloco– variância

• Um teste pode ser aplicado (χ2)

• O tamanho e forma das células influencia o resultado

http://www.spatialanalysisonline.com/

Moran’s I (autocorrelação espacial)

• Expressa a semelhança entre entidades vizinhas• Aplicável a grandezas contínuas• Varia de -1 a 1 Positiva

NegativaZero: não se nota efeito espacial, a

variação parece ser aleatória

A distribuição não-aleatória de fenómenos espaciais tem várias consequências para a análise estatística.

Parâmetros de estimação enviesadosRedundância de dados (afecta o cálculo de intervalos de confiança)

Moran’s I (autocorrelação espacial)

Moran’s I (autocorrelação espacial) Getis-Ord General G

• Compara a razão entre o que se iria obter se os valores fossem aleatoriamente distribuídos entre as entidades, com os valores observados

• Mede concentrações de valores altos/baixos• Valor alto = os valores altos estão agrupados• A relação entre os valores observados e os expectáveis deterimana de o

índice geral G é significativo ou não a um nível estatístico• A hipótese nula é “não há clustering”

Getis-Ord General G Getis-Ord General G

Join count statistic

• Aplicável a polígonos, com um atributo binário– O polígono tem ou não tem uma certa característica – Por exemplo, um candidato ganhou ou não

ganahou uma eleição local• Base na análise de polígonos que partilham fronteira

– Os polígonso vizinhos têm a mesma característica?

• Usa matriz de contiguidade

• Estatística de teste: Z = (Obs. – Exp.) / (StDev Exp.)E (JBB)=kpB

2 E (JRR)=kpR2 E (JRB)=2kpBpR k=nº de “joins”

Mesmo valor

de ambos os

lados

Valores

distintos em

cada lado

JRB= 15

JRR= 87

JBB= 24

Correlação Cruzada

• Positiva• Negativa• Zero

MAUP

Área Modificável: As unidades são arbitrariamente definidas e uma organização distinta cria resultados analíticos diferentes.

MAUP

MAUP (cartograma distorcido)

MAUP - Modifiable Areal Unit Problem

As unidades espaciais mínimas são habitualmente artificiais e modificáveis, no sentido em que podem ser combinadas, por agregação, para produzir outras unidades de diferente configuração

As unidades de agregação usadas são arbitrárias em relação ao fenómeno em estudo; e vão afetar as estatísticas feitas a partir de dados com essa configuração

Se as unidades espaciais forem diferentes, observam-se padrões e relações distintas

MAUP

Efeito de escala: valorações distintas de índices estatísticos para os mesmos dados de base quando sujeitos a diferentes níveis de agregação.

Efeito de generalização: evidencia-se através das várias alternativas como o agrupamento de unidades espaciais menores pode ser feito, mesmo considerando um nível fixo de agregação

MAUPEfeitos de escala (B, C, D) e generalização (E, F)

A: m = 18,75 σ2 = 105,00

20 10 10

30 20 20

10 30 10

10 30 10

40

30

10

10

15

25

20

20

20

25

15

C: m = 18,75 σ2 = 22,92

15

25

25

10

10

B: m = 18,75 σ2 = 41,07

18

17,5

20

E: m = 18,875 σ2 = 1,73

20

F: m = 21,84 σ2 = 124,73

10

15,71

26,66

35

D: m = 18,75 σ2 = 98,21

25 15 15 35

10 30 10 10

MAUP

• Gerrymandering: acção de alterar as unidades de base para condicionar resultados

3-1

4-0

2-2

1-3

MAUP

Há problemas em todas as áreas de aplicação

Exemplo, as fronteiras dos círculos eleitorais: quem tem mais votos pode não ficar em 1.º lugar

Soluções?

Dados a um nível mais desagregado � mas até onde?

Optimizar a agregação

� mas como?

Falácia Ecológica

A “Falácia Ecológica” ocorre quando se faz uma inferência sobre um indivíduo com base em informação agregada.

(o oposto é a “Generalização Precipitada”)

(Reference: http://jratcliffe.net/research/ecolfallacy.htm)

Falácia Ecológica

• A falácia ecológica e o MAUP são concretizações do problema denominado Problema de Mudança de Suporte(COSP).

• Há mais termos para descrever COSP particulares e respectivas soluções incluindo o problema de escala, inferência entre sistemas de zona incompatíveis, krigagem por blocos, interpolação picnofilática, etc.