Monitoração de Qualidade de água com o uso de Dados simbólicos Afonso Gustavo Ataide Ferreira

Preview:

Citation preview

Monitoração de Qualidade Monitoração de Qualidade de água com o uso de de água com o uso de

Dados simbólicosDados simbólicos

Afonso Gustavo Ataide FerreiraAfonso Gustavo Ataide Ferreira

CenárioCenário

Preocupação MundialPreocupação Mundial EscassezEscassez Conflitos ArmadosConflitos Armados Mundo volta-se para a qualidade. (IQA)Mundo volta-se para a qualidade. (IQA)

Iniciativas BrasileirasIniciativas Brasileiras ConamaConama ANAANA

RoteiroRoteiro

Estado da ArteEstado da Arte MetodologiaMetodologia ResultadosResultados Conclusões e Trabalhos FuturosConclusões e Trabalhos Futuros

Estado da ArteEstado da Arte

Classificação de Amostras de ÁguaClassificação de Amostras de Água

Classificação de Amostras de ÁguaClassificação de Amostras de Água

CONRADS (MLP x Branch/BLTM)CONRADS (MLP x Branch/BLTM) YONG (SOM x MLP)YONG (SOM x MLP) BARUAH (MLP)BARUAH (MLP)

Estado da ArteEstado da Arte

Análise de Dados SimbólicosAnálise de Dados Simbólicos

Análise de Dados SimbólicosAnálise de Dados Simbólicos

Dado NuméricoDado Numérico Dado CategóricoDado Categórico ConjuntosConjuntos Intervalos NuméricosIntervalos Numéricos Conjuntos associados a pesosConjuntos associados a pesos

Análise de Dados SimbólicosAnálise de Dados Simbólicos

Pessoa Idade Altura(m) Peso(kg) Sexo

W1 18 1,7 95 M

W2 25 1,6 51 F

W3 60 1,58 60 F

W4 14 1,5 55 M

W5 10 1,1 42 F

Grupo Idade Altura (m) Peso (kg) Sexo

G1

{(Pré-adolescente, 2/5), (Adolescente,1/5),

(Adulto, 2/5)}

{(Alto, 1/5), (Médio, 2/5), (Baixo, 1/5) }

{ (Magro, 1/5), (Normal, 3/5),

(Gordo, 1/5) }

{(M, 2/5), (F, 3/5)}

Classificador SimbólicoClassificador Simbólico

Amostras:Amostras:

Espaço:Espaço:

Classificador SimbólicoClassificador Simbólico

Join:Join:

Classificador SimbólicoClassificador Simbólico

Aprendizagem:Aprendizagem: Sem Mutual Neighborhood GraphSem Mutual Neighborhood Graph Mutual Neighborhood Graph:Mutual Neighborhood Graph:

Múltiplas regiões.Múltiplas regiões. Sem interseção com outras classes.Sem interseção com outras classes.

Classificador SimbólicoClassificador Simbólico

Classificação:Classificação:

MetodologiaMetodologia

Coleta de DadosColeta de DadosSeleção de VariáveisSeleção de VariáveisLimpeza dos DadosLimpeza dos DadosAnálise dos DadosAnálise dos Dados

Divisão dos ConjuntosDivisão dos Conjuntos

Coleta de DadosColeta de Dados

Bases da CETESBBases da CETESB 35 Características 35 Características IQA e outros índicesIQA e outros índices onze rios, 239 amostras.onze rios, 239 amostras.

Seleção de VariáveisSeleção de Variáveis

Seleção de VariáveisSeleção de Variáveis

Oxigênio DissolvidosOxigênio Dissolvidos Coliformes FecaisColiformes Fecais Potencial Hidrogeniônico (pH)Potencial Hidrogeniônico (pH) Demanda Bioquímica de OxigênioDemanda Bioquímica de Oxigênio TemperaturaTemperatura Nitrogênio TotalNitrogênio Total Fósforo TotalFósforo Total TurbidezTurbidez Resíduo TotalResíduo Total

Limpeza dos DadosLimpeza dos Dados

Valores não numéricosValores não numéricos Ex: NKT < 0,2Ex: NKT < 0,2

Limpeza dos DadosLimpeza dos Dados

Valores Ausentes:Valores Ausentes: Substituídos pela média da classeSubstituídos pela média da classe

Análise dos DadosAnálise dos Dados

Tamanho do conjuntoTamanho do conjunto

Análise dos DadosAnálise dos Dados

Conjuntos de Treinamento e TesteConjuntos de Treinamento e Teste

Hold-out estratificado (50 – 50)Hold-out estratificado (50 – 50)

Classe Treinamento Teste

C0 10 09

C2 77 77

C3 12 12

C4 21 21

ResultadosResultados

ProtótipoProtótipo

ExperimentosExperimentos

ProtótipoProtótipo

Java J2SE1.5Java J2SE1.5 TanagraTanagra

ExperimentosExperimentos

Classificador Simbólico:Classificador Simbólico: Taxa de Erro: 21,20%Taxa de Erro: 21,20% Desempate: Maior VolumeDesempate: Maior Volume

ExperimentosExperimentos

K-Vizinhos (5-nn)K-Vizinhos (5-nn) Distância: EuclidianaDistância: Euclidiana Taxa de Erro: 28,84%Taxa de Erro: 28,84%

ExperimentosExperimentos

Classificador Simbólico:Classificador Simbólico: Taxa de Erro: 29,63%Taxa de Erro: 29,63% Desempate: Menor VolumeDesempate: Menor Volume

ResultadosResultados

Teste EstatísticoTeste Estatístico 1000 iterações1000 iterações

ConclusõesConclusões

ConclusõesConclusões

Classificador Simbólico um pouco melhor Classificador Simbólico um pouco melhor que o k-vizinhosque o k-vizinhos

Performance ruim em algumas classesPerformance ruim em algumas classes Utilização de MNG aumentou taxa de erro.Utilização de MNG aumentou taxa de erro.

Trabalhos FuturosTrabalhos Futuros

Trabalhos FuturosTrabalhos Futuros

Mudança do formato de RegiãoMudança do formato de Região H-RegionH-Region

Adaptação do algoritmo de MNGAdaptação do algoritmo de MNG Testes com outras bases de DadosTestes com outras bases de Dados

ReferênciasReferências ANA – Agência Nacional de ÁguasANA – Agência Nacional de Águas

Java – Java – http://java.sun.comhttp://java.sun.com

ICHINO, M., YAGUCHI, H. AND DIDAY, E.: A fuzzy symbolic pattern ICHINO, M., YAGUCHI, H. AND DIDAY, E.: A fuzzy symbolic pattern classifier In: Diday, E. et al (Eds.): Ordinal and Symbolic Data classifier In: Diday, E. et al (Eds.): Ordinal and Symbolic Data Analysis. Springer, Berlin, (1996) 92–102Analysis. Springer, Berlin, (1996) 92–102

D’OLIVEIRA, S. T., CARVALHO, F.A.T., SOUZA, R. M. C. R.. D’OLIVEIRA, S. T., CARVALHO, F.A.T., SOUZA, R. M. C. R.. A A Classifier for Quantitative Feature Values Based on a Region Classifier for Quantitative Feature Values Based on a Region Oriented Symbolic Approach. Oriented Symbolic Approach. C. Lemaître, C.A. Reyes, J. A. C. Lemaître, C.A. Reyes, J. A. Gonzalez: IBERAMIA 2004, LNAI 3315 pp. 464-473,2004Gonzalez: IBERAMIA 2004, LNAI 3315 pp. 464-473,2004

TANAGRA. TANAGRA - A Free DATA MINING Software for Teaching TANAGRA. TANAGRA - A Free DATA MINING Software for Teaching and Research. and Research. Disponível em: Disponível em: <http://eric.univ-lyon2.fr/~ricco/tanagra/en/tanagra.html >. Acesso em: <http://eric.univ-lyon2.fr/~ricco/tanagra/en/tanagra.html >. Acesso em: Janeiro 2006.Janeiro 2006.

Recommended