View
114
Download
4
Category
Preview:
Citation preview
Monitoração de Qualidade Monitoração de Qualidade de água com o uso de de água com o uso de
Dados simbólicosDados simbólicos
Afonso Gustavo Ataide FerreiraAfonso Gustavo Ataide Ferreira
CenárioCenário
Preocupação MundialPreocupação Mundial EscassezEscassez Conflitos ArmadosConflitos Armados Mundo volta-se para a qualidade. (IQA)Mundo volta-se para a qualidade. (IQA)
Iniciativas BrasileirasIniciativas Brasileiras ConamaConama ANAANA
RoteiroRoteiro
Estado da ArteEstado da Arte MetodologiaMetodologia ResultadosResultados Conclusões e Trabalhos FuturosConclusões e Trabalhos Futuros
Estado da ArteEstado da Arte
Classificação de Amostras de ÁguaClassificação de Amostras de Água
Classificação de Amostras de ÁguaClassificação de Amostras de Água
CONRADS (MLP x Branch/BLTM)CONRADS (MLP x Branch/BLTM) YONG (SOM x MLP)YONG (SOM x MLP) BARUAH (MLP)BARUAH (MLP)
Estado da ArteEstado da Arte
Análise de Dados SimbólicosAnálise de Dados Simbólicos
Análise de Dados SimbólicosAnálise de Dados Simbólicos
Dado NuméricoDado Numérico Dado CategóricoDado Categórico ConjuntosConjuntos Intervalos NuméricosIntervalos Numéricos Conjuntos associados a pesosConjuntos associados a pesos
Análise de Dados SimbólicosAnálise de Dados Simbólicos
Pessoa Idade Altura(m) Peso(kg) Sexo
W1 18 1,7 95 M
W2 25 1,6 51 F
W3 60 1,58 60 F
W4 14 1,5 55 M
W5 10 1,1 42 F
Grupo Idade Altura (m) Peso (kg) Sexo
G1
{(Pré-adolescente, 2/5), (Adolescente,1/5),
(Adulto, 2/5)}
{(Alto, 1/5), (Médio, 2/5), (Baixo, 1/5) }
{ (Magro, 1/5), (Normal, 3/5),
(Gordo, 1/5) }
{(M, 2/5), (F, 3/5)}
Classificador SimbólicoClassificador Simbólico
Amostras:Amostras:
Espaço:Espaço:
Classificador SimbólicoClassificador Simbólico
Join:Join:
Classificador SimbólicoClassificador Simbólico
Aprendizagem:Aprendizagem: Sem Mutual Neighborhood GraphSem Mutual Neighborhood Graph Mutual Neighborhood Graph:Mutual Neighborhood Graph:
Múltiplas regiões.Múltiplas regiões. Sem interseção com outras classes.Sem interseção com outras classes.
Classificador SimbólicoClassificador Simbólico
Classificação:Classificação:
MetodologiaMetodologia
Coleta de DadosColeta de DadosSeleção de VariáveisSeleção de VariáveisLimpeza dos DadosLimpeza dos DadosAnálise dos DadosAnálise dos Dados
Divisão dos ConjuntosDivisão dos Conjuntos
Coleta de DadosColeta de Dados
Bases da CETESBBases da CETESB 35 Características 35 Características IQA e outros índicesIQA e outros índices onze rios, 239 amostras.onze rios, 239 amostras.
Seleção de VariáveisSeleção de Variáveis
Seleção de VariáveisSeleção de Variáveis
Oxigênio DissolvidosOxigênio Dissolvidos Coliformes FecaisColiformes Fecais Potencial Hidrogeniônico (pH)Potencial Hidrogeniônico (pH) Demanda Bioquímica de OxigênioDemanda Bioquímica de Oxigênio TemperaturaTemperatura Nitrogênio TotalNitrogênio Total Fósforo TotalFósforo Total TurbidezTurbidez Resíduo TotalResíduo Total
Limpeza dos DadosLimpeza dos Dados
Valores não numéricosValores não numéricos Ex: NKT < 0,2Ex: NKT < 0,2
Limpeza dos DadosLimpeza dos Dados
Valores Ausentes:Valores Ausentes: Substituídos pela média da classeSubstituídos pela média da classe
Análise dos DadosAnálise dos Dados
Tamanho do conjuntoTamanho do conjunto
Análise dos DadosAnálise dos Dados
Conjuntos de Treinamento e TesteConjuntos de Treinamento e Teste
Hold-out estratificado (50 – 50)Hold-out estratificado (50 – 50)
Classe Treinamento Teste
C0 10 09
C2 77 77
C3 12 12
C4 21 21
ResultadosResultados
ProtótipoProtótipo
ExperimentosExperimentos
ProtótipoProtótipo
Java J2SE1.5Java J2SE1.5 TanagraTanagra
ExperimentosExperimentos
Classificador Simbólico:Classificador Simbólico: Taxa de Erro: 21,20%Taxa de Erro: 21,20% Desempate: Maior VolumeDesempate: Maior Volume
ExperimentosExperimentos
K-Vizinhos (5-nn)K-Vizinhos (5-nn) Distância: EuclidianaDistância: Euclidiana Taxa de Erro: 28,84%Taxa de Erro: 28,84%
ExperimentosExperimentos
Classificador Simbólico:Classificador Simbólico: Taxa de Erro: 29,63%Taxa de Erro: 29,63% Desempate: Menor VolumeDesempate: Menor Volume
ResultadosResultados
Teste EstatísticoTeste Estatístico 1000 iterações1000 iterações
ConclusõesConclusões
ConclusõesConclusões
Classificador Simbólico um pouco melhor Classificador Simbólico um pouco melhor que o k-vizinhosque o k-vizinhos
Performance ruim em algumas classesPerformance ruim em algumas classes Utilização de MNG aumentou taxa de erro.Utilização de MNG aumentou taxa de erro.
Trabalhos FuturosTrabalhos Futuros
Trabalhos FuturosTrabalhos Futuros
Mudança do formato de RegiãoMudança do formato de Região H-RegionH-Region
Adaptação do algoritmo de MNGAdaptação do algoritmo de MNG Testes com outras bases de DadosTestes com outras bases de Dados
ReferênciasReferências ANA – Agência Nacional de ÁguasANA – Agência Nacional de Águas
Java – Java – http://java.sun.comhttp://java.sun.com
ICHINO, M., YAGUCHI, H. AND DIDAY, E.: A fuzzy symbolic pattern ICHINO, M., YAGUCHI, H. AND DIDAY, E.: A fuzzy symbolic pattern classifier In: Diday, E. et al (Eds.): Ordinal and Symbolic Data classifier In: Diday, E. et al (Eds.): Ordinal and Symbolic Data Analysis. Springer, Berlin, (1996) 92–102Analysis. Springer, Berlin, (1996) 92–102
D’OLIVEIRA, S. T., CARVALHO, F.A.T., SOUZA, R. M. C. R.. D’OLIVEIRA, S. T., CARVALHO, F.A.T., SOUZA, R. M. C. R.. A A Classifier for Quantitative Feature Values Based on a Region Classifier for Quantitative Feature Values Based on a Region Oriented Symbolic Approach. Oriented Symbolic Approach. C. Lemaître, C.A. Reyes, J. A. C. Lemaître, C.A. Reyes, J. A. Gonzalez: IBERAMIA 2004, LNAI 3315 pp. 464-473,2004Gonzalez: IBERAMIA 2004, LNAI 3315 pp. 464-473,2004
TANAGRA. TANAGRA - A Free DATA MINING Software for Teaching TANAGRA. TANAGRA - A Free DATA MINING Software for Teaching and Research. and Research. Disponível em: Disponível em: <http://eric.univ-lyon2.fr/~ricco/tanagra/en/tanagra.html >. Acesso em: <http://eric.univ-lyon2.fr/~ricco/tanagra/en/tanagra.html >. Acesso em: Janeiro 2006.Janeiro 2006.
Recommended