36
Trilha Machine Learning - Mineração de dados em séries temporais para sistemas biométricos Henrique Passos

Trilha Machine Learning - Mineração de dados em séries ...€¦ · Sistemas Biométricos Symbolic representations of time series applied to biometric recognition based on ECG signals

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Trilha Machine Learning - Mineração de dados em séries ...€¦ · Sistemas Biométricos Symbolic representations of time series applied to biometric recognition based on ECG signals

Trilha Machine Learning - Mineração de dados em séries temporais para sistemas biométricos

Henrique Passos

Page 2: Trilha Machine Learning - Mineração de dados em séries ...€¦ · Sistemas Biométricos Symbolic representations of time series applied to biometric recognition based on ECG signals

Mestre em Sistemas de Informação (EACH-USP)Lead consult (Systems Architect, Machine Learning Engineer)Automobilismo (Kart, Virtual)https://www.linkedin.com/in/henrique-s-passos/

Page 3: Trilha Machine Learning - Mineração de dados em séries ...€¦ · Sistemas Biométricos Symbolic representations of time series applied to biometric recognition based on ECG signals

Biometria

Page 4: Trilha Machine Learning - Mineração de dados em séries ...€¦ · Sistemas Biométricos Symbolic representations of time series applied to biometric recognition based on ECG signals

Biometria

Page 5: Trilha Machine Learning - Mineração de dados em séries ...€¦ · Sistemas Biométricos Symbolic representations of time series applied to biometric recognition based on ECG signals

Biometria

Page 6: Trilha Machine Learning - Mineração de dados em séries ...€¦ · Sistemas Biométricos Symbolic representations of time series applied to biometric recognition based on ECG signals

Biometria

P

Q

R

S

T

U

An ecg classifier designed using modified decision based neural networks 1

1[Simon and Eswaran, 1997]

Page 7: Trilha Machine Learning - Mineração de dados em séries ...€¦ · Sistemas Biométricos Symbolic representations of time series applied to biometric recognition based on ECG signals

Biometria

P

Q

R

S

T

U

QRS

P

T

QS

PS

QT

PQ ST

PT

Ecg analysis: a new approach in human identification 2

2[Biel et al., 2001]

Page 8: Trilha Machine Learning - Mineração de dados em séries ...€¦ · Sistemas Biométricos Symbolic representations of time series applied to biometric recognition based on ECG signals

Biometria

Sistema biométrico baseado em sinais de ECG:Pré-processamento de dados brutosExtração de características

Características fiduciaisCaracterísticas não fiduciaisCaracterísticas hibridas

ClassificaçãoIdentificação

Page 9: Trilha Machine Learning - Mineração de dados em séries ...€¦ · Sistemas Biométricos Symbolic representations of time series applied to biometric recognition based on ECG signals

Biometria

Sistema biométrico baseado em sinais de ECG:Pré-processamento de dados brutos (Pan Tompkins)Extração de características

Características fiduciaisCaracterísticas não fiduciaisCaracterísticas hibridas

ClassificaçãoIdentificação

Page 10: Trilha Machine Learning - Mineração de dados em séries ...€¦ · Sistemas Biométricos Symbolic representations of time series applied to biometric recognition based on ECG signals

Biometria

Sistema biométrico baseado em sinais de ECG:Pré-processamento de dados brutos (Pan Tompkins)Extração de características

Características fiduciaisCaracterísticas não fiduciaisCaracterísticas hibridas

Classificação (KNN - distância euclidiana)Identificação

Page 11: Trilha Machine Learning - Mineração de dados em séries ...€¦ · Sistemas Biométricos Symbolic representations of time series applied to biometric recognition based on ECG signals

Biometria

Sistema biométrico baseado em sinais de ECG:Pré-processamento de dados brutos (Pan Tompkins)Extração de características

Características fiduciaisCaracterísticas não fiduciaisCaracterísticas hibridas

Classificação (KNN - distância euclidiana)Identificação (FAR, FRR)

Page 12: Trilha Machine Learning - Mineração de dados em séries ...€¦ · Sistemas Biométricos Symbolic representations of time series applied to biometric recognition based on ECG signals

Biometria

Sistema biométrico baseado em sinais de ECG:Pré-processamento de dados brutos (Pan Tompkins)Extração de características ←

Características fiduciaisCaracterísticas não fiduciaisCaracterísticas hibridas

Classificação (KNN - distância euclidiana)Identificação (FAR, FRR)

Page 13: Trilha Machine Learning - Mineração de dados em séries ...€¦ · Sistemas Biométricos Symbolic representations of time series applied to biometric recognition based on ECG signals

Biometria

Sistema biométrico baseado em sinais de ECG:Pré-processamento de dados brutos (Pan Tompkins)Extração de características ←

Características fiduciaisCaracterísticas não fiduciais ←Características hibridas

Classificação (KNN - distância euclidiana)Identificação (FAR, FRR)

Page 14: Trilha Machine Learning - Mineração de dados em séries ...€¦ · Sistemas Biométricos Symbolic representations of time series applied to biometric recognition based on ECG signals

Representações de séries temporais

Page 15: Trilha Machine Learning - Mineração de dados em séries ...€¦ · Sistemas Biométricos Symbolic representations of time series applied to biometric recognition based on ECG signals

Representações de séries temporais

Time Series Representations

Model Based Data Adaptive Non Data Adaptive Data Dictated

Grid Clipped

Data

Piecewise

Aggregate

Approximation

Chebyshev

Polynomials

Piecewise

Linear

Approximation

Slope

Based

Value

Based

Bi-OrthonormalOrthonormal

Wavelets SpectralRandom

MappingsSingular

Value

Approximation

Discrete

Cosine

Transform

Discrete

Fourier

Transform

SymletsCoi�etsHaar Daubechies

dbn n > 1

Sorted

Coe�cients

Adaptive

Piecewise

Constant

Approximation

Interpolation Regression

Natural

Language

Trees

Symbolic

Aggregate

Approximation

Non

Lower

Bounding

Hidden

Markov

Models

Statistical

Models

Strings

SymbolicPiecewise

Polynomial

Fonte: [Lin et al., 2007]

Page 16: Trilha Machine Learning - Mineração de dados em séries ...€¦ · Sistemas Biométricos Symbolic representations of time series applied to biometric recognition based on ECG signals

Representações de séries temporaisA review on time series data mining 3

0 10 20 30 40 50

Tempo

-2.5

-2

-1.5

-1

-0.5

0

0.5

1

1.5

Am

plit

ude

Mineração de dados em séries temporais3[Fu, 2011]

Page 17: Trilha Machine Learning - Mineração de dados em séries ...€¦ · Sistemas Biométricos Symbolic representations of time series applied to biometric recognition based on ECG signals

Representações de séries temporaisAproximação Agregada por Parte (PAA) 4

0 10 20 30 40 50

Tempo

-2.5

-2

-1.5

-1

-0.5

0

0.5

1

1.5

Am

plit

ud

e

Parâmetros: tamanho do segmento = 54[Keogh et al., 2001]

Page 18: Trilha Machine Learning - Mineração de dados em séries ...€¦ · Sistemas Biométricos Symbolic representations of time series applied to biometric recognition based on ECG signals

Representações de séries temporaisAproximação Agregada Simbólica (SAX) 5

0 10 20 30 40 50

Tempo

-2.5

-2

-1.5

-1

-0.5

0

0.5

1

1.5

2

Am

plit

ude

Parâmetros: tamanho do segmento = 5, alfabeto = 45[Lin et al., 2003]

Page 19: Trilha Machine Learning - Mineração de dados em séries ...€¦ · Sistemas Biométricos Symbolic representations of time series applied to biometric recognition based on ECG signals

Representações de séries temporaisAproximação Agregada Simbólica (SAX) 5

0 10 20 30 40 50

Tempo

-2.5

-2

-1.5

-1

-0.5

0

0.5

1

1.5

2

Am

plit

ude

Parâmetros: tamanho do segmento = 5, alfabeto = 45[Lin et al., 2003]

Page 20: Trilha Machine Learning - Mineração de dados em séries ...€¦ · Sistemas Biométricos Symbolic representations of time series applied to biometric recognition based on ECG signals

Representações de séries temporaisAproximação Agregada Simbólica (SAX) 5

0 10 20 30 40 50

Tempo

-2.5

-2

-1.5

-1

-0.5

0

0.5

1

1.5

2

Am

plit

ude

Parâmetros: tamanho do segmento = 5, alfabeto = 45[Lin et al., 2003]

Page 21: Trilha Machine Learning - Mineração de dados em séries ...€¦ · Sistemas Biométricos Symbolic representations of time series applied to biometric recognition based on ECG signals

Representações de séries temporaisAproximação Agregada Simbólica (SAX) 5

0 10 20 30 40 50

Tempo

-2.5

-2

-1.5

-1

-0.5

0

0.5

1

1.5

2

Am

plit

ude

aa

b

c

d

d

d

cc c

Parâmetros: tamanho do segmento = 5, alfabeto = 45[Lin et al., 2003]

Page 22: Trilha Machine Learning - Mineração de dados em séries ...€¦ · Sistemas Biométricos Symbolic representations of time series applied to biometric recognition based on ECG signals

Representações de séries temporaisAproximação Agregada Simbólica Adaptativa (ASAX) 6

0 10 20 30 40 50

Tempo

-2.5

-2

-1.5

-1

-0.5

0

0.5

1

1.5

Am

plit

ud

e

Centroides

aa

b

b

c

d

c

cc c

Parâmetros: tamanho do segmento = 5, alfabeto = 46[Pham et al., 2010]

Page 23: Trilha Machine Learning - Mineração de dados em séries ...€¦ · Sistemas Biométricos Symbolic representations of time series applied to biometric recognition based on ECG signals

Representações de séries temporaisAproximação Agregada Simbólica baseado em GA (GASAX) 7

0 10 20 30 40 50

Tempo

-2.5

-2

-1.5

-1

-0.5

0

0.5

1

1.5

2

Am

plit

ud

e

aa

b

b

c

d

d

cc c

Parâmetros: tamanho do segmento = 5, alfabeto = 47[Fuad, 2012]

Page 24: Trilha Machine Learning - Mineração de dados em séries ...€¦ · Sistemas Biométricos Symbolic representations of time series applied to biometric recognition based on ECG signals

Representações de séries temporais1D-Aproximação Agregada Simbólica (1DSAX) 8

0 10 20 30 40 50

Tempo

-2.5

-2

-1.5

-1

-0.5

0

0.5

1

1.5

Am

plit

ud

e

Parâmetros: tamanho do segmento = 5, alfabeto = 48[Simon et al., 2013]

Page 25: Trilha Machine Learning - Mineração de dados em séries ...€¦ · Sistemas Biométricos Symbolic representations of time series applied to biometric recognition based on ECG signals

Representações de séries temporaisAproximação Agregada Simbólica baseado em Variância (VWSAX) 9

0 10 20 30 40 50

Tempo

-2.5

-2

-1.5

-1

-0.5

0

0.5

1

1.5

2

Am

plit

ude

aa

b

ST EN

Parâmetros: tamanho do segmento = 5, alfabeto = 4, limiar = 1.29[Sun et al., 2012]

Page 26: Trilha Machine Learning - Mineração de dados em séries ...€¦ · Sistemas Biométricos Symbolic representations of time series applied to biometric recognition based on ECG signals

Sistemas Biométricos

Page 27: Trilha Machine Learning - Mineração de dados em séries ...€¦ · Sistemas Biométricos Symbolic representations of time series applied to biometric recognition based on ECG signals

Sistemas Biométricos

Symbolic representations of time series applied to

biometric recognition based on ECG signals

Henrique dos Santos Passos∗, Felipe Gustavo Silva Teodoro†, Bruno Matarazzo Duru‡,

Edenilton Lima de Oliveira§, Sarajane M. Peres¶ and Clodoaldo A. M. Limak

Information Systems Graduate Program

School of Arts, Science and Humanities

University of São Paulo

São Paulo, SP, Brazil

Email: ∗[email protected], †[email protected], ‡[email protected][email protected], ¶[email protected], [email protected]

Abstract—One reason for researching new biometr ic modalitiesis to improve the capabilities of secur ity systems against threats.Biometr ic modalities based on biomedical signals, in par ticularthe electrocardiogram signal (ECG), have been widely adopted.These can be represented by time ser ies. However, in this

is intentionally removed to prevent a person from being

identif ed. With the increased use of Biometric Systems, these

kinds of attacks are becoming more frequent and some serious

questions are beginning to be raised about this technology.

Page 28: Trilha Machine Learning - Mineração de dados em séries ...€¦ · Sistemas Biométricos Symbolic representations of time series applied to biometric recognition based on ECG signals

Sistemas Biométricos

a) b) c)

d)

e)

SAX

ESAX

SAXTD

CCCCDDCEFC

CCCCDDCEFC

CCCCDDCEFC

f) g)

h)

Page 29: Trilha Machine Learning - Mineração de dados em séries ...€¦ · Sistemas Biométricos Symbolic representations of time series applied to biometric recognition based on ECG signals

Sistemas Biométricos

a) b) c)

d)

e)

SAX

ESAX

SAXTD

CCCCDDCEFC

CCCCDDCEFC

CCCCDDCEFC

f) g)

h)

Page 30: Trilha Machine Learning - Mineração de dados em séries ...€¦ · Sistemas Biométricos Symbolic representations of time series applied to biometric recognition based on ECG signals

Sistemas Biométricos

a) b) c)

d)

e)

SAX

ESAX

SAXTD

CCCCDDCEFC

CCCCDDCEFC

CCCCDDCEFC

f) g)

h)

Page 31: Trilha Machine Learning - Mineração de dados em séries ...€¦ · Sistemas Biométricos Symbolic representations of time series applied to biometric recognition based on ECG signals

Resultados

Resultado obtido pelo Ensemble com BCPSO usando a base de dados PTBResultados do Ensemble por otimização global

Repr. Tx. treino Tx. teste EER Wilcoxon ParâmetroEFD 99.1687 99.0839 69.1219 V - 0.0002 λ = 110;µ = 4;α = 29; ν = 4;κ = 2EFVD 98.0843 97.6312 77.9495 V - 0.0002 λ = 103;µ = 1;α = 62; ν = 8;κ = 2ESAX 96.3916 92.8657 87.3971 V - 0.0002 λ = 50;µ = 4;α = 46; ν = 9;κ = 21EWD 99.8753 99.7502 93.8373 F - 0.2247 λ = 114;µ = 4;α = 36; ν = 1;κ = 1SAXTD 99.0176 99.3060 88.7203 V - 0.0003 λ = 125;µ = 4;α = 47; ν = 2;κ = 4Ensemble 99.8866 99.8334 96.1969 - Representações acima

Resultados do Ensemble por otimização individualRepr. Tx. treino Tx. teste EER Wilcoxon ParâmetroEFD 99.7355 99.5558 44.0178 V - 0.0004 λ = 104;µ = 4;α = 64; ν = 5;κ = 2EFVD 99.7280 99.7779 79.0321 V - 0.0237 λ = 122;µ = 4;α = 54; ν = 5;κ = 2ESAX 99.5126 99.6761 82.4558 V - 0.0006 λ = 123;µ = 4;α = 62; ν = 5;κ = 1EWD 99.9622 99.9260 95.4659 F - 1.0000 λ = 125;µ = 4;α = 4; ν = 1;κ = 1SAXTD 99.5126 99.6854 85.0097 V - 0.0020 λ = 116;µ = 4;α = 57; ν = 1;κ = 1Ensemble 99.9358 99.9260 95.7065 - Representações acima

Page 32: Trilha Machine Learning - Mineração de dados em séries ...€¦ · Sistemas Biométricos Symbolic representations of time series applied to biometric recognition based on ECG signals

Conclusões

Identificação (classificação)FAR/FRR (biométrica)Ensemble x RepresentaçõesAplicações

Page 33: Trilha Machine Learning - Mineração de dados em séries ...€¦ · Sistemas Biométricos Symbolic representations of time series applied to biometric recognition based on ECG signals
Page 34: Trilha Machine Learning - Mineração de dados em séries ...€¦ · Sistemas Biométricos Symbolic representations of time series applied to biometric recognition based on ECG signals

Referências

Biel, L., Pettersson, O., Philipson, L., and Wide, P. (2001).Ecg analysis: a new approach in human identification.Instrumentation and Measurement, IEEE Transactions on, 50(3):808–812.

Fu, T.-c. (2011).A review on time series data mining.Engineering Applications of Artificial Intelligence, 24(1):164–181.

Fuad, M. M. M. (2012).Genetic algorithms-based symbolic aggregate approximation.Springer.

Keogh, E., Chakrabarti, K., Pazzani, M., and Mehrotra, S. (2001).Dimensionality reduction for fast similarity search in large time series databases.Knowledge and information Systems, 3(3):263–286.

Page 35: Trilha Machine Learning - Mineração de dados em séries ...€¦ · Sistemas Biométricos Symbolic representations of time series applied to biometric recognition based on ECG signals

Referências

Lin, J., Keogh, E., Lonardi, S., and Chiu, B. (2003).A symbolic representation of time series, with implications for streaming algorithms.In Proceedings of the 8th ACM SIGMOD workshop on Research issues in data mining andknowledge discovery, pages 2–11. ACM.

Lin, J., Keogh, E., Wei, L., and Lonardi, S. (2007).Experiencing sax: a novel symbolic representation of time series.Data Mining and knowledge discovery, 15(2):107–144.

Pham, N. D., Le, Q. L., and Dang, T. K. (2010).Two novel adaptive symbolic representations for similarity search in time series databases.In Web Conference (APWEB), 2010 12th International Asia-Pacific, pages 181–187. IEEE.

Simon, B. P. and Eswaran, C. (1997).An ecg classifier designed using modified decision based neural networks.Computers and Biomedical Research, 30(4):257–272.

Page 36: Trilha Machine Learning - Mineração de dados em séries ...€¦ · Sistemas Biométricos Symbolic representations of time series applied to biometric recognition based on ECG signals

Referências

Simon, M. et al. (2013).1d-sax; a novel symbolic representation for time series.IDA’13.

Sun, C., Stirling, D., Ritz, C., and Sammut, C. (2012).Variance-wise segmentation for a temporal-adaptive sax.In Proceedings of the Tenth Australasian Data Mining Conference-Volume 134, pages71–77. Australian Computer Society, Inc.