31
Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris

Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris

Embed Size (px)

Citation preview

Page 1: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris

Unsupervised Outlier Detection in Time Series Data

Zakia Ferdousi e Akira Maeda

Apresentação: Adriana Jouris

Page 2: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris

Roteiro

• Introdução• Outliers• Análise do mercado de ações• Objetivo• Peer Group Analysis • Experimentos e Resultados• Conclusões e Trabalhos Futuros

2

Page 3: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris

Introdução

• A detecção de Outlier é fundamental na questão de mineração de dados, especificamente em detecção de fraudes.

• Detectar fraudes significa identificar as transferências fraudulentas suspeitas, ordens e outras atividades ilegais contra a empresa.

3

Page 4: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris

Outliers

• Outliers tenham sido definidas informalmente como observações em um conjunto de dados que parecem ser inconsistentes com o restante daquele conjunto de dados, ou que se afastem tanto de outras observações, a ponto de despertar suspeitas de que foram geradas por um mecanismo diferente.

4

Page 5: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris

Outliers

• A identificação de outliers pode levar à descoberta de conhecimentos úteis e tem uma quantidade de aplicações práticas em áreas tais como:

- a detecção de fraude com cartão de crédito;- análise de desempenho de atletas; - análise de irregularidades em votações;- previsão meteorológica (mau tempo), etc.

5

Page 6: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris

Análise do mercado de ações

• Fraude no mercado de ações & manipuladores• Fraude no mercado de ações normalmente ocorre

quando corretores tentam manipular os seus clientes para negociar ações sem respeitar os interesses reais dos seus próprios clientes

6

Page 7: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris

Análise do mercado de ações

• Por que a detecção de fraude no mercado de ações é necessária?• Vários métodos de detecção de fraudes estão

disponíveis nos campos como o cartão de crédito, telecomunicações, detecções intrusão na rede, etc. Mas área de detecção de fraudes no mercado de ações ainda está atrasada.

7

Page 8: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris

Objetivo

• Identificar IDs do vendedor cuja quantidade de venda aumenta subitamente.

• Identificar IDs do vendedor cuja quantidade cai repentinamente.

8

Page 9: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris

Peer Group Analysis - PGA

• PGA é um método não-supervisionado para monitoramento do comportamento ao longo do tempo na mineração de dados.

• PGA foi proposta para a detecção de fraude em cartões de crédito pela Bolton & Hand, em 2001.

9

Page 10: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris

Peer Group Analysis - PGA

Figura1 – Fluxo de Processo PGA 10

Page 11: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris

Peer Group Analysis - PGA

• PGA encontra as tendências anômalas nos dados, é razoável caracterizar tais dados de uma forma equilibrada através da colocação de dados nos períodos de tempo fixo.

11

Page 12: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris

Peer Group Analysis - PGA

• Após a modelagem de dados adequada torna-se necessário algumas análises estatísticas.

• Em seguida, a tarefa mais importante do método PGA consiste na identificação de “peer group” para todas as observações meta/alvo.

12

Page 13: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris

Peer Group Analysis - PGA

• Peer grups são resumidas em cada ponto de tempo subseqüente e o objeto meta é então comparada com seus resumos dos peer groups.

• As contas desviam de seus peer groups são substancialmente mais sinalizado como outliers para uma investigação mais aprofundada.

13

Page 14: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris

Peer Group Analysis - PGA

• Estes processos de repetição da identificação do peer group para sinalização da conta, desde que recebido tenha sido bom resultado.

14

Page 15: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris

Peer Group Analysis - PGA

• Significado:• A abordagem da PGA é diferente na medida em

que um perfil é formado com base no comportamento de vários usuários similares, ao passo que as atuais técnicas de detecção “outlier”, ao longo do tempo incluem perfis de usuário único.

15

Page 16: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris

Peer Group Analysis - PGA

• Definição• Vamos supor que temos observações em N objetos,

onde cada observação é uma seqüência de valores d, representado por um vetor, X i, de comprimento d. O valor de jth da observação ith, X ij, ocorre em um ponto fixo tempo T j. Deixe PG i (T j) = {Alguns subconjunto de observações (≠X i) que mostram comportamento semelhante ao do Xi em tempo Tj}. Depois GP i (T j) é o peer group do objeto i, em tempo j.

16

Page 17: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris

Peer Group Analysis - PGA

• O parâmetro npeer descreve o número de objetos no peer group e controla efetivamente a sensibilidade da PGA.

• O problema de encontrar um bom número de peers é a fim de encontrar o número correto de vizinhos em uma análise com a vizinhança mais próxima.

17

Page 18: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris

Peer Group Analysis - PGA

• Estatísticas Peer Group• Deixe S ij ser uma estatística resumindo o

comportamento das observações ith (i-ésimo) em um tempo j. Uma vez que temos encontrado o peer group metas/alvos pelas observações X i podemos calcular estatísticas peer group, P ij.

• Essas serão, geralmente, resumos a partir de valores de S ij para os membros do grupo.

18

Page 19: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris

Peer Group Analysis - PGA• O princípio aqui é que o grupo inicialmente fornece um

modelo local, P i1, para S i1, assim caracterizando o comportamento local de X i no momento t 1, e posteriormente irá fornecer modelos, P ij, para S ij, em vez T j, j > 1. Se a nossa observação meta/alvo, S ik, diverge "significativamente" do seu modelo peer group P ik em tempo T k, então nós concluímos que a nossa meta/alvo não estava mais se comportando como seus peers em vez t k. Se o desvio for suficiente grande, então a observação meta/alvo será sinalizada como merecendo investigação.

19

Page 20: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris

Peer Group Analysis - PGA

• Para medir o desvio, da observação peer group nós calculamos a sua distância padronizada a partir do modelo peer group, o exemplo que usamos aqui é uma distância padronizada do centróide do peer group baseada em uma estatística-t. O valor do centróide do peer group é dado pela equação:

20

Page 21: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris

Peer Group Analysis - PGA

21

Page 22: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris

Experimentos

Tabela 1: parâmetros utilizados na configuração experimental

22

Page 23: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris

Dados experimentais

• Conjunto de dados consiste de 3 meses a partir de dados reais 01/06/2005 a 31/08/2005 para a quantidade diariamente de ações vendida para cada um dos 143 corretores, que foram recolhidas da bolsa de valores de Bangladesh (Dhaca). O número total transação é de 340.234.

Aqui nós estabelecemos, d = 14 semanas, N = 143. O comprimento de tempo, w = 5, mas variado npeer para assumir valores npeer = 13 e npeer = 26.

23

Page 24: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris

Dados experimentais

Tabela 2: Transação no mercado de ações

24

Page 25: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris

Resultados experimentais

• Para fins de comparação, nos simulamos PGA sobre transações de ações muitas vezes, alterando o número de peers.

• Os seguintes gráficos ilustram o poder da PGA para detectar anomalias locais nos dados.

25

Page 26: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris

PGA sobre transações de ações, conta # 132

npeer = 13 npeer = 26

26

Page 27: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris

PGA sobre transações de ações, conta # 68

npeer = 13 npeer = 26

27

Page 28: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris

Resultados experimentais

• Nós também calculamos o desvio da observação meta do seu peer group. Se o desvio for suficientemente grande, então a meta observação será sinalizado como merecedor de uma investigação. Os seguintes resultados mostrados aqui são as distâncias entre o centróide padronizada do peer group baseado em uma estatística-t.

28

Page 29: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris

Resultados experimentais

Tabela 3 - Desvio de Contas Alguns Corretores

29

Page 30: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris

Conclusões e Trabalhos Futuros• Identificar IDs comprador cuja quantidade

comprada aumenta subitamente. • Identificar IDS vendedor / comprador que de

repente começa um grande volume de negócio. • Identificar IDs ações se o volume negociado ou

quantidade negociada e preço aumenta de uma forma suspeita.

30

Page 31: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris

FIM

31