38
Medidas de Interesse Mineração de Dados Aluno: Thiago José Marques Moura

Medidas de Interesse

  • Upload
    creda

  • View
    72

  • Download
    0

Embed Size (px)

DESCRIPTION

Medidas de Interesse. Mineração de Dados Aluno: Thiago José Marques Moura. Roteiro. Definição Medidas de interesse para classificação Medidas de interesse para associação Medidas de interesse para generalização Medidas de interesse genêricas Conclusão. Descrição. 1/3. - PowerPoint PPT Presentation

Citation preview

Page 1: Medidas de Interesse

Medidas de Interesse

Mineração de Dados

Aluno: Thiago José Marques Moura

Page 2: Medidas de Interesse

Roteiro

DefiniçãoMedidas de interesse para classificaçãoMedidas de interesse para associaçãoMedidas de interesse para generalizaçãoMedidas de interesse genêricasConclusão.

Page 3: Medidas de Interesse

Descrição

“Um importante problema na área de Data Mining, seria o desenvolvimento de eficientes medidas de

interesse para criar um ranking dos conhecimentos descobertos”

1/3

Page 4: Medidas de Interesse

Definição

Problema de KDD: medidas de interesse para ordenar conhecimentos descobertos”

Tipicamente inúmeros padrões são gerados,mas poucos são realmente interessantes

Medida de interesse: técnicas para ordenar padrões em ordem de interesse decrescente

Page 5: Medidas de Interesse

Descrição

“Tipicamente o número de padrões gerados é muito grande, mas somente alguns desses padrões são

prováveis de possuir algum interesse para o domínio esperado, quando analisamos os dados”

2/3

Page 6: Medidas de Interesse

Descrição

Para aumentar a utilidade, relevância e o proveito de padrões descobertos, técnicas são requeridas para reduzir o números de padrões que precisam ser

considerados. Técnicas que satisfazem esse objetivos são de um modo geral chamadas de

MEDIDAS DE INTERESSE.

3/3

Page 7: Medidas de Interesse

Base de exemplos

Descrição Domínio Atributos

Page 8: Medidas de Interesse

Medidas para classificação

Piats,,JnlnKnnlknl.

Page 9: Medidas de Interesse

Metodo 1

Formula explicação

Page 10: Medidas de Interesse

Metodo 1

Exemplo na base

Page 11: Medidas de Interesse

Comparação das medidas para classificação

Page 12: Medidas de Interesse

Método 1: Função de Regra de Interesse de Piatetsky-Shapiro

-Definição:

A função de regra de interesse é usada para qualificar a correlação entre atributos em uma simples regra de classificação.

1/2

Page 13: Medidas de Interesse

Método 1: Função de Regra de Interesse de Piatetsky-Shapiro

-Regra:

2/2

N - Número total de tuplas

|X| e |Y| - Número de tuplas que satisfazem as condições X e Y (respectivamente).

|X Y| - Número de tuplas que satisfaz XY.

|X||Y|/N – Número de tuplas esperado se X e Y eram independentes.

Page 14: Medidas de Interesse

Método 2: Medida J de Smyth e Goodman

-Definição:

A medida J é a média de informação satisfeita por uma probabilística regra de classificação e é usada para encontrar as melhores regras relacionadas com atributos de valores discretos.

1/2

Page 15: Medidas de Interesse

Método 2: Medida J de Smyth e Goodman

-Regra:

2/2

-Onde:

p(x), p(y) e p(x|y) – são as probabilidades de ocorrência de x, y e x dado y, e o termo entre colchetes é a entropia relativa.

Page 16: Medidas de Interesse

Método 3: Regra de Refinamento de Major e Mangano

-Definição:

É uma estratégia usada para induzir regras de classificação interessantes de um banco de dados de regras de classificação.

-Consiste em 3 fases:

- Identificar potencialmente regras de interesse;

- Identificar tecnicamente regras de interesse;

- Remover regras que não são verdadeiramente interessantes.

Page 17: Medidas de Interesse

Método 4: Medidas de Conjunto de Itens de Agrawal e Srikant

-Definição:

São usadas para identificar ocorrências freqüentes de regras de associação de conjuntos de itens em grandes bancos de dados.

?????????????????????????

Page 18: Medidas de Interesse

Método 5: Templates de Regras de Klemettinen et al.

-Definição:

São usados para descrever um padrão para aqueles atributos que podem aparecer no lado esquerdo ou direito de uma regra de associação.

1/2

Page 19: Medidas de Interesse

Método 5: Templates de Regras de Klemettinen et al.

-Regra:

2/2

Onde:

Cada Ai é um nome de atributo, nome de classe ou uma expressão C+ ou C*, C é o nome da classe.

-Templates de Regras podem ser inclusivo ou restritivo.

Page 20: Medidas de Interesse

Método 6: Salvamento Projetado de Matheus e Piatetsky-Shapiro

-Definição:

Salvamento projetado: é a medida que avalia o impacto financeiro do custo de desvios de alguns valores padronizados ou esperados.

1/2

Page 21: Medidas de Interesse

Método 6: Salvamento Projetado de Matheus e Piatetsky-Shapiro

-Regra:

2/2

PS = PI * SP

Onde PI é o impacto projetado e SP é o percentual de salvamento.

PI = PD * IF

Onde PD é a diferença entre a média corrente do custo e o padronizado ou esperado custo de alguns produtos ou serviços e IF é o fator de impacto.

Page 22: Medidas de Interesse

Método 7: Medidas I de Hamilton e Fudger

-Definição:

São usadas para determinar a importância do conhecimento descoberto, presente na forma de relações generalizadas ou resumidas, baseada sob a estrutura do conceito de hierarquias associadas com os atributos na original relação não generalizada .

1/2

Page 23: Medidas de Interesse

Método 7: Medidas I de Hamilton e Fudger

-Regra:

2/2

Onde:

v é um atributo valor, t(v) é o conceito hierárquico associado com o atributo contendo v, e c(t(v)) é a função que retorna 1 se v é non-ANY, non-leaf, e 0 otherwise. ?????????????????????????????

Page 24: Medidas de Interesse

Método 8: Interesses de Silbershatz e Tuzhilin

-Definição:

Determina a extensão em que a crença de um soft é mudada como um resultado de encontro de novas evidências (ex. conhecimento descoberto).

1/2

Page 25: Medidas de Interesse

Método 8: Interesses de Silbershatz e Tuzhilin

-Regra:

2/2

Onde:

é a crença, E é a nova evidência, é a evidência prévia suportada pela crença , p( | ) é a confidência na crença , e p( |E, ) é a nova confidência na crença dada a nova evidência E.

-É usado o teorema de Bayes para determinar uma nova confidência,

Page 26: Medidas de Interesse

Método 9: Interesses Kamber e Shinghal

-Definição:

Determina o interesse das regras de classificação baseadas sob necessidade e suficiência. Existem 2 tipos de regras de classificação: discriminante e característico. Uma regra discriminante, e h, onde e é a evidência e h a hipótese, resumem as condições suficientes para distinguir uma classe da outra.

1/2

Page 27: Medidas de Interesse

Método 9: Interesses Kamber e Shinghal

-Regra Suficiência:

2/2

-Regra Necessidade:

Page 28: Medidas de Interesse

Método 10: Credibilidade de Hamilton et al.

-Definição:

Determina a extensão com a qual uma classificação prover decisões para todos ou quase todos os possíveis valores de atributos de condições, baseados sob evidências adequadamente suportadas.

1/3

Page 29: Medidas de Interesse

Método 10: Credibilidade de Hamilton et al.

-Regra da Credibilidade:

2/3

Onde:

-E é uma classe equivalente

-C é uma classificação

-QE (C) é a qualidade da classificação C

-I é o número atual de instâncias que suportam a classe equivalente E

-M é o número mínimo de instâncias requeridas por um crédito de classificação

-mim(I/M,1) é o fator que assegura o peso proporcional e é associado a classes equivalentes não suportadas por um número adequado de instâncias.

Page 30: Medidas de Interesse

Método 10: Credibilidade de Hamilton et al.

-Função de Qualidade:

3/3

Onde:

- é o fator de normalização que assegura que QE(C) seja sempre do intervalo [0,1].

-p(E) é a probabilidade de classes equivalentes E.

-p(F|E) é a probabilidade condicional de ocorrência do conceito F dado que E ocorreu.

-p(F) é a probabilidade do conceito F.

Fator de normalização:

Page 31: Medidas de Interesse

Método 11: Distância Métrica de Gago e Bento

-Descrição:

Mede a distância entre duas regras e é usada para determinar as regras que provêem a mais alta cobertura para os dados mostrados.

-Distância Métrica:

Page 32: Medidas de Interesse

Método 12: Interesses de Gray e Orlowska1/2

-Descrição:

É usado para avaliar a força das associações entre os conjuntos de itens de transações. Enquanto suporte e confidência tem sido mostrados para serem úteis para caracterizar regras de associação, interesses contém um componente discriminante que dá uma indicação de independência a um antecedente e conseqüente.

Page 33: Medidas de Interesse

Método 12: Interesses de Gray e Orlowska2/2

-Interesse:

Onde:

-P(XY) é a confidência

-P(X) x P(Y) é o suporte

- é o discriminante

-k e m são parâmetros para o peso da importância relativa do discriminante e suporte a componentes, respectivamente.

Page 34: Medidas de Interesse

Método 13: Interesses de Dong e Li1/3

-Definição:

É usado para avaliar a importância de uma regra de associação considerando ela sem expectativa em termos de outras regras de associação na sua vizinhança.

A vizinhança de uma regra de associação consiste de todas as regras de associação em uma dada distância.

Page 35: Medidas de Interesse

Método 13: Interesses de Dong e Li2/3

-Distância Métrica:

Onde:

-R1 = X1 Y1, R2 = X2 Y2, 1, 2 e 3 são parâmetros de peso da importância relativa para todos os 3 termos

é um operador que denota a diferença simétrica entre X e Y.

-Vizinhança – R é usada para definir o interesse de uma regra:

Page 36: Medidas de Interesse

Método 13: Interesses de Dong e Li3/3

-2 tipos de interesses:

1) Confidência inesperada de interesse:

2) Interesse Isolado:

Page 37: Medidas de Interesse

Método 14: Peculiaridade de Zhong et al.1/2

-Descrição:

Peculiaridade é usado para determinar a extensão de um objeto de dado que difere de outros objetos de dados similares.

Fator de Peculiaridade:

Onde:

- xi e xj são atributos valores

- n é o número de diferença de atributos valores

- N (xi,xj) é a distância conceitual entre xi e xj

Page 38: Medidas de Interesse

Conclusão