64
Universidade Federal do Paraná Mineração de Dados e Aprendizado de Máquinas. Aurora Trinidad Ramírez Pozo

Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

  • Upload
    lekien

  • View
    237

  • Download
    1

Embed Size (px)

Citation preview

Universidade Federal do Paranaacute

Mineraccedilatildeo de Dados e Aprendizado de Maacutequinas

Aurora Trinidad Ramiacuterez Pozo

Roteiro Overview a Descoberta de

Conhecimento em Bases de Dados

Descoberta de Conhecimento em Bancos de Dados

um crescimento explosivo nos bancos de dados

como interpretar e examinar estes dados

necessidade de novas ferramentas e teacutecnicas para anaacutelise automaacutetica e inteligente de bancos de dados

Descoberta de Conhecimento

Dados

InformaccedilatildeoConhec

$

Volume Valor

agreguem valor aos seus negoacutecios

Posicionamento

Transformar dados

em informaccedilatildeo e conhecimento uacuteteis para o suporte agrave decisatildeo gerenciamento de negoacutecios controle

de produccedilatildeo anaacutelise de mercado ao projeto de

engenharia e exploraccedilatildeo cientiacutefica

KDD

Descoberta de Conhecimento em Bases de Dados

Knowledge Discovery in Databases ferramentas e teacutecnicas empregadas

para anaacutelise automaacutetica e inteligente destes imensos repositoacuterios

Etapas do Processo

O processo de KDD eacute interativo iterativo cognitivo e exploratoacuterio envolvendo vaacuterios passos

muitas decisotildees sendo feitas pelo analista ( especialista do domiacutenio dos dados)

Conhecimento

1 Definiccedilatildeo do tipo de conhecimento a descobrir o que pressupotildee uma compreensatildeo do

domiacutenio da aplicaccedilatildeo bem como do tipo de decisatildeo que tal

conhecimento pode contribuir para melhorar

Seleccedilatildeo

2 Criaccedilatildeo de um conjunto de dados alvo (Selection) selecionar um conjunto de dados ou

focar num subconjunto onde a descoberta deve ser realizada

Limpeza de Dados

3 Preacute-processamento operaccedilotildees baacutesicas tais como remoccedilatildeo de ruiacutedos quando

necessaacuterio coleta da informaccedilatildeo necessaacuteria para

modelar ou estimar ruiacutedo escolha de estrateacutegias para manipular

campos de dados ausentes formataccedilatildeo de dados de forma a

adequaacute-los agrave ferramenta de mineraccedilatildeo

Reduccedilatildeo de dados

4 Projeccedilatildeo (Transformation) localizaccedilatildeo de caracteriacutesticas uacuteteis para representar os dados dependendo do objetivo da tarefa

visando a reduccedilatildeo do nuacutemero de variaacuteveis eou instacircncias a serem consideradas para o conjunto de dados

Mineraccedilatildeo de dados

5 Datamining selecionar os meacutetodos a serem

utilizados para localizar padrotildees nos dados

seguida da efetiva busca por padrotildees de interesse numa forma particular de representaccedilatildeo ou conjunto de representaccedilotildees

busca pelo melhor ajuste dos paracircmetros do algoritmo para a tarefa em questatildeo

Interpretaccedilatildeo

Interpretaccedilatildeo dos padrotildees minerados (Interpretation Evaluation) com um possiacutevel retorno aos passos 1-6 para posterior iteraccedilatildeo

Implantaccedilatildeo

Implantaccedilatildeo do conhecimento descoberto (Knowledge)

incorporar este conhecimento agrave performance do sistema

ou documentaacute-lo e reportaacute-lo agraves partes interessadas

Etapas de KDD [Fayyad et al 1996]

Teacutecnicas e Algoritmos

Bases de dados satildeo altamente suscetiacuteveis a dados ruidosos

erros e valores estranhos incompletos (valores de atributos

ausentes) e inconsistentes (discrepacircncias

semacircnticas)

Teacutecnicas de preacute-processamento e transformaccedilatildeo de dados satildeo aplicadas para aumentar a qualidade e o poder de expressatildeo dos dados a serem minerados

Estas fases tendem a consumir a maior parte do tempo dedicado ao processo de KDD (aproximadamente 70)

Preacute-processamento de Dados Rotinas de limpeza de dados

tentam suprir valores ausentes reduzir discrepacircncias de valores

ruidosos e corrigir inconsistecircncias

Teacutecnicas Valores Ausentes

1Ignorar a tupla2Suprir valores ausentes

a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para

todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo

inferecircncia etc)

As teacutecnicas 2b 2c 2d e 2e podem viciar os dados

A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis

Ruiacutedos nos dados

Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada

A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional

combinadas4 ndash Regressatildeo

Inconsistecircncias

corrigidos manualmente atraveacutes de referecircncias externas

Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos

Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais

O que eacute mineraccedilatildeo de dados

Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou

modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996

Mineraccedilatildeo de dados

Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados

O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados

Teacutecnicasferramentas para apresentar e analisar dados

Mineraccedilatildeo de dados

descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees

Exemplo de conhecimento extraiacutedo

Banco de dados de lojas de produtos eletrocircnicos

OLAP Quantos videogames do tipo XYZ foram vendidos para o

cliente ABC na data ddmmaa

Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo

(compra= videogame) (90) Utilidade estrateacutegias de marketing

Aacutereas de pesquisa relacionadas

Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados

Machine Learning Abordagens

Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais

Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Roteiro Overview a Descoberta de

Conhecimento em Bases de Dados

Descoberta de Conhecimento em Bancos de Dados

um crescimento explosivo nos bancos de dados

como interpretar e examinar estes dados

necessidade de novas ferramentas e teacutecnicas para anaacutelise automaacutetica e inteligente de bancos de dados

Descoberta de Conhecimento

Dados

InformaccedilatildeoConhec

$

Volume Valor

agreguem valor aos seus negoacutecios

Posicionamento

Transformar dados

em informaccedilatildeo e conhecimento uacuteteis para o suporte agrave decisatildeo gerenciamento de negoacutecios controle

de produccedilatildeo anaacutelise de mercado ao projeto de

engenharia e exploraccedilatildeo cientiacutefica

KDD

Descoberta de Conhecimento em Bases de Dados

Knowledge Discovery in Databases ferramentas e teacutecnicas empregadas

para anaacutelise automaacutetica e inteligente destes imensos repositoacuterios

Etapas do Processo

O processo de KDD eacute interativo iterativo cognitivo e exploratoacuterio envolvendo vaacuterios passos

muitas decisotildees sendo feitas pelo analista ( especialista do domiacutenio dos dados)

Conhecimento

1 Definiccedilatildeo do tipo de conhecimento a descobrir o que pressupotildee uma compreensatildeo do

domiacutenio da aplicaccedilatildeo bem como do tipo de decisatildeo que tal

conhecimento pode contribuir para melhorar

Seleccedilatildeo

2 Criaccedilatildeo de um conjunto de dados alvo (Selection) selecionar um conjunto de dados ou

focar num subconjunto onde a descoberta deve ser realizada

Limpeza de Dados

3 Preacute-processamento operaccedilotildees baacutesicas tais como remoccedilatildeo de ruiacutedos quando

necessaacuterio coleta da informaccedilatildeo necessaacuteria para

modelar ou estimar ruiacutedo escolha de estrateacutegias para manipular

campos de dados ausentes formataccedilatildeo de dados de forma a

adequaacute-los agrave ferramenta de mineraccedilatildeo

Reduccedilatildeo de dados

4 Projeccedilatildeo (Transformation) localizaccedilatildeo de caracteriacutesticas uacuteteis para representar os dados dependendo do objetivo da tarefa

visando a reduccedilatildeo do nuacutemero de variaacuteveis eou instacircncias a serem consideradas para o conjunto de dados

Mineraccedilatildeo de dados

5 Datamining selecionar os meacutetodos a serem

utilizados para localizar padrotildees nos dados

seguida da efetiva busca por padrotildees de interesse numa forma particular de representaccedilatildeo ou conjunto de representaccedilotildees

busca pelo melhor ajuste dos paracircmetros do algoritmo para a tarefa em questatildeo

Interpretaccedilatildeo

Interpretaccedilatildeo dos padrotildees minerados (Interpretation Evaluation) com um possiacutevel retorno aos passos 1-6 para posterior iteraccedilatildeo

Implantaccedilatildeo

Implantaccedilatildeo do conhecimento descoberto (Knowledge)

incorporar este conhecimento agrave performance do sistema

ou documentaacute-lo e reportaacute-lo agraves partes interessadas

Etapas de KDD [Fayyad et al 1996]

Teacutecnicas e Algoritmos

Bases de dados satildeo altamente suscetiacuteveis a dados ruidosos

erros e valores estranhos incompletos (valores de atributos

ausentes) e inconsistentes (discrepacircncias

semacircnticas)

Teacutecnicas de preacute-processamento e transformaccedilatildeo de dados satildeo aplicadas para aumentar a qualidade e o poder de expressatildeo dos dados a serem minerados

Estas fases tendem a consumir a maior parte do tempo dedicado ao processo de KDD (aproximadamente 70)

Preacute-processamento de Dados Rotinas de limpeza de dados

tentam suprir valores ausentes reduzir discrepacircncias de valores

ruidosos e corrigir inconsistecircncias

Teacutecnicas Valores Ausentes

1Ignorar a tupla2Suprir valores ausentes

a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para

todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo

inferecircncia etc)

As teacutecnicas 2b 2c 2d e 2e podem viciar os dados

A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis

Ruiacutedos nos dados

Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada

A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional

combinadas4 ndash Regressatildeo

Inconsistecircncias

corrigidos manualmente atraveacutes de referecircncias externas

Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos

Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais

O que eacute mineraccedilatildeo de dados

Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou

modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996

Mineraccedilatildeo de dados

Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados

O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados

Teacutecnicasferramentas para apresentar e analisar dados

Mineraccedilatildeo de dados

descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees

Exemplo de conhecimento extraiacutedo

Banco de dados de lojas de produtos eletrocircnicos

OLAP Quantos videogames do tipo XYZ foram vendidos para o

cliente ABC na data ddmmaa

Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo

(compra= videogame) (90) Utilidade estrateacutegias de marketing

Aacutereas de pesquisa relacionadas

Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados

Machine Learning Abordagens

Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais

Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Descoberta de Conhecimento em Bancos de Dados

um crescimento explosivo nos bancos de dados

como interpretar e examinar estes dados

necessidade de novas ferramentas e teacutecnicas para anaacutelise automaacutetica e inteligente de bancos de dados

Descoberta de Conhecimento

Dados

InformaccedilatildeoConhec

$

Volume Valor

agreguem valor aos seus negoacutecios

Posicionamento

Transformar dados

em informaccedilatildeo e conhecimento uacuteteis para o suporte agrave decisatildeo gerenciamento de negoacutecios controle

de produccedilatildeo anaacutelise de mercado ao projeto de

engenharia e exploraccedilatildeo cientiacutefica

KDD

Descoberta de Conhecimento em Bases de Dados

Knowledge Discovery in Databases ferramentas e teacutecnicas empregadas

para anaacutelise automaacutetica e inteligente destes imensos repositoacuterios

Etapas do Processo

O processo de KDD eacute interativo iterativo cognitivo e exploratoacuterio envolvendo vaacuterios passos

muitas decisotildees sendo feitas pelo analista ( especialista do domiacutenio dos dados)

Conhecimento

1 Definiccedilatildeo do tipo de conhecimento a descobrir o que pressupotildee uma compreensatildeo do

domiacutenio da aplicaccedilatildeo bem como do tipo de decisatildeo que tal

conhecimento pode contribuir para melhorar

Seleccedilatildeo

2 Criaccedilatildeo de um conjunto de dados alvo (Selection) selecionar um conjunto de dados ou

focar num subconjunto onde a descoberta deve ser realizada

Limpeza de Dados

3 Preacute-processamento operaccedilotildees baacutesicas tais como remoccedilatildeo de ruiacutedos quando

necessaacuterio coleta da informaccedilatildeo necessaacuteria para

modelar ou estimar ruiacutedo escolha de estrateacutegias para manipular

campos de dados ausentes formataccedilatildeo de dados de forma a

adequaacute-los agrave ferramenta de mineraccedilatildeo

Reduccedilatildeo de dados

4 Projeccedilatildeo (Transformation) localizaccedilatildeo de caracteriacutesticas uacuteteis para representar os dados dependendo do objetivo da tarefa

visando a reduccedilatildeo do nuacutemero de variaacuteveis eou instacircncias a serem consideradas para o conjunto de dados

Mineraccedilatildeo de dados

5 Datamining selecionar os meacutetodos a serem

utilizados para localizar padrotildees nos dados

seguida da efetiva busca por padrotildees de interesse numa forma particular de representaccedilatildeo ou conjunto de representaccedilotildees

busca pelo melhor ajuste dos paracircmetros do algoritmo para a tarefa em questatildeo

Interpretaccedilatildeo

Interpretaccedilatildeo dos padrotildees minerados (Interpretation Evaluation) com um possiacutevel retorno aos passos 1-6 para posterior iteraccedilatildeo

Implantaccedilatildeo

Implantaccedilatildeo do conhecimento descoberto (Knowledge)

incorporar este conhecimento agrave performance do sistema

ou documentaacute-lo e reportaacute-lo agraves partes interessadas

Etapas de KDD [Fayyad et al 1996]

Teacutecnicas e Algoritmos

Bases de dados satildeo altamente suscetiacuteveis a dados ruidosos

erros e valores estranhos incompletos (valores de atributos

ausentes) e inconsistentes (discrepacircncias

semacircnticas)

Teacutecnicas de preacute-processamento e transformaccedilatildeo de dados satildeo aplicadas para aumentar a qualidade e o poder de expressatildeo dos dados a serem minerados

Estas fases tendem a consumir a maior parte do tempo dedicado ao processo de KDD (aproximadamente 70)

Preacute-processamento de Dados Rotinas de limpeza de dados

tentam suprir valores ausentes reduzir discrepacircncias de valores

ruidosos e corrigir inconsistecircncias

Teacutecnicas Valores Ausentes

1Ignorar a tupla2Suprir valores ausentes

a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para

todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo

inferecircncia etc)

As teacutecnicas 2b 2c 2d e 2e podem viciar os dados

A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis

Ruiacutedos nos dados

Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada

A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional

combinadas4 ndash Regressatildeo

Inconsistecircncias

corrigidos manualmente atraveacutes de referecircncias externas

Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos

Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais

O que eacute mineraccedilatildeo de dados

Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou

modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996

Mineraccedilatildeo de dados

Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados

O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados

Teacutecnicasferramentas para apresentar e analisar dados

Mineraccedilatildeo de dados

descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees

Exemplo de conhecimento extraiacutedo

Banco de dados de lojas de produtos eletrocircnicos

OLAP Quantos videogames do tipo XYZ foram vendidos para o

cliente ABC na data ddmmaa

Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo

(compra= videogame) (90) Utilidade estrateacutegias de marketing

Aacutereas de pesquisa relacionadas

Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados

Machine Learning Abordagens

Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais

Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Descoberta de Conhecimento

Dados

InformaccedilatildeoConhec

$

Volume Valor

agreguem valor aos seus negoacutecios

Posicionamento

Transformar dados

em informaccedilatildeo e conhecimento uacuteteis para o suporte agrave decisatildeo gerenciamento de negoacutecios controle

de produccedilatildeo anaacutelise de mercado ao projeto de

engenharia e exploraccedilatildeo cientiacutefica

KDD

Descoberta de Conhecimento em Bases de Dados

Knowledge Discovery in Databases ferramentas e teacutecnicas empregadas

para anaacutelise automaacutetica e inteligente destes imensos repositoacuterios

Etapas do Processo

O processo de KDD eacute interativo iterativo cognitivo e exploratoacuterio envolvendo vaacuterios passos

muitas decisotildees sendo feitas pelo analista ( especialista do domiacutenio dos dados)

Conhecimento

1 Definiccedilatildeo do tipo de conhecimento a descobrir o que pressupotildee uma compreensatildeo do

domiacutenio da aplicaccedilatildeo bem como do tipo de decisatildeo que tal

conhecimento pode contribuir para melhorar

Seleccedilatildeo

2 Criaccedilatildeo de um conjunto de dados alvo (Selection) selecionar um conjunto de dados ou

focar num subconjunto onde a descoberta deve ser realizada

Limpeza de Dados

3 Preacute-processamento operaccedilotildees baacutesicas tais como remoccedilatildeo de ruiacutedos quando

necessaacuterio coleta da informaccedilatildeo necessaacuteria para

modelar ou estimar ruiacutedo escolha de estrateacutegias para manipular

campos de dados ausentes formataccedilatildeo de dados de forma a

adequaacute-los agrave ferramenta de mineraccedilatildeo

Reduccedilatildeo de dados

4 Projeccedilatildeo (Transformation) localizaccedilatildeo de caracteriacutesticas uacuteteis para representar os dados dependendo do objetivo da tarefa

visando a reduccedilatildeo do nuacutemero de variaacuteveis eou instacircncias a serem consideradas para o conjunto de dados

Mineraccedilatildeo de dados

5 Datamining selecionar os meacutetodos a serem

utilizados para localizar padrotildees nos dados

seguida da efetiva busca por padrotildees de interesse numa forma particular de representaccedilatildeo ou conjunto de representaccedilotildees

busca pelo melhor ajuste dos paracircmetros do algoritmo para a tarefa em questatildeo

Interpretaccedilatildeo

Interpretaccedilatildeo dos padrotildees minerados (Interpretation Evaluation) com um possiacutevel retorno aos passos 1-6 para posterior iteraccedilatildeo

Implantaccedilatildeo

Implantaccedilatildeo do conhecimento descoberto (Knowledge)

incorporar este conhecimento agrave performance do sistema

ou documentaacute-lo e reportaacute-lo agraves partes interessadas

Etapas de KDD [Fayyad et al 1996]

Teacutecnicas e Algoritmos

Bases de dados satildeo altamente suscetiacuteveis a dados ruidosos

erros e valores estranhos incompletos (valores de atributos

ausentes) e inconsistentes (discrepacircncias

semacircnticas)

Teacutecnicas de preacute-processamento e transformaccedilatildeo de dados satildeo aplicadas para aumentar a qualidade e o poder de expressatildeo dos dados a serem minerados

Estas fases tendem a consumir a maior parte do tempo dedicado ao processo de KDD (aproximadamente 70)

Preacute-processamento de Dados Rotinas de limpeza de dados

tentam suprir valores ausentes reduzir discrepacircncias de valores

ruidosos e corrigir inconsistecircncias

Teacutecnicas Valores Ausentes

1Ignorar a tupla2Suprir valores ausentes

a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para

todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo

inferecircncia etc)

As teacutecnicas 2b 2c 2d e 2e podem viciar os dados

A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis

Ruiacutedos nos dados

Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada

A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional

combinadas4 ndash Regressatildeo

Inconsistecircncias

corrigidos manualmente atraveacutes de referecircncias externas

Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos

Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais

O que eacute mineraccedilatildeo de dados

Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou

modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996

Mineraccedilatildeo de dados

Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados

O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados

Teacutecnicasferramentas para apresentar e analisar dados

Mineraccedilatildeo de dados

descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees

Exemplo de conhecimento extraiacutedo

Banco de dados de lojas de produtos eletrocircnicos

OLAP Quantos videogames do tipo XYZ foram vendidos para o

cliente ABC na data ddmmaa

Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo

(compra= videogame) (90) Utilidade estrateacutegias de marketing

Aacutereas de pesquisa relacionadas

Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados

Machine Learning Abordagens

Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais

Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Posicionamento

Transformar dados

em informaccedilatildeo e conhecimento uacuteteis para o suporte agrave decisatildeo gerenciamento de negoacutecios controle

de produccedilatildeo anaacutelise de mercado ao projeto de

engenharia e exploraccedilatildeo cientiacutefica

KDD

Descoberta de Conhecimento em Bases de Dados

Knowledge Discovery in Databases ferramentas e teacutecnicas empregadas

para anaacutelise automaacutetica e inteligente destes imensos repositoacuterios

Etapas do Processo

O processo de KDD eacute interativo iterativo cognitivo e exploratoacuterio envolvendo vaacuterios passos

muitas decisotildees sendo feitas pelo analista ( especialista do domiacutenio dos dados)

Conhecimento

1 Definiccedilatildeo do tipo de conhecimento a descobrir o que pressupotildee uma compreensatildeo do

domiacutenio da aplicaccedilatildeo bem como do tipo de decisatildeo que tal

conhecimento pode contribuir para melhorar

Seleccedilatildeo

2 Criaccedilatildeo de um conjunto de dados alvo (Selection) selecionar um conjunto de dados ou

focar num subconjunto onde a descoberta deve ser realizada

Limpeza de Dados

3 Preacute-processamento operaccedilotildees baacutesicas tais como remoccedilatildeo de ruiacutedos quando

necessaacuterio coleta da informaccedilatildeo necessaacuteria para

modelar ou estimar ruiacutedo escolha de estrateacutegias para manipular

campos de dados ausentes formataccedilatildeo de dados de forma a

adequaacute-los agrave ferramenta de mineraccedilatildeo

Reduccedilatildeo de dados

4 Projeccedilatildeo (Transformation) localizaccedilatildeo de caracteriacutesticas uacuteteis para representar os dados dependendo do objetivo da tarefa

visando a reduccedilatildeo do nuacutemero de variaacuteveis eou instacircncias a serem consideradas para o conjunto de dados

Mineraccedilatildeo de dados

5 Datamining selecionar os meacutetodos a serem

utilizados para localizar padrotildees nos dados

seguida da efetiva busca por padrotildees de interesse numa forma particular de representaccedilatildeo ou conjunto de representaccedilotildees

busca pelo melhor ajuste dos paracircmetros do algoritmo para a tarefa em questatildeo

Interpretaccedilatildeo

Interpretaccedilatildeo dos padrotildees minerados (Interpretation Evaluation) com um possiacutevel retorno aos passos 1-6 para posterior iteraccedilatildeo

Implantaccedilatildeo

Implantaccedilatildeo do conhecimento descoberto (Knowledge)

incorporar este conhecimento agrave performance do sistema

ou documentaacute-lo e reportaacute-lo agraves partes interessadas

Etapas de KDD [Fayyad et al 1996]

Teacutecnicas e Algoritmos

Bases de dados satildeo altamente suscetiacuteveis a dados ruidosos

erros e valores estranhos incompletos (valores de atributos

ausentes) e inconsistentes (discrepacircncias

semacircnticas)

Teacutecnicas de preacute-processamento e transformaccedilatildeo de dados satildeo aplicadas para aumentar a qualidade e o poder de expressatildeo dos dados a serem minerados

Estas fases tendem a consumir a maior parte do tempo dedicado ao processo de KDD (aproximadamente 70)

Preacute-processamento de Dados Rotinas de limpeza de dados

tentam suprir valores ausentes reduzir discrepacircncias de valores

ruidosos e corrigir inconsistecircncias

Teacutecnicas Valores Ausentes

1Ignorar a tupla2Suprir valores ausentes

a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para

todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo

inferecircncia etc)

As teacutecnicas 2b 2c 2d e 2e podem viciar os dados

A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis

Ruiacutedos nos dados

Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada

A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional

combinadas4 ndash Regressatildeo

Inconsistecircncias

corrigidos manualmente atraveacutes de referecircncias externas

Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos

Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais

O que eacute mineraccedilatildeo de dados

Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou

modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996

Mineraccedilatildeo de dados

Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados

O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados

Teacutecnicasferramentas para apresentar e analisar dados

Mineraccedilatildeo de dados

descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees

Exemplo de conhecimento extraiacutedo

Banco de dados de lojas de produtos eletrocircnicos

OLAP Quantos videogames do tipo XYZ foram vendidos para o

cliente ABC na data ddmmaa

Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo

(compra= videogame) (90) Utilidade estrateacutegias de marketing

Aacutereas de pesquisa relacionadas

Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados

Machine Learning Abordagens

Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais

Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Transformar dados

em informaccedilatildeo e conhecimento uacuteteis para o suporte agrave decisatildeo gerenciamento de negoacutecios controle

de produccedilatildeo anaacutelise de mercado ao projeto de

engenharia e exploraccedilatildeo cientiacutefica

KDD

Descoberta de Conhecimento em Bases de Dados

Knowledge Discovery in Databases ferramentas e teacutecnicas empregadas

para anaacutelise automaacutetica e inteligente destes imensos repositoacuterios

Etapas do Processo

O processo de KDD eacute interativo iterativo cognitivo e exploratoacuterio envolvendo vaacuterios passos

muitas decisotildees sendo feitas pelo analista ( especialista do domiacutenio dos dados)

Conhecimento

1 Definiccedilatildeo do tipo de conhecimento a descobrir o que pressupotildee uma compreensatildeo do

domiacutenio da aplicaccedilatildeo bem como do tipo de decisatildeo que tal

conhecimento pode contribuir para melhorar

Seleccedilatildeo

2 Criaccedilatildeo de um conjunto de dados alvo (Selection) selecionar um conjunto de dados ou

focar num subconjunto onde a descoberta deve ser realizada

Limpeza de Dados

3 Preacute-processamento operaccedilotildees baacutesicas tais como remoccedilatildeo de ruiacutedos quando

necessaacuterio coleta da informaccedilatildeo necessaacuteria para

modelar ou estimar ruiacutedo escolha de estrateacutegias para manipular

campos de dados ausentes formataccedilatildeo de dados de forma a

adequaacute-los agrave ferramenta de mineraccedilatildeo

Reduccedilatildeo de dados

4 Projeccedilatildeo (Transformation) localizaccedilatildeo de caracteriacutesticas uacuteteis para representar os dados dependendo do objetivo da tarefa

visando a reduccedilatildeo do nuacutemero de variaacuteveis eou instacircncias a serem consideradas para o conjunto de dados

Mineraccedilatildeo de dados

5 Datamining selecionar os meacutetodos a serem

utilizados para localizar padrotildees nos dados

seguida da efetiva busca por padrotildees de interesse numa forma particular de representaccedilatildeo ou conjunto de representaccedilotildees

busca pelo melhor ajuste dos paracircmetros do algoritmo para a tarefa em questatildeo

Interpretaccedilatildeo

Interpretaccedilatildeo dos padrotildees minerados (Interpretation Evaluation) com um possiacutevel retorno aos passos 1-6 para posterior iteraccedilatildeo

Implantaccedilatildeo

Implantaccedilatildeo do conhecimento descoberto (Knowledge)

incorporar este conhecimento agrave performance do sistema

ou documentaacute-lo e reportaacute-lo agraves partes interessadas

Etapas de KDD [Fayyad et al 1996]

Teacutecnicas e Algoritmos

Bases de dados satildeo altamente suscetiacuteveis a dados ruidosos

erros e valores estranhos incompletos (valores de atributos

ausentes) e inconsistentes (discrepacircncias

semacircnticas)

Teacutecnicas de preacute-processamento e transformaccedilatildeo de dados satildeo aplicadas para aumentar a qualidade e o poder de expressatildeo dos dados a serem minerados

Estas fases tendem a consumir a maior parte do tempo dedicado ao processo de KDD (aproximadamente 70)

Preacute-processamento de Dados Rotinas de limpeza de dados

tentam suprir valores ausentes reduzir discrepacircncias de valores

ruidosos e corrigir inconsistecircncias

Teacutecnicas Valores Ausentes

1Ignorar a tupla2Suprir valores ausentes

a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para

todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo

inferecircncia etc)

As teacutecnicas 2b 2c 2d e 2e podem viciar os dados

A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis

Ruiacutedos nos dados

Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada

A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional

combinadas4 ndash Regressatildeo

Inconsistecircncias

corrigidos manualmente atraveacutes de referecircncias externas

Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos

Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais

O que eacute mineraccedilatildeo de dados

Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou

modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996

Mineraccedilatildeo de dados

Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados

O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados

Teacutecnicasferramentas para apresentar e analisar dados

Mineraccedilatildeo de dados

descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees

Exemplo de conhecimento extraiacutedo

Banco de dados de lojas de produtos eletrocircnicos

OLAP Quantos videogames do tipo XYZ foram vendidos para o

cliente ABC na data ddmmaa

Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo

(compra= videogame) (90) Utilidade estrateacutegias de marketing

Aacutereas de pesquisa relacionadas

Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados

Machine Learning Abordagens

Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais

Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

KDD

Descoberta de Conhecimento em Bases de Dados

Knowledge Discovery in Databases ferramentas e teacutecnicas empregadas

para anaacutelise automaacutetica e inteligente destes imensos repositoacuterios

Etapas do Processo

O processo de KDD eacute interativo iterativo cognitivo e exploratoacuterio envolvendo vaacuterios passos

muitas decisotildees sendo feitas pelo analista ( especialista do domiacutenio dos dados)

Conhecimento

1 Definiccedilatildeo do tipo de conhecimento a descobrir o que pressupotildee uma compreensatildeo do

domiacutenio da aplicaccedilatildeo bem como do tipo de decisatildeo que tal

conhecimento pode contribuir para melhorar

Seleccedilatildeo

2 Criaccedilatildeo de um conjunto de dados alvo (Selection) selecionar um conjunto de dados ou

focar num subconjunto onde a descoberta deve ser realizada

Limpeza de Dados

3 Preacute-processamento operaccedilotildees baacutesicas tais como remoccedilatildeo de ruiacutedos quando

necessaacuterio coleta da informaccedilatildeo necessaacuteria para

modelar ou estimar ruiacutedo escolha de estrateacutegias para manipular

campos de dados ausentes formataccedilatildeo de dados de forma a

adequaacute-los agrave ferramenta de mineraccedilatildeo

Reduccedilatildeo de dados

4 Projeccedilatildeo (Transformation) localizaccedilatildeo de caracteriacutesticas uacuteteis para representar os dados dependendo do objetivo da tarefa

visando a reduccedilatildeo do nuacutemero de variaacuteveis eou instacircncias a serem consideradas para o conjunto de dados

Mineraccedilatildeo de dados

5 Datamining selecionar os meacutetodos a serem

utilizados para localizar padrotildees nos dados

seguida da efetiva busca por padrotildees de interesse numa forma particular de representaccedilatildeo ou conjunto de representaccedilotildees

busca pelo melhor ajuste dos paracircmetros do algoritmo para a tarefa em questatildeo

Interpretaccedilatildeo

Interpretaccedilatildeo dos padrotildees minerados (Interpretation Evaluation) com um possiacutevel retorno aos passos 1-6 para posterior iteraccedilatildeo

Implantaccedilatildeo

Implantaccedilatildeo do conhecimento descoberto (Knowledge)

incorporar este conhecimento agrave performance do sistema

ou documentaacute-lo e reportaacute-lo agraves partes interessadas

Etapas de KDD [Fayyad et al 1996]

Teacutecnicas e Algoritmos

Bases de dados satildeo altamente suscetiacuteveis a dados ruidosos

erros e valores estranhos incompletos (valores de atributos

ausentes) e inconsistentes (discrepacircncias

semacircnticas)

Teacutecnicas de preacute-processamento e transformaccedilatildeo de dados satildeo aplicadas para aumentar a qualidade e o poder de expressatildeo dos dados a serem minerados

Estas fases tendem a consumir a maior parte do tempo dedicado ao processo de KDD (aproximadamente 70)

Preacute-processamento de Dados Rotinas de limpeza de dados

tentam suprir valores ausentes reduzir discrepacircncias de valores

ruidosos e corrigir inconsistecircncias

Teacutecnicas Valores Ausentes

1Ignorar a tupla2Suprir valores ausentes

a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para

todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo

inferecircncia etc)

As teacutecnicas 2b 2c 2d e 2e podem viciar os dados

A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis

Ruiacutedos nos dados

Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada

A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional

combinadas4 ndash Regressatildeo

Inconsistecircncias

corrigidos manualmente atraveacutes de referecircncias externas

Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos

Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais

O que eacute mineraccedilatildeo de dados

Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou

modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996

Mineraccedilatildeo de dados

Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados

O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados

Teacutecnicasferramentas para apresentar e analisar dados

Mineraccedilatildeo de dados

descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees

Exemplo de conhecimento extraiacutedo

Banco de dados de lojas de produtos eletrocircnicos

OLAP Quantos videogames do tipo XYZ foram vendidos para o

cliente ABC na data ddmmaa

Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo

(compra= videogame) (90) Utilidade estrateacutegias de marketing

Aacutereas de pesquisa relacionadas

Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados

Machine Learning Abordagens

Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais

Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Etapas do Processo

O processo de KDD eacute interativo iterativo cognitivo e exploratoacuterio envolvendo vaacuterios passos

muitas decisotildees sendo feitas pelo analista ( especialista do domiacutenio dos dados)

Conhecimento

1 Definiccedilatildeo do tipo de conhecimento a descobrir o que pressupotildee uma compreensatildeo do

domiacutenio da aplicaccedilatildeo bem como do tipo de decisatildeo que tal

conhecimento pode contribuir para melhorar

Seleccedilatildeo

2 Criaccedilatildeo de um conjunto de dados alvo (Selection) selecionar um conjunto de dados ou

focar num subconjunto onde a descoberta deve ser realizada

Limpeza de Dados

3 Preacute-processamento operaccedilotildees baacutesicas tais como remoccedilatildeo de ruiacutedos quando

necessaacuterio coleta da informaccedilatildeo necessaacuteria para

modelar ou estimar ruiacutedo escolha de estrateacutegias para manipular

campos de dados ausentes formataccedilatildeo de dados de forma a

adequaacute-los agrave ferramenta de mineraccedilatildeo

Reduccedilatildeo de dados

4 Projeccedilatildeo (Transformation) localizaccedilatildeo de caracteriacutesticas uacuteteis para representar os dados dependendo do objetivo da tarefa

visando a reduccedilatildeo do nuacutemero de variaacuteveis eou instacircncias a serem consideradas para o conjunto de dados

Mineraccedilatildeo de dados

5 Datamining selecionar os meacutetodos a serem

utilizados para localizar padrotildees nos dados

seguida da efetiva busca por padrotildees de interesse numa forma particular de representaccedilatildeo ou conjunto de representaccedilotildees

busca pelo melhor ajuste dos paracircmetros do algoritmo para a tarefa em questatildeo

Interpretaccedilatildeo

Interpretaccedilatildeo dos padrotildees minerados (Interpretation Evaluation) com um possiacutevel retorno aos passos 1-6 para posterior iteraccedilatildeo

Implantaccedilatildeo

Implantaccedilatildeo do conhecimento descoberto (Knowledge)

incorporar este conhecimento agrave performance do sistema

ou documentaacute-lo e reportaacute-lo agraves partes interessadas

Etapas de KDD [Fayyad et al 1996]

Teacutecnicas e Algoritmos

Bases de dados satildeo altamente suscetiacuteveis a dados ruidosos

erros e valores estranhos incompletos (valores de atributos

ausentes) e inconsistentes (discrepacircncias

semacircnticas)

Teacutecnicas de preacute-processamento e transformaccedilatildeo de dados satildeo aplicadas para aumentar a qualidade e o poder de expressatildeo dos dados a serem minerados

Estas fases tendem a consumir a maior parte do tempo dedicado ao processo de KDD (aproximadamente 70)

Preacute-processamento de Dados Rotinas de limpeza de dados

tentam suprir valores ausentes reduzir discrepacircncias de valores

ruidosos e corrigir inconsistecircncias

Teacutecnicas Valores Ausentes

1Ignorar a tupla2Suprir valores ausentes

a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para

todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo

inferecircncia etc)

As teacutecnicas 2b 2c 2d e 2e podem viciar os dados

A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis

Ruiacutedos nos dados

Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada

A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional

combinadas4 ndash Regressatildeo

Inconsistecircncias

corrigidos manualmente atraveacutes de referecircncias externas

Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos

Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais

O que eacute mineraccedilatildeo de dados

Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou

modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996

Mineraccedilatildeo de dados

Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados

O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados

Teacutecnicasferramentas para apresentar e analisar dados

Mineraccedilatildeo de dados

descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees

Exemplo de conhecimento extraiacutedo

Banco de dados de lojas de produtos eletrocircnicos

OLAP Quantos videogames do tipo XYZ foram vendidos para o

cliente ABC na data ddmmaa

Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo

(compra= videogame) (90) Utilidade estrateacutegias de marketing

Aacutereas de pesquisa relacionadas

Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados

Machine Learning Abordagens

Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais

Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Conhecimento

1 Definiccedilatildeo do tipo de conhecimento a descobrir o que pressupotildee uma compreensatildeo do

domiacutenio da aplicaccedilatildeo bem como do tipo de decisatildeo que tal

conhecimento pode contribuir para melhorar

Seleccedilatildeo

2 Criaccedilatildeo de um conjunto de dados alvo (Selection) selecionar um conjunto de dados ou

focar num subconjunto onde a descoberta deve ser realizada

Limpeza de Dados

3 Preacute-processamento operaccedilotildees baacutesicas tais como remoccedilatildeo de ruiacutedos quando

necessaacuterio coleta da informaccedilatildeo necessaacuteria para

modelar ou estimar ruiacutedo escolha de estrateacutegias para manipular

campos de dados ausentes formataccedilatildeo de dados de forma a

adequaacute-los agrave ferramenta de mineraccedilatildeo

Reduccedilatildeo de dados

4 Projeccedilatildeo (Transformation) localizaccedilatildeo de caracteriacutesticas uacuteteis para representar os dados dependendo do objetivo da tarefa

visando a reduccedilatildeo do nuacutemero de variaacuteveis eou instacircncias a serem consideradas para o conjunto de dados

Mineraccedilatildeo de dados

5 Datamining selecionar os meacutetodos a serem

utilizados para localizar padrotildees nos dados

seguida da efetiva busca por padrotildees de interesse numa forma particular de representaccedilatildeo ou conjunto de representaccedilotildees

busca pelo melhor ajuste dos paracircmetros do algoritmo para a tarefa em questatildeo

Interpretaccedilatildeo

Interpretaccedilatildeo dos padrotildees minerados (Interpretation Evaluation) com um possiacutevel retorno aos passos 1-6 para posterior iteraccedilatildeo

Implantaccedilatildeo

Implantaccedilatildeo do conhecimento descoberto (Knowledge)

incorporar este conhecimento agrave performance do sistema

ou documentaacute-lo e reportaacute-lo agraves partes interessadas

Etapas de KDD [Fayyad et al 1996]

Teacutecnicas e Algoritmos

Bases de dados satildeo altamente suscetiacuteveis a dados ruidosos

erros e valores estranhos incompletos (valores de atributos

ausentes) e inconsistentes (discrepacircncias

semacircnticas)

Teacutecnicas de preacute-processamento e transformaccedilatildeo de dados satildeo aplicadas para aumentar a qualidade e o poder de expressatildeo dos dados a serem minerados

Estas fases tendem a consumir a maior parte do tempo dedicado ao processo de KDD (aproximadamente 70)

Preacute-processamento de Dados Rotinas de limpeza de dados

tentam suprir valores ausentes reduzir discrepacircncias de valores

ruidosos e corrigir inconsistecircncias

Teacutecnicas Valores Ausentes

1Ignorar a tupla2Suprir valores ausentes

a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para

todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo

inferecircncia etc)

As teacutecnicas 2b 2c 2d e 2e podem viciar os dados

A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis

Ruiacutedos nos dados

Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada

A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional

combinadas4 ndash Regressatildeo

Inconsistecircncias

corrigidos manualmente atraveacutes de referecircncias externas

Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos

Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais

O que eacute mineraccedilatildeo de dados

Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou

modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996

Mineraccedilatildeo de dados

Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados

O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados

Teacutecnicasferramentas para apresentar e analisar dados

Mineraccedilatildeo de dados

descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees

Exemplo de conhecimento extraiacutedo

Banco de dados de lojas de produtos eletrocircnicos

OLAP Quantos videogames do tipo XYZ foram vendidos para o

cliente ABC na data ddmmaa

Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo

(compra= videogame) (90) Utilidade estrateacutegias de marketing

Aacutereas de pesquisa relacionadas

Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados

Machine Learning Abordagens

Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais

Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Seleccedilatildeo

2 Criaccedilatildeo de um conjunto de dados alvo (Selection) selecionar um conjunto de dados ou

focar num subconjunto onde a descoberta deve ser realizada

Limpeza de Dados

3 Preacute-processamento operaccedilotildees baacutesicas tais como remoccedilatildeo de ruiacutedos quando

necessaacuterio coleta da informaccedilatildeo necessaacuteria para

modelar ou estimar ruiacutedo escolha de estrateacutegias para manipular

campos de dados ausentes formataccedilatildeo de dados de forma a

adequaacute-los agrave ferramenta de mineraccedilatildeo

Reduccedilatildeo de dados

4 Projeccedilatildeo (Transformation) localizaccedilatildeo de caracteriacutesticas uacuteteis para representar os dados dependendo do objetivo da tarefa

visando a reduccedilatildeo do nuacutemero de variaacuteveis eou instacircncias a serem consideradas para o conjunto de dados

Mineraccedilatildeo de dados

5 Datamining selecionar os meacutetodos a serem

utilizados para localizar padrotildees nos dados

seguida da efetiva busca por padrotildees de interesse numa forma particular de representaccedilatildeo ou conjunto de representaccedilotildees

busca pelo melhor ajuste dos paracircmetros do algoritmo para a tarefa em questatildeo

Interpretaccedilatildeo

Interpretaccedilatildeo dos padrotildees minerados (Interpretation Evaluation) com um possiacutevel retorno aos passos 1-6 para posterior iteraccedilatildeo

Implantaccedilatildeo

Implantaccedilatildeo do conhecimento descoberto (Knowledge)

incorporar este conhecimento agrave performance do sistema

ou documentaacute-lo e reportaacute-lo agraves partes interessadas

Etapas de KDD [Fayyad et al 1996]

Teacutecnicas e Algoritmos

Bases de dados satildeo altamente suscetiacuteveis a dados ruidosos

erros e valores estranhos incompletos (valores de atributos

ausentes) e inconsistentes (discrepacircncias

semacircnticas)

Teacutecnicas de preacute-processamento e transformaccedilatildeo de dados satildeo aplicadas para aumentar a qualidade e o poder de expressatildeo dos dados a serem minerados

Estas fases tendem a consumir a maior parte do tempo dedicado ao processo de KDD (aproximadamente 70)

Preacute-processamento de Dados Rotinas de limpeza de dados

tentam suprir valores ausentes reduzir discrepacircncias de valores

ruidosos e corrigir inconsistecircncias

Teacutecnicas Valores Ausentes

1Ignorar a tupla2Suprir valores ausentes

a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para

todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo

inferecircncia etc)

As teacutecnicas 2b 2c 2d e 2e podem viciar os dados

A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis

Ruiacutedos nos dados

Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada

A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional

combinadas4 ndash Regressatildeo

Inconsistecircncias

corrigidos manualmente atraveacutes de referecircncias externas

Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos

Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais

O que eacute mineraccedilatildeo de dados

Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou

modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996

Mineraccedilatildeo de dados

Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados

O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados

Teacutecnicasferramentas para apresentar e analisar dados

Mineraccedilatildeo de dados

descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees

Exemplo de conhecimento extraiacutedo

Banco de dados de lojas de produtos eletrocircnicos

OLAP Quantos videogames do tipo XYZ foram vendidos para o

cliente ABC na data ddmmaa

Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo

(compra= videogame) (90) Utilidade estrateacutegias de marketing

Aacutereas de pesquisa relacionadas

Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados

Machine Learning Abordagens

Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais

Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Limpeza de Dados

3 Preacute-processamento operaccedilotildees baacutesicas tais como remoccedilatildeo de ruiacutedos quando

necessaacuterio coleta da informaccedilatildeo necessaacuteria para

modelar ou estimar ruiacutedo escolha de estrateacutegias para manipular

campos de dados ausentes formataccedilatildeo de dados de forma a

adequaacute-los agrave ferramenta de mineraccedilatildeo

Reduccedilatildeo de dados

4 Projeccedilatildeo (Transformation) localizaccedilatildeo de caracteriacutesticas uacuteteis para representar os dados dependendo do objetivo da tarefa

visando a reduccedilatildeo do nuacutemero de variaacuteveis eou instacircncias a serem consideradas para o conjunto de dados

Mineraccedilatildeo de dados

5 Datamining selecionar os meacutetodos a serem

utilizados para localizar padrotildees nos dados

seguida da efetiva busca por padrotildees de interesse numa forma particular de representaccedilatildeo ou conjunto de representaccedilotildees

busca pelo melhor ajuste dos paracircmetros do algoritmo para a tarefa em questatildeo

Interpretaccedilatildeo

Interpretaccedilatildeo dos padrotildees minerados (Interpretation Evaluation) com um possiacutevel retorno aos passos 1-6 para posterior iteraccedilatildeo

Implantaccedilatildeo

Implantaccedilatildeo do conhecimento descoberto (Knowledge)

incorporar este conhecimento agrave performance do sistema

ou documentaacute-lo e reportaacute-lo agraves partes interessadas

Etapas de KDD [Fayyad et al 1996]

Teacutecnicas e Algoritmos

Bases de dados satildeo altamente suscetiacuteveis a dados ruidosos

erros e valores estranhos incompletos (valores de atributos

ausentes) e inconsistentes (discrepacircncias

semacircnticas)

Teacutecnicas de preacute-processamento e transformaccedilatildeo de dados satildeo aplicadas para aumentar a qualidade e o poder de expressatildeo dos dados a serem minerados

Estas fases tendem a consumir a maior parte do tempo dedicado ao processo de KDD (aproximadamente 70)

Preacute-processamento de Dados Rotinas de limpeza de dados

tentam suprir valores ausentes reduzir discrepacircncias de valores

ruidosos e corrigir inconsistecircncias

Teacutecnicas Valores Ausentes

1Ignorar a tupla2Suprir valores ausentes

a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para

todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo

inferecircncia etc)

As teacutecnicas 2b 2c 2d e 2e podem viciar os dados

A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis

Ruiacutedos nos dados

Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada

A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional

combinadas4 ndash Regressatildeo

Inconsistecircncias

corrigidos manualmente atraveacutes de referecircncias externas

Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos

Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais

O que eacute mineraccedilatildeo de dados

Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou

modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996

Mineraccedilatildeo de dados

Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados

O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados

Teacutecnicasferramentas para apresentar e analisar dados

Mineraccedilatildeo de dados

descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees

Exemplo de conhecimento extraiacutedo

Banco de dados de lojas de produtos eletrocircnicos

OLAP Quantos videogames do tipo XYZ foram vendidos para o

cliente ABC na data ddmmaa

Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo

(compra= videogame) (90) Utilidade estrateacutegias de marketing

Aacutereas de pesquisa relacionadas

Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados

Machine Learning Abordagens

Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais

Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Reduccedilatildeo de dados

4 Projeccedilatildeo (Transformation) localizaccedilatildeo de caracteriacutesticas uacuteteis para representar os dados dependendo do objetivo da tarefa

visando a reduccedilatildeo do nuacutemero de variaacuteveis eou instacircncias a serem consideradas para o conjunto de dados

Mineraccedilatildeo de dados

5 Datamining selecionar os meacutetodos a serem

utilizados para localizar padrotildees nos dados

seguida da efetiva busca por padrotildees de interesse numa forma particular de representaccedilatildeo ou conjunto de representaccedilotildees

busca pelo melhor ajuste dos paracircmetros do algoritmo para a tarefa em questatildeo

Interpretaccedilatildeo

Interpretaccedilatildeo dos padrotildees minerados (Interpretation Evaluation) com um possiacutevel retorno aos passos 1-6 para posterior iteraccedilatildeo

Implantaccedilatildeo

Implantaccedilatildeo do conhecimento descoberto (Knowledge)

incorporar este conhecimento agrave performance do sistema

ou documentaacute-lo e reportaacute-lo agraves partes interessadas

Etapas de KDD [Fayyad et al 1996]

Teacutecnicas e Algoritmos

Bases de dados satildeo altamente suscetiacuteveis a dados ruidosos

erros e valores estranhos incompletos (valores de atributos

ausentes) e inconsistentes (discrepacircncias

semacircnticas)

Teacutecnicas de preacute-processamento e transformaccedilatildeo de dados satildeo aplicadas para aumentar a qualidade e o poder de expressatildeo dos dados a serem minerados

Estas fases tendem a consumir a maior parte do tempo dedicado ao processo de KDD (aproximadamente 70)

Preacute-processamento de Dados Rotinas de limpeza de dados

tentam suprir valores ausentes reduzir discrepacircncias de valores

ruidosos e corrigir inconsistecircncias

Teacutecnicas Valores Ausentes

1Ignorar a tupla2Suprir valores ausentes

a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para

todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo

inferecircncia etc)

As teacutecnicas 2b 2c 2d e 2e podem viciar os dados

A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis

Ruiacutedos nos dados

Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada

A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional

combinadas4 ndash Regressatildeo

Inconsistecircncias

corrigidos manualmente atraveacutes de referecircncias externas

Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos

Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais

O que eacute mineraccedilatildeo de dados

Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou

modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996

Mineraccedilatildeo de dados

Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados

O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados

Teacutecnicasferramentas para apresentar e analisar dados

Mineraccedilatildeo de dados

descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees

Exemplo de conhecimento extraiacutedo

Banco de dados de lojas de produtos eletrocircnicos

OLAP Quantos videogames do tipo XYZ foram vendidos para o

cliente ABC na data ddmmaa

Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo

(compra= videogame) (90) Utilidade estrateacutegias de marketing

Aacutereas de pesquisa relacionadas

Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados

Machine Learning Abordagens

Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais

Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Mineraccedilatildeo de dados

5 Datamining selecionar os meacutetodos a serem

utilizados para localizar padrotildees nos dados

seguida da efetiva busca por padrotildees de interesse numa forma particular de representaccedilatildeo ou conjunto de representaccedilotildees

busca pelo melhor ajuste dos paracircmetros do algoritmo para a tarefa em questatildeo

Interpretaccedilatildeo

Interpretaccedilatildeo dos padrotildees minerados (Interpretation Evaluation) com um possiacutevel retorno aos passos 1-6 para posterior iteraccedilatildeo

Implantaccedilatildeo

Implantaccedilatildeo do conhecimento descoberto (Knowledge)

incorporar este conhecimento agrave performance do sistema

ou documentaacute-lo e reportaacute-lo agraves partes interessadas

Etapas de KDD [Fayyad et al 1996]

Teacutecnicas e Algoritmos

Bases de dados satildeo altamente suscetiacuteveis a dados ruidosos

erros e valores estranhos incompletos (valores de atributos

ausentes) e inconsistentes (discrepacircncias

semacircnticas)

Teacutecnicas de preacute-processamento e transformaccedilatildeo de dados satildeo aplicadas para aumentar a qualidade e o poder de expressatildeo dos dados a serem minerados

Estas fases tendem a consumir a maior parte do tempo dedicado ao processo de KDD (aproximadamente 70)

Preacute-processamento de Dados Rotinas de limpeza de dados

tentam suprir valores ausentes reduzir discrepacircncias de valores

ruidosos e corrigir inconsistecircncias

Teacutecnicas Valores Ausentes

1Ignorar a tupla2Suprir valores ausentes

a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para

todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo

inferecircncia etc)

As teacutecnicas 2b 2c 2d e 2e podem viciar os dados

A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis

Ruiacutedos nos dados

Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada

A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional

combinadas4 ndash Regressatildeo

Inconsistecircncias

corrigidos manualmente atraveacutes de referecircncias externas

Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos

Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais

O que eacute mineraccedilatildeo de dados

Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou

modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996

Mineraccedilatildeo de dados

Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados

O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados

Teacutecnicasferramentas para apresentar e analisar dados

Mineraccedilatildeo de dados

descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees

Exemplo de conhecimento extraiacutedo

Banco de dados de lojas de produtos eletrocircnicos

OLAP Quantos videogames do tipo XYZ foram vendidos para o

cliente ABC na data ddmmaa

Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo

(compra= videogame) (90) Utilidade estrateacutegias de marketing

Aacutereas de pesquisa relacionadas

Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados

Machine Learning Abordagens

Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais

Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Interpretaccedilatildeo

Interpretaccedilatildeo dos padrotildees minerados (Interpretation Evaluation) com um possiacutevel retorno aos passos 1-6 para posterior iteraccedilatildeo

Implantaccedilatildeo

Implantaccedilatildeo do conhecimento descoberto (Knowledge)

incorporar este conhecimento agrave performance do sistema

ou documentaacute-lo e reportaacute-lo agraves partes interessadas

Etapas de KDD [Fayyad et al 1996]

Teacutecnicas e Algoritmos

Bases de dados satildeo altamente suscetiacuteveis a dados ruidosos

erros e valores estranhos incompletos (valores de atributos

ausentes) e inconsistentes (discrepacircncias

semacircnticas)

Teacutecnicas de preacute-processamento e transformaccedilatildeo de dados satildeo aplicadas para aumentar a qualidade e o poder de expressatildeo dos dados a serem minerados

Estas fases tendem a consumir a maior parte do tempo dedicado ao processo de KDD (aproximadamente 70)

Preacute-processamento de Dados Rotinas de limpeza de dados

tentam suprir valores ausentes reduzir discrepacircncias de valores

ruidosos e corrigir inconsistecircncias

Teacutecnicas Valores Ausentes

1Ignorar a tupla2Suprir valores ausentes

a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para

todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo

inferecircncia etc)

As teacutecnicas 2b 2c 2d e 2e podem viciar os dados

A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis

Ruiacutedos nos dados

Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada

A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional

combinadas4 ndash Regressatildeo

Inconsistecircncias

corrigidos manualmente atraveacutes de referecircncias externas

Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos

Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais

O que eacute mineraccedilatildeo de dados

Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou

modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996

Mineraccedilatildeo de dados

Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados

O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados

Teacutecnicasferramentas para apresentar e analisar dados

Mineraccedilatildeo de dados

descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees

Exemplo de conhecimento extraiacutedo

Banco de dados de lojas de produtos eletrocircnicos

OLAP Quantos videogames do tipo XYZ foram vendidos para o

cliente ABC na data ddmmaa

Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo

(compra= videogame) (90) Utilidade estrateacutegias de marketing

Aacutereas de pesquisa relacionadas

Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados

Machine Learning Abordagens

Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais

Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Implantaccedilatildeo

Implantaccedilatildeo do conhecimento descoberto (Knowledge)

incorporar este conhecimento agrave performance do sistema

ou documentaacute-lo e reportaacute-lo agraves partes interessadas

Etapas de KDD [Fayyad et al 1996]

Teacutecnicas e Algoritmos

Bases de dados satildeo altamente suscetiacuteveis a dados ruidosos

erros e valores estranhos incompletos (valores de atributos

ausentes) e inconsistentes (discrepacircncias

semacircnticas)

Teacutecnicas de preacute-processamento e transformaccedilatildeo de dados satildeo aplicadas para aumentar a qualidade e o poder de expressatildeo dos dados a serem minerados

Estas fases tendem a consumir a maior parte do tempo dedicado ao processo de KDD (aproximadamente 70)

Preacute-processamento de Dados Rotinas de limpeza de dados

tentam suprir valores ausentes reduzir discrepacircncias de valores

ruidosos e corrigir inconsistecircncias

Teacutecnicas Valores Ausentes

1Ignorar a tupla2Suprir valores ausentes

a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para

todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo

inferecircncia etc)

As teacutecnicas 2b 2c 2d e 2e podem viciar os dados

A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis

Ruiacutedos nos dados

Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada

A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional

combinadas4 ndash Regressatildeo

Inconsistecircncias

corrigidos manualmente atraveacutes de referecircncias externas

Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos

Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais

O que eacute mineraccedilatildeo de dados

Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou

modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996

Mineraccedilatildeo de dados

Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados

O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados

Teacutecnicasferramentas para apresentar e analisar dados

Mineraccedilatildeo de dados

descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees

Exemplo de conhecimento extraiacutedo

Banco de dados de lojas de produtos eletrocircnicos

OLAP Quantos videogames do tipo XYZ foram vendidos para o

cliente ABC na data ddmmaa

Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo

(compra= videogame) (90) Utilidade estrateacutegias de marketing

Aacutereas de pesquisa relacionadas

Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados

Machine Learning Abordagens

Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais

Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Etapas de KDD [Fayyad et al 1996]

Teacutecnicas e Algoritmos

Bases de dados satildeo altamente suscetiacuteveis a dados ruidosos

erros e valores estranhos incompletos (valores de atributos

ausentes) e inconsistentes (discrepacircncias

semacircnticas)

Teacutecnicas de preacute-processamento e transformaccedilatildeo de dados satildeo aplicadas para aumentar a qualidade e o poder de expressatildeo dos dados a serem minerados

Estas fases tendem a consumir a maior parte do tempo dedicado ao processo de KDD (aproximadamente 70)

Preacute-processamento de Dados Rotinas de limpeza de dados

tentam suprir valores ausentes reduzir discrepacircncias de valores

ruidosos e corrigir inconsistecircncias

Teacutecnicas Valores Ausentes

1Ignorar a tupla2Suprir valores ausentes

a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para

todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo

inferecircncia etc)

As teacutecnicas 2b 2c 2d e 2e podem viciar os dados

A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis

Ruiacutedos nos dados

Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada

A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional

combinadas4 ndash Regressatildeo

Inconsistecircncias

corrigidos manualmente atraveacutes de referecircncias externas

Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos

Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais

O que eacute mineraccedilatildeo de dados

Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou

modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996

Mineraccedilatildeo de dados

Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados

O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados

Teacutecnicasferramentas para apresentar e analisar dados

Mineraccedilatildeo de dados

descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees

Exemplo de conhecimento extraiacutedo

Banco de dados de lojas de produtos eletrocircnicos

OLAP Quantos videogames do tipo XYZ foram vendidos para o

cliente ABC na data ddmmaa

Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo

(compra= videogame) (90) Utilidade estrateacutegias de marketing

Aacutereas de pesquisa relacionadas

Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados

Machine Learning Abordagens

Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais

Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Teacutecnicas e Algoritmos

Bases de dados satildeo altamente suscetiacuteveis a dados ruidosos

erros e valores estranhos incompletos (valores de atributos

ausentes) e inconsistentes (discrepacircncias

semacircnticas)

Teacutecnicas de preacute-processamento e transformaccedilatildeo de dados satildeo aplicadas para aumentar a qualidade e o poder de expressatildeo dos dados a serem minerados

Estas fases tendem a consumir a maior parte do tempo dedicado ao processo de KDD (aproximadamente 70)

Preacute-processamento de Dados Rotinas de limpeza de dados

tentam suprir valores ausentes reduzir discrepacircncias de valores

ruidosos e corrigir inconsistecircncias

Teacutecnicas Valores Ausentes

1Ignorar a tupla2Suprir valores ausentes

a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para

todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo

inferecircncia etc)

As teacutecnicas 2b 2c 2d e 2e podem viciar os dados

A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis

Ruiacutedos nos dados

Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada

A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional

combinadas4 ndash Regressatildeo

Inconsistecircncias

corrigidos manualmente atraveacutes de referecircncias externas

Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos

Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais

O que eacute mineraccedilatildeo de dados

Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou

modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996

Mineraccedilatildeo de dados

Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados

O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados

Teacutecnicasferramentas para apresentar e analisar dados

Mineraccedilatildeo de dados

descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees

Exemplo de conhecimento extraiacutedo

Banco de dados de lojas de produtos eletrocircnicos

OLAP Quantos videogames do tipo XYZ foram vendidos para o

cliente ABC na data ddmmaa

Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo

(compra= videogame) (90) Utilidade estrateacutegias de marketing

Aacutereas de pesquisa relacionadas

Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados

Machine Learning Abordagens

Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais

Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Teacutecnicas de preacute-processamento e transformaccedilatildeo de dados satildeo aplicadas para aumentar a qualidade e o poder de expressatildeo dos dados a serem minerados

Estas fases tendem a consumir a maior parte do tempo dedicado ao processo de KDD (aproximadamente 70)

Preacute-processamento de Dados Rotinas de limpeza de dados

tentam suprir valores ausentes reduzir discrepacircncias de valores

ruidosos e corrigir inconsistecircncias

Teacutecnicas Valores Ausentes

1Ignorar a tupla2Suprir valores ausentes

a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para

todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo

inferecircncia etc)

As teacutecnicas 2b 2c 2d e 2e podem viciar os dados

A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis

Ruiacutedos nos dados

Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada

A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional

combinadas4 ndash Regressatildeo

Inconsistecircncias

corrigidos manualmente atraveacutes de referecircncias externas

Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos

Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais

O que eacute mineraccedilatildeo de dados

Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou

modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996

Mineraccedilatildeo de dados

Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados

O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados

Teacutecnicasferramentas para apresentar e analisar dados

Mineraccedilatildeo de dados

descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees

Exemplo de conhecimento extraiacutedo

Banco de dados de lojas de produtos eletrocircnicos

OLAP Quantos videogames do tipo XYZ foram vendidos para o

cliente ABC na data ddmmaa

Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo

(compra= videogame) (90) Utilidade estrateacutegias de marketing

Aacutereas de pesquisa relacionadas

Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados

Machine Learning Abordagens

Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais

Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Preacute-processamento de Dados Rotinas de limpeza de dados

tentam suprir valores ausentes reduzir discrepacircncias de valores

ruidosos e corrigir inconsistecircncias

Teacutecnicas Valores Ausentes

1Ignorar a tupla2Suprir valores ausentes

a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para

todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo

inferecircncia etc)

As teacutecnicas 2b 2c 2d e 2e podem viciar os dados

A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis

Ruiacutedos nos dados

Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada

A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional

combinadas4 ndash Regressatildeo

Inconsistecircncias

corrigidos manualmente atraveacutes de referecircncias externas

Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos

Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais

O que eacute mineraccedilatildeo de dados

Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou

modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996

Mineraccedilatildeo de dados

Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados

O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados

Teacutecnicasferramentas para apresentar e analisar dados

Mineraccedilatildeo de dados

descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees

Exemplo de conhecimento extraiacutedo

Banco de dados de lojas de produtos eletrocircnicos

OLAP Quantos videogames do tipo XYZ foram vendidos para o

cliente ABC na data ddmmaa

Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo

(compra= videogame) (90) Utilidade estrateacutegias de marketing

Aacutereas de pesquisa relacionadas

Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados

Machine Learning Abordagens

Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais

Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Teacutecnicas Valores Ausentes

1Ignorar a tupla2Suprir valores ausentes

a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para

todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo

inferecircncia etc)

As teacutecnicas 2b 2c 2d e 2e podem viciar os dados

A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis

Ruiacutedos nos dados

Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada

A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional

combinadas4 ndash Regressatildeo

Inconsistecircncias

corrigidos manualmente atraveacutes de referecircncias externas

Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos

Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais

O que eacute mineraccedilatildeo de dados

Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou

modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996

Mineraccedilatildeo de dados

Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados

O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados

Teacutecnicasferramentas para apresentar e analisar dados

Mineraccedilatildeo de dados

descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees

Exemplo de conhecimento extraiacutedo

Banco de dados de lojas de produtos eletrocircnicos

OLAP Quantos videogames do tipo XYZ foram vendidos para o

cliente ABC na data ddmmaa

Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo

(compra= videogame) (90) Utilidade estrateacutegias de marketing

Aacutereas de pesquisa relacionadas

Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados

Machine Learning Abordagens

Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais

Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

As teacutecnicas 2b 2c 2d e 2e podem viciar os dados

A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis

Ruiacutedos nos dados

Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada

A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional

combinadas4 ndash Regressatildeo

Inconsistecircncias

corrigidos manualmente atraveacutes de referecircncias externas

Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos

Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais

O que eacute mineraccedilatildeo de dados

Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou

modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996

Mineraccedilatildeo de dados

Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados

O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados

Teacutecnicasferramentas para apresentar e analisar dados

Mineraccedilatildeo de dados

descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees

Exemplo de conhecimento extraiacutedo

Banco de dados de lojas de produtos eletrocircnicos

OLAP Quantos videogames do tipo XYZ foram vendidos para o

cliente ABC na data ddmmaa

Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo

(compra= videogame) (90) Utilidade estrateacutegias de marketing

Aacutereas de pesquisa relacionadas

Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados

Machine Learning Abordagens

Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais

Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Ruiacutedos nos dados

Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada

A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional

combinadas4 ndash Regressatildeo

Inconsistecircncias

corrigidos manualmente atraveacutes de referecircncias externas

Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos

Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais

O que eacute mineraccedilatildeo de dados

Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou

modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996

Mineraccedilatildeo de dados

Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados

O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados

Teacutecnicasferramentas para apresentar e analisar dados

Mineraccedilatildeo de dados

descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees

Exemplo de conhecimento extraiacutedo

Banco de dados de lojas de produtos eletrocircnicos

OLAP Quantos videogames do tipo XYZ foram vendidos para o

cliente ABC na data ddmmaa

Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo

(compra= videogame) (90) Utilidade estrateacutegias de marketing

Aacutereas de pesquisa relacionadas

Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados

Machine Learning Abordagens

Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais

Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Inconsistecircncias

corrigidos manualmente atraveacutes de referecircncias externas

Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos

Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais

O que eacute mineraccedilatildeo de dados

Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou

modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996

Mineraccedilatildeo de dados

Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados

O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados

Teacutecnicasferramentas para apresentar e analisar dados

Mineraccedilatildeo de dados

descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees

Exemplo de conhecimento extraiacutedo

Banco de dados de lojas de produtos eletrocircnicos

OLAP Quantos videogames do tipo XYZ foram vendidos para o

cliente ABC na data ddmmaa

Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo

(compra= videogame) (90) Utilidade estrateacutegias de marketing

Aacutereas de pesquisa relacionadas

Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados

Machine Learning Abordagens

Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais

Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

O que eacute mineraccedilatildeo de dados

Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou

modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996

Mineraccedilatildeo de dados

Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados

O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados

Teacutecnicasferramentas para apresentar e analisar dados

Mineraccedilatildeo de dados

descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees

Exemplo de conhecimento extraiacutedo

Banco de dados de lojas de produtos eletrocircnicos

OLAP Quantos videogames do tipo XYZ foram vendidos para o

cliente ABC na data ddmmaa

Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo

(compra= videogame) (90) Utilidade estrateacutegias de marketing

Aacutereas de pesquisa relacionadas

Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados

Machine Learning Abordagens

Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais

Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Mineraccedilatildeo de dados

Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados

O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados

Teacutecnicasferramentas para apresentar e analisar dados

Mineraccedilatildeo de dados

descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees

Exemplo de conhecimento extraiacutedo

Banco de dados de lojas de produtos eletrocircnicos

OLAP Quantos videogames do tipo XYZ foram vendidos para o

cliente ABC na data ddmmaa

Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo

(compra= videogame) (90) Utilidade estrateacutegias de marketing

Aacutereas de pesquisa relacionadas

Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados

Machine Learning Abordagens

Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais

Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Mineraccedilatildeo de dados

descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees

Exemplo de conhecimento extraiacutedo

Banco de dados de lojas de produtos eletrocircnicos

OLAP Quantos videogames do tipo XYZ foram vendidos para o

cliente ABC na data ddmmaa

Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo

(compra= videogame) (90) Utilidade estrateacutegias de marketing

Aacutereas de pesquisa relacionadas

Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados

Machine Learning Abordagens

Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais

Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Exemplo de conhecimento extraiacutedo

Banco de dados de lojas de produtos eletrocircnicos

OLAP Quantos videogames do tipo XYZ foram vendidos para o

cliente ABC na data ddmmaa

Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo

(compra= videogame) (90) Utilidade estrateacutegias de marketing

Aacutereas de pesquisa relacionadas

Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados

Machine Learning Abordagens

Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais

Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Aacutereas de pesquisa relacionadas

Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados

Machine Learning Abordagens

Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais

Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Machine Learning Abordagens

Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais

Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)