19
Cria¸ ao de regras de associa¸ ao a partir da navega¸ ao de usu´ arios em sites Web Fabr´ ıcio J. Barth Faculdades BandTec e VAGAS Tecnologia Junho de 2013

Web Data Mining com R: criação de regras de associação a partir da navegação de usuários em sites Web

Embed Size (px)

DESCRIPTION

Web Data Mining com R: criação de regras de associação a partir da navegação de usuários em sites Web

Citation preview

  • 1. Criao de regras de associao a ca ca partir da navegao de usurios em ca a sites Web Fabr J. Barth cio Faculdades BandTec e VAGAS TecnologiaJunho de 2013

2. Processo de minerao de padres na ca o Web Prprocessamento dos dados Limpeza dos dados Identificao de pageview Identificao de sees Integrao de dados Transformao dos dadosLog dos servidores de aplicaoBanco de dados com as transaes dos usuriosPadres de usoPadresAgrupamento de pageview Anlise de correlao Minerao de regras de associao Minerao de padres sequenciaisCriao de regras de associao a partir da navegao de usurios em sites Web ca ca ca a na WebProcesso de minerao de padres ca o2 3. Exemplo t pico de logCriao de regras de associao a partir da navegao de usurios em sites Web ca ca ca aExemplo t pico de log3 4. Pr-processamento do log: identicao e ca de usurios aCriao de regras de associao a partir da navegao de usurios em sites Web ca ca ca a identicao de usurios ca aPr-processamento do log: e4 5. Pr-processamento do log: identicao e ca das sees coCriao de regras de associao a partir da navegao de usurios em sites Web ca ca ca a identicao das seoes ca cPr-processamento do log: e5 6. Matriz de transaoes cCriao de regras de associao a partir da navegao de usurios em sites Web ca ca ca aMatriz de transaoes c6 7. Matriz de transaoes com c meta-informaoes sobre as pginas c a usurio acategoria1categoria2categoria3categoriamuser10201user21100user32010user40100usern1101 Cada pgina pode pertencer a uma categoria (i.e., tipo de livro, tipo de estabelecimento comercial) a Cada pgina pode estar associada a uma cidade (i.e., um estabelecimento, uma vaga de emprego) aCriao de regras de associao a partir da navegao de usurios em sites Web ca ca ca a informaes sobre as pginas co aMatriz de transaes com metaco7 8. Regras de Associao ca Caso do supermercado (fralda cerveja) Quem acessa a pgina sobre futebol tambm acessa a a e pgina de volei em 90% dos casos (futebol volei). a Quem acessa a pgina de ofertas e a pgina de a a material de construo tambm naliza a compra em ca e 83% dos casos (ofertas material construo ca compra)Criao de regras de associao a partir da navegao de usurios em sites Web ca ca ca aRegras de Associao ca8 9. Algoritmo para criao ca de regras9 10. Minerao de itens frequentes ca Dado: um conjunto A = {a1 , , am } de itens, uma tabela T = (t1 , , tn ) de transaes sobre A, co um nmero min que 0 < min 1, o suporte u m nimo. Objetivo 1: encontrar o conjunto de itens frequentes, tais que o suporte de cada conjunto de itens maior ou e igual ao min denido pelo usurio. aAlgoritmo para criao de regras caMinerao de itens frequentes ca10 11. Exemplo de transaoes cFigure 1: Um banco de dados de transaes, com 10 co transaes, e a enumerao de todos os conjuntos de itens co ca frequentes usando o suporte m nimo = 0,3 Algoritmo para criao de regras caExemplo de transaes co11 12. Minerao de itens frequentes ca Objetivo 2: encontrar o conjunto de regras de associao com ca conana maior que um m c nimo denido pelo utilizador.Algoritmo para criao de regras caMinerao de itens frequentes ca12 13. Suporte e Conana c O suporte de um conjunto de itens Z, suporte(Z), representa a porcentagem de transaes na base de dados co que contm os itens de Z. e O suporte de uma regra de associao A B, ca suporte(A B), dado por suporte(A B). eP (A B) suporte(A B) = conf ianca(A B) = P (A) suporte(A) (1)Algoritmo para criao de regras caSuporte e Conana c13 14. Exemplo de regras geradasFigure 2: Regras extra das com conana maior que 0,8 cAlgoritmo para criao de regras caExemplo de regras geradas14 15. Exemplo bsico de uso a http://rpubs.com/fbarth/regraAssociacaoAlgoritmo para criao de regras caExemplo bsico de uso a15 16. Medida Lift Dada uma regra de associao A B, esta medida indica ca o quanto mais freqente torna-se B quando ocorre A. u Se Lif t(A B) = 1, ento A e B so independentes. a a Se Lif t(A B) > 1, ento A e B so positivamente a a independentes. Se Lif t(A B) < 1, A e B so negativamente a dependentes. Esta medida varia entre 0 e e possui interpretao ca simples: quanto maior o valor de Lif t, mais interessante a regra, pois A aumenta B. Algoritmo para criao de regras caMedida Lift16 17. Dados de click-stream de um site da Hungria Dados anonimizados fornecidos por Ferenc Bodon http://mi.ua.ac.be/data/kosarak.dat http://rpubs.com/fbarth/regrasAssociacaoClickStreamAlgoritmo para criao de regras caDados de click-stream de um site da Hungria17 18. Material de consulta Fabr Barth. Minerao de regras de associao em cio ca ca servidores Web com RapidMinera . Iah H. Witteh and Eibe Frank. Data Mining: Practical Machine Learning Tools and Techniques (Third Edition), 2011. Gonalves. Regras de Associao e suas Medidas de c ca Interesse Objetivas e Subjetivas. INFOCOMP Journal of Computer Science, 2005, 4, 26-35. a http://fbarth.net.br/materiais/webMining/webUsageMining.pdfAlgoritmo para criao de regras caMaterial de consulta18 19. Data Mining Algorithms in R - Apriori Algorithm. http://en.wikibooks.org/wiki/Data Mining Algorithms In R/ Frequent Pattern Mining/The Apriori Algorithm. Acessado em 13 de junho de 2013. RDataMining.com: Association Rules. http://www.rdatamining.com/examples/associationrules. Acessado em 13 de junho de 2013.Algoritmo para criao de regras caMaterial de consulta19