Web mining

  • View
    981

  • Download
    0

Embed Size (px)

Text of Web mining

  • 1. Universidade Portucalense Infante D. Henrique Departamento de Inovao Cincia e Tecnologia Ano Lectivo de 2012/2013Docente: Isabel Seruca Unidade Curricular: Webmining Ferramentas WebMining Porto, Maro de 2013 10365 Elsio Gomes 35048 Samuel Oliveira

2. Universidade Portucalense Infante D. HenriqueDICT Web MiningResumoNos dias de hoje, a obteno de informao acerca do nosso prprio negcio, o que osnossos clientes pensam e comentam mas no o transmitem Organizao pelos canais formais,tendncias, etc. vital a tomada de decises. A simples presena na Web j no suficiente,saber quem visita o site institucional, se abandona ou leva at ao final uma transaco, de ondevem, so perguntas frequentes no s para Organizaes que baseiam o seu negcio na Web,mas tambm para aquelas que usam a Web como um canal de vendas e comunicao. Atradicional obteno de preos nos locais de venda da concorrncia, actividade conhecida comoshopping, passa a ser feita pesquisando a Web, sem os constrangimentos do shoppingtradicional.A necessidade de informao de tal ordem, que os Sistemas de Informao h muitose voltaram para a Internet, fonte praticamente inesgotvel de informao o local perfeito paraa pesquisa e minerao de dados.Ferramentas Web Mining Pg.: 1 3. Universidade Portucalense Infante D. HenriqueDICT Web MiningndiceINTRODUO ........................................................................................................................ 5 OBJECTIVO ................................................................................................................................... 5 PROBLEMA ESTUDADO ................................................................................................................... 5 METODOLOGIA ............................................................................................................................. 5 WEB MINING ......................................................................................................................... 6 WEB CONTENT ............................................................................................................................. 7 WEB STRUCTURE .......................................................................................................................... 7 WEB USAGE ................................................................................................................................. 7 SAS ........................................................................................................................................ 8 PRINCIPAIS BENEFCIOS ................................................................................................................ 11 A CAPACIDADE DE AUMENTAR A EFICCIA DO PROJECTO WEB ............................................................. 11 GOOGLE ANALYTICS ............................................................................................................. 14 FERRAMENTAS DE ANLISE ........................................................................................................... 14 ANLISE DE CONTEDOS .............................................................................................................. 15 ANLISE DE REDES SOCIAIS ........................................................................................................... 16 ANLISE PARA DISPOSITIVOS MOVEIS ............................................................................................. 16 ANLISE DE PUBLICIDADE ............................................................................................................. 17 SAS VSGOOGLE ANALYTICS .................................................................................................. 18 CONCLUSO ........................................................................................................................ 19 BIBLIOGRAFIA ...................................................................................................................... 20 ndice de FigurasFigura 1 - SAS Dashboard _______________________________________________________________ 9 Figura 2 - SAS Tagging ________________________________________________________________ 10 Figura 3 - Google Anlytics Dashboard ____________________________________________________ 14 Ferramentas Web Mining Pg.: 2 4. Universidade Portucalense Infante D. HenriqueDICT Web MiningFigura 4 - Google Analytics relatrio personalizado _________________________________________ 15 Figura 5 - Google Analytics redes sociais __________________________________________________ 16 Figura 6 - Google Analytics dispositivos mveis _____________________________________________ 17 Figura 7 - Google Analytics anlise de publicidade __________________________________________ 17 Ferramentas Web Mining Pg.: 3 5. Universidade Portucalense Infante D. Henrique DICT Web Miningndice de TabelasTabela 1 - Quadro comparativo _________________________________________________________ 18 Ferramentas Web Mining Pg.: 4 6. Universidade Portucalense Infante D. Henrique DICT Web MiningIntroduoObjectivo O presente trabalho, elaborado no mbito da unidade curricular de Webminig doShortMaster em BusinessIntelligence da Universidade Portucalense Infante D. Henrique, visaexpor os contedos abordados ao longo das aulas.Problema Estudado No mbito do Data Mining e Web Mining existem vrias ferramentas, comerciais eopensource. Neste trabalho sero abordadas duas ferramentas, uma comercial e outraopensource, expondo funcionalidades comuns, pontos fortes e limitaes de cada software etendncias de evoluo.Metodologia A elaborao deste trabalho teve como base definio de palavras-chave, pesquisas naWeb, e apontamentos da unidade curricular. Foram seleccionados diversos locais de pesquisa,sendo seleccionadas pginas web focadas nos conceitos abordados na disciplina de Webmining,motores de pesquisa especficos e documentao da disciplina. Os campos usados na pesquisaforam as palavras-chave e conceitos relacionados com as ferramentas e tecnologiasapresentadas nas aulas. A bibliografia recolhida foi analisada para a obteno dos conceitos queiro seguir a linha de pensamento definido para o relatrio com a descrio dos conceitos erelacionamento dos mesmos.Ferramentas Web MiningPg.: 5 7. Universidade Portucalense Infante D. HenriqueDICT Web MiningWeb MiningA definio mais consensual de Web Mining o uso de tcnicas de Data Mining paradescobrir e extrair automaticamente informao relevante usando como fonte de dados aInternet.Tambm conhecido como screenscraping e data extraction, usando software eferramentas para extrair dados de fontes no formatadas, tais como pginas html, redes sociaise transforma-los em informao humanamente perceptvel, o que representa um grandeobstculos para os sistemas automatizados, na verdade trata-se de um processo mais amplo,envolvendo vrias disciplinas tais como: Recuperao de informao Estatstica Inteligncia Artificial Minerao de dados Como o uso exponencial da Web, as Organizao podem agora complementar ainformao obtida a partir da anlise de Data Warehouse internos, como a informao disponvelna Web.Podemos ento categorizar as diferentes tarefas de Web Mining: Pesquisa de documentos: Encontrar stios na Web contendo documentosespecificados por palavras-chave. Trata-se ento do processo de extraco dedados a partir de fontes de texto disponveis na Internet. Seleco e pr-processamento da informao: Consiste na tarefa de seleccionare pr-processar de forma automtica as informaes obtidas na Web. O pr-processamento envolve a poda de textos, transformao da informao, etc. Generalizao: Consiste em descobrir automaticamente padres, envolvendotcnicas de Inteligncia Artificial e Minerao de Dados. Anlise: Validao e interpretao dos padres minerados.Ferramentas Web Mining Pg.: 6 8. Universidade Portucalense Infante D. HenriqueDICT Web MiningWeb Mining normalmente subdividido em trs categorias. Web Content Web Structure Web UsageWeb Content Os contedos na Web so de vrios tipos, tais como: textos, imagens, sons, vdeos,hiperlinks. Desta forma, a minerao de contedos na Web envolve o conhecimento em diversostipos de dados, nomeadamente dados multimdia, no entanto a que recebe mais ateno aminerao de dados de texto e hiperlinks. A pesquisa consiste em aplicar tcnicas de mineraocom vista a encontrar informao escondida ou padres.Web Structure A minerao da estrutura de documentos na Web, tenta descobrir o modelo subjacente estrutura de hiperlinks. Este modelo pode ser usado para classificar pginas Web e til paragerar informaes e relacionamentos entre diferentes Web Sites. Esta categoria de informaopode ser usada, por exemplo para quais so os hiperlinks que normalmente aparecem em outrosSites.Web Usage Web Usage tenta descobrir padres nos caminhos percorridos pelos utilizadores quandonavegam na Web. Enquanto que a Web Content e a Web Structure utilizam dados reaispresentes nos documentos na Web, a Web Usase ou Minerao do Uso, utiliza dadossecundrios gerados pela interaco dos utilizadores com a Internet. Tais dados secundriosincluem logs, perfis dos utilizadores, uso de servidores proxy, transaces, consultas, uso defavoritos, entre outros.Ferramentas Web Mining Pg.: 7 9. Universidade Portucalense Infante D. Henrique DICT Web MiningSASPara obter respostas, devemos ser capazes de decifrar o que os dados da Web nostransmitem. SAS Web Analytics a chave, transforma automaticamente os dados brutos eminformao valorizada para o negcio na Web. Atravs do uso de anlises avanadas, SAS WebAnalytics permite monitorar medidas-chave que conduzem o negcio e entender os factores queinfluenciam cada mtrica do negcio. Este, por sua vez, permite que seja possvel e comsucesso refinar estratgias para alcanar os objectivos de negcio.Esta soluo disponibiliza vrias componentes de tratamento de dados de negcio webcom o intuito de responder a questes propostas pelos gestores web.Web data strategy Facilidade no controlo de grandes volumes