Download pdf - Web mining

Transcript
Page 1: Web mining

Universidade Portucalense Infante D. Henrique

Departamento de Inovação Ciência e Tecnologia

Ano Lectivo de 2012/2013

Docente: Isabel Seruca

Unidade Curricular: Webmining

Ferramentas WebMining

Porto, Março de 2013

10365 Elísio Gomes

35048 Samuel Oliveira

Page 2: Web mining
Page 3: Web mining

Universidade Portucalense Infante D. Henrique DICT – Web Mining

Ferramentas Web Mining Pág.: 1

Resumo

Nos dias de hoje, a obtenção de informação acerca do nosso próprio negócio, o que os nossos clientes pensam e comentam mas não o transmitem à Organização pelos canais formais, tendências, etc. é vital a tomada de decisões. A simples presença na Web já não é suficiente, saber quem visita o site institucional, se abandona ou leva até ao final uma transacção, de onde vem, são perguntas frequentes não só para Organizações que baseiam o seu negócio na Web, mas também para aquelas que usam a Web como um canal de vendas e comunicação. A tradicional obtenção de preços nos locais de venda da concorrência, actividade conhecida como shopping, passa a ser feita pesquisando a Web, sem os constrangimentos do shopping tradicional.

A necessidade de informação é de tal ordem, que os Sistemas de Informação há muito se voltaram para a Internet, fonte praticamente inesgotável de informação é o local perfeito para a pesquisa e mineração de dados.

Page 4: Web mining

Universidade Portucalense Infante D. Henrique DICT – Web Mining

Ferramentas Web Mining Pág.: 2

Índice

INTRODUÇÃO  ........................................................................................................................  5  

OBJECTIVO  ...................................................................................................................................  5  

PROBLEMA  ESTUDADO  ...................................................................................................................  5  

METODOLOGIA  .............................................................................................................................  5  

WEB  MINING  .........................................................................................................................  6  

WEB  CONTENT  .............................................................................................................................  7  

WEB  STRUCTURE  ..........................................................................................................................  7  

WEB  USAGE  .................................................................................................................................  7  

SAS  ........................................................................................................................................  8  

PRINCIPAIS  BENEFÍCIOS  ................................................................................................................  11  

A  CAPACIDADE  DE  AUMENTAR  A  EFICÁCIA  DO  PROJECTO  WEB  .............................................................  11  

GOOGLE  ANALYTICS  .............................................................................................................  14  

FERRAMENTAS  DE  ANÁLISE  ...........................................................................................................  14  

ANÁLISE  DE  CONTEÚDOS  ..............................................................................................................  15  

ANÁLISE  DE  REDES  SOCIAIS  ...........................................................................................................  16  

ANÁLISE  PARA  DISPOSITIVOS  MOVEIS  .............................................................................................  16  

ANÁLISE  DE  PUBLICIDADE  .............................................................................................................  17  

SAS  VSGOOGLE  ANALYTICS  ..................................................................................................  18  

CONCLUSÃO  ........................................................................................................................  19  

BIBLIOGRAFIA  ......................................................................................................................  20  

Índice de Figuras

Figura  1  -­‐  SAS  Dashboard  _______________________________________________________________  9  

Figura  2  -­‐  SAS  Tagging  ________________________________________________________________  10  

Figura  3  -­‐  Google  Anlytics  Dashboard   ____________________________________________________  14  

Page 5: Web mining

Universidade Portucalense Infante D. Henrique DICT – Web Mining

Ferramentas Web Mining Pág.: 3

Figura  4  -­‐  Google  Analytics  relatório  personalizado   _________________________________________  15  

Figura  5  -­‐  Google  Analytics  redes  sociais  __________________________________________________  16  

Figura  6  -­‐  Google  Analytics  dispositivos  móveis  _____________________________________________  17  

Figura  7  -­‐  Google  Analytics  análise  de  publicidade  __________________________________________  17  

Page 6: Web mining

Universidade Portucalense Infante D. Henrique DICT – Web Mining

Ferramentas Web Mining Pág.: 4

Índice de Tabelas

Tabela  1  -­‐  Quadro  comparativo  _________________________________________________________  18  

Page 7: Web mining

Universidade Portucalense Infante D. Henrique DICT – Web Mining

Ferramentas Web Mining Pág.: 5

Introdução

Objectivo O presente trabalho, elaborado no âmbito da unidade curricular de Webminig do

ShortMaster em BusinessIntelligence da Universidade Portucalense Infante D. Henrique, visa expor os conteúdos abordados ao longo das aulas.

Problema Estudado No âmbito do Data Mining e Web Mining existem várias ferramentas, comerciais e opensource. Neste trabalho serão abordadas duas ferramentas, uma comercial e outra opensource, expondo funcionalidades comuns, pontos fortes e limitações de cada software e tendências de evolução.

Metodologia A elaboração deste trabalho teve como base definição de palavras-chave, pesquisas na

Web, e apontamentos da unidade curricular. Foram seleccionados diversos locais de pesquisa, sendo seleccionadas páginas web focadas nos conceitos abordados na disciplina de Webmining, motores de pesquisa específicos e documentação da disciplina. Os campos usados na pesquisa foram as palavras-chave e conceitos relacionados com as ferramentas e tecnologias apresentadas nas aulas. A bibliografia recolhida foi analisada para a obtenção dos conceitos que irão seguir a linha de pensamento definido para o relatório com a descrição dos conceitos e relacionamento dos mesmos.

Page 8: Web mining

Universidade Portucalense Infante D. Henrique DICT – Web Mining

Ferramentas Web Mining Pág.: 6

Web Mining

A definição mais consensual de Web Mining é o uso de técnicas de Data Mining para descobrir e extrair automaticamente informação relevante usando como fonte de dados a Internet. Também conhecido como screenscraping e data extraction, usando software e ferramentas para extrair dados de fontes não formatadas, tais como páginas html, redes sociais e transforma-los em informação humanamente perceptível, o que representa um grande obstáculos para os sistemas automatizados, na verdade trata-se de um processo mais amplo, envolvendo várias disciplinas tais como:

• Recuperação de informação • Estatística • Inteligência Artificial • Mineração de dados • …

Como o uso exponencial da Web, as Organização podem agora complementar a informação obtida a partir da análise de Data Warehouse internos, como a informação disponível na Web.

Podemos então categorizar as diferentes tarefas de Web Mining:

• Pesquisa de documentos: Encontrar sítios na Web contendo documentos especificados por palavras-chave. Trata-se então do processo de extracção de dados a partir de fontes de texto disponíveis na Internet.

• Selecção e pré-processamento da informação: Consiste na tarefa de seleccionar e pré-processar de forma automática as informações obtidas na Web. O pré-processamento envolve a poda de textos, transformação da informação, etc.

• Generalização: Consiste em descobrir automaticamente padrões, envolvendo técnicas de Inteligência Artificial e Mineração de Dados.

• Análise: Validação e interpretação dos padrões minerados.

Page 9: Web mining

Universidade Portucalense Infante D. Henrique DICT – Web Mining

Ferramentas Web Mining Pág.: 7

Web Mining é normalmente subdividido em três categorias.

• Web Content • Web Structure • Web Usage

Web Content Os conteúdos na Web são de vários tipos, tais como: textos, imagens, sons, vídeos,

hiperlinks. Desta forma, a mineração de conteúdos na Web envolve o conhecimento em diversos tipos de dados, nomeadamente dados multimédia, no entanto a que recebe mais atenção é a mineração de dados de texto e hiperlinks. A pesquisa consiste em aplicar técnicas de mineração com vista a encontrar informação escondida ou padrões.

Web Structure A mineração da estrutura de documentos na Web, tenta descobrir o modelo subjacente á estrutura de hiperlinks. Este modelo pode ser usado para classificar páginas Web e é útil para gerar informações e relacionamentos entre diferentes Web Sites. Esta categoria de informação pode ser usada, por exemplo para quais são os hiperlinks que normalmente aparecem em outros Sites.

Web Usage Web Usage tenta descobrir padrões nos caminhos percorridos pelos utilizadores quando navegam na Web. Enquanto que a Web Content e a Web Structure utilizam dados reais presentes nos documentos na Web, a Web Usase ou Mineração do Uso, utiliza dados secundários gerados pela interacção dos utilizadores com a Internet. Tais dados secundários incluem logs, perfis dos utilizadores, uso de servidores proxy, transacções, consultas, uso de favoritos, entre outros.

Page 10: Web mining

Universidade Portucalense Infante D. Henrique DICT – Web Mining

Ferramentas Web Mining Pág.: 8

SAS

Para obter respostas, devemos ser capazes de decifrar o que os dados da Web nos transmitem. SAS Web Analytics é a chave, transforma automaticamente os dados brutos em informação valorizada para o negócio na Web. Através do uso de análises avançadas, SAS Web

Analytics permite monitorar medidas-chave que conduzem o negócio e entender os factores que influenciam cada métrica do negócio. Este, por sua vez, permite que seja possível e com sucesso refinar estratégias para alcançar os objectivos de negócio.

Esta solução disponibiliza várias componentes de tratamento de dados de negócio web com o intuito de responder a questões propostas pelos gestores web.

Web data strategy

• Facilidade no controlo de grandes volumes de dados de desempenho do site.

• Processos paralelos de transformação e agregação de grandes volumes de dados de forma rápida.

• Lê todos os dados da Web padrão de registro, bem como arquivos de log on-line de actividade, incluindo os logs personalizados, logs de gestão de conteúdo e registos telefónicos WAP.

• O algoritmo patenteado sessionizing web logs investiga correctamente os visitantes da Web com base em cookies.

Web Data Mart

• Integra dados da Web com quaisquer outras fontes de dados, tais como cliente e os dados da empresa (por exemplo, centros de atendimento, logística, vendas e marketing, e dados externos).

• Disponibiliza um datamart que é estruturado e optimizado para web analytics.

• Realiza agregações em vários níveis para responder às questões de negócios.

• Gere resumos de agregação ao longo do tempo.

• Browser-based GUI Administrator, facilita a criação de Web data mart e sua manutenção.

Page 11: Web mining

Universidade Portucalense Infante D. Henrique DICT – Web Mining

Ferramentas Web Mining Pág.: 9

Clickstream path analysis

• Interacção da estrutura de árvore hierárquica do directório e páginas associadas.

• Remove o ruído de espectadores esporádicos no sentido de verificar se as pessoas estão verdadeiramente a navegar no site.

• Disponibilização de gráficos que representam a existência e magnitude de associação entre as páginas.

• Identificar drop-offs e pay-offs de evento para evento.

• Exibe informação de conversão cumulativa através de uma série de eventos definidos e conversão de locais de evento para evento (por exemplo, campanhas, carrinho de compras, páginas de registo).

Analytic executive dashboard

• Comentário diário da operação do site.

• Mostra KPIs para rápida identificação de áreas de actuação acima ou abaixo das expectativas.

• Gráfico de Tendências onde mostra o desempenho actual e passado.

Figura 1 - SAS Dashboard

Page 12: Web mining

Universidade Portucalense Infante D. Henrique DICT – Web Mining

Ferramentas Web Mining Pág.: 10

Analytical scordcard

• Mostra os valores de desempenho e previsão das métricas-chave que influenciam os KPIs que conduzem o seu negócio na Internet.

• Mede cada valor do factor-chave contra um valor previsto.

• Scorecard indica de como os aumentos ou diminuições dos KPIs poderão afectar em algumas métricas o valor da meta definida.

Analytical visitor segmentation

• Árvore de decisão de segmentação.

• Medição da resposta de um determinado alvo.

• Fornecer as regras de negócio para a segmentação.

Optional page tagging

• A tecnologia fácil de proporcionar melhores resultados para as sessões.

• Recolhe informações solicitadas em logs do servidor Web.

• Uso estratégico nas páginas do site.

Figura 2 - SAS Tagging

Page 13: Web mining

Universidade Portucalense Infante D. Henrique DICT – Web Mining

Ferramentas Web Mining Pág.: 11

Principais benefícios Uma solução completa para apoiar todo o processo analítico. Como um sistema

integrado, solução end-to-end. SAS Web Analytics suporta todas as medidas necessárias para resolver as necessidades web. A solução transforma dados Web em conhecimento através de um processo eficiente de análise. A facilidade de utilização e a capacidade de personalizar tipo de análise permite aos administradores, gestores de negócio e pessoal de TI, satisfazer as suas necessidades de negócio.

Esta solução fornece uma única visão do cliente integrada através de canais distintos. A solução integra dados da Web com dados de outras fontes, logística, vendas e marketing, dados de censo, etc, para dar-lhe uma visão completa do cliente. Ao compreender verdadeiramente os seus clientes e o valor que eles têm, pode melhorar a relação para a aquisição de cliente através da satisfação, retenção e estratégias de fidelização, reduzindo assim os custos operacionais e de negócios, aumentando a receita gerada através de canais.

A capacidade de definir e melhorar as estratégias de negócios é mais um ponto de referência das técnicas de webmining. As ferramentas da Web convencionais são limitadas a após o acontecimento, medições e relatórios, elas não podem explicar as relações e os pontos que influenciam as medidas de negócio. Oferece uma análise avançada, tais como Web Mining, onde descobre padrões ocultos nos dados. Ao descobrir as relações entre elementos de dados e os dados subjacentes, é possível aperfeiçoar as estratégias de negócios e maximizar o retorno.

Para a melhoria das estratégias de marketing e eficácia da campanha a solução identifica automaticamente os segmentos de clientes, determinando principais diferenciais de modo a que se possa alinhar os objectivos de marketing com um segmento determinado do cliente. Usando modelos de previsão e integrar os resultados do passado em futuras campanhas de marketing. A possibilidade de direccionar melhor os clientes e entregar campanhas menores e mais focadas. O consequente aumento na satisfação do cliente vai levar a retornos das campanhas melhorados e por consequência menores esforços ou custos de marketing.

A capacidade de aumentar a eficácia do projecto Web

Com a solução de análise SAS Web Analytics é possível determinar quais as rotas que são mais propensas a receber os clientes e que páginas têm um alto nível de aderência para os

Page 14: Web mining

Universidade Portucalense Infante D. Henrique DICT – Web Mining

Ferramentas Web Mining Pág.: 12

produtos. Este tipo de informação pode ajudar a melhorar e optimizar o design do site Web para aumentar as taxas de visitas às compras on-line.

O scorecard exibe as principais métricas da Web que funcionam como condutores estatisticamente significativos para uma métrica fundamental. O relatório lista a métrica alvo, seguido pelas métricas Web mais influentes. As métricas influentes para a Web estão listadas em ordem decrescente da sua importância.

O grande desafio das organizações é transformar o volume de dados da Web em conhecimentos accionáveis que possam ser usados para tomadas de decisão assertivas.

Os relatórios estatísticos do site não são suficientes para a percepção actual de negócio, pois eles não fornecem o tipo de informação que pode ajudar a atingir os objectivos de negócio. Perguntas como estas, muitas vezes sem resposta:

• Como os clientes usam o site?

• Como podemos melhorar as ofertas de produtos e qualidade de serviço?

• Como podemos automatizar campanhas de e-mail marketing e aumentar a eficácia da campanha?

• Como encaminhar o tráfego para o nosso site e transformar as visitas em vendas?

• Como podemos entender melhor nossa base de clientes?

• Como podemos melhorar as nossas estratégias de negócios na Web?

• Como podemos aumentar o ROI (retorno sobre investimento), reduzindo os custos comerciais e operacionais?

SAS para Análise de Experiência do Cliente traduz eventos da Web em contexto de negócios, permitindo que se entenda o quão bem a experiência on-line está a trabalhar a partir da perspectiva do seu cliente. Os dados capturados são transformados em estudo de negócio, processando-os com foco no cliente. Toda a actividade do site é relacionada com uma entidade cliente, que está associada à sua informação promocional, demográfica e de compra com base em fornecer um quadro completo de clientes que vai além da análise da Web tradicionais de produtos.

A tecnologia de recolha dinâmica disponibilizada pela Web analytics permite o rápido desenvolvimento da construção do tipo de análise que é pretendido. Isso é significativamente

Page 15: Web mining

Universidade Portucalense Infante D. Henrique DICT – Web Mining

Ferramentas Web Mining Pág.: 13

diferente da abordagem de produtos de análise Web tradicionais, que requer modificações extensivas no site para agregar dados através de técnicas de data mining.

Page 16: Web mining

Universidade Portucalense Infante D. Henrique DICT – Web Mining

Ferramentas Web Mining Pág.: 14

Google Analytics

O Google Analytics é um serviço gratuito, oferecido pela Google, que fornece estatísticas actuais sobre o modo como os visitantes usam um determinado Web Site, como chegaram até ele e o que pode fazer para que voltem. Sem querer “vender” a ferramenta, passamos a enumerar e a descrever os pontos que consideramos chave desta ferramenta.

Ferramentas de Análise O Google Analytics baseia-se numa plataforma de relatórios, de fácil utilização, que permite ao utilizador decidir que dados pretende ver, permitindo ainda a personalização de relatórios O número de pessoas que estão actualmente no WebSite, de onde vêm e o que estão a visualizar neste momento, são questões pertinentes, para as quais as ferramentas de análise respondem em tempo real. Toda esta informação, mas em que formato? As ferramentas de analise do Google Analytics permitem a personalização de variáveis, com o objectivo de ajudar a compreender quais os segmentos de clientes e o grau de interacção destes com o Site. Como não podiam deixar de ser, os painéis com os KPIs da empresa merecem lugar de destaque.

Figura 3 - Google Anlytics Dashboard

Page 17: Web mining

Universidade Portucalense Infante D. Henrique DICT – Web Mining

Ferramentas Web Mining Pág.: 15

Análise de Conteúdos Os relatórios de conteúdo, ajudam a identificar as secções do WebSite com bom desempenho e páginas mais populares. E o que acontece, quando os visitantes não encontram o que procuram? O primeiro passo é recorrer á busca. Com os relatórios de busca é possível saber o que os visitantes procuram em concreto. Outro aspecto realmente interessante é saber como os visitantes se movimentam no Site.

Figura 4 - Google Analytics relatório personalizado

Page 18: Web mining

Universidade Portucalense Infante D. Henrique DICT – Web Mining

Ferramentas Web Mining Pág.: 16

Análise de Redes Sociais As redes sociais são um fenómeno de adesão na Internet, assim sendo, a medição do sucesso dos programas de redes sociais não poderia ser deixado ao acaso.

Figura 5 - Google Analytics redes sociais

Análise para Dispositivos Moveis Com o aumento do uso dos dispositivos móveis, o Google Analytics permite medir o impacto dos dispositivos móveis no negócio. Para além disso, são disponibilizados SDKs (Software Development Kits) para iOS e Android, de modo a poder avaliar como as pessoas utilizam as aplicações

Page 19: Web mining

Universidade Portucalense Infante D. Henrique DICT – Web Mining

Ferramentas Web Mining Pág.: 17

Figura 6 - Google Analytics dispositivos móveis

Análise de Publicidade A Internet é sem dúvida um lugar de publicidade, marketing e negócios. O Google Analitycs pode associar o comportamento dos visitantes às campanhas de marketing dirigido e tomar decisões acertadas.

Figura 7 - Google Analytics análise de publicidade

Page 20: Web mining

Universidade Portucalense Infante D. Henrique DICT – Web Mining

Ferramentas Web Mining Pág.: 18

SAS vsGoogle Analytics

Nos capítulos anteriores foram focadas as características mais marcantes de cada uma das ferramentas. Em forma de quadro resumo, analisamos estas características em cada uma das ferramentas:

Características SAS Google Analytics Open source ● √ Ferramentas de análise em tempo real √ √ Análise de conteúdos √ √ Análise de redes Sociais √ √ Análise de produtividade √ √ Dashboard √ √ Relatórios √ √

Tabela 1 - Quadro comparativo

Todas estas características enquadram-se em cada solução apresentada, no entanto, comparando-as entre si no que respeita aos custos, o SAS é bem mais elevado compensando essa desvantagem com a disponibilidade de várias ferramentas poderosas e capazes de responder a qualquer questão proposta pelo cliente dentro deste âmbito de negócio analítico.

O Google Analytics torna-se uma solução bastante acessível para qualquer utilizador, sendo capaz de apresentar um ambiente gráfico bastante positivo e intuitivo. Esta ferramenta pode ser útil para pequenas empresas que estejam a usar o site como canal de vendas assim como para cada utilizador que seja administrador de um site ou blog. A situação menos vantajosa comparando-a com a outra solução mencionada neste trabalho, destaca-se quando se trata de analisar um conjunto de dados enorme, tornando lenta a funcionalidade do Google Analytics.

Page 21: Web mining

Universidade Portucalense Infante D. Henrique DICT – Web Mining

Ferramentas Web Mining Pág.: 19

Conclusão

Devido ao grande volume de dados e técnicas envolvidas, tal actividade não seria possível sem o recuso a ferramentas especializadas nesta área. Neste trabalho foram abordadas duas ferramentas, uma comercial e outra open source, estabelecendo uma análise comparativa evidenciando os seus pontos fortes e fracos.

Page 22: Web mining

Universidade Portucalense Infante D. Henrique DICT – Web Mining

Ferramentas Web Mining Pág.: 20

Bibliografia

SAS – www.sas.com

Google Analytics - http://www.google.com/analytics/

Aulas lecionadas na disciplina de Web Mining


Recommended