22
1 Busca, Recuperação e Busca, Recuperação e Mineração na Web Mineração na Web Carlos Bazilio Depto de Computação Instituto de Ciência e Tecnologia Universidade Federal Fluminense

Busca, Recuperação e Mineração na Web - ic.uff.brbazilio/cursos/sistweb/material/WebMining.pdf · Desafios na Análise de Dados na Web Dados distribuídos Dados voláteis Grande

Embed Size (px)

Citation preview

Page 1: Busca, Recuperação e Mineração na Web - ic.uff.brbazilio/cursos/sistweb/material/WebMining.pdf · Desafios na Análise de Dados na Web Dados distribuídos Dados voláteis Grande

1

Busca, Recuperação eBusca, Recuperação eMineração na WebMineração na Web

Carlos Bazilio

Depto de ComputaçãoInstituto de Ciência e TecnologiaUniversidade Federal Fluminense

Page 2: Busca, Recuperação e Mineração na Web - ic.uff.brbazilio/cursos/sistweb/material/WebMining.pdf · Desafios na Análise de Dados na Web Dados distribuídos Dados voláteis Grande

2

Estrutura do Grafo WebEstrutura do Grafo Web

https://www.cs.cornell.edu/home/kleinber/networks-book/ (Cap. 13)

Page 3: Busca, Recuperação e Mineração na Web - ic.uff.brbazilio/cursos/sistweb/material/WebMining.pdf · Desafios na Análise de Dados na Web Dados distribuídos Dados voláteis Grande

3

Arquitetura Típica deArquitetura Típica deuma Engine de Busca [1]uma Engine de Busca [1]

Page 4: Busca, Recuperação e Mineração na Web - ic.uff.brbazilio/cursos/sistweb/material/WebMining.pdf · Desafios na Análise de Dados na Web Dados distribuídos Dados voláteis Grande

4

Arq uit etu ra b as ea da em

Arq uit etu ra b as ea da emC

lu ste r p ara Bu sc a

Clu ste r p ara B

u sc a

Page 5: Busca, Recuperação e Mineração na Web - ic.uff.brbazilio/cursos/sistweb/material/WebMining.pdf · Desafios na Análise de Dados na Web Dados distribuídos Dados voláteis Grande

5

Arq uit etu ra T

íp ica de umA

rq uit etu ra Típ ica de um

Cra w

le rC

ra wle r

Page 6: Busca, Recuperação e Mineração na Web - ic.uff.brbazilio/cursos/sistweb/material/WebMining.pdf · Desafios na Análise de Dados na Web Dados distribuídos Dados voláteis Grande

6

Consultando umConsultando umServidor WebServidor Web

Conexão a um servidor web utilizando oaplicativo telnetNum prompt, digite o comando abaixo:

> curl <url>

Page 7: Busca, Recuperação e Mineração na Web - ic.uff.brbazilio/cursos/sistweb/material/WebMining.pdf · Desafios na Análise de Dados na Web Dados distribuídos Dados voláteis Grande

7

Uma Taxonomia paraUma Taxonomia paraCrawlersCrawlers

Questões a se considerar noprojeto/implementação de um crawler

Atualização das páginas: páginas maisatualizadas possível x páginas “estáticas”Qualidade: poucas páginas com muitaqualidade x muitas páginas com diferentesníveis de qualidadeQuantidade: muitas páginas x maioratualização e/ou qualidade

Page 8: Busca, Recuperação e Mineração na Web - ic.uff.brbazilio/cursos/sistweb/material/WebMining.pdf · Desafios na Análise de Dados na Web Dados distribuídos Dados voláteis Grande

8

O que é Web Mining?O que é Web Mining?

Web Mining = Web + Data Mining– Information Retrieval, Machine Learning,

Statistic, Pattern Recognition

Page 9: Busca, Recuperação e Mineração na Web - ic.uff.brbazilio/cursos/sistweb/material/WebMining.pdf · Desafios na Análise de Dados na Web Dados distribuídos Dados voláteis Grande

9

O que é Web Mining?O que é Web Mining?

● Fontes para Mineração na Web:● Conteúdo: textos, mídias, …● Estrutura: links, âncoras, …● Uso: navegação (“wisdom of crowds”)

Page 10: Busca, Recuperação e Mineração na Web - ic.uff.brbazilio/cursos/sistweb/material/WebMining.pdf · Desafios na Análise de Dados na Web Dados distribuídos Dados voláteis Grande

10

Web Mining – Fontes Web Mining – Fontes

Page 11: Busca, Recuperação e Mineração na Web - ic.uff.brbazilio/cursos/sistweb/material/WebMining.pdf · Desafios na Análise de Dados na Web Dados distribuídos Dados voláteis Grande

11

Exemplos de AplicaçõesExemplos de Aplicações

PageRank (Algoritmos de“ranqueamento”)

Mineração na estrutura das páginasUma página tem um bom pagerank seapontam para ela muitas outrasEste valor aumenta se as páginas queapontam possuem um bom valor

Page 12: Busca, Recuperação e Mineração na Web - ic.uff.brbazilio/cursos/sistweb/material/WebMining.pdf · Desafios na Análise de Dados na Web Dados distribuídos Dados voláteis Grande

12

Exemplos de AplicaçõesExemplos de Aplicações

Google AdWords (Propaganda)Mineração nas queries / conteúdoExibe conteúdo relacionado aos termospesquisados

● Google AdWords (Propaganda)

Page 13: Busca, Recuperação e Mineração na Web - ic.uff.brbazilio/cursos/sistweb/material/WebMining.pdf · Desafios na Análise de Dados na Web Dados distribuídos Dados voláteis Grande

13

Exemplos de AplicaçõesExemplos de Aplicações

Internet Archive (crawler de amplitudeglobal)

http://archive.org/index.phpProjeto para armazenamento de imagensde versões de páginas webExemplos: “www.nytimes.com, 11/09/2001”,“www.cade.com.br”

Page 14: Busca, Recuperação e Mineração na Web - ic.uff.brbazilio/cursos/sistweb/material/WebMining.pdf · Desafios na Análise de Dados na Web Dados distribuídos Dados voláteis Grande

14

Exemplos de AplicaçõesExemplos de Aplicações

WolframAlpha (Engine para Consulta deInformações http://www.wolframalpha.com/ Utiliza uma base de conhecimento para

resposta às consultas No site não descreve se há mineração

para busca de informações adicionais Exemplo de busca: “16h President of

Brazil”, “Hebe Camargo birthdate”

Page 15: Busca, Recuperação e Mineração na Web - ic.uff.brbazilio/cursos/sistweb/material/WebMining.pdf · Desafios na Análise de Dados na Web Dados distribuídos Dados voláteis Grande

15

Exemplos de AplicaçõesExemplos de Aplicações

Netflix (Mineração no Uso) Netflix Prize

(http://en.wikipedia.org/wiki/Netflix_Prize) Algoritmos para Recomendação baseado

em Visualização Entrevista com funcionários da Netflix:

http://www.wired.com/underwire/2013/08/qq_netflix-algorithm/

Page 16: Busca, Recuperação e Mineração na Web - ic.uff.brbazilio/cursos/sistweb/material/WebMining.pdf · Desafios na Análise de Dados na Web Dados distribuídos Dados voláteis Grande

16

Exemplos de AplicaçõesExemplos de Aplicações

NSA (Mineração ???) U.S. National Security Agency Imagens seguintes extraídas do site

archive.org

Page 17: Busca, Recuperação e Mineração na Web - ic.uff.brbazilio/cursos/sistweb/material/WebMining.pdf · Desafios na Análise de Dados na Web Dados distribuídos Dados voláteis Grande

17

Exemplos de AplicaçõesExemplos de Aplicações

Page 18: Busca, Recuperação e Mineração na Web - ic.uff.brbazilio/cursos/sistweb/material/WebMining.pdf · Desafios na Análise de Dados na Web Dados distribuídos Dados voláteis Grande

18

Exemplos de AplicaçõesExemplos de Aplicações

Page 19: Busca, Recuperação e Mineração na Web - ic.uff.brbazilio/cursos/sistweb/material/WebMining.pdf · Desafios na Análise de Dados na Web Dados distribuídos Dados voláteis Grande

19

Exemplos de AplicaçõesExemplos de Aplicações

Google Knowledge Graph Facebook Open Graph IBM Watson

Page 20: Busca, Recuperação e Mineração na Web - ic.uff.brbazilio/cursos/sistweb/material/WebMining.pdf · Desafios na Análise de Dados na Web Dados distribuídos Dados voláteis Grande

20

Desafios na Análise deDesafios na Análise deDados na WebDados na Web

Dados distribuídos Dados voláteis Grande volume de dados Dados não estruturados e redundantes Qualidade dos dados Formatos heterogêneos

Page 21: Busca, Recuperação e Mineração na Web - ic.uff.brbazilio/cursos/sistweb/material/WebMining.pdf · Desafios na Análise de Dados na Web Dados distribuídos Dados voláteis Grande

21

Desafios na Análise deDesafios na Análise deDados na WebDados na Web

Como expressar consultas Como interpretar os resultados

Page 22: Busca, Recuperação e Mineração na Web - ic.uff.brbazilio/cursos/sistweb/material/WebMining.pdf · Desafios na Análise de Dados na Web Dados distribuídos Dados voláteis Grande

22

ReferênciasReferências

[1] Searching the Web, Arvind Arasu et. al,Journal ACM Transactions on InternetTechnology

[2] Web Mining Research Survey, https://arxiv.org/pdf/cs/0011033.pdf

[3] Web Mining: Examples and Applications, Arne Pottharst