AGREGADOR AUTÔNOMO DE CONTEÚDO WEB Rafael Marchioli Bernardes Wagner Ferreira dos Santos Júnior...

View
106
Download
1
Category

Documents

Preview:

Citation preview

AGREGADOR AUTÔNOMO DE CONTEÚDO WEBRafael Marchioli Bernardes

Wagner Ferreira dos Santos Júnior

Wilson Massashiro Yonezawa

OBJETIVO

Desenvolver um sistema computacional capaz de agregar informações de ofertas de compras coletivas através apenas da analise do código HTML/Javascript/CSS padrão web, agrupando-as de acordo com as caracteristicas da oferta apresentada.

Classificador

Scraper

CRAWLER

ARQUITETURA DO CRAWLER

CRAWLERS Crawler sequencial Seeds é qualquer lista

de URLs A ordem das paginas

visitadas é definida pela arquitetura do frontier

Criterio de parada pode ser qualquer.

DATA CLEANING

Data cleaning Remove referências irrelevantes e campos nos

logs. Remove referências criada pela navegação do

crawler Remove referências erradas Adiciona referências perdidas devido a

sessionization.

CLASSIFICADOR

Integração XML. Criação de template manual. Modelo de extração autonomo.

<?xml version="1.0" encoding="UTF-8"?>

<id>ID da oferta</id>

<cidade>Rio de Janeiro</cidade>

<endereco>Endereço da oferta</endereco>

<titulo>Título da oferta</titulo>

<preco-real>Preço Real</preco-real>

<preco-final>Preço Final</preco-final>

<desconto>Desconto Porcentagem</desconto>

<url-imagem>URL da imagem</url-imagem>

<site>Nome do site da oferta</site>

<data-inicio>Data de início da oferta</data-inicio>

<data-fim>Data do término da oferta</data-fim>

<categoria>Categoria da oferta</categoria>

<numero-vendas>Número de ofertas vendidas</numero-vendas>

</oferta>

<cidade>...</cidade>...

...

</oferta>

</ofertas>

MANUAL

Extensão Chrome. Capaz de navegar o DOM e estrair um

template da info selecionada. Armazena o template. Requesita o dado baseado no template.

EXTRAÇÃO AUTONOMA

Cada extração é feita utilizando-se 2 regras, uma start rule e uma end rule.

As regras de extração são baseadas em landmarks. Cada landmark é uma sequência tokens

consecutivos. Landmarks são usados para localizar o inicio e o

fim de cada item. Regras usam landmarks

EXEMPLO:“Good Noodles”. A regra R1 pode identificar o início:

R1: SkipTo(<b>) // start rule Com essa regra o sistema varre a pagina do início até

encontrar a tag <b>, que é um landmark. Para identifcar o fim:

R2: SkipTo(</b>) // end rule

REGRAS NÃO SÃO ÚNICAS Por exemplo, outras regras podem ser usadas

para encontrar o início da palavra:R3: SkiptTo(Name _Punctuation_ _HtmlTag_)

ou R4: SkiptTo(Name) SkipTo(<b>)

R3 pula-ra tudo ate encontrar “Name” seguido por uma pontuação e uma tag HTML. Name _Punctuaion_ e _HtmlTag juntos formam um landmark.

REGRAS DE EXTRAÇÃO Como o Stalker(Modulo que compara os dados e

cria os templates) aprende as regras para encontrar um item. Em cada iteração ele aprende uma regra que cobre o

maior número de exemplos positivos sem ter nenhum exemplo negativo.

Uma vez que um exemplo positivo é coberto por uma regra, este exemplo é removido.

O algoritmo termina quando todos os exemplos positivos foram removidos e o resultado é uma lista com todas as regras aprendidas.

PARSING HTML tem uma estrutura de

árvore DOM (Document Object Model)

HTML geralmente possui erros Crawlers, assim como

browsers, devem ser robustos Mas existem ferramentas para

ajudar E.g. tidy.sourceforge.net

Cuidado com os diversos outros formatos Flash, SVG, RSS, AJAX…

FRONTEND

APLICATIVO CHROME

Possível seleção dos parâmetros a serem selecionados.

Usuário seleciona na tela qual será a informação a ser gravada e em seguida seleciona na extensão onde grava-la

Ao final exporta-se um arquivo contendo os caminhos que foram selecionados, tornando possível coleta-los automaticamente da próxima vez.

BIBLIOGRAFIA:

YU, Liyang. A Developer’s guide to the Semantic Web. Springer 1st Edition., 2011

Web Semântica. Disponível em: < http://pt.wikipedia.org/wiki/Web_semantica > Acesso em : 16 março 2011.

SYCARA, Katia; PAOLUCCI, Massimo; ANKOLEKAR, Anupriya; SRINIVASAN, Naveen. Automated discovery, interaction and composition of Semantic Web services. Carnegie Mellon University, 18 julho 2003

BERNERS-LEE, Tim; HENDLER, James; LASSILA, Ora. The Semantic Web: A new form of Web content that is meaningful to computers will unleash a revolution of new possibilities, 17 Maio 2001

LIU, Bing. Web Data Mining Exploring Hyperlinks, Contests, and Usage Data. Springler-Verlag Berlin Heidelberg, 2007

WITTEN, Ian H.; FRANK, Eibe; HALL, Mark A..Data Mining:Practical Machine Learning tools and techniques, 2011

http://pt.wikipedia.org/wiki/Web_semantica

FIM

www.promotime.com.br

Recommended

ACAFE - ASSOCIAÇÃO CATARINENSE DAS … fontana 207025 ... leticia marchioli fernandes 188039 liandra damazio della gustina 182084 ... beatriz luciano novaki 206365

Documents

CEFALÉIAS PRIMÁRIAS Ambulatório de Neurologia - Prof. Dr. Milton Marchioli Acadêmica Natália H. Papa 4º Ano de Medicina 2011 – FAMEMA

Documents

DISCIPLINA ESCOLAR: ELEMENTO AGREGADOR NA APRENDIZAGEM DOS ALUNOS NO ENSINO MÉDIO

Documents

Caroline Fornaciari Daniella Gimenez Caio Esper Prof. Dr. Milton Marchioli 4ª série Medicina - FAMEMA

Documents

APRENDER BRINCANDO: OS JOGOS DE VIDEOGAMES … · Ao se pensar no ensino de matemática, e corroborando ao que Skovsmose fala sobre o ensino tradicional, Filho, Kocianski e Yonezawa

Documents

Docente: Prof. Dr. Milton Marchioli Disciplina: Ética Profissional Discente: Vitor Della Rovere Binhardi RA 131.064.479 Ano de 2015

Documents

AGREGADOR AUTÔNOMO DE CONTEÚDO WEB Rafael Marchioli Bernardes Wagner Ferreira dos Santos Júnior...

Documents

ACAFE - ASSOCIAÇÃO CATARINENSE DAS … fontana 207025 ... leticia marchioli fernandes 188039 liandra damazio della gustina 182084 ... beatriz luciano novaki 206365

Sistema Extrapiramidal e PIRAMIDAL PROFESSOR MARCHIOLI FAMEMA – 4º ANO

Listus - Serviço Agregador de Lista de Presentes

David Claro – 4ª série Medicina Ambulatório de Cefaléia – Famema 2013 Professor Dr. Milton Marchioli

ARTIGO CONAPE - Logística Reversa como fator agregador de valor na marca,produto ou serviço..pdf

CEFALÉIAS PRIMÁRIAS Ambulatório de Neurologia - Prof. Dr. Milton Marchioli Acadêmica Natália H. Papa 4º Ano de Medicina 2011 – FAMEMA

DISCIPLINA ESCOLAR: ELEMENTO AGREGADOR NA APRENDIZAGEM DOS ALUNOS NO ENSINO MÉDIO

Caroline Fornaciari Daniella Gimenez Caio Esper Prof. Dr. Milton Marchioli 4ª série Medicina - FAMEMA

APRENDER BRINCANDO: OS JOGOS DE VIDEOGAMES … · Ao se pensar no ensino de matemática, e corroborando ao que Skovsmose fala sobre o ensino tradicional, Filho, Kocianski e Yonezawa

Dr. Werner Garcia de Souza Ambulatório de Cefaléia Famema 2010 Prof. Dr. Milton Marchioli

Residente Dr(a)Vanessa Vieira Disciplina Neurologia – Famema Ambulatório Neurovascular Docente – Milton Marchioli

29052015 Informe Avance Semanal Site 0104430 Cp Site Agregador Cablacanc

Ambulatório de Cefaléia Acadêmica Lívia M.B. Tamai 4º ANO FAMEMA - 2010 Prof.Dr. Milton Marchioli

Atenção Primária à Saúde Prof. Dr. Marchioli MBA em Gestão de Hospitais e Sistemas de Saúde

Ambulatório de AVC Docente: Prof. Dr. Milton Marchioli Alunos: Artur B. Batalhão Fernanda de O. Igarashi 4º ano 2013

Docente: Prof. Dr. Milton Marchioli Disciplina: Ética Profissional Discente: Vitor Della Rovere Binhardi RA 131.064.479 Ano de 2015

Ambulatório de Neurovascular – Famema Prof. Dr. Milton Marchioli Dr. Fábio de Araujo Pereira

Cesar Yokoyama Iwata Ambulatório Neurologia Dr. Milton Marchioli ACIDENTE VASCULAR CEREBRAL ISQUÊMICO

MILTON MARCHIOLI Eutanásia Legalidade ou Ilegalidade

Caio Shinoda Caroline Coronado Medicina Famema 2013 Prof. Dr. Milton Marchioli - Ambulatório Neurovascular