Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM...

Preview:

DESCRIPTION

DOS ANTIGOS SISTEMAS DE BUSCA NA INTERNET AO NOVO PROCESSAMENTO DE DADOS NÃO-ESTRUTURADOS (BIG DATA)

Citation preview

DOS ANTIGOS SISTEMAS DE BUSCA NA INTERNET AO

NOVO PROCESSAMENTO DE DADOS NÃO-ESTRUTURADOS

(BIG DATA)

Leandro Pimentel BorgesMatr. 1020900

Atualmente a quantidade de dados gerados por

segundo é muito maior do que a gerada há 10 anos no período

de um ano, além desta ser não-estruturada também é preciso

analisa-la e gerar resultados precisos em um curto período de

tempo - BIG DATA.

Para ser dado outro grande passo na evolução da

internet é necessário que todas as máquinas se comuniquem e

entendam os dados que recebem utilizando ONTOLOGIA.

P R O B L E M ÁT I C A :

O problema a ser explorado é a falta de conhecimento,

tanto o usuário comum como do aluno inicial, de como

funcionavam os primeiros buscadores da internet, como

evoluíram, como encontra-se a internet atual, interação de

sites e bancos de dados, como caminha o atual sistema de

gerenciamento de informação dinâmico da internet e como

será a internet do futuro.

O objetivo é explicar tudo isso e de forma resumida mas

sem aprofundar-se tecnologicamente em cada assunto.

P r o b l e m a a s e r ex p l o ra d o :

C A P Í T U LO I – M o t o r e s d e b u s c a ( b u s c a d o r e s )

É um programa para encontrar informações

armazenadas em um banco de dados a partir de palavras-chave

indicadas, apresentando os resultados organizadamente, e de

maneira rápida e eficiente.

As maiores empresas na área de busca em 01/10/2012

são Google (Us$ 249,2 bilhões), a Microsoft (Us$ 248,7 bilhões),

o Yahoo (Us$ 20 bilhões) e o Bing (valor não disponível).

C A P Í T U LO I I – H i s tó r i a d o s B u s c a d o r e s

1990 – Archie (arquivos em FTP anônimos);

1991 – Gopher (textos em geral);

Veronica e Jughead (para o Gopher);

1993 – Wandex (índice de textos), Aliweb;

1994 – Web Crawler (buscador moderno), Lycos;

1995 – Yahoo Diretórios (formulário para cadastro);

1998 – beta spider na página inicial, Google;

2000 – robot automático varria links de sites (motores

indexantes, crawlers ou spiders).

O Webcrawler aparece no filme “Possuídos”, (Fallen / 1998), com Denzel Washington, aos 21:25min, como exemplo de principal buscador.

C A P Í T U LO I I – T i p o s d e B u s c a d o r e s

Globais (Google, Yahoo, Bing);

Verticais (Buscapé, Bondfaro);

Locais (Telelistas, Apontador, Icarros);

Diretórios (índices de categorias);

Open Directory (www.DMOZ.org);

C A P Í T U LO I I – I n d exa ç ã o d e p á g i n a s

Forma mais eficiente de organizar e encontrar dados;

Formato atual: XML (maior eficácia, crawler simples)

Crawlers varrem sites copiando dados p/ B.D.;

Pagerank definindo importância do site;

Metatags definindo conteúdo para buscadores;

keywords, description, content-language, content-type, author,

reply-to, generator. Comandos: refresh, Header "Location"

C A P Í T U LO I I – R O B OT S

O robots.txt é um arquivo que é procurado pelas

ferramentas de busca para saber quais partes do site não

devem ser indexados.

Robots.txt

User-agent: *

Disallow: /cgi-bin/ #scripts e programas

Disallow: /logado/

Disallow: /tmp/ #parte de testes

Disallow: /private/ #arquivos da empresa

C A P Í T U LO I I – S I T E M A P S

Um Sitemap é um arquivo XML que lista os URLs de um

site para facilitar a indexação do site pelos motores de busca de

forma mais inteligente, podendo incluir informações sobre cada

URL, última atualização, etc.

Enquanto os sitemaps servem para inclusão de URL os

robots.txt tem a função contrária, servindo para exclusão.

O Google deu início ao Sitemaps versão 0.85 em junho

de 2005, MSN e Yahoo anunciaram apoio em novembro de

2006 e em abril de 2007 a Ask e a IBM iniciaram suporte.

C A P Í T U LO I I – M E TA B U S C A

É um sistema que realiza uma pesquisa em vários

mecanismos de busca ao mesmo tempo, funcionando da

mesma forma que os motores de busca convencionais e com a

vantagem de padronizar e mostrar um resultado muito maior.

Os metabuscadores (ou multibuscadores) são muito

eficientes quando utilizados na busca de termos muito

específicos e quando há necessidade de cruzar muitos dados

afim de estreitar o resultado final de uma pesquisa.

C A P Í T U LO I I – W E B C R AW L E R

Também chamados de agentes, bots, spiders, robots ou

scutters. São indexadores automáticos que navegam pela

internet de uma forma metódica e automatizada visitando cada

página de um site, colhendo informações e copiando todo o

texto principal e indexando-as ao banco de dados.

Bots também podem ser usados para colher emails,

verificar atualizações, validar links, validar código fonte, checar

erros, apagar links inválidos dos bancos de dados, adicionar

novos links, etc.

C A P Í T U LO I I – A LTAV I S TA

O AltaVista (www.altavista.digital.com) começou a

funcionar em 15/12/1995, pertencia a Digital Equipment

Corporation e chegava a fazer 61.000 pesquisas diárias.

Em 1998 a Compac compra o Altavista, depois foi

comprada em 02/2003 pela Overture Services (GoTo.com) e

depois comprada pelo Yahoo, em 08/2004, por Us$ 1,63 bilhão.

Enquanto esta monografia estava sendo elaborada, o

vice-presidente do Yahoo!, Jay Rossiter, anunciou que dia

08/07/2013 o Altavista Search encerraria seus serviços.

C A P Í T U LO I I – S e a rc h E n g i n e O p ti m i za ti o n ( S EO)

É o processo de influenciar a visibilidade de um site

num mecanismo de pesquisa em resultados gratuitos ou pagos

afim de receber mais visitantes e ter maior lucro, podendo

pesquisar por imagens, vídeos, notícias, etc.

Provavelmente essa expressão SEO entrou em uso em

1997 com John Audette e sua empresa Multimedia Marketing

Group.

QDF: http://www.branded3.com/blogs/using-google-query-deserves-freshness-model/

C A P Í T U LO I I I – O nt o l o g i a

Ontologia é uma modelagem de dados de um conjunto

de conceitos, objetos e estruturas.

É utilizada em inteligência artificial, web semântica,

engenharia de software e arquitetura da informação, como

uma forma de representação de conhecimento.

Ontologias geralmente descrevem Indivíduos (objetos

básicos), Classes (conjuntos, coleções ou tipos de objetos),

Atributos (propriedades e características dos objetos) e

Relacionamentos (formas de relacionamento entre objetos).

C A P Í T U LO I I I – Fe r ra m e n ta s d e O n to l o g i a

Protégé 2000 - Ambiente interativo com arquitetura modulada.

Possui código aberto, importando e exportando para XML.

C A P Í T U LO I I I – Fe r ra m e n ta s d e O n to l o g i a

WebODE - Desenvolvido na Universidade Politécnica de Madri.

Aplicação Web com ontologias armazenadas em BD relacionais.

C A P Í T U LO I I I – Fe r ra m e n ta s d e O n to l o g i a

OntoEdit - Ambiente gráfico para edição, navegação, e

alteração de ontologias. Disponível como Free ou Professional.

C A P Í T U LO I I I – B i b l i o te c a s d e O n to l o g i a

Disponibilizam listas ou diretórios de ontologias com

mecanismos de buscas.

• DAML Ontology Library - ontologias em DAML.

• SchemaWeb - diretório de RDF em OWL e DAML+OIL.

• Swoogle - recursos RDF e ontologias.

• OntoSelect - recursos em RDF/S, DAML e OWL.

• Ontaria - diretório navegável em RDF e OWL.

C A P Í T U LO I I I – L i n g u a g e n s d e O n t o l o g i a

A DAML (DARP Agent Markup Language) é uma

linguagem de ontologia e inferência baseada em RDF, uma

iniciativa da DARPA (Defense Advanced Research Projects

Agency) e oriunda da combinação de DAML e OIL, denominada

DAML+OIL, uma linguagem anteriormente proposta pelo W3C.

C A P Í T U LO I I I – B i b l i o te c a s d e O n to l o g i a

A OWL (Web Ontology Language) - para aplicações que

processam o conteúdo e o significado de informações em

termos em vocabulários e seus relacionamentos, expressando

significados e semânticas mais facilmente do que XML, RDF e

RDF Schema pois é uma revisão da linguagem DAML+OIL,

passando a fazer parte das recomendações do W3C para a Web

Semântica.

C A P Í T U LO I I I – W 3 C We b S e m â nti c a

A Web Semântica foi uma iniciativa da World Wide Web

Consortium (W3C), desenvolvendo especificações para troca de

dados e processamento por programas independentes.

www.w3c.br/Home/WebHome

http://validator.w3.org

W3C - Consórcio criado para estimular a acessibilidade

em sites, estudar novas possibilidades em modelagens

semânticas, metadados e vocabulários. Atualmente se

empenha na abertura de dados governamentais.

C A P Í T U LO I I I – W 3 C We b S e m â nti c a

A linguagem de consulta SPARQL para dados RDF é

formada pelos componentes Resource Description Framework

(RDF) Modelo Core, a linguagem RDF Schema, a linguagem

Ontology Web (OWL) e do Sistema de Organização do

Conhecimento Simples (SKOS). As recomendações POWDER

permitem encontrar descrições que podem ser "unidas" em

RDF. As recomendações GRDDL e RDFa integram o modelo RDF

e formatos XHTML.

C A P Í T U LO I I I – W 3 C We b S e m â nti c a

RDFa adiciona dados estruturados para HTML, ou seja,

um meio para utilizar Linked Data em aplicações web. O

objetivo da linguagem R2RML é servir como uma linguagem

padrão mapeando dados relacionais e esquemas de banco de

dados relacional para RDF e OWL. O objetivo do Linked Perfil

Data Group é fornecer uma camada de "nível de entrada" da

Linked Data usando RESTful, baseado em API HTTP.

C A P Í T U LO I V – S i s te m a s D i s t r i b u í d o s

Um Banco de Dados Relacional define maneiras de

armazenar, manipular e recuperar dados estruturados

unicamente na forma de tabelas.

Foram desenvolvidos para facilitar o acesso aos dados

pois os usuários podem fazer perguntas através de vários

pontos em centenas de tabelas, associadas por chaves

(conjunto de seus atributos), através de regras de

relacionamentos.

C A P Í T U LO I V – L i n ke d D a t a . O r g

Linked Data é a forma de se usar a internet para

conectar dados relacionados separados.

A Wikipedia define como "um termo usado para

descrever uma prática recomendada para expor, compartilhar e

se conectar pedaços de dados, informações e conhecimentos

sobre a Web Semântica usando URIs e RDF."

C A P Í T U LO I V – L i n ke d D a t a . O r g

O Movimento Open Data visa tornar os dados atuais

disponíveis livres para todos. Atualmente temos: Wikipédia,

Wikibooks, Geonames, MusicBrainz, WordNet, a bibliografia

DBLP e as publicações sob licenças Creative Commons ou Talis.

Até setembro de 2011 foram 295 conjuntos de dados

com mais de 31 bilhões de triplos RDF interligados por cerca de

504 milhões de ligações RDF.

C A P Í T U LO I V – L i n ke d D a t a P l a tf o r m

O Grupo de Trabalho Linked Data Platform desenvolveu

um protocolo para APIs RESTful Web Services para acessar

dados RDF utilizando SPARQL que podem ser definidas

independentemente para obter e alterar o estado de objetos

no servidor, identificados com URIs.

Aplicações LDP simples podem ser desenvolvidos e

implantados usando apenas RDF e HTTP.

Aplicações mais extensas do LDP podem ser construídas

utilizando RDFS, SPARQL, OWL, RIF, etc.

C A P Í T U LO I V – S PA R Q L

SPARQL é uma linguagem de consulta RDF para bancos

de dados capaz de recuperar e manipular dados.

Foi feito um padrão pelo Grupo RDF Data Access

Working do W3C e é uma das principais tecnologias da web

semântica pois permite uma consulta em padrões triplos,

conjunções, disjunções e padrões opcionais além de existir

implementações para várias linguagens de programação.

C A P Í T U LO I V – D B Pe d i a

A DBpedia é uma tarefa conjunta para extrair

informações estruturadas da Wikipedia e disponibilizá-las na

Web, permitindo criar ligações com outros bancos de dados,

interligando e melhoramento da própria enciclopédia.

A DBpedia oferece um gigantesco banco de dados, em

várias línguas, compartilhados sob uma licença de domínio

público pois a ideia desse projeto é construir uma comunidade

colaborativa, catalogando o conhecimento humano,

modelando, representando e compartilhando informações.

Banco de dados da DBPedia sobre o Filme “O Homem do Futuro”:

Mesmo exemplo utilizando RDF:

Mesmo exemplo utilizando JSON:

Mesmo exemplo utilizando NTriples:

C A P Í T U LO I V – B u s c a d o r e s e I n d exa d o r e s

Existem crawlers que permitem processar RDF/XML,

Turtle, Notation 3, RDF e microformatos para armazená-los

como arquivos ou repositórios RDF e o LDspider .

Exemplos: Sig.ma (http://sig.ma), Falcons

(ws.nju.edu.cn/falcons/objectsearch/index.jsp), SWSE

(swse.org/index.php), Sindice (sindice.com), Swoogle

(swoogle.umbc.edu), Watson (kmi-web05.open.ac.uk/

RST_API.html), etc.

C A P Í T U LO V – Te c n o l o g i a s E m e r g e n te s

A Web 1.0 tinha a interatividade limitada a troca de

emails e chats e a interatividade era praticamente nula.

Lévy (2010) chama a Web 2.0 de computação social,

onde a criação e layout dos conteúdos é feita pelo usuário.

A Web 3.0 foi anunciada pela primeira vez em 2011, por

Tim Berners Lee, James Hendler e Ora Lassila, intitulado “Web

Semântica: um novo formato de conteúdo para a Web que tem

significado para computadores e vai iniciar uma revolução de

novas possibilidades”.

C A P Í T U LO V – Te c n o l o g i a s E m e r g e n te s

Em seu relatório de tecnologias emergentes, Gartner

afirmou que Column-store DBMS, Computação da Nuvem, In-

Memory Database Management Systems serão os três maiores

transformadores de tecnologias nos próximos cinco anos. Esse

mesmo relatório também cita Complex Event Processing,

conteúdo analítico, serviços de contextos enriquecidos,

Computação na Nuvem híbrida, Framework de Capacidades de

Informação e Telemática.

C A P Í T U LO V – B I G DATA

É o conjunto de soluções capaz de lidar com dados em

volume, variedade e velocidades gigantescos, analisando

informações em tempo real e sendo fundamental para a

tomada de decisões.

A quantidade global de dados digitais crescerá de forma

exponencial de 1,8 zettabytes, em 04/2012, para 7,9 zettabytes

em 3 anos (04/2015).

C A P Í T U LO V – B I G DATA 1 . 0 ( 0 4 / 2 0 1 2 )

C A P Í T U LO V – B I G DATA 2 . 0 ( 1 1 / 2 0 1 2 )

C A P Í T U LO V – P r o j e to I B M A p a c h e H a d o o p

É um framework aberto em java para processamento

distribuído para Big Data praticamente financiador pelo Yahoo.

Foi o vencedor do Terabyte Sort Benchmark 2013 com

os impressionantes resultados: Velocidade máxima de

processamento de 1.42 TB/min, com 102.5TB de dados

analisados e refinados em 72 minutos e utilizando 2100 nodes

de 2.3Ghz hexcore Xeon E5-2630, 64 GB memory, 12x3TB disks,

sendo 80% mais rápido que as concorrentes .

C A P Í T U LO V – Te ra b y t e S o r t B e n c h m a r k 2 0 1 3

C A P Í T U LO V – I B M B i g D a ta

C A P Í T U LO V – W i n d o w s A z u r e

C A P Í T U LO V – G o o g l e B i g Q u e r y

Estatísticas de nascimento nos Estados Unidos de 1969

a 2008, sendo mais de 137 milhões de fileiras de dados.

C U R I O S I DA D E S

OLD PRINT SCREENS

FINAL

Recommended