DOS ANTIGOS SISTEMAS DE BUSCA NA INTERNET AO
NOVO PROCESSAMENTO DE DADOS NÃO-ESTRUTURADOS
(BIG DATA)
Leandro Pimentel BorgesMatr. 1020900
Atualmente a quantidade de dados gerados por
segundo é muito maior do que a gerada há 10 anos no período
de um ano, além desta ser não-estruturada também é preciso
analisa-la e gerar resultados precisos em um curto período de
tempo - BIG DATA.
Para ser dado outro grande passo na evolução da
internet é necessário que todas as máquinas se comuniquem e
entendam os dados que recebem utilizando ONTOLOGIA.
P R O B L E M ÁT I C A :
O problema a ser explorado é a falta de conhecimento,
tanto o usuário comum como do aluno inicial, de como
funcionavam os primeiros buscadores da internet, como
evoluíram, como encontra-se a internet atual, interação de
sites e bancos de dados, como caminha o atual sistema de
gerenciamento de informação dinâmico da internet e como
será a internet do futuro.
O objetivo é explicar tudo isso e de forma resumida mas
sem aprofundar-se tecnologicamente em cada assunto.
P r o b l e m a a s e r ex p l o ra d o :
C A P Í T U LO I – M o t o r e s d e b u s c a ( b u s c a d o r e s )
É um programa para encontrar informações
armazenadas em um banco de dados a partir de palavras-chave
indicadas, apresentando os resultados organizadamente, e de
maneira rápida e eficiente.
As maiores empresas na área de busca em 01/10/2012
são Google (Us$ 249,2 bilhões), a Microsoft (Us$ 248,7 bilhões),
o Yahoo (Us$ 20 bilhões) e o Bing (valor não disponível).
C A P Í T U LO I I – H i s tó r i a d o s B u s c a d o r e s
1990 – Archie (arquivos em FTP anônimos);
1991 – Gopher (textos em geral);
Veronica e Jughead (para o Gopher);
1993 – Wandex (índice de textos), Aliweb;
1994 – Web Crawler (buscador moderno), Lycos;
1995 – Yahoo Diretórios (formulário para cadastro);
1998 – beta spider na página inicial, Google;
2000 – robot automático varria links de sites (motores
indexantes, crawlers ou spiders).
O Webcrawler aparece no filme “Possuídos”, (Fallen / 1998), com Denzel Washington, aos 21:25min, como exemplo de principal buscador.
C A P Í T U LO I I – T i p o s d e B u s c a d o r e s
Globais (Google, Yahoo, Bing);
Verticais (Buscapé, Bondfaro);
Locais (Telelistas, Apontador, Icarros);
Diretórios (índices de categorias);
Open Directory (www.DMOZ.org);
C A P Í T U LO I I – I n d exa ç ã o d e p á g i n a s
Forma mais eficiente de organizar e encontrar dados;
Formato atual: XML (maior eficácia, crawler simples)
Crawlers varrem sites copiando dados p/ B.D.;
Pagerank definindo importância do site;
Metatags definindo conteúdo para buscadores;
keywords, description, content-language, content-type, author,
reply-to, generator. Comandos: refresh, Header "Location"
C A P Í T U LO I I – R O B OT S
O robots.txt é um arquivo que é procurado pelas
ferramentas de busca para saber quais partes do site não
devem ser indexados.
Robots.txt
User-agent: *
Disallow: /cgi-bin/ #scripts e programas
Disallow: /logado/
Disallow: /tmp/ #parte de testes
Disallow: /private/ #arquivos da empresa
C A P Í T U LO I I – S I T E M A P S
Um Sitemap é um arquivo XML que lista os URLs de um
site para facilitar a indexação do site pelos motores de busca de
forma mais inteligente, podendo incluir informações sobre cada
URL, última atualização, etc.
Enquanto os sitemaps servem para inclusão de URL os
robots.txt tem a função contrária, servindo para exclusão.
O Google deu início ao Sitemaps versão 0.85 em junho
de 2005, MSN e Yahoo anunciaram apoio em novembro de
2006 e em abril de 2007 a Ask e a IBM iniciaram suporte.
C A P Í T U LO I I – M E TA B U S C A
É um sistema que realiza uma pesquisa em vários
mecanismos de busca ao mesmo tempo, funcionando da
mesma forma que os motores de busca convencionais e com a
vantagem de padronizar e mostrar um resultado muito maior.
Os metabuscadores (ou multibuscadores) são muito
eficientes quando utilizados na busca de termos muito
específicos e quando há necessidade de cruzar muitos dados
afim de estreitar o resultado final de uma pesquisa.
C A P Í T U LO I I – W E B C R AW L E R
Também chamados de agentes, bots, spiders, robots ou
scutters. São indexadores automáticos que navegam pela
internet de uma forma metódica e automatizada visitando cada
página de um site, colhendo informações e copiando todo o
texto principal e indexando-as ao banco de dados.
Bots também podem ser usados para colher emails,
verificar atualizações, validar links, validar código fonte, checar
erros, apagar links inválidos dos bancos de dados, adicionar
novos links, etc.
C A P Í T U LO I I – A LTAV I S TA
O AltaVista (www.altavista.digital.com) começou a
funcionar em 15/12/1995, pertencia a Digital Equipment
Corporation e chegava a fazer 61.000 pesquisas diárias.
Em 1998 a Compac compra o Altavista, depois foi
comprada em 02/2003 pela Overture Services (GoTo.com) e
depois comprada pelo Yahoo, em 08/2004, por Us$ 1,63 bilhão.
Enquanto esta monografia estava sendo elaborada, o
vice-presidente do Yahoo!, Jay Rossiter, anunciou que dia
08/07/2013 o Altavista Search encerraria seus serviços.
C A P Í T U LO I I – S e a rc h E n g i n e O p ti m i za ti o n ( S EO)
É o processo de influenciar a visibilidade de um site
num mecanismo de pesquisa em resultados gratuitos ou pagos
afim de receber mais visitantes e ter maior lucro, podendo
pesquisar por imagens, vídeos, notícias, etc.
Provavelmente essa expressão SEO entrou em uso em
1997 com John Audette e sua empresa Multimedia Marketing
Group.
QDF: http://www.branded3.com/blogs/using-google-query-deserves-freshness-model/
C A P Í T U LO I I I – O nt o l o g i a
Ontologia é uma modelagem de dados de um conjunto
de conceitos, objetos e estruturas.
É utilizada em inteligência artificial, web semântica,
engenharia de software e arquitetura da informação, como
uma forma de representação de conhecimento.
Ontologias geralmente descrevem Indivíduos (objetos
básicos), Classes (conjuntos, coleções ou tipos de objetos),
Atributos (propriedades e características dos objetos) e
Relacionamentos (formas de relacionamento entre objetos).
C A P Í T U LO I I I – Fe r ra m e n ta s d e O n to l o g i a
Protégé 2000 - Ambiente interativo com arquitetura modulada.
Possui código aberto, importando e exportando para XML.
C A P Í T U LO I I I – Fe r ra m e n ta s d e O n to l o g i a
WebODE - Desenvolvido na Universidade Politécnica de Madri.
Aplicação Web com ontologias armazenadas em BD relacionais.
C A P Í T U LO I I I – Fe r ra m e n ta s d e O n to l o g i a
OntoEdit - Ambiente gráfico para edição, navegação, e
alteração de ontologias. Disponível como Free ou Professional.
C A P Í T U LO I I I – B i b l i o te c a s d e O n to l o g i a
Disponibilizam listas ou diretórios de ontologias com
mecanismos de buscas.
• DAML Ontology Library - ontologias em DAML.
• SchemaWeb - diretório de RDF em OWL e DAML+OIL.
• Swoogle - recursos RDF e ontologias.
• OntoSelect - recursos em RDF/S, DAML e OWL.
• Ontaria - diretório navegável em RDF e OWL.
C A P Í T U LO I I I – L i n g u a g e n s d e O n t o l o g i a
A DAML (DARP Agent Markup Language) é uma
linguagem de ontologia e inferência baseada em RDF, uma
iniciativa da DARPA (Defense Advanced Research Projects
Agency) e oriunda da combinação de DAML e OIL, denominada
DAML+OIL, uma linguagem anteriormente proposta pelo W3C.
C A P Í T U LO I I I – B i b l i o te c a s d e O n to l o g i a
A OWL (Web Ontology Language) - para aplicações que
processam o conteúdo e o significado de informações em
termos em vocabulários e seus relacionamentos, expressando
significados e semânticas mais facilmente do que XML, RDF e
RDF Schema pois é uma revisão da linguagem DAML+OIL,
passando a fazer parte das recomendações do W3C para a Web
Semântica.
C A P Í T U LO I I I – W 3 C We b S e m â nti c a
A Web Semântica foi uma iniciativa da World Wide Web
Consortium (W3C), desenvolvendo especificações para troca de
dados e processamento por programas independentes.
www.w3c.br/Home/WebHome
http://validator.w3.org
W3C - Consórcio criado para estimular a acessibilidade
em sites, estudar novas possibilidades em modelagens
semânticas, metadados e vocabulários. Atualmente se
empenha na abertura de dados governamentais.
C A P Í T U LO I I I – W 3 C We b S e m â nti c a
A linguagem de consulta SPARQL para dados RDF é
formada pelos componentes Resource Description Framework
(RDF) Modelo Core, a linguagem RDF Schema, a linguagem
Ontology Web (OWL) e do Sistema de Organização do
Conhecimento Simples (SKOS). As recomendações POWDER
permitem encontrar descrições que podem ser "unidas" em
RDF. As recomendações GRDDL e RDFa integram o modelo RDF
e formatos XHTML.
C A P Í T U LO I I I – W 3 C We b S e m â nti c a
RDFa adiciona dados estruturados para HTML, ou seja,
um meio para utilizar Linked Data em aplicações web. O
objetivo da linguagem R2RML é servir como uma linguagem
padrão mapeando dados relacionais e esquemas de banco de
dados relacional para RDF e OWL. O objetivo do Linked Perfil
Data Group é fornecer uma camada de "nível de entrada" da
Linked Data usando RESTful, baseado em API HTTP.
C A P Í T U LO I V – S i s te m a s D i s t r i b u í d o s
Um Banco de Dados Relacional define maneiras de
armazenar, manipular e recuperar dados estruturados
unicamente na forma de tabelas.
Foram desenvolvidos para facilitar o acesso aos dados
pois os usuários podem fazer perguntas através de vários
pontos em centenas de tabelas, associadas por chaves
(conjunto de seus atributos), através de regras de
relacionamentos.
C A P Í T U LO I V – L i n ke d D a t a . O r g
Linked Data é a forma de se usar a internet para
conectar dados relacionados separados.
A Wikipedia define como "um termo usado para
descrever uma prática recomendada para expor, compartilhar e
se conectar pedaços de dados, informações e conhecimentos
sobre a Web Semântica usando URIs e RDF."
C A P Í T U LO I V – L i n ke d D a t a . O r g
O Movimento Open Data visa tornar os dados atuais
disponíveis livres para todos. Atualmente temos: Wikipédia,
Wikibooks, Geonames, MusicBrainz, WordNet, a bibliografia
DBLP e as publicações sob licenças Creative Commons ou Talis.
Até setembro de 2011 foram 295 conjuntos de dados
com mais de 31 bilhões de triplos RDF interligados por cerca de
504 milhões de ligações RDF.
C A P Í T U LO I V – L i n ke d D a t a P l a tf o r m
O Grupo de Trabalho Linked Data Platform desenvolveu
um protocolo para APIs RESTful Web Services para acessar
dados RDF utilizando SPARQL que podem ser definidas
independentemente para obter e alterar o estado de objetos
no servidor, identificados com URIs.
Aplicações LDP simples podem ser desenvolvidos e
implantados usando apenas RDF e HTTP.
Aplicações mais extensas do LDP podem ser construídas
utilizando RDFS, SPARQL, OWL, RIF, etc.
C A P Í T U LO I V – S PA R Q L
SPARQL é uma linguagem de consulta RDF para bancos
de dados capaz de recuperar e manipular dados.
Foi feito um padrão pelo Grupo RDF Data Access
Working do W3C e é uma das principais tecnologias da web
semântica pois permite uma consulta em padrões triplos,
conjunções, disjunções e padrões opcionais além de existir
implementações para várias linguagens de programação.
C A P Í T U LO I V – D B Pe d i a
A DBpedia é uma tarefa conjunta para extrair
informações estruturadas da Wikipedia e disponibilizá-las na
Web, permitindo criar ligações com outros bancos de dados,
interligando e melhoramento da própria enciclopédia.
A DBpedia oferece um gigantesco banco de dados, em
várias línguas, compartilhados sob uma licença de domínio
público pois a ideia desse projeto é construir uma comunidade
colaborativa, catalogando o conhecimento humano,
modelando, representando e compartilhando informações.
Banco de dados da DBPedia sobre o Filme “O Homem do Futuro”:
Mesmo exemplo utilizando RDF:
Mesmo exemplo utilizando JSON:
Mesmo exemplo utilizando NTriples:
C A P Í T U LO I V – B u s c a d o r e s e I n d exa d o r e s
Existem crawlers que permitem processar RDF/XML,
Turtle, Notation 3, RDF e microformatos para armazená-los
como arquivos ou repositórios RDF e o LDspider .
Exemplos: Sig.ma (http://sig.ma), Falcons
(ws.nju.edu.cn/falcons/objectsearch/index.jsp), SWSE
(swse.org/index.php), Sindice (sindice.com), Swoogle
(swoogle.umbc.edu), Watson (kmi-web05.open.ac.uk/
RST_API.html), etc.
C A P Í T U LO V – Te c n o l o g i a s E m e r g e n te s
A Web 1.0 tinha a interatividade limitada a troca de
emails e chats e a interatividade era praticamente nula.
Lévy (2010) chama a Web 2.0 de computação social,
onde a criação e layout dos conteúdos é feita pelo usuário.
A Web 3.0 foi anunciada pela primeira vez em 2011, por
Tim Berners Lee, James Hendler e Ora Lassila, intitulado “Web
Semântica: um novo formato de conteúdo para a Web que tem
significado para computadores e vai iniciar uma revolução de
novas possibilidades”.
C A P Í T U LO V – Te c n o l o g i a s E m e r g e n te s
Em seu relatório de tecnologias emergentes, Gartner
afirmou que Column-store DBMS, Computação da Nuvem, In-
Memory Database Management Systems serão os três maiores
transformadores de tecnologias nos próximos cinco anos. Esse
mesmo relatório também cita Complex Event Processing,
conteúdo analítico, serviços de contextos enriquecidos,
Computação na Nuvem híbrida, Framework de Capacidades de
Informação e Telemática.
C A P Í T U LO V – B I G DATA
É o conjunto de soluções capaz de lidar com dados em
volume, variedade e velocidades gigantescos, analisando
informações em tempo real e sendo fundamental para a
tomada de decisões.
A quantidade global de dados digitais crescerá de forma
exponencial de 1,8 zettabytes, em 04/2012, para 7,9 zettabytes
em 3 anos (04/2015).
C A P Í T U LO V – B I G DATA 1 . 0 ( 0 4 / 2 0 1 2 )
C A P Í T U LO V – B I G DATA 2 . 0 ( 1 1 / 2 0 1 2 )
C A P Í T U LO V – P r o j e to I B M A p a c h e H a d o o p
É um framework aberto em java para processamento
distribuído para Big Data praticamente financiador pelo Yahoo.
Foi o vencedor do Terabyte Sort Benchmark 2013 com
os impressionantes resultados: Velocidade máxima de
processamento de 1.42 TB/min, com 102.5TB de dados
analisados e refinados em 72 minutos e utilizando 2100 nodes
de 2.3Ghz hexcore Xeon E5-2630, 64 GB memory, 12x3TB disks,
sendo 80% mais rápido que as concorrentes .
C A P Í T U LO V – Te ra b y t e S o r t B e n c h m a r k 2 0 1 3
C A P Í T U LO V – I B M B i g D a ta
C A P Í T U LO V – W i n d o w s A z u r e
C A P Í T U LO V – G o o g l e B i g Q u e r y
Estatísticas de nascimento nos Estados Unidos de 1969
a 2008, sendo mais de 137 milhões de fileiras de dados.
C U R I O S I DA D E S
OLD PRINT SCREENS
FINAL