Download pptx - Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

Transcript

Page 1: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

DOS ANTIGOS SISTEMAS DE BUSCA NA INTERNET AO

NOVO PROCESSAMENTO DE DADOS NÃO-ESTRUTURADOS

(BIG DATA)

Leandro Pimentel BorgesMatr. 1020900

Atualmente a quantidade de dados gerados por

segundo é muito maior do que a gerada há 10 anos no período

de um ano, além desta ser não-estruturada também é preciso

analisa-la e gerar resultados precisos em um curto período de

tempo - BIG DATA.

Para ser dado outro grande passo na evolução da

internet é necessário que todas as máquinas se comuniquem e

entendam os dados que recebem utilizando ONTOLOGIA.

P R O B L E M ÁT I C A :

Page 3: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

O problema a ser explorado é a falta de conhecimento,

tanto o usuário comum como do aluno inicial, de como

funcionavam os primeiros buscadores da internet, como

evoluíram, como encontra-se a internet atual, interação de

sites e bancos de dados, como caminha o atual sistema de

gerenciamento de informação dinâmico da internet e como

será a internet do futuro.

O objetivo é explicar tudo isso e de forma resumida mas

sem aprofundar-se tecnologicamente em cada assunto.

P r o b l e m a a s e r ex p l o ra d o :

Page 4: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

C A P Í T U LO I – M o t o r e s d e b u s c a ( b u s c a d o r e s )

É um programa para encontrar informações

armazenadas em um banco de dados a partir de palavras-chave

indicadas, apresentando os resultados organizadamente, e de

maneira rápida e eficiente.

As maiores empresas na área de busca em 01/10/2012

são Google (Us$ 249,2 bilhões), a Microsoft (Us$ 248,7 bilhões),

o Yahoo (Us$ 20 bilhões) e o Bing (valor não disponível).

Page 5: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

C A P Í T U LO I I – H i s tó r i a d o s B u s c a d o r e s

1990 – Archie (arquivos em FTP anônimos);

1991 – Gopher (textos em geral);

Veronica e Jughead (para o Gopher);

1993 – Wandex (índice de textos), Aliweb;

1994 – Web Crawler (buscador moderno), Lycos;

1995 – Yahoo Diretórios (formulário para cadastro);

1998 – beta spider na página inicial, Google;

2000 – robot automático varria links de sites (motores

indexantes, crawlers ou spiders).

Page 6: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

O Webcrawler aparece no filme “Possuídos”, (Fallen / 1998), com Denzel Washington, aos 21:25min, como exemplo de principal buscador.

Page 7: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

C A P Í T U LO I I – T i p o s d e B u s c a d o r e s

Globais (Google, Yahoo, Bing);

Verticais (Buscapé, Bondfaro);

Locais (Telelistas, Apontador, Icarros);

Diretórios (índices de categorias);

Open Directory (www.DMOZ.org);

http://www.dmoz.org/

Page 8: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

C A P Í T U LO I I – I n d exa ç ã o d e p á g i n a s

Forma mais eficiente de organizar e encontrar dados;

Formato atual: XML (maior eficácia, crawler simples)

Crawlers varrem sites copiando dados p/ B.D.;

Pagerank definindo importância do site;

Metatags definindo conteúdo para buscadores;

keywords, description, content-language, content-type, author,

reply-to, generator. Comandos: refresh, Header "Location"

Page 9: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

Page 10: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

C A P Í T U LO I I – R O B OT S

O robots.txt é um arquivo que é procurado pelas

ferramentas de busca para saber quais partes do site não

devem ser indexados.

Robots.txt

User-agent: *

Disallow: /cgi-bin/ #scripts e programas

Disallow: /logado/

Disallow: /tmp/ #parte de testes

Disallow: /private/ #arquivos da empresa

Page 11: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

Page 12: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

C A P Í T U LO I I – S I T E M A P S

Um Sitemap é um arquivo XML que lista os URLs de um

site para facilitar a indexação do site pelos motores de busca de

forma mais inteligente, podendo incluir informações sobre cada

URL, última atualização, etc.

Enquanto os sitemaps servem para inclusão de URL os

robots.txt tem a função contrária, servindo para exclusão.

O Google deu início ao Sitemaps versão 0.85 em junho

de 2005, MSN e Yahoo anunciaram apoio em novembro de

2006 e em abril de 2007 a Ask e a IBM iniciaram suporte.

Page 13: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

Page 14: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

Page 15: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

C A P Í T U LO I I – M E TA B U S C A

É um sistema que realiza uma pesquisa em vários

mecanismos de busca ao mesmo tempo, funcionando da

mesma forma que os motores de busca convencionais e com a

vantagem de padronizar e mostrar um resultado muito maior.

Os metabuscadores (ou multibuscadores) são muito

eficientes quando utilizados na busca de termos muito

específicos e quando há necessidade de cruzar muitos dados

afim de estreitar o resultado final de uma pesquisa.

Page 16: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

C A P Í T U LO I I – W E B C R AW L E R

Também chamados de agentes, bots, spiders, robots ou

scutters. São indexadores automáticos que navegam pela

internet de uma forma metódica e automatizada visitando cada

página de um site, colhendo informações e copiando todo o

texto principal e indexando-as ao banco de dados.

Bots também podem ser usados para colher emails,

verificar atualizações, validar links, validar código fonte, checar

erros, apagar links inválidos dos bancos de dados, adicionar

novos links, etc.

Page 17: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

Page 18: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

C A P Í T U LO I I – A LTAV I S TA

O AltaVista (www.altavista.digital.com) começou a

funcionar em 15/12/1995, pertencia a Digital Equipment

Corporation e chegava a fazer 61.000 pesquisas diárias.

Em 1998 a Compac compra o Altavista, depois foi

comprada em 02/2003 pela Overture Services (GoTo.com) e

depois comprada pelo Yahoo, em 08/2004, por Us$ 1,63 bilhão.

Enquanto esta monografia estava sendo elaborada, o

vice-presidente do Yahoo!, Jay Rossiter, anunciou que dia

08/07/2013 o Altavista Search encerraria seus serviços.

http://www.altavista.digital.com/

Page 19: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

Page 20: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

C A P Í T U LO I I – S e a rc h E n g i n e O p ti m i za ti o n ( S EO)

É o processo de influenciar a visibilidade de um site

num mecanismo de pesquisa em resultados gratuitos ou pagos

afim de receber mais visitantes e ter maior lucro, podendo

pesquisar por imagens, vídeos, notícias, etc.

Provavelmente essa expressão SEO entrou em uso em

1997 com John Audette e sua empresa Multimedia Marketing

Group.

Page 21: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

QDF: http://www.branded3.com/blogs/using-google-query-deserves-freshness-model/

Page 22: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

C A P Í T U LO I I I – O nt o l o g i a

Ontologia é uma modelagem de dados de um conjunto

de conceitos, objetos e estruturas.

É utilizada em inteligência artificial, web semântica,

engenharia de software e arquitetura da informação, como

uma forma de representação de conhecimento.

Ontologias geralmente descrevem Indivíduos (objetos

básicos), Classes (conjuntos, coleções ou tipos de objetos),

Atributos (propriedades e características dos objetos) e

Relacionamentos (formas de relacionamento entre objetos).

Page 23: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

C A P Í T U LO I I I – Fe r ra m e n ta s d e O n to l o g i a

Protégé 2000 - Ambiente interativo com arquitetura modulada.

Possui código aberto, importando e exportando para XML.

Page 24: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

C A P Í T U LO I I I – Fe r ra m e n ta s d e O n to l o g i a

WebODE - Desenvolvido na Universidade Politécnica de Madri.

Aplicação Web com ontologias armazenadas em BD relacionais.

Page 25: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

C A P Í T U LO I I I – Fe r ra m e n ta s d e O n to l o g i a

OntoEdit - Ambiente gráfico para edição, navegação, e

alteração de ontologias. Disponível como Free ou Professional.

Page 26: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

C A P Í T U LO I I I – B i b l i o te c a s d e O n to l o g i a

Disponibilizam listas ou diretórios de ontologias com

mecanismos de buscas.

• DAML Ontology Library - ontologias em DAML.

• SchemaWeb - diretório de RDF em OWL e DAML+OIL.

• Swoogle - recursos RDF e ontologias.

• OntoSelect - recursos em RDF/S, DAML e OWL.

• Ontaria - diretório navegável em RDF e OWL.

Page 27: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

C A P Í T U LO I I I – L i n g u a g e n s d e O n t o l o g i a

A DAML (DARP Agent Markup Language) é uma

linguagem de ontologia e inferência baseada em RDF, uma

iniciativa da DARPA (Defense Advanced Research Projects

Agency) e oriunda da combinação de DAML e OIL, denominada

DAML+OIL, uma linguagem anteriormente proposta pelo W3C.

Page 28: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

C A P Í T U LO I I I – B i b l i o te c a s d e O n to l o g i a

A OWL (Web Ontology Language) - para aplicações que

processam o conteúdo e o significado de informações em

termos em vocabulários e seus relacionamentos, expressando

significados e semânticas mais facilmente do que XML, RDF e

RDF Schema pois é uma revisão da linguagem DAML+OIL,

passando a fazer parte das recomendações do W3C para a Web

Semântica.

Page 29: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

C A P Í T U LO I I I – W 3 C We b S e m â nti c a

A Web Semântica foi uma iniciativa da World Wide Web

Consortium (W3C), desenvolvendo especificações para troca de

dados e processamento por programas independentes.

www.w3c.br/Home/WebHome

http://validator.w3.org

W3C - Consórcio criado para estimular a acessibilidade

em sites, estudar novas possibilidades em modelagens

semânticas, metadados e vocabulários. Atualmente se

empenha na abertura de dados governamentais.

http://www.w3c.br/Home/WebHome

http://validator.w3.org/

Page 30: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

C A P Í T U LO I I I – W 3 C We b S e m â nti c a

A linguagem de consulta SPARQL para dados RDF é

formada pelos componentes Resource Description Framework

(RDF) Modelo Core, a linguagem RDF Schema, a linguagem

Ontology Web (OWL) e do Sistema de Organização do

Conhecimento Simples (SKOS). As recomendações POWDER

permitem encontrar descrições que podem ser "unidas" em

RDF. As recomendações GRDDL e RDFa integram o modelo RDF

e formatos XHTML.

Page 31: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

C A P Í T U LO I I I – W 3 C We b S e m â nti c a

RDFa adiciona dados estruturados para HTML, ou seja,

um meio para utilizar Linked Data em aplicações web. O

objetivo da linguagem R2RML é servir como uma linguagem

padrão mapeando dados relacionais e esquemas de banco de

dados relacional para RDF e OWL. O objetivo do Linked Perfil

Data Group é fornecer uma camada de "nível de entrada" da

Linked Data usando RESTful, baseado em API HTTP.

Page 32: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

C A P Í T U LO I V – S i s te m a s D i s t r i b u í d o s

Um Banco de Dados Relacional define maneiras de

armazenar, manipular e recuperar dados estruturados

unicamente na forma de tabelas.

Foram desenvolvidos para facilitar o acesso aos dados

pois os usuários podem fazer perguntas através de vários

pontos em centenas de tabelas, associadas por chaves

(conjunto de seus atributos), através de regras de

relacionamentos.

Page 33: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

C A P Í T U LO I V – L i n ke d D a t a . O r g

Linked Data é a forma de se usar a internet para

conectar dados relacionados separados.

A Wikipedia define como "um termo usado para

descrever uma prática recomendada para expor, compartilhar e

se conectar pedaços de dados, informações e conhecimentos

sobre a Web Semântica usando URIs e RDF."

Page 34: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

C A P Í T U LO I V – L i n ke d D a t a . O r g

O Movimento Open Data visa tornar os dados atuais

disponíveis livres para todos. Atualmente temos: Wikipédia,

Wikibooks, Geonames, MusicBrainz, WordNet, a bibliografia

DBLP e as publicações sob licenças Creative Commons ou Talis.

Até setembro de 2011 foram 295 conjuntos de dados

com mais de 31 bilhões de triplos RDF interligados por cerca de

504 milhões de ligações RDF.

Page 35: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

Page 36: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

Page 37: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

C A P Í T U LO I V – L i n ke d D a t a P l a tf o r m

O Grupo de Trabalho Linked Data Platform desenvolveu

um protocolo para APIs RESTful Web Services para acessar

dados RDF utilizando SPARQL que podem ser definidas

independentemente para obter e alterar o estado de objetos

no servidor, identificados com URIs.

Aplicações LDP simples podem ser desenvolvidos e

implantados usando apenas RDF e HTTP.

Aplicações mais extensas do LDP podem ser construídas

utilizando RDFS, SPARQL, OWL, RIF, etc.

Page 38: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

C A P Í T U LO I V – S PA R Q L

SPARQL é uma linguagem de consulta RDF para bancos

de dados capaz de recuperar e manipular dados.

Foi feito um padrão pelo Grupo RDF Data Access

Working do W3C e é uma das principais tecnologias da web

semântica pois permite uma consulta em padrões triplos,

conjunções, disjunções e padrões opcionais além de existir

implementações para várias linguagens de programação.

Page 39: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

C A P Í T U LO I V – D B Pe d i a

A DBpedia é uma tarefa conjunta para extrair

informações estruturadas da Wikipedia e disponibilizá-las na

Web, permitindo criar ligações com outros bancos de dados,

interligando e melhoramento da própria enciclopédia.

A DBpedia oferece um gigantesco banco de dados, em

várias línguas, compartilhados sob uma licença de domínio

público pois a ideia desse projeto é construir uma comunidade

colaborativa, catalogando o conhecimento humano,

modelando, representando e compartilhando informações.

Page 40: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

Banco de dados da DBPedia sobre o Filme “O Homem do Futuro”:

Page 41: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

Mesmo exemplo utilizando RDF:

Page 42: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

Mesmo exemplo utilizando JSON:

Page 43: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

Mesmo exemplo utilizando NTriples:

Page 44: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

C A P Í T U LO I V – B u s c a d o r e s e I n d exa d o r e s

Existem crawlers que permitem processar RDF/XML,

Turtle, Notation 3, RDF e microformatos para armazená-los

como arquivos ou repositórios RDF e o LDspider .

Exemplos: Sig.ma (http://sig.ma), Falcons

(ws.nju.edu.cn/falcons/objectsearch/index.jsp), SWSE

(swse.org/index.php), Sindice (sindice.com), Swoogle

(swoogle.umbc.edu), Watson (kmi-web05.open.ac.uk/

RST_API.html), etc.

Page 45: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

C A P Í T U LO V – Te c n o l o g i a s E m e r g e n te s

A Web 1.0 tinha a interatividade limitada a troca de

emails e chats e a interatividade era praticamente nula.

Lévy (2010) chama a Web 2.0 de computação social,

onde a criação e layout dos conteúdos é feita pelo usuário.

A Web 3.0 foi anunciada pela primeira vez em 2011, por

Tim Berners Lee, James Hendler e Ora Lassila, intitulado “Web

Semântica: um novo formato de conteúdo para a Web que tem

significado para computadores e vai iniciar uma revolução de

novas possibilidades”.

Page 46: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

C A P Í T U LO V – Te c n o l o g i a s E m e r g e n te s

Em seu relatório de tecnologias emergentes, Gartner

afirmou que Column-store DBMS, Computação da Nuvem, In-

Memory Database Management Systems serão os três maiores

transformadores de tecnologias nos próximos cinco anos. Esse

mesmo relatório também cita Complex Event Processing,

conteúdo analítico, serviços de contextos enriquecidos,

Computação na Nuvem híbrida, Framework de Capacidades de

Informação e Telemática.

Page 47: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

C A P Í T U LO V – B I G DATA

É o conjunto de soluções capaz de lidar com dados em

volume, variedade e velocidades gigantescos, analisando

informações em tempo real e sendo fundamental para a

tomada de decisões.

A quantidade global de dados digitais crescerá de forma

exponencial de 1,8 zettabytes, em 04/2012, para 7,9 zettabytes

em 3 anos (04/2015).

Page 48: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

C A P Í T U LO V – B I G DATA 1 . 0 ( 0 4 / 2 0 1 2 )

Page 49: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

C A P Í T U LO V – B I G DATA 2 . 0 ( 1 1 / 2 0 1 2 )

Page 50: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

Page 51: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

C A P Í T U LO V – P r o j e to I B M A p a c h e H a d o o p

É um framework aberto em java para processamento

distribuído para Big Data praticamente financiador pelo Yahoo.

Foi o vencedor do Terabyte Sort Benchmark 2013 com

os impressionantes resultados: Velocidade máxima de

processamento de 1.42 TB/min, com 102.5TB de dados

analisados e refinados em 72 minutos e utilizando 2100 nodes

de 2.3Ghz hexcore Xeon E5-2630, 64 GB memory, 12x3TB disks,

sendo 80% mais rápido que as concorrentes .

Page 52: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

C A P Í T U LO V – Te ra b y t e S o r t B e n c h m a r k 2 0 1 3

Page 53: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

C A P Í T U LO V – I B M B i g D a ta

Page 54: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

C A P Í T U LO V – W i n d o w s A z u r e

Page 55: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

C A P Í T U LO V – G o o g l e B i g Q u e r y

Estatísticas de nascimento nos Estados Unidos de 1969

a 2008, sendo mais de 137 milhões de fileiras de dados.

Page 56: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

C U R I O S I DA D E S

OLD PRINT SCREENS

Page 57: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

Page 58: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

Page 59: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

Page 60: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

Page 61: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

Page 62: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

Page 63: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

Page 64: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

Page 65: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

Page 66: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

Page 67: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

Page 68: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

Page 69: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

Page 70: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

Page 71: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

Page 72: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

Page 73: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

Page 74: Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

FINAL

Recommended

Big Data Open Source com Hadoop Technology

Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos Documents

Hadoop - Mãos à massa! Qcon2014 Technology

Marketing Digital - PageRank Marketing

Estudo Hadoop Documents

Treinamento hadoop - dia3 Technology

TDC 2015 - Trilha BIG DATA - Cluster Hadoop Technology

Implementando soluções em Big Data com Apache Hadoop/Hive Technology

Inteligência Artificial - Aula5 - PageRank Science

Prof. Dr. Alfredo Goldman - Instituto de Matemática e Estatística | …ipolato/JAI2012-Hadoop-Slides.pdf · 2012-10-05 · •Origens do Hadoop e Apache Hadoop •Vantagens e Desvantagens Documents

Supermicro Hadoop Lösungen - sysob · Supermicro Hadoop Lösungen Die Frage ist nicht, ob Big Data Analytik angewendet wird, sondern wie. Unternehmen, die Hadoop Lösungen anwenden Documents

Crawler com nodejs Technology

Interoperabilidade com BigData Hadoop para Windows Azure Technology

Curso de SEO (Search Engine Optimization)€¦ · O começo da busca • Em 1993, o Wandex foi o primeiro programa a fazer indexação e busca utilizando um Web Crawler. • Web Crawler Documents

Apache Hadoop - Introdução Technology

Pentaho, Hadoop , Big Data e Data Lakes Data & Analytics

Apresentacao hadoop versao final Data & Analytics

Modelos de computação distribuída no Hadoop Technology