Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop

  • View
    947

  • Download
    0

Embed Size (px)

DESCRIPTION

DOS ANTIGOS SISTEMAS DE BUSCA NA INTERNET AO NOVO PROCESSAMENTO DE DADOS NÃO-ESTRUTURADOS (BIG DATA)

Text of Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM...

  • 1. DOS ANTIGOS SISTEMAS DE BUSCA NA INTERNET AO NOVO PROCESSAMENTO DE DADOS NO-ESTRUTURADOS (BIG DATA) Leandro Pimentel Borges Matr. 1020900

2. P R O B L E M T I C A : Atualmente a quantidade de dados gerados por segundo muito maior do que a gerada h 10 anos no perodo de um ano, alm desta ser no-estruturada tambm preciso analisa-la e gerar resultados precisos em um curto perodo de tempo - BIG DATA. Para ser dado outro grande passo na evoluo da internet necessrio que todas as mquinas se comuniquem e entendam os dados que recebem utilizando ONTOLOGIA. 3. Problema a ser explorado: O problema a ser explorado a falta de conhecimento,tanto o usurio comum como do aluno inicial, de como funcionavam os primeiros buscadores da internet, como evoluram, como encontra-se a internet atual, interao desites e bancos de dados, como caminha o atual sistema de gerenciamento de informao dinmico da internet e como ser a internet do futuro.O objetivo explicar tudo isso e de forma resumida mas sem aprofundar-se tecnologicamente em cada assunto. 4. CAPTULO I Motores de busca (buscadores) umprogramaparaencontrarinformaesarmazenadas em um banco de dados a partir de palavras-chave indicadas, apresentando os resultados organizadamente, e de maneira rpida e eficiente. As maiores empresas na rea de busca em 01/10/2012 so Google (Us$ 249,2 bilhes), a Microsoft (Us$ 248,7 bilhes), o Yahoo disponvel).(Us$ 20 bilhes) e o Bing (valor no 5. CAPTULO II Histria dos Buscadores 1990 Archie (arquivos em FTP annimos); 1991 Gopher (textos em geral); Veronica e Jughead (para o Gopher); 1993 Wandex (ndice de textos), Aliweb; 1994 Web Crawler (buscador moderno), Lycos; 1995 Yahoo Diretrios (formulrio para cadastro); 1998 beta spider na pgina inicial, Google; 2000 robot automtico varria links de sites (motores indexantes, crawlers ou spiders). 6. O Webcrawler aparece no filme Possudos, (Fallen / 1998), com Denzel Washington, aos 21:25min, como exemplo de principal buscador. 7. CAPTULO II Tipos de BuscadoresGlobais (Google, Yahoo, Bing); Verticais (Buscap, Bondfaro); Locais (Telelistas, Apontador, Icarros); Diretrios (ndices de categorias); Open Directory (www.DMOZ.org); 8. CAPTULO II Indexao de pginas Forma mais eficiente de organizar e encontrar dados; Formato atual: XML (maior eficcia, crawler simples) Crawlers varrem sites copiando dados p/ B.D.; Pagerank definindo importncia do site; Metatags definindo contedo para buscadores; keywords, description, content-language, content-type, author, reply-to, generator. Comandos: refresh, Header "Location" 9. CAPTULO II ROBOTS O robots.txt um arquivo que procurado pelas ferramentas de busca para saber quais partes do site no devem ser indexados. Robots.txt User-agent: * Disallow: /cgi-bin/ #scripts e programas Disallow: /logado/ Disallow: /tmp/ #parte de testes Disallow: /private/ #arquivos da empresa 10. CAPTULO II SITEMAPS Um Sitemap um arquivo XML que lista os URLs de um site para facilitar a indexao do site pelos motores de busca de forma mais inteligente, podendo incluir informaes sobre cada URL, ltima atualizao, etc. Enquanto os sitemaps servem para incluso de URL os robots.txt tem a funo contrria, servindo para excluso. O Google deu incio ao Sitemaps verso 0.85 em junho de 2005, MSN e Yahoo anunciaram apoio em novembro de 2006 e em abril de 2007 a Ask e a IBM iniciaram suporte. 11. C A P T U L O I I M E TA B U S C A um sistema que realiza uma pesquisa em vrios mecanismos de busca ao mesmo tempo, funcionando da mesma forma que os motores de busca convencionais e com a vantagem de padronizar e mostrar um resultado muito maior. Os metabuscadores (ou multibuscadores) so muito eficientes quando utilizados na busca de termos muito especficos e quando h necessidade de cruzar muitos dados afim de estreitar o resultado final de uma pesquisa. 12. C A P T U L O I I W E B C R AW L E R Tambm chamados de agentes, bots, spiders, robots ou scutters. So indexadores automticos que navegam pela internet de uma forma metdica e automatizada visitando cada pgina de um site, colhendo informaes e copiando todo o texto principal e indexando-as ao banco de dados. Bots tambm podem ser usados para colher emails, verificar atualizaes, validar links, validar cdigo fonte, checar erros, apagar links invlidos dos bancos de dados, adicionar novos links, etc. 13. C A P T U L O I I A LTAV I S TA O AltaVista(www.altavista.digital.com) comeou afuncionar em 15/12/1995, pertencia a Digital Equipment Corporation e chegava a fazer 61.000 pesquisas dirias. Em 1998 a Compac compra o Altavista, depois foi comprada em 02/2003 pela Overture Services (GoTo.com) e depois comprada pelo Yahoo, em 08/2004, por Us$ 1,63 bilho. Enquanto esta monografia estava sendo elaborada, o vice-presidente do Yahoo!, Jay Rossiter, anunciou que dia 08/07/2013 o Altavista Search encerraria seus servios. 14. CAPTULO II Search Engine Optimization (SEO) o processo de influenciar a visibilidade de um site num mecanismo de pesquisa em resultados gratuitos ou pagos afim de receber mais visitantes e ter maior lucro, podendo pesquisar por imagens, vdeos, notcias, etc. Provavelmente essa expresso SEO entrou em uso em 1997 com John Audette e sua empresa Multimedia Marketing Group. 15. QDF: http://www.branded3.com/blogs/using-google-query-deserves-freshness-model/ 16. CAPTULO III Ontologia Ontologia uma modelagem de dados de um conjunto de conceitos, objetos e estruturas. utilizada em inteligncia artificial, web semntica, engenharia de software e arquitetura da informao, como uma forma de representao de conhecimento. Ontologias geralmente descrevem Indivduos (objetos bsicos), Classes (conjuntos, colees ou tipos de objetos), Atributos (propriedades e caractersticas dos objetos) e Relacionamentos (formas de relacionamento entre objetos). 17. CAPTULO III Ferramentas de Ontologia Protg 2000 - Ambiente interativo com arquitetura modulada. Possui cdigo aberto, importando e exportando para XML. 18. CAPTULO III Ferramentas de Ontologia WebODE - Desenvolvido na Universidade Politcnica de Madri. Aplicao Web com ontologias armazenadas em BD relacionais. 19. CAPTULO III Ferramentas de Ontologia OntoEdit - Ambiente grfico para edio, navegao, e alterao de ontologias. Disponvel como Free ou Professional. 20. CAPTULO III Bibliotecas de Ontologia Disponibilizam listas ou diretrios de ontologias com mecanismos de buscas. DAML Ontology Library - ontologias em DAML. SchemaWeb - diretrio de RDF em OWL e DAML+OIL. Swoogle - recursos RDF e ontologias. OntoSelect - recursos em RDF/S, DAML e OWL. Ontaria - diretrio navegvel em RDF e OWL. 21. CAPTULO III Linguagens de Ontologia A DAML (DARP Agent Markup Language) uma linguagem de ontologia e inferncia baseada em RDF, uma iniciativa da DARPA (Defense Advanced Research Projects Agency) e oriunda da combinao de DAML e OIL, denominada DAML+OIL, uma linguagem anteriormente proposta pelo W3C. 22. CAPTULO III Bibliotecas de Ontologia A OWL (Web Ontology Language) - para aplicaes que processam o contedo e o significado de informaes em termos em vocabulrios e seus relacionamentos, expressando significados e semnticas mais facilmente do que XML, RDF e RDF Schema pois uma reviso da linguagem DAML+OIL, passando a fazer parte das recomendaes do W3C para a Web Semntica. 23. C A P T U L O I I I W 3 C We b S e m n t i c a A Web Semntica foi uma iniciativa da World Wide Web Consortium (W3C), desenvolvendo especificaes para troca de dados e processamento por programas independentes. www.w3c.br/Home/WebHome http://validator.w3.org W3C - Consrcio criado para estimular a acessibilidade em sites, estudar novas possibilidades em modelagens semnticas, metadados e vocabulrios. Atualmente se empenha na abertura de dados governamentais. 24. C A P T U L O I I I W 3 C We b S e m n t i c a A linguagem de consulta SPARQL para dados RDF formada pelos componentes Resource Description Framework (RDF) Modelo Core, a linguagem RDF Schema, a linguagem Ontology Web (OWL) e do Sistema de Organizao do Conhecimento Simples (SKOS). As recomendaes POWDER permitem encontrar descries que podem ser "unidas" em RDF. As recomendaes GRDDL e RDFa integram o modelo RDF e formatos XHTML. 25. C A P T U L O I I I W 3 C We b S e m n t i c a RDFa adiciona dados estruturados para HTML, ou seja, um meio para utilizar Linked Data em aplicaes web. O objetivo da linguagem R2RML servir como uma linguagem padro mapeando dados relacionais e esquemas de banco de dados relacional para RDF e OWL. O objetivo do Linked Perfil Data Group fornecer uma camada de "nvel de entrada" da Linked Data usando RESTful, baseado em API HTTP. 26. CAPTULO IV Sistemas Distribudos Um Banco de Dados Relacional define maneiras de armazenar,manipularerecuperardadosestruturadosunicamente na forma de tabelas. Foram desenvolvidos para facilitar o acesso aos dados pois os usurios podem fazer perguntas atravs de vrios pontos em centenas de tabelas, associadas por chaves (conjuntoderelacionamentos.seusatributos),atravsderegrasde 27. C A P T U L O I V L i n ke d D a t a . O r g Linked Data a forma de se usar a internet para conectar dados relacionados separados. A Wikipedia define como "um termo usado para descrever uma prtica recomendada para expor, compartilhar e se conectar pedaos de dados, informaes e conhecimentos sobre a Web Semntica usando URIs e RDF." 28. C A P T U L O I V L i n ke d D a t a . O r g O Movimento Open Data visa tornar os dados atuais disponveis livres para todos. Atualmente temos: Wikipdia, Wikibooks, Geonames, MusicBrainz, WordNet, a bibliografia DBLP e as publicaes sob licenas Creative Commons ou Talis. At setembro de 2011 foram 295 conjuntos de dados com mais de 31 bilhes de triplos RDF interligados por cerca de 504 milhes de ligaes RDF. 29. C A P T U L O I V L i n ke d D a t a P l a t f o r m O Grupo de Trabalho Linked Data Platform desenvolveu um protocolo pa