Upload
sociedade-da-informacao
View
5.347
Download
1
Embed Size (px)
DESCRIPTION
O documento apresenta brevemente a definição de semantica, e alguns de seus tipos, visões da web. Também são apresentadas títulos e links de páginas da web que trabalham com busca semantica. Também apresenta brevemente os tipos de ontologias, sua utilidade, e alguns exemplos de ferramentas de construção e utilização de ontologias.
Citation preview
EGC9101 - 2009.3 Sociedade da Informação
Professores •Aires Jose Rover ([email protected])•Hugo Cesar Hoeschl ([email protected]) Alunos •Cássio F.M. Druziani ([email protected])•César R. K. Stradiotto ([email protected]) •Danilo José dos Santos ([email protected]) •Thais Garcia ([email protected])•Thiago Araújo ([email protected])
Sociedade da Informação
Web SemânticaOntologia
Buscadores na Web
WEB SEMÂNTICA
Sociedade da Informação
HISTÓRICO2001: Tim Berners-Lee, James Hendler, Ora Lassila: Scientific American: "Web Semântica: Um novo formato de conteúdo para a Web." Permitir cooperação e compreensão por máquinas e humanos. Interliga significado de palavras nos conteúdos publicados na internet.
Intenção de desenvolver tecnologias e linguagem que tornem a informação legível para as máquinas. Integração de linguagens ou tecnologias (XML), (RDF), arquitetura de metadados, ontologias,etc.
PROPRIEDADES A Web semântica é uma biblioteca estruturada por critérios de escolha dos organizadores de conteúdo. Cada página tem vinculadas a si informações extras que dizem respeito ao seu conteúdo, são as metas informações. Elas estão estruturadas segundo um padrão formal e bem definido. Duas abordagem para Web Sem.: Bottom Up e Top Down B.U: Necessita tags nos textos e dados.T.D: Necessita processar os dados já existentes e criar novas conexões.
Exemplos de ferramentas de pesquisa: Freebase: Base de dados aberta. Pessoas criam dados e conectam-se entre si.Powerset: Adquirida pela Microsoft, é um engenho de busca, pode processar perguntas, ainda em estado inicial e funciona somente para o inglês.Twine: Aprende sobre seus interesses a partir do conteúdo compartilhado e faz um grafo desse conteúdo.Hakia: Apontado com um dos mais promissores engenho de busca, faz a análise de sentenças na hora de fazer uma busca.Talis, TrueKnowledge, Triplt, Cleaforest, Spock, PubMed, Mediline
ONTOLOGIA
Sociedade da Informação
Uma concepção parcial de um domínio de conhecimento, compartilhado por uma comunidade de usuários, definido em uma linguagem formal processável por máquina com explícito intuito de compartilhar informação semântica através de sistema automatizado (JACOB, 2003, p. 20).
Para a ciência da computação e inteligência artificial, a ontologia é a linguagem formal utilizada para codificação de um determinado domínio com certas regras que suportem o processamento ou tornem legível pelo computador o conhecimento humano. De um modo simplista, é uma rede de relacionamentos onde os nós são conceitos, e as arestas são relações de significado.
LINGUAGENS DE MARCAÇÃO ONTOLÓGICAS
Para representação do conteúdo no ambiente virtual utilizando-se de ontologias é necessário o uso de linguagens de marcação que possibilitem expressar o conhecimento, para tornar o conhecimento legível pela máquina e por outros usuários.
METADADOS DEFINIÇÃO ELEMENTOS
DUBLIN CORE Padrão de metadados para representação do domínio de objetos na web, com 15 elementos essenciais.
1. Título; 2. Criador; 3. Assunto; 4. Descrição;5. Publicador; 6. Contribuidor; 7. Data; 8. Tipo;9. Formato; 10. Identificador;11.Origem; 12. Idioma;13. Relação; 14. Abrangência; 15. Direitos.
FOAF Relação pessoas e objetos na Web, com três elementos essenciais:
BásicoInformações pessoaisProjetos e Grupos
LINGUAGEM DE MARCAÇÃO SOBRE...
XOL XML com marcações semânticas, taxonômicas, com relações binárias;
OML Lógica descritiva e conceitual, utilizando classes, relacionamentos, objetos e facetas;
SKOS Expressa conteúdo com lógica básica, por meio de thesauri, classificação, folksonomia, taxonomia e vocabulários controlados.
EDITORES DE ONTOLOGIASEDITOR URL SOBRE
Ontokem: http://ontokem.egc.ufsc.br Concebido e desenvolvido no Laboratório de Engenharia do Conhecimento (LEC) do EGC da UFSC, mediante cadastro é liberado acesso.
Camptools Ontology Editor
http://coe.ihmc.us/groups/coe/ Software gratuito de construção de ontologias em linguagem JAVA.
DERI Ontology Management Environment
http://dome.sourceforge.net/ Software open source de construção de ontologias
Hozo http://www.hozo.jp/ Software em Java para criação de ontologias complexas.
Kaon http://kaon.semanticweb.org/ Software livre de construção de ontologias
KMGen http://www.algo.be/ref-projects.htm#KMgen
Software livre
Knoodl http://www.knoodl.com/ui/home.html
Software virtual para criação de ontologias colaborativamente.
EDITOR URL SOBRE
NeOn Toolkit http://neon-toolkit.org/wiki/Main_Page
Software livre, em linguagem OWL para criação, suporte e reuso de ontologias.
Protégé http://protege.stanford.edu/ Software livre de ontologia e construção de modelagem do conhecimento.
Semantic Turkey http://semanticturkey.uniroma2.it/ Plataforma para bookmarking semântico e construção de ontologia.
Swoop http://www.mindswap.org/2004/SWOOP/
Software livre em Java para edição e criação de ontologia.
WebODE http://webode.dia.fi.upm.es/ Software ara construção de ontologia da Universidade de Madri.
Model Futures OWL Editor
http://www.modelfutures.com/owl/Software livre para construção de ontologias em linguagem OWL.
Open Calais http://www.opencalais.com/ Ferramenta que permite incorporar o estado da arte de funcionalidade semântica dentro do blog, site ou aplicação.
BUSCADORES NA WEB
Sociedade da Informação
Os buscadores surgiram com o objetivo de ajudar a organizar o imenso universo que se tornou a internet. O primeiro buscador na história foi o Archie, criado em 1990 pelo estudante Alan Emtage.
O Archie baixava listas de diretorios de todos os arquivos localizados em sites públicos de FTP.
Enquanto o Archie indexava arquivos de computadores, outro buscador chamado Gopher indexava documento de texto. Com o lançamento da WWW, surgia em 1993 o primeirobuscador web chamado Wandex.
Mecanismos de Busca: Como tudo começou
Linha de Tempo - Mecanismos de Busca O AliWeb é um dos primeiros buscadores lançados que existe até os dias de hoje. Primeiro sucesso comercial foi o Lycos surgido em 1994. Na época também surgiram o Excite, Infoseek e o AltaVista, todos competindo com o famoso buscador de diretórios do Yahoo! No Brasil temos o exemplo do Cadê? e Aonde. Logo depois surgiram os buscadores globais como o Google, Yahoo e MSN.
Mecanismo de busca É uma base de dados de arquivos da Internet coletados por um programa de computador (conhecidos como wanderer, crawler, robot, worm, spider). A indexação é realizada nos arquivos coletados, por exemplo, pelo título, texto íntegral, tamanho, URL, entre outros. Os mecanismos de busca são também conhecidos como serviços de busca ou serviços de mecanismos de busca. Isto consiste conforme seus componentes: • Spider: Programa que vasculha a Web de link para link,
identificando e lendo as páginas. • Index: base de dados contendo de cada página obtida pelo
spider • Mecanismo de busca: Software que possibilita aos
usuários consultarem o índice e o qual devolve resultados da busca pela relação numa ordem de relevância.
Breve histórico do Google Foi na universidade de Standorf em 1995 que os estudantes Sergey Brin e Larry Page se conheceram. Os dois tinham a ambição de criar um algoritimo capaz de percorrer a web e trazer, em forma de links, os resultados encontrados. Com isso, em 1995 surgiu o BlackRub, uma ferramenta baseada em Java e Phyton que rodava em máquinas Intel e Sun. A partir dessa ferramenta, surgiria o famoso Google, nome adotado em 1997.
O significado de Google é um termo forjado que vem de googol, inventado pelo Dr. Edward Kasner, da Universidade de Columbia. Kasner pretendia batizar com um nome sonoro e fácil de recordar a centésima potência do número 10.
Mecanismos de busca na WWW
• AltaVista http://altavista.com • Excite http://www.excite.com • HotBot http://www.hotbot.com/ • Infoseek http://infoseek.go.com/ • Northern Light Search
http://www.northernlight.com/ • Yahoo! http://www.yahoo.com/ • MSN http://www.msn.com• Google http://www.google.com
Diretório de pesquisa na Web É uma árvore de assuntos ou um diretório de assuntos, isto é, lista de assuntos organizada em categorias. Existem 2 tipos básicos: acadêmicos e comerciais, onde os interesses podem variar desde o uso intensificado, monitorado, selecionado. Portanto, o diretório de assuntos é um serviço que oferece uma coleção de links dos recursos Internet submetidos pelo site, criadores ou avaliadores e organizados em categorias de assuntos (áreas específicas). Os diretórios utilizam critérios de seleção para os links a serem incluídos.
Diferentes abordagens na criação de web semântica
Fonte: http://www.readwriteweb.com/archives/10_semantic_apps_to_watch.php
Diretórios de pesquisa Argus Clearinghouse http://www.clearinghouse.net Pesquisa orientada (escolar); cobertura muito seletiva devido critérios específicos; recursos estão em ranking e avaliados; compilado por bibliotecários que são especialistas em assuntos; relativamente uma base de dados pequena.
Enclyclopedia Britannica's Internet Guide http://www.eblast.com Arrola assuntos do interesse geral/tópicos educacionais; seletividade média alta - sites são revisados e reordenados no ranking; compilado pelo pessoal da Encyclopedia Brittanica (especialistas por assuntos); arrola acima de 125 000 sites. Infomine: Scholarly Internet Resource Collections http://lib-www.ucr.edu/ Pesquisa tópicos a nível universitário; alta seletividade; compilado por bibliotecários; arrola cerca de 14.000 sites
Diferenças entre Diretórios e Mecanismo de busca
A diferença básica é que os diretórios são compilados por pessoas, enquanto os mecanismos de busca são automatizados.
Ferramentas de MetabuscaOs meta mecanismos de busca realizam pesquisas simultaneamente em diferentes mecanismos de busca. Estes mecanismos não possuem nenhum tipo de bases de dados, ou seja, baseiam-se nos dados de outros mecanismos de busca. Estas ferramentas de pesquisa são utilizados quando se procurar por: • um tópico obscuro; • não obter resultados em buscas; • a pesquisa não é complexa; • recuperar o maior número de documentos possíveis com
uma estrutura de sintaxe, assuntos especiais que possam limitar resultados da busca.
Lista de Meta Mecanismos de busca • All4one http://all4one.com Índice de meta-mecanismos de
busca, compila mecanismos de busca. • All-in-One Search Page http://www.albany.net/allinone/ Este
site reúne inúmeros localizadores de informação da Net. Além disso, permite que sejam realizadas buscas de arquivos usando as ferramentas Archie e Veronica.
• Cyber 411 http://www.cyber411.com Busca simultânea em 16 mecanismos de busca.
• The Internet Sleuth http://www.isleuth.com Indexa mais de 3.000 bases de dados (muitas destas não são indexadas pelos grandes mecanismos de busca) cobrindo uma variedade imensa de tópicos.
• Mamma http://www.mamma.com Utiliza 7 mecanismos de busca. Relaciona cerca de 2200 revistas (por categoria) e 900 jornais (por local).
Lista de Meta Mecanismos de busca • Northern Light http://www.northernlight.com A Northern Light
é uma nova forma de organizar o resultado da busca: qualquer procura resulta em duas colunas: "Best Documents" (melhores documentos) do lado direito, e "Custom Search Folders" (Pastas de Procura Refinada) do lado esquerdo.
• MetaCrawler http://www.metacrawler.com Em vez de manter uma base de dados própria, ele remete sua pesquisa para outras ferramentas incluindo Lycos, WebCrawlwer, Excite, AltaVista, Yahoo, HotBot e Galaxy.
• Multimeta http://www.multimeta.com Procura em 10 mecanismos de busca internacionais.
• 1Blink.com - OneBlink.com http://www.1blink.com Realiza a busca em: Infoseek, AltaVista, HotBot, Alcanseek, Yahoo!, Northern Light, Excite, Lycos, Thunderstone, EuroSeek e Planet Search.
Lista de Meta Mecanismos de busca • Online Language Dictionaries and Translators
http://rivendel.com/~ric/resources/dictionary.html • Oferece links para mais de 80 dicionários para
tradução de idiomas. • ProFusion http://profusion.ittc.ukans.edu Busca
simultaneamente em 9 mecanismos. Premiado como meta-mecanismo de busca pela revista PC Professionell, n. 12, 1998.
• Search Spaniel http://www.searchspaniel.com Realiza busca em 12 mecanismos.
Otimização de Sites É o conjunto de estratégias com o objetivo de potencializar e melhorar o posicionamento de um site nas páginas de resultados naturais (orgânicos) nos sites de busca. O termo SEO (Search Engine Optimization) também se refere a indústria de consultoria, que trabalha na otimização de projetos e websites de seus clientes. Os métodos são categorizados em: a) "SEO de White Hat" (geralmente utilizam métodos aprovados pelos sistemas de busca, como a prática de construção de conteúdo relevante e melhoria da qualidade do site); b) "SEO de Black Hat" (utilizam truques como "cloaking", que é a camuflagem do conteúdo real da página, e spamdexing). O termo "spamdexing" (originado da fusão de spam e indexing) refere-se a pratica de Spam direcionada aos motores de busca
Tipos de Listagens nas páginas de resultado Os Mecanismos de Busca indicam diferentes tipos de listagens nas páginas de resultados, incluindo: • publicidade paga nas páginas de resultados
(SERPs - Search Engine Result Pages); • conteúdo de publicidade paga por clique pay-per-
click;• anúncios;• pagamento para inclusões em sistemas de busca;• resultados de busca orgânica.
Critérios de classificação de um website Para classificar os sites, os mecanismos de busca levam em consideração os seguintes aspectos:• Tempo de registro do domínio (Idade do domínio)• Idade do conteúdo• Freqüência do conteúdo: regularidade com a qual novo
conteúdo é adicionado• Tamanho do texto: número de palavras acima de 200-250
(não afetava o Google em 2005)• Idade do link e reputação do site que o aponta• Características padrão da página• Pontuação negativa sobre as características da página (por
exemplo, redução para sítios web com utilização extensiva de meta-tags de palavra chave, indicativos de terem sido artificialmente otimizadas)a
(continua)
• Originalidade do conteúdo• Termos relevantes utilizados no conteúdo (os termos que os
buscadores associam como sendo relacionados ao tema principal da página)
• Google Pagerank (usado apenas no algoritmo do Google)• Quantidade de links externos• O texto âncora contido nos links externos• Relevância do site que linka para o seu website• Citações e fontes de pesquisa (indica que o conteúdo é de
qualidade para pesquisa)• Termos relacionados na base de dados do mecanismo de
busca (financiar/financiamento)• Pontuação negativa para links de chegada (provavelmente
advindos de páginas de baixo valor, links de chegada recíprocos, etc.)
• Ritmo de aquisição dos links de chegada: muitos ou incremento muito rápido pode indicar atividade comercial de compra de links (continua)
• Texto próximos aos links que apontam para fora e os links de chegada. Um link acompanhado das palavras "links patrocinados" pode ser ignorado
• Profundidade do documento no site• Métricas coletadas de outras fontes, tais como
monitoramento da frequência com a qual usuários retornam clicando em voltar quando as SERPs (Search Engine Results Page) as enviam para uma página em particula
• Métricas coletadas de fontes como Google Toolbar, Google AdWords/Adsense, etc.
• Métricas coletadas de compartilhamento de dados com terceiros (como provedores de dados estatísticos de programas utilizados para monitorar tráfego de sítios (sites))
• Ritmo de remoção dos links que apontam para o site (continua)
• Uso de sub-domínios, uso de palavras-chave em sub-domínios e volume de conteúdo nos sub-domínios, com pontuação negativa para esta atividade
• Conexões semânticas dos documentos servidos• IP do serviço de hospedagem e o número/qualidade dos
demais sites hospedados no local• Uso de redirecionamentos 301 ao invés de
redirecionamentos 302 (temporário)• Mostrar um cabeçalho de erro 404 em vez de 200 para
páginas que não existem• Uso adequado do arquivo robots.txt• Frequência de tempo em que servidor se encontra ativo
(Confiabilidade)• Se o site mostra conteúdo diferente para diferente tipos de
usuários ou crawlers • Links "quebrados"• Conteúdo inseguro ou ilegal (continua)
• Qualidade da codificação HTML, presença de erros no código
• Taxa real de cliques observados pelo mecanismo de busca para as listas exibidas na SERPs
• Classificação de importância feita por humanos nas páginas com acessos mais frequentes
Qualidade e Ranking de Páginas Diretrizes publicadas pelos mecanismos de busca e de codificação pelo W3C. Conteúdo atualizado, útil, original, significativo, links de acesso úteis pode alcançar uma grande quantidade de tráfego e posicionamento nos mecanismos de busca. Aumento do PageRank e visitação Como resultado, práticas de SEO que aumentam a qualidade do site mais provavelmente superarão táticas de manipulação do mecanismo de busca. Os melhores SEO recomendam focar-se em algo que sites de busca procuram: conteúdo relevante e útil para seus usuários.
USO DE SEARCH ENGINES TRADICIONAIS
2009Google Yahoo! Bing Ask Total
2009 09 70.46% 16.73% 9.28% 2.50% 98.97%
2009 08 70.24% 16.96% 9.44% 2.37% 99.01%
2009 07 72.07% 17.00% 7.31% 2.58% 98.96%
Fonte: http://www.seoconsultants.com/search-engines/
Buscadores
Inovações disruptivas em Search engines:
Query Pre-processing; Information Sources; Algorithm Improvement; Results Visualization and Post-processing.Fonte: http://www.readwriteweb.com/archives/top_17_search_innovations.php
Incluiríamos ainda como categoria a parte: Web ontology
Buscadores
1. Query Pre-processing;
hakia collarityPowerset (adquirido pela Microsoft, BING)
Buscadores
2. Personal relevance (Buscas personalizadas por usuário)
Interesses e requerimentos diferenciados para cada usuário resulta em um grau de relevância maior nos resultados fornecidos
2.1. Location Based Personalization 2.2. Interface Based Personalization2.3. Query History Based Personalization 2.4. Input/Output Mode Based 2.5. Time Based Personalization2.6. Individual User Behaviour Based Personalization2.7. Group Based Behaviour Based Personalization 2.8. Social Search Based Personalization 2.9. Virtual Personas/Assistants Based Personalization
3. Canned, specialized searches (canned = enlatado, conversas..)
Pesquisa especializada, vertical e pré-configurada: Empregos ( http://www.simplyhired.com.br/)
4. New content types
Buscadores verticalizados (especializados) por conteúdo.
Video (Youtube, truveo ),TV (Blinkx ), Images (Picsearch, Netvue )Blogs (Technorati ), News (Topix ), Classifieds (oodle )
Buscadores
5. Restricted Data Sources
Rollyo Create search engines using the sources you trust (http://www.rollyo.com/)
Google pesquisa personalizada (www.google.com/cse)
Buscadores
7. Parametric search
A busca paramétrica está mais para uma database query do que para uma busca. Foco na solução de problemas ao inves de textos e documentos.
GlobalSpec
Permite especificar uma variedade de parametros enquanto se procura por produtos da área de engenharia.
Buscadores
8. Social Input
Ferramentas web 2.0del.icio.us
Google PageRank é implicitamente construído colaborativamente
Yahoo answers
Etc.
Buscadores
• http://umbel.org/• UMBEL • UMBEL Ontology Documentation• UMBEL Vocabulary• Other UMBEL Documentation and Files
Buscas por ontologia
Buscadores
• Ontojuris http://www.ontojuris.com.br:8060/ontojuris/analise/Analise.do
• MONGEE http://apps.ciram.com.br/mongee/analise/Analise.do
• Ontoweb http://www.ontoweb.com.br/
Buscador Semântico • Wolfram Alpha Computational Knowlegdge Engine• Swootti: opiniões sobre produtos• Ideas Afines: palavras e conceitos relacionados• AskWiki y Powerset: usa a base Wikipedia em inglês• Hakia: responde a perguntas escritas en inglês• Kartoo: destaca as buscas em forma gráfica conforme
importância.• Retrievr: imagens no Flickr• Mnemomap: diferentes locais como Digg, youtube,
del.icio.us e imagens• WebBrain: exibe grupos relacionadas as palavras utilizadas
nas buscas• SWoogle: busca documentos nos formatos OWL, RDF,
DAML
REFERÊNCIAS• BERNERS-LEE, T.; HENDLER, J.; LASSILA, O. The Semantic Web: a new
form of Web content that is meaningful to computers will unleash a revolution of new possibilities. Scientific American Magazine, Nova York, maio, 2001. Disponível em: <http://www.scientificamerican.com/article.cfm?id=the-semantic-web>. Acesso em: 30 out. 2009.
• BLATTMANN, Ursula; FACHIN, Gleisy R. B. F; RADOS, Gregório J. Varvakis . Recuperar a Informação Eletrônica pela Internet. Departamento de Ciência da Informação. Revista da ACB: Biblioteconomia em Santa Catarina, v. 4, n. 4, p. 9-27, 1999.
• CORAZZON, R. Theory and history of ontology: a resource guide for philosophers. Disponível em: <http://www.formalontology.it/>.
• DING, Y.; FOO, S. Ontology research and development part 1: a review of ontology generation. Journal of Information Science, v.28, n. 4, p. 375-388, 2002.
• JACOB, E. K. Ontologies and the Semantic Web. Bulletin of the American Society forInformation Science and Technology, v. 29, n. 4, p. 19-22, abr. /maio, 2003.
REFERÊNCIAS• ONTOLOGY INFERENCE LAYER OIL. Disponível em:
<http://www.few.vu.nl/~ontoknow/oil/>.• OTIMIZAÇÃO para motores de busca. 4 de outubro de 2009.
In: Wikipédia, a enciclopédia livre. Disponível em: <http://pt.wikipedia.org/wiki/Wikipedia:Projetos>. Acesso em: nov. 2009.
• SHOE SIMPLE HTML ONTOLOGY EXTENSION. Disponível em: <http://www.cs.umd.edu/projects/plus/SHOE/>.
• THE FRIEND OF A FRIEND (FOAF) PROJECT. Disponível em: <http://www.foaf-project.org/>.
• WORLD WIDE WEB CONSORTIUM (W3C). W3C WORKING GROUP NOTE. Resource Description Framework (RDF). Massachusetts, 15 jan. 2004. Disponível em: <http://www.w3.org/RDF/>.
REFERÊNCIAS• _____. _____. SKOS Simple Knowledge
Organization System Primer. Massachusetts, 18 ago. 2009. Disponível em: <http://www.w3.org/TR/2009/NOTE-skos-primer-20090818/>.
• DARPA'S INFORMATION EXPLOITATION OFFICE. The DARPA Agent Markup Language. Arlington, 13 jan. 2006. Disponível em: <http://www.daml.org/>.
• XOL - XML BASED ONTOLOGY EXCHANGE LANGUAGE. Disponível em: <http://xml.coverpages.org/xol.html>.