Disciplina Sociedade da Informação Semântica e Ontologias

Preview:

DESCRIPTION

O documento apresenta brevemente a definição de semantica, e alguns de seus tipos, visões da web. Também são apresentadas títulos e links de páginas da web que trabalham com busca semantica. Também apresenta brevemente os tipos de ontologias, sua utilidade, e alguns exemplos de ferramentas de construção e utilização de ontologias.

Citation preview

EGC9101 - 2009.3 Sociedade da Informação

Professores •Aires Jose Rover (airesjr@ccj.ufsc.br)•Hugo Cesar Hoeschl (metajur@deps.ufsc.br) Alunos •Cássio F.M. Druziani (cassiodruziani@gmail.com)•César R. K. Stradiotto (cesar.stradiotto@i3g.org.br) •Danilo José dos Santos (danilo.jds@hotmail.com) •Thais Garcia (thaisufsc.biblio@gmail.com)•Thiago Araújo (araujo.thiago.souza@gmail.com)

Sociedade da Informação  

Web SemânticaOntologia

Buscadores na Web

WEB SEMÂNTICA

Sociedade da Informação

HISTÓRICO2001: Tim Berners-Lee, James Hendler, Ora Lassila: Scientific American: "Web Semântica: Um novo formato de conteúdo para a Web." Permitir cooperação e compreensão por máquinas e humanos. Interliga significado de palavras nos conteúdos publicados na internet.

Intenção de desenvolver tecnologias e linguagem que tornem  a informação legível para as máquinas.  Integração de linguagens ou tecnologias (XML),  (RDF), arquitetura de metadados, ontologias,etc.

PROPRIEDADES A Web semântica é uma biblioteca estruturada por  critérios de escolha dos organizadores de conteúdo.  Cada página tem vinculadas a si  informações extras  que dizem respeito ao seu conteúdo, são as metas informações. Elas estão estruturadas  segundo um padrão formal e bem definido.    Duas abordagem para Web Sem.: Bottom Up e Top Down B.U: Necessita tags nos textos e dados.T.D: Necessita processar os dados já existentes e criar novas conexões.

Exemplos de ferramentas de pesquisa: Freebase: Base de dados aberta. Pessoas criam dados e conectam-se entre si.Powerset:  Adquirida pela Microsoft, é um engenho de busca, pode processar perguntas, ainda em estado inicial e funciona somente para o inglês.Twine: Aprende sobre seus interesses a partir do conteúdo compartilhado e faz um grafo desse conteúdo.Hakia:  Apontado  com um dos mais promissores engenho de busca, faz a análise de sentenças na hora de fazer uma busca.Talis, TrueKnowledge, Triplt, Cleaforest, Spock, PubMed, Mediline

ONTOLOGIA

Sociedade da Informação

Uma concepção parcial de um domínio de conhecimento, compartilhado por uma comunidade de usuários, definido em uma linguagem formal processável por máquina com explícito intuito de compartilhar informação semântica através de sistema automatizado (JACOB, 2003, p. 20).

Para a ciência da computação e inteligência artificial, a ontologia é a linguagem formal utilizada para codificação de um determinado domínio com certas regras que suportem o processamento ou tornem legível pelo computador o conhecimento humano. De um modo simplista, é uma rede de relacionamentos onde os nós são conceitos, e as arestas são relações de significado.

LINGUAGENS DE MARCAÇÃO ONTOLÓGICAS

Para representação do conteúdo no ambiente virtual utilizando-se de ontologias é necessário o uso de linguagens de marcação que possibilitem expressar o conhecimento, para tornar o conhecimento legível pela máquina e por outros usuários.

METADADOS DEFINIÇÃO ELEMENTOS

DUBLIN CORE Padrão de metadados para representação do domínio de objetos na web, com 15 elementos essenciais. 

1. Título; 2. Criador; 3. Assunto; 4. Descrição;5. Publicador; 6. Contribuidor; 7. Data; 8. Tipo;9. Formato; 10. Identificador;11.Origem; 12. Idioma;13. Relação; 14. Abrangência; 15. Direitos. 

FOAF Relação pessoas e objetos na Web, com três elementos essenciais:

BásicoInformações pessoaisProjetos e Grupos

LINGUAGEM DE MARCAÇÃO SOBRE...

XOL XML com marcações semânticas, taxonômicas, com relações binárias;

OML Lógica descritiva e conceitual, utilizando classes, relacionamentos, objetos e facetas;

SKOS Expressa conteúdo com lógica básica, por meio de thesauri, classificação, folksonomia, taxonomia e vocabulários controlados.

EDITORES DE ONTOLOGIASEDITOR URL SOBRE

Ontokem: http://ontokem.egc.ufsc.br Concebido e desenvolvido no  Laboratório de Engenharia do Conhecimento (LEC) do EGC da UFSC, mediante cadastro é liberado acesso.

Camptools Ontology Editor

http://coe.ihmc.us/groups/coe/ Software gratuito de construção de ontologias em linguagem JAVA.

DERI Ontology Management Environment

http://dome.sourceforge.net/ Software open source de construção de ontologias

Hozo http://www.hozo.jp/ Software em Java para criação de ontologias complexas.

Kaon http://kaon.semanticweb.org/ Software livre de construção de ontologias

KMGen http://www.algo.be/ref-projects.htm#KMgen

Software livre

Knoodl http://www.knoodl.com/ui/home.html

Software virtual para criação de ontologias colaborativamente.

EDITOR URL SOBRE

NeOn Toolkit http://neon-toolkit.org/wiki/Main_Page

Software livre, em linguagem OWL para criação, suporte e reuso de ontologias.

Protégé http://protege.stanford.edu/ Software livre de ontologia e construção de modelagem do conhecimento.

Semantic Turkey http://semanticturkey.uniroma2.it/ Plataforma para bookmarking semântico e construção de ontologia.

Swoop http://www.mindswap.org/2004/SWOOP/

Software livre em Java para edição e criação de ontologia.

WebODE http://webode.dia.fi.upm.es/ Software ara construção de ontologia da Universidade de Madri.

Model Futures OWL Editor

http://www.modelfutures.com/owl/Software livre para construção de ontologias em linguagem OWL.

Open Calais http://www.opencalais.com/ Ferramenta que permite incorporar o estado da arte de funcionalidade semântica dentro do blog, site ou aplicação.

BUSCADORES NA WEB

Sociedade da Informação

Os buscadores surgiram com o objetivo de ajudar a organizar o imenso universo que se tornou a internet. O primeiro buscador na história foi o Archie, criado em 1990 pelo estudante Alan Emtage.

O Archie baixava listas de diretorios de todos os arquivos localizados em sites públicos de FTP.

Enquanto o Archie indexava arquivos de computadores, outro buscador chamado Gopher indexava documento de texto.  Com o lançamento da WWW, surgia em 1993 o primeirobuscador web chamado Wandex.

Mecanismos de Busca: Como tudo começou

Linha de Tempo - Mecanismos de Busca  O AliWeb é um dos primeiros buscadores lançados que existe até os dias de hoje. Primeiro sucesso comercial foi o Lycos surgido em 1994.  Na época também surgiram o Excite, Infoseek e o AltaVista, todos competindo com o famoso buscador de diretórios do Yahoo! No Brasil temos o exemplo do Cadê? e Aonde.  Logo depois surgiram os buscadores globais como o Google, Yahoo e MSN.

Mecanismo de busca É uma base de dados de arquivos da Internet coletados por um programa de computador (conhecidos como wanderer, crawler, robot, worm, spider). A indexação é realizada nos arquivos coletados, por exemplo, pelo título, texto íntegral, tamanho, URL, entre outros. Os mecanismos de busca são também conhecidos como serviços de busca ou serviços de mecanismos de busca. Isto consiste conforme seus componentes: •  Spider: Programa que vasculha a Web de link para link,

identificando e lendo as páginas. •  Index: base de dados contendo de cada página obtida pelo

spider •  Mecanismo de busca: Software que possibilita aos

usuários consultarem o índice e o qual devolve resultados da busca pela relação numa ordem de relevância.

Breve histórico do Google  Foi na universidade de Standorf em 1995 que os estudantes Sergey Brin e Larry Page se conheceram. Os dois tinham a ambição de criar um algoritimo capaz de percorrer a web e trazer, em forma de links, os resultados encontrados.  Com isso, em 1995 surgiu o BlackRub, uma ferramenta baseada em Java e Phyton que rodava em máquinas Intel e Sun. A partir dessa ferramenta, surgiria o famoso Google, nome adotado em 1997.

O significado de Google é um termo forjado que vem de googol, inventado pelo Dr. Edward Kasner, da Universidade de Columbia. Kasner pretendia batizar com um nome sonoro e fácil de recordar a centésima potência do número 10.

Mecanismos de busca na WWW

• AltaVista http://altavista.com • Excite http://www.excite.com  • HotBot http://www.hotbot.com/ • Infoseek http://infoseek.go.com/ • Northern Light Search

http://www.northernlight.com/  • Yahoo! http://www.yahoo.com/ • MSN http://www.msn.com• Google http://www.google.com 

Diretório de pesquisa na Web É uma árvore de assuntos ou um diretório de assuntos, isto é, lista de assuntos organizada em categorias. Existem 2 tipos básicos: acadêmicos e comerciais, onde os interesses podem variar desde o uso intensificado, monitorado, selecionado.  Portanto, o diretório de assuntos é um serviço que oferece uma coleção de links dos recursos Internet submetidos pelo site, criadores ou avaliadores e organizados em categorias de assuntos (áreas específicas).  Os diretórios utilizam critérios de seleção para os links a serem incluídos.

Diferentes abordagens na criação de web semântica

Fonte: http://www.readwriteweb.com/archives/10_semantic_apps_to_watch.php

Diretórios de pesquisa  Argus Clearinghouse http://www.clearinghouse.net Pesquisa orientada (escolar); cobertura muito seletiva devido critérios específicos; recursos estão em ranking e avaliados; compilado por bibliotecários que são especialistas em assuntos; relativamente uma base de dados pequena. 

Enclyclopedia Britannica's Internet Guide http://www.eblast.com Arrola assuntos do interesse geral/tópicos educacionais; seletividade média alta - sites são revisados e reordenados no ranking;  compilado pelo pessoal da Encyclopedia Brittanica (especialistas por assuntos);  arrola acima de 125 000 sites.   Infomine: Scholarly Internet Resource Collections http://lib-www.ucr.edu/ Pesquisa tópicos a nível universitário; alta seletividade; compilado por bibliotecários; arrola cerca de 14.000 sites

Diferenças entre Diretórios e Mecanismo de busca

  A diferença básica é que os diretórios são  compilados por pessoas, enquanto os mecanismos de busca são automatizados.

Ferramentas de MetabuscaOs meta mecanismos de busca realizam pesquisas simultaneamente em diferentes mecanismos de busca. Estes mecanismos não possuem nenhum tipo de bases de dados, ou seja, baseiam-se nos dados de outros mecanismos de busca.  Estas ferramentas de pesquisa são utilizados quando se procurar por: •  um tópico obscuro; •  não obter resultados em buscas; •  a pesquisa não é complexa; •  recuperar o maior número de documentos possíveis com

uma estrutura de sintaxe, assuntos especiais que possam limitar resultados da busca.

Lista de Meta Mecanismos de busca  • All4one http://all4one.com Índice de meta-mecanismos de

busca, compila mecanismos de busca. • All-in-One Search Page http://www.albany.net/allinone/  Este

site reúne inúmeros localizadores de informação da Net. Além disso, permite que sejam realizadas buscas de arquivos usando as ferramentas Archie e Veronica. 

• Cyber 411 http://www.cyber411.com Busca simultânea em 16 mecanismos de busca.

• The Internet Sleuth http://www.isleuth.com Indexa mais de 3.000 bases de dados (muitas destas não são indexadas pelos grandes mecanismos de busca) cobrindo uma variedade imensa de tópicos.

• Mamma http://www.mamma.com Utiliza 7 mecanismos de busca. Relaciona cerca de 2200 revistas (por categoria) e 900 jornais (por local).

Lista de Meta Mecanismos de busca  • Northern Light http://www.northernlight.com A Northern Light

é uma nova forma de organizar o resultado da busca: qualquer procura resulta em duas colunas: "Best Documents" (melhores documentos) do lado direito, e "Custom Search Folders" (Pastas de Procura Refinada) do lado esquerdo. 

• MetaCrawler http://www.metacrawler.com Em vez de manter uma base de dados própria, ele remete sua pesquisa para outras ferramentas incluindo Lycos, WebCrawlwer, Excite, AltaVista, Yahoo, HotBot e Galaxy.

• Multimeta http://www.multimeta.com Procura em 10 mecanismos de busca internacionais.

• 1Blink.com - OneBlink.com http://www.1blink.com Realiza a busca em: Infoseek, AltaVista, HotBot, Alcanseek, Yahoo!, Northern Light, Excite, Lycos, Thunderstone, EuroSeek e Planet Search.

 

Lista de Meta Mecanismos de busca  • Online Language Dictionaries and  Translators

http://rivendel.com/~ric/resources/dictionary.html • Oferece links para mais de 80 dicionários para

tradução de idiomas.  • ProFusion http://profusion.ittc.ukans.edu Busca

simultaneamente em 9 mecanismos. Premiado como meta-mecanismo de busca pela revista PC Professionell, n. 12, 1998.

• Search Spaniel http://www.searchspaniel.com Realiza busca em 12 mecanismos.

Otimização de Sites É o conjunto de estratégias com o objetivo de potencializar e melhorar o posicionamento de um site nas páginas de resultados naturais (orgânicos) nos sites de busca. O termo SEO (Search Engine Optimization) também se refere a indústria de consultoria, que trabalha na otimização de projetos e websites de seus clientes.  Os métodos são categorizados em: a) "SEO de White Hat" (geralmente utilizam métodos aprovados pelos sistemas de busca, como a prática de construção de conteúdo relevante e melhoria da qualidade do site); b) "SEO de Black Hat" (utilizam truques como "cloaking", que é a camuflagem do conteúdo real da página, e spamdexing). O termo "spamdexing" (originado da fusão de spam e indexing) refere-se a pratica de Spam direcionada aos motores de busca

Tipos de Listagens nas páginas de resultado   Os Mecanismos de Busca indicam diferentes tipos de listagens nas páginas de resultados, incluindo: • publicidade paga nas páginas de resultados

(SERPs - Search Engine Result Pages); • conteúdo de publicidade paga por clique pay-per-

click;• anúncios;• pagamento para inclusões em sistemas de busca;• resultados de busca orgânica.

Critérios de classificação de um website  Para classificar os sites, os mecanismos de busca levam em consideração os seguintes aspectos:• Tempo de registro do domínio (Idade do domínio)• Idade do conteúdo• Freqüência do conteúdo: regularidade com a qual novo

conteúdo é adicionado• Tamanho do texto: número de palavras acima de 200-250

(não afetava o Google em 2005)• Idade do link e reputação do site que o aponta• Características padrão da página• Pontuação negativa sobre as características da página (por

exemplo, redução para sítios web com utilização extensiva de meta-tags de palavra chave, indicativos de terem sido artificialmente otimizadas)a 

(continua)

• Originalidade do conteúdo• Termos relevantes utilizados no conteúdo (os termos que os

buscadores associam como sendo relacionados ao tema principal da página)

• Google Pagerank (usado apenas no algoritmo do Google)• Quantidade de links externos• O texto âncora contido nos links externos• Relevância do site que linka para o seu website• Citações e fontes de pesquisa (indica que o conteúdo é de

qualidade para pesquisa)• Termos relacionados na base de dados do mecanismo de

busca (financiar/financiamento)• Pontuação negativa para links de chegada (provavelmente

advindos de páginas de baixo valor, links de chegada recíprocos, etc.)

• Ritmo de aquisição dos links de chegada: muitos ou incremento muito rápido pode indicar atividade comercial de compra de links                                                   (continua)

• Texto próximos aos links que apontam para fora e os links de chegada. Um link acompanhado das palavras "links patrocinados" pode ser ignorado

• Profundidade do documento no site• Métricas coletadas de outras fontes, tais como

monitoramento da frequência com a qual usuários retornam clicando em voltar quando as SERPs (Search Engine Results Page) as enviam para uma página em particula

• Métricas coletadas de fontes como Google Toolbar, Google AdWords/Adsense, etc.

• Métricas coletadas de compartilhamento de dados com terceiros (como provedores de dados estatísticos de programas utilizados para monitorar tráfego de sítios (sites))

• Ritmo de remoção dos links que apontam para o site (continua)

• Uso de sub-domínios, uso de palavras-chave em sub-domínios e volume de conteúdo nos sub-domínios, com pontuação negativa para esta atividade

• Conexões semânticas dos documentos servidos• IP do serviço de hospedagem e o número/qualidade dos

demais sites hospedados no local• Uso de redirecionamentos 301 ao invés de

redirecionamentos 302 (temporário)• Mostrar um cabeçalho de erro 404 em vez de 200 para

páginas que não existem• Uso adequado do arquivo robots.txt• Frequência de tempo em que servidor se encontra ativo

(Confiabilidade)• Se o site mostra conteúdo diferente para diferente tipos de

usuários ou crawlers • Links "quebrados"• Conteúdo inseguro ou ilegal                                       (continua)

• Qualidade da codificação HTML, presença de erros no código

• Taxa real de cliques observados pelo mecanismo de busca para as listas exibidas na SERPs

• Classificação de importância feita por humanos nas páginas com acessos mais frequentes

Qualidade e Ranking de Páginas  Diretrizes publicadas pelos mecanismos de busca e de codificação pelo W3C. Conteúdo atualizado, útil, original, significativo, links de acesso úteis pode alcançar uma grande quantidade de tráfego e posicionamento nos mecanismos de busca. Aumento do PageRank e visitação Como resultado, práticas de SEO que aumentam a qualidade do site mais provavelmente superarão táticas de manipulação do mecanismo de busca. Os melhores SEO recomendam focar-se em algo que sites de busca procuram: conteúdo relevante e útil para seus usuários.

USO DE SEARCH ENGINES TRADICIONAIS

2009Google Yahoo! Bing Ask Total

2009 09 70.46% 16.73% 9.28% 2.50% 98.97%

2009 08 70.24% 16.96% 9.44% 2.37% 99.01%

2009 07 72.07% 17.00% 7.31% 2.58% 98.96%

Fonte: http://www.seoconsultants.com/search-engines/

Buscadores

Inovações disruptivas em Search engines:

Query Pre-processing; Information Sources; Algorithm Improvement; Results Visualization and Post-processing.Fonte: http://www.readwriteweb.com/archives/top_17_search_innovations.php

Incluiríamos ainda como categoria a parte: Web ontology

Buscadores

1. Query Pre-processing;

hakia collarityPowerset (adquirido pela Microsoft, BING)

Buscadores

2. Personal relevance (Buscas personalizadas por usuário)

Interesses e requerimentos diferenciados para cada usuário resulta em um grau de relevância maior nos resultados fornecidos

2.1. Location Based Personalization 2.2. Interface Based Personalization2.3. Query History Based Personalization 2.4. Input/Output Mode Based 2.5. Time Based Personalization2.6. Individual User Behaviour Based Personalization2.7. Group Based Behaviour Based Personalization 2.8. Social Search Based Personalization 2.9. Virtual Personas/Assistants Based Personalization

3. Canned, specialized searches (canned = enlatado, conversas..)

Pesquisa especializada, vertical e pré-configurada: Empregos ( http://www.simplyhired.com.br/)

4. New content types

Buscadores verticalizados (especializados) por conteúdo.

Video (Youtube, truveo ),TV (Blinkx ), Images (Picsearch, Netvue )Blogs (Technorati ), News (Topix ), Classifieds (oodle )

Buscadores

5. Restricted Data Sources

Rollyo Create search engines using the sources you trust (http://www.rollyo.com/)

Google pesquisa personalizada (www.google.com/cse)

Buscadores

7. Parametric search

A busca paramétrica está mais para uma database query do que para uma busca. Foco na solução de problemas ao inves de textos e documentos.

GlobalSpec

Permite especificar uma variedade de parametros enquanto se procura por produtos da área de engenharia.

Buscadores

8. Social Input

Ferramentas web 2.0del.icio.us

Google PageRank é implicitamente construído colaborativamente

Yahoo answers

Etc.

Buscadores

• http://umbel.org/• UMBEL • UMBEL Ontology Documentation• UMBEL Vocabulary• Other UMBEL Documentation and Files

Buscas por ontologia

Buscadores

• Ontojuris http://www.ontojuris.com.br:8060/ontojuris/analise/Analise.do

• MONGEE http://apps.ciram.com.br/mongee/analise/Analise.do

• Ontoweb http://www.ontoweb.com.br/

Buscador Semântico  • Wolfram Alpha Computational Knowlegdge Engine• Swootti: opiniões sobre produtos• Ideas Afines: palavras e conceitos relacionados• AskWiki y Powerset: usa a base Wikipedia em inglês• Hakia: responde a perguntas escritas en inglês• Kartoo: destaca as buscas em forma gráfica conforme

importância.• Retrievr: imagens no Flickr• Mnemomap: diferentes locais como Digg, youtube,

del.icio.us e imagens• WebBrain: exibe grupos relacionadas as palavras utilizadas

nas buscas• SWoogle: busca documentos nos formatos OWL, RDF,

DAML

REFERÊNCIAS• BERNERS-LEE, T.; HENDLER, J.; LASSILA, O. The Semantic Web: a new

form of Web content that is meaningful to computers will unleash a revolution of new possibilities. Scientific American Magazine, Nova York, maio, 2001. Disponível em: <http://www.scientificamerican.com/article.cfm?id=the-semantic-web>. Acesso em: 30 out. 2009.

• BLATTMANN, Ursula; FACHIN, Gleisy R. B. F; RADOS, Gregório J. Varvakis . Recuperar a Informação Eletrônica pela Internet. Departamento de Ciência da Informação. Revista da ACB: Biblioteconomia em Santa Catarina, v. 4, n. 4, p. 9-27, 1999.

• CORAZZON, R. Theory and history of ontology: a resource guide for philosophers. Disponível em: <http://www.formalontology.it/>.

• DING, Y.; FOO, S. Ontology research and development part 1: a review of ontology generation. Journal of Information Science, v.28, n. 4, p. 375-388, 2002.

• JACOB, E. K. Ontologies and the Semantic Web. Bulletin of the American Society forInformation Science and Technology, v. 29, n. 4, p. 19-22, abr. /maio, 2003.

REFERÊNCIAS• ONTOLOGY INFERENCE LAYER OIL. Disponível em:

<http://www.few.vu.nl/~ontoknow/oil/>.• OTIMIZAÇÃO para motores de busca. 4 de outubro de 2009.

In: Wikipédia, a enciclopédia livre. Disponível em: <http://pt.wikipedia.org/wiki/Wikipedia:Projetos>. Acesso em: nov. 2009.

• SHOE SIMPLE HTML ONTOLOGY EXTENSION. Disponível em: <http://www.cs.umd.edu/projects/plus/SHOE/>.

• THE FRIEND OF A FRIEND (FOAF) PROJECT. Disponível em: <http://www.foaf-project.org/>.

• WORLD WIDE WEB CONSORTIUM (W3C). W3C WORKING GROUP NOTE. Resource Description Framework (RDF). Massachusetts, 15 jan. 2004. Disponível em: <http://www.w3.org/RDF/>.

REFERÊNCIAS• _____. _____. SKOS Simple Knowledge

Organization System Primer. Massachusetts, 18 ago. 2009. Disponível em: <http://www.w3.org/TR/2009/NOTE-skos-primer-20090818/>.

• DARPA'S INFORMATION EXPLOITATION OFFICE. The DARPA Agent Markup Language. Arlington, 13 jan. 2006. Disponível em: <http://www.daml.org/>.

• XOL - XML BASED ONTOLOGY EXCHANGE LANGUAGE. Disponível em: <http://xml.coverpages.org/xol.html>.

Recommended