66
Centro de Computação Mecanismos de Busca na Web

Centro de Computação Mecanismos de Busca na Web. Centro de Computação Internet :Informação Caótica Mecanismos de Busca : Informação Organizada O

Embed Size (px)

Citation preview

Page 1: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Mecanismos de Busca na Web

Page 2: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Internet :Informação Caótica Mecanismos de Busca : Informação Organizada O que são Mecanismos de Busca “searchs” Tipos e Finalidades Estratégia de Busca Exercitando os conceitos ( exemplos ) Referências

Tópicos

Page 3: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Internet - Informação Caótica

Web : estimado 800 milhões !? de páginas (não é mais : são estimados 1 bilhão em fev/00 ) fonte: Inktomi and the NEC Research Institute

Crescimento exponencial: 1/3 ao ano (últimos 2 anos).

80% dos usuários internet encontram a informação que procuram através de sites de busca ( a maior parte consegue fazê-lo de 10 a 15 minutos ) fonte: Inst. de Tecn.da Georgia/EUA

Page 4: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

O ciclo da informação na Internet :

Informaçãoconhecimentocomunicaçãoconsumo

Internet - Informação Caótica

Pessoas Pessoas

Internet Internet

InformaçãoQualificada

Page 5: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Pausa para reflexão

pesquisa Cadê/Ibope:

dos internautas brasileiros 63% são do sexo

masculino

68% são jovens de idade 15 a 29 anos

79% livre de compromissos (solteiros ou separados)

59% tem renda que variam de 10 a 50 salários

mínimos

Page 6: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Internet - Informação Caótica

A Internet (teia) é um grande banco de dados de informação sem um padrão de catalogação (caótica).

Difícil localização de documentos, seu autor, data de validade (da informação), etc ...

É como uma enorme biblioteca sem um catálogo de referência central e os livros dispostos desordenadamente.

Page 7: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Mecanismos - Informação Organizada

Entram em cena os Mecanismos de Busca (catálogo central de uma Biblioteca).

Websites com recursos sofisticados: banco de dados linguagens pesquisa simples e avançada velocidade tratamento diferenciado ( personalizado ) grandes portais (vendas, serviços, help,etc)

Page 8: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Mecanismos - Informação Organizada

A aprendizagem de técnicas e familiarização dos Mecanismos de Busca são itens essenciais para a economia de horas em uma pesquisa.

A indexação na web é um trabalho gigantesco e interminável.

Page 9: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Mecanismos - Informação Organizada

A localização, com precisão, de documentos ( páginas ou arquivos ) que contenham o termo que você deseja depende, basicamente, de 2 fatores :

assunto disponível e indexado ou selecionado por

algum mecanismo de busca.

as palavras chaves (argumento da pesquisa) são

suficientemente específicos para obtenção de um

resultado satisfatório.

Page 10: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Mecanismos - Informação Organizada

Muitas vezes, encontrar um argumento de pesquisa específico para aquilo que procuramos não é uma tarefa fácil.

Ex: "esquizofrenia" é um bom argumento; "New York" é um argumento ruim.

Page 11: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Pausa para reflexão

Um dos novos sites que utiliza tecnologias avançadas para gerar resultados supreendentes em termos de relevância é o Google.

Segundo a empresa, seu mecanismo de busca calcula os resultados tomando por base uma equação de 500 milhões de variáveis e mais de dois bilhões de termos.

Page 12: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

O que é Mecanismo de Busca

É um grande índice (catálogo de biblioteca).

Faz todo trabalho de organização das páginas espalhadas pela Web.

Fazem o trabalho de pesquisa nos mais de 800 milhões de documentos.

São os grandes "culpados" pelo crescimento exponencial da Internet.

Page 13: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Mecanismos de Busca - Perfil

Garimpar a internet em busca de qualidade / quantidade de informação e organizá-la em um único local ( banco de dados ).

Conquistar a preferência do público ( muitas informações, hospedagem de websites e conta de email gratuitas, seções direcionadas a determinadas faixas etárias, etc ).

Sofisticados : linguagem natural ( coloquial ).

Page 14: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Mecanismos de Busca - Perfil

Explorar o potencial comercial da Web (as pessoas são potenciais consumidores independente da informação que procuram).

Estão sempre vendendo alguma coisa para você (já experimentou fazer uma busca com a palavra "carro”, “ferrari” ?).

Maiores catálogos de vendas de produtos encontrados em um só lugar.

Page 15: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Mecanismos de Busca - Perfil

Fonte: searchengine watch

Page 16: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Mecanismos de Busca - Perfil

Fonte: searchengine watch

Page 17: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Mecanismos de Busca - Perfil

Alguns dados :

Yahoo - 50 milhões de visitas/mês. UOL - 45 milhões de visitas/mês. UNICAMP - 1,8 milhões de visitas/mês. 60% da web é indexada. Mais de 80% da web possui informação não qualificada Cresce 1/3 ao ano (dados 2 últimos anos) Estatísticas mostram que 7% dos usuários navegam

além da 3ª página de resultados)

Page 18: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Tipo de Mecanismos - Índices

Genéricos ou Especializados

Spiders / Robôs varrem a internet buscando

páginas, indexando-as e criando seu próprio

banco de dados.

Algoritmos de busca que acham e trazem

documentos relevantes para a pesquisa do

usuário.

Page 19: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Tipo de Mecanismos - Índices

Algoritmos comuns de pesquisa: número de ocorrências do argumento de pesquisa

(maior probabilidade de ser um documento que você procura)

argumento encontrado no TITLE da página argumento em negrito tamanho de fonte maior mede popularidade da página (número de links que

apontam para ela)

Page 20: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Tipo de Mecanismos - Índices

Principais diferencas entre eles: Capacidade de armazenagem no banco de dados.

Frequência de atualização.

Capacidade de busca (amplitude).

Velocidade de recuperação de resultados

Interface (design) na mostra dos resultados.

Recursos avançados (tradução, linguagem natural,

operadores booleanos).

Page 21: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Tipo de Mecanismos - Índices

Cobrem todo tipo de assunto possível, não fazem

distinção entre os sites que indexam ( pesquisa

por softwares ) .

Quando fazemos a pesquisa através de um mecanismo de busca NÃO o fazemos "ao vivo" e sim recuperamos as informações gravadas nos banco de dados.

Page 22: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Tipo de Mecanismos - Índices

são indicados quando pesquisamos um documento conhecido, imagens, softwares ou um trecho de alguma informação pois não requerem um conhecimento prévio do assunto.

Os índices especializados são numerosos e em grande parte desconhecidos.

Page 23: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Tipo de Mecanismos - Índices

Os índices especializados não se preocupam em indexar toda a Web (focam sua busca dentro de um assunto definido, uma área geográfica ou tipo de recurso).

Os índices especializados são, na maioria das vezes, mais eficientes do que os mecanismos tradicionais ( podem ser um ponto de partida para sua pesquisa ).

Page 24: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Tipo de Mecanismos - Índices

Exemplos de índices genéricos AltaVista (http://www.altavista.com) Excite (http://www.excite.com) FAST (http://www.alltheweb.com) Google (http://www.google.com) HotBot (http://www.hotbot.com) Infoseek (http://infoseek.go.com) Northern Light (http://www.northernlight.com)

Page 25: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Tipo de Mecanismos - Índices

Exemplos de índices específicos medicina

http://www.medscape.com/ http://www.planetavida.com.br/

música http://www.mp3.com

softwares http://www.tucows.com

pesquisas http://www.cnpq.br

Page 26: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Tipo de Mecanismos - MetaSearchs

não possuem índices próprios submetem as perguntas formuladas a vários

indexadores da Web, coletam os resultados obtidos, fazem uma formatação, eliminando resultados duplicados e geram uma listagem final.

adotam um mínimo denominador comum na forma como as pesquisas são submetidas.

Page 27: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Tipo de Mecanismos - MetaSearchs

O serviço de metabusca Profusion, http://www.profusion.com , é um dos mais conceituados da rede.

Brasil : MetaMiner ( http://www.miner.com.br ) programas em seu computador que realizem

metabuscas ( gratuitos ). Ex: Copernic99 - http://www.copernic.com

Page 28: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Tipo de Mecanismos - Diretórios

Funcionam de forma diferente dos Índices.

Organizados hierarquicamente.

A busca e organização das informações é feita

por seres humanos e somente a home page de um

site é indexada.

Vantagem : probabilidade reduzida dos

resultados estarem fora do contexto.

Page 29: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Tipo de Mecanismos - Diretórios

Possuem um mecanismo de busca interno.

A informação é dividida em categorias.

P. ex.: "Elvis Presley" encontramos em

"sociedade e cultura" "musica" "cantores"

Funcionam como catálogos on-line e são um

grande potencial comercial para os websites em

geral (visibilidade na lista de links).

Page 30: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Tipo de Mecanismos - Diretórios

São melhores para pesquisa em assuntos gerais. O prestígio está exatamente na informação qualificada para seus usuários.

Exemplos de Diretórios : LookSmart ( http://www.looksmart.com ) Cadê ( http://www.cade.com.br ) Radix ( http://magellan.excite.com/ ) Open Directory ( http://dmoz.org ) Yahoo ( http://www.yahoo.com )

Page 31: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Tipo de Mecanismos - Dir. Abertos

Especialistas nos assuntos compilam as informações com maior qualidade e precisão

Relacionam, fazem anotações, permitem outros especialistas se cadastrarem e abrirem novos assuntos ( manten-se a estrutura)

Exemplos: IVOX ( http://www.ivox.com.br ) About.com (http://about.com) WWW Virtual Library (http://www.vlib.org)

Page 32: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Tipo de Mecanismos - Desvantagens

Índices: os programas (spiders ou robôs) não possuem dissernimento sobre o que é apresentado aos usuários (qualidade dos resultados ).

Diretórios: limitados a uma pequena parcela da Internet pois todo trabalho é feito por seres humanos (classificação e análise).

Page 33: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Mecanismos - Estratégia de Busca

Formule uma questão e seu escopo. Ex: “quais são as escolas de samba do carnaval do Rio

de Janeiro?”

Identifique os conceitos importantes dentro da questão (palavras chave).

Ex: “escolas de samba”, “Rio de Janeiro”

Considere possíveis sinônimos e variações das palavras chaves.

Ex: “carnaval carioca” (não é um bom argumento)

Page 34: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Mecanismos - Estratégia de Busca

Uma estratégia bem elaborada é de suma importância ( base de informação enorme, amorfa e em evolução ).

Na escolha no mecanismo de busca optar por aqueles que oferecem mais possibilidades de busca ( pesquisa avançada ).

Page 35: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Mecanismos - Estratégia de Busca

Identificar mecanismos de busca especializados no assunto ( música, informática, negócios, medicina, cultura, etc ).

As técnicas básicas de busca atendem a grande maioria dos usuários.

Verifique sempre o help / ajuda .

Page 36: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Mecanismos - Estratégia de Busca

Utilize frases exatas. P. ex: “As invenções de Leonardo da Vinci” ao invés de “Leonardo da Vinci”

Palavras em minúsculo --> maiúsculo /minúsculo

Palavras em maiúsculo --> palavras que batem exatamente o que foi digitado.

Page 37: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Mecanismos - Estratégia de Busca

Procurar por bookmarks (relação de links) de outros usuários na internet. P. ex.: "music links", ”links de música", “music bookmarks”, etc ...

Page 38: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Pesquisando na Web - Estrutura

Podemos pesquisar uma simples palavra ou uma frase em uma página Web. O resultado pode ser encontrado em uma das seções abaixo :

Título Autor Descrição Corpo do documento

Page 39: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Pesquisando na Web - Estrutura

Exemplo : “tomates” Resultado da pesquisa:

doc. de título : “Filme - Tomates Verdes Fritos”

doc. que fala sobre o assunto: “cultivo de tomates”

Page 40: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Pesquisando na Web - Pesquisa Booleana

Pesquisa Booleana : use as palavras AND, OR, NOT para expandir e

limitar as buscas. Permite combinar os termos de pesquisa. Mais úteis em buscas complexas. São conhecidos também como Operadores

Booleanos.

Page 41: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Pesquisa Booleana - “AND”

AND combina palavras e/ou frases, permitindo que ambas

estejam presentes nos resultados. “eu estou interessado em soja que são transgênicas” sintaxe: “soja AND transgênica”

Page 42: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Pesquisa Booleana - “OR”

OR combina palavras e/ou frases, trazendo resultados que

possuam pelo menos uma das combinações. “eu estou interessado em soja ou produtos

transgênicos” sintaxe:“soja OR transgênico”

Page 43: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Pesquisa Booleana - “NOT”

NOT exclue palavras e/ou frases dos resultados da pesquisa. “estou interessado em informações sobre soja

excluindo-se docs que citam problemas transgênicos” sintaxe: “soja NOT transgênico”

Page 44: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Pesquisa Booleana - Combinação

AND, OR e NOT “Eu quero aprender a cozinhar com ervas ou pimenta” sintaxe: “cozinhar AND (ervas OR pimenta)” ou “receita AND (ervas OR pimenta)”

Page 45: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Pesquisando na Web - Adição/Subtração

adição “+” antes de uma palavra chave ou frase obriga que ela apareca entre os resultados relevantes. Ex: “+picanha invertida”.

subtração “-” elimina dos resultados a palavra chave ou frase. Ex: “picanha -mostarda”

CUIDADO !!!!!!

Page 46: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Pesquisando na Web - Funções especiais

TITLE - pesquisar pr título do documento Ex: “TITLE:Gazeta Mercantil”

HOST - traz páginas indexadas de um site. Ex: “HOST:www.unicamp.br nuclear”

URL - traz páginas que contém este parâmetro no texto de sua URL.

Ex: “URL:microsoft” traz TODAS as páginas indexadas que contém “microsoft” no endereço.

“http://www.microsoft.com” ou “http://www.software.com/microsoft”

Page 47: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Pesquisando na Web - Funções especiais

LINK - identifica todas as páginas que possuem um link definido neste parâmetro.

Ex: “LINK: mailto:[email protected]

IMAGE - traz páginas que contém arquivos com

os nome definidos neste parâmetro. Ex: “IMAGE:basket*.jpg” Ex: “IMAGE:vinci”

Page 48: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Pesquisando na Web - Proximidade

NEAR, ADJACENT, FOLLOWED BY - alguns sites permitem que você encontre páginas com as palavras de busca próximas uma da outra ( evita-se encontrar documentos em que estas palavras aparecem sem ligação entre elas ).

Ex: “cpi NEAR narcotráfico”

Page 49: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Pesquisando na Web - Perfil

Assuntos relacionados ao argumento de pesquisa. Ex: viagem (viagem aérea, descontos de viagem,

agências de viagem, etc ...). Altavista, GoTo, HotBot, Infoseek, Excite;

Esquematização de resultados permite que somente 1 página de cada site seja incluído nos Top 10 dos resultados da pesquisa. Ex: Altavista, GoTo, HotBot, Infoseek, Excite,

Northern Light, Google (faz identação quando existe mais de 1 página de um mesmo site);

Page 50: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Pesquisando na Web - Perfil

Busca automática de frases : a utilização de frases pode obter melhores resultados nas pesquisas. Ex: Altavista, Google;

Page 51: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Pesquisando na Web - Perfil

Similaridades: os mecanismos de busca trazem páginas similares ao argumento ( assunto ) pelo qual você está procurando. Ex: Excite, Infoseek., Altavista;

Stemming: Palavras genéricas (ex: perigo*) permite pesquisar variações de uma palavra ou radical (resultado : perigoso, perigosamente, etc). Ex: Infoseek, Lycos, Northern Light, HotBot, etc.

Page 52: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Pesquisando na Web - Perfil

Ordenação por data, intervalo de data e a data em que o spider indexou a página : cuidado !!! (70% dos websites informam a data correta, 20% reportam a data atual e 10% não informam data nenhuma); Ex: Infoseek, Nortern Light, Google

Page 53: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Pesquisando na Web - Perfil

Pesquisando dentro dos resultados (search within): os mecanismos permitem que você faça uma pesquisa mais detalhada utilizando somente os resultados obtidos na primeira pesquisa; Ex: Infoseek, Lycos, HotBot;

Page 54: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Pesquisando na Web - Perfil

Pesquisa Avançada: permite entrar com um maior número de parâmetros para restringir ou modificar a pesquisa. Ex: a maioria dos mecanismos conhecidos

Tradução de documentos Ex: Altavista, Infoseek

Page 55: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Pesquisando na Web - Perfil

Linguagem Natural: pode-se fazer consultas utilizando frases ou perguntas em linguagem natural, ou seja, como se estivesse perguntando a outra pessoa. Altavista, AskJeeves, Google

Ex: Why womem crave chocolate ?Ex: Where can i buy classical musica CDs on-line?"Ex: Qhat is the color of japanese flag?Ex: What is the distance between Brasília and São

Paulo?Ex: What is the best soccer team?

Page 56: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Mecanismos - Dicas específicas

Altavista 250 milhões de páginas Interface simples e avançada Possui a maioria dos recursos de busca ( e mais:

categorias de assunto, buscas especias por imagens, vídeos, áudio, customização do portal pelo usuário)

Pode-se realizar uma busca restrita a um único site. Ex: "host:www.unicamp.br cursos"

Page 57: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Mecanismos - Dicas específicas

Excite 215 milhões de páginas pesquisa avançada (permite adicionar palavras

sugeridas para a busca, permite buscar documentos relacionados a este link/assunto, my Excite, etc...)

Page 58: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Mecanismos - Dicas específicas

Radar UOL 110 milhões de páginas busca avançada (por datas, frase exatas, informa

número de links para esta página, busca combinadas, operadores lógicos, tipo de mídia, extensão de arquivo, etc)

Page 59: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Mecanismos - Dicas específicas

Northern Light Possui uma seção especial mantida em conjunto com a

Billboard onde disponibiliza um repositório de músicas e websites de músicas.

Ask Jeeves Linguagem natural (perguntas e respostas)

Page 60: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Mecanismos - Dicas específicas

Google 350 milhões de páginas Um dos melhores índices internacionais. Possui cálculos avançados (500 milhões de variáveis) Basea-se na popularidade das páginas (número de links

que apontam para ela) Termos em negrito, palavra chave no cabeçalho e em

fontes maiores A posição de uma página depende, entre outros fatores,

do que os outros falam dela (pesquisa de opinião pública). Ex: "best bookstore" resultado: Amazon Books

Page 61: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Mecanismos de Busca - Referências

Procurando pessoas ( endereço de e-mail ) ? Bigfoot (http://bigfoot.com/) WhoWhere? (http://www.whowhere.lycos.com) Yahoo! People Search (http://people.yahoo.com) Altavista - People Search (http://www.av.com) UOL - (http://cf5.uol.com.br/listapub/index.cfm) Miner - (http://miner.bol.com.br/genteminer.html)

Page 62: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Mecanismos de Busca - Referências

Procurando pessoas (endereços e telefones) Bigfoot ( http://bigfoot.com/ ) InfoSpace Canada People Finder

(http://www.infospace.com/canada/index_ppl_ca.htm)

Switchboard.Com (http://www.switchboard.com) Telefonica

(http://www.telefonica.net.br/sp/rrobim.htm) Miner (http://miner.bol.com.br/genteminer.html)

Page 63: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Mecanismos de Busca - Referências

Softwares Jumbo (http://www.jumbo.com) Shareware.com (http://www.shareware.com) ZDNet Downloads

(http://www.zdnet.com/downloads/) Tucows ( http://www.tucows.com )

Page 64: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Mecanismos de Busca - Referências

Áudio / Vídeo AltaVista - (http://www.av.com) iAtlas - (http://www.iatlas.com) Lycos MP3 Search - (http://mp3.lycos.com) ProFusion MP3 - (http://mp3.profusion.com) Real - Snap - (http://real.snap.com) MP3 - ( http://www.mp3.com )

Page 65: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Mecanismos de Busca - Referências

Novidades sobre Internet e os Mecanismos de Busca: http://searchenginewatch.com/ Universo Internet - RubensQueiroz

http://www.revista.unicamp.br/navegacao/index4.html Estatística da web:

http://www.oclc.org/oclc/research/projects/webstats/statistics.htm

Revistas : “Internet.Br”, “Internet Business”, “Veja”

Page 66: Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O

Centro de Computação

Sobre a Palestra

Está disponível em: http://www.ccuec.unicamp.br/treinamentos/busca/busca.ppt http://www.ccuec.unicamp.br/treinamentos/busca/index.html

Palestrante: Gian - [email protected]

Ciclo de Palestras Centro de Computação da UNICAMP

http://www.ccuec.unicamp.br