48
Sergio Langer Aula 3:

O mercado de buscas

Embed Size (px)

DESCRIPTION

Aula da matéria "Orientação a resultado: as métricas da web"

Citation preview

Page 1: O mercado de buscas

Sergio Langer

Aula 3:

Sergio Langer

Page 2: O mercado de buscas

O consumidor e as buscas

Page 3: O mercado de buscas

A tiv id ad es d esen v o lv id as n a in te rn e t¹

84 ,0%

1 6 ,6%

2 4 ,5%

49 ,6%

B usca d ore s

E -m a ils

S a la s de ba te -pa p o

C o m pa rt ilha m ento d ea rq uivo s

Ferramentas de busca têm alta penetração entre os usuários

11 ,9%

11 ,9%C ria um a pá g ina na w e b

L iga çõe s te le fônica s p e lainte rne t

No Brasil, 87% dos usuários domiciliares utilizaram

pelo menos uma vez algum mecanismo de busca

Fontes: (1) CGI, 2006; (2) Ibope Net//Ratings, 2007.

Site²Alcance

(%)

Ferramentas de Busca, Portais e Comunidades

98,28

Portais Horizontais e Comunidades

96,46

Ferramentas de Busca 86,96

Comunidades 86,24

Portais Verticais e Comunidades

46,03

Page 4: O mercado de buscas

Freqüência de utilização dos buscadores

por adultos americanos (% de respostas)

Quase 1 em cada 4 usuários utilizam os buscadores mais de 1 vez por dia

87% dos usuários encontram a

informação que procuram mais

frequentemente quando utilizam os 20%

25%

Fonte: iMedia Connection, 2006

frequentemente quando utilizam os

buscadores

44% dos usuários indicaram que

os buscadores são a fonte segura,

com informações críticas

absolutamente necessárias

33 é o número médio de buscas

por mês

48% dos usuários afirmam utilizar

2 ou 3 sistemas de busca

regularmente

0%

5%

10%

15%

20%

+1

vez ao dia

1

dia

3-5 dias

semana

1-2 dias

semana

1x

algumas

semanas

Pouco

freqüente

Não sei /

Sem

resposta

Page 5: O mercado de buscas

16%

43%

83%

Como você encontrou o site que influenciou a sua última compra?¹

Como você encontrou o site da empresa que procurava?²

2 6 %

2 9 %

4 0 % Buscadores

Boca-a-Boca

Mídia Gráfica On -line

Buscadores são fontes confiáveis de informações

Buscadores juntos

Fonte: 1- DoubleClick White Paper, Janeiro 2005 (US); 2-Forrester’s Consumer Technographics® August 2004 North American Devices, Media,

& Marketing Online Study and Forrester’s Consumer Technographics® 2003 North American Retail & Media Online Study

49%

32%

36%

47%

34%

16%

3 %

7 %

1 0 %

1 2 %

1 3 %

2 6 % Mídia Gráfica On -line

TV

Digitação da URL

Mídia Gráfica off-line

Email Marketing

Email de amigo

Buscadores juntos

com Mídia Gráfica

representam mais de

65% sobre a

influencia de compra

Page 6: O mercado de buscas

Quantidade de resultados vistos pelos usuários nos buscadoresantes de clicarem em algum (em % de respostas)

30%

35%

40%

45%2002 2004 2006

Usuários estão cada vez menos dispostos a navegar pelas páginas de resultados...

Fonte: iProspect, Abril 2006

0%

5%

10%

15%

20%

25%

Apenas alguns Na 1ª

página

Nas primeiras

2 páginas

Nas primeiras

3 páginas

Mais de três

páginas

Estar posicionado na primeira página do resultado d e buscaé fator crítico de sucesso

Page 7: O mercado de buscas

Quantidade de palavras utilizadas por buscas

17%

30%

27%

17%

28%29%

2 0%

2 5%

3 0%

3 5%

2004 2006

...e mais propensos a realizar buscas específicas pa ra encontrar somente o que querem

Fonte: OneStat.com, 2006

17%15%

7%

3%1% 2%

4%

8%

17%

11%

0%

5%

10%

1 5%

1 p a la v ra 2 3 4 5 6 7

Termos com uma palavra (mais genéricos) são importantes para o início do processo de busca, mas nem sempre trazem somente o que o usuário está precisando, por isso termos específicos vêm ganhando força

Page 8: O mercado de buscas

Market Share – EUA

Fonte: Compete.com / Fev 2009

Page 9: O mercado de buscas

Market Share – BR

Buscador porcentagem

Google 94,8%

MSN 2,5%

Fonte: Predicta / Fev 2009

Yahoo 0,8%

Page 10: O mercado de buscas

Como funciona o buscador?

Page 11: O mercado de buscas

Ferramentas de busca baseiam-se em operações bastante complexas e

ambiciosas:

� varredura da web

� indexação de cada página

Como funciona

� indexação de cada página

� análise e a comparação de texto em frações de segundos

Page 12: O mercado de buscas

Como funciona

A varredura é feita por meio de programas

chamados spiders ou crawlers, que

vasculham e indexam toda a web, site por

site, link a link.

Page 13: O mercado de buscas

Como funciona

Toda a internet?

Page 14: O mercado de buscas

Como funciona

Não, como não pode varrer tudo, vasculham os sites mais relevantes. O

ponto de partida é a própria base do buscador.

Page 15: O mercado de buscas

Como funciona

Em cada página, o programa varre os links presentes e segue um deles,

escolhido aleatoriamente. A operação é repetida à exaustão, de modo a

garantir um índice de sites o mais completo possível.

Page 16: O mercado de buscas

Como funciona

Um busca simples pode trazer milhões de resultados. Organizar estes

resultados e exibir o que há de relevante é a tarefa central para um

buscador.

Page 17: O mercado de buscas

Como funciona

Essa foi a grande aposta do Google: estimar a relevância de um site de

acordo com o número de vezes em que é citado por outros sites.

Page 18: O mercado de buscas

Como funciona

É uma medida de popularidade e confiabilidade entre pares: se um

endereço é muito citado na web, isto quer dizer que ele é relevante. E se

os sites que o citam são, por sua vez, também muito citados, a

relevância é ainda maior.

Page 19: O mercado de buscas

Como funciona

Esta operação matemática é o que

chamamos de PageRank. Ela estabelece

que a importância de uma página equivale à

probabilidade de ser encontrada por um

internauta surfando aleatoriamente ao longo internauta surfando aleatoriamente ao longo

de um certo tempo.

Page 20: O mercado de buscas

Como funciona

A conta que essa operação se baseia é um dos grandes segredos do

Google. Mas em linhas gerais, sabe-se que é feita a partir da soma do

número de links existentes de um site a outro, em toda a web, ponderada

pela relevância de cada um deles.

Page 21: O mercado de buscas

Como funciona

A ferramenta de busca deve comparar os termos digitados pelo

internauta com seu índice de páginas. Os primeiros buscadores

consideravam acima de tudo os termos de identificação da página, não

visíveis ao leitor, ou o número de vezes em que uma certa palavra é

repetida. repetida.

Page 22: O mercado de buscas

Como funciona

Por estes termos serem facilmente manipuláveis, os atuais buscadores

dão atenção a centenas de outras variáveis, incluindo a formatação do

texto, tempo de resposta, a posição na página e sua presença em

páginas vizinhas do mesmo site.

Page 23: O mercado de buscas

e o Google?

Page 24: O mercado de buscas

Google MSN Yahoo

e o Google?

Page 25: O mercado de buscas

e o Google?

O Google é basicamente um banco de dados inteligente.

Ele acumula cada página da Web nesse banco. O endereço da página, o

nome, e as palavras mais frequentes e suas respectivas frequências são

todas incluídas na “ficha” daquela página (cada página é como um livro a todas incluídas na “ficha” daquela página (cada página é como um livro a

ser catalogado numa biblioteca).

Page 26: O mercado de buscas

e o Google?

O mais importante, todas as outras páginas para as quais a página linka

também são guardadas. Quando você busca algo no Google, o software

traz todas as “fichas” cujo conteúdo tenha a ver com a sua busca.

Page 27: O mercado de buscas

e o Google?

Para fazer isto de forma eficiente, um dicionário global é criado

(dicionário reverso ou índice reverso), onde cada palavra que existe na

web aparece uma vez. E na “ficha” de cada palavra são colocados

códigos que se relacionam com as páginas que contém aquela palavra.

Page 28: O mercado de buscas

e o Google?

Uma maneira de entender isso é que cada palavra tem uma lista com os

endereços das páginas que a contêm. Quando você digita uma palavra e

clica em buscar, tudo que precisa ser feito é imprimir na tela as listas de

endereços de todas as palavras que você pediu.

Page 29: O mercado de buscas

e o Google?

O segredo do Google, e na verdade de qualquer buscador, está em duas

coisas: como ele faz para encontrar todas páginas e como ele decide a

ordem em que vai listar os resultados. Os nomes técnicos para estas

duas atividades são crawling e scoring.

Page 30: O mercado de buscas

e o Google?

Um bom buscador é bastante abrangente, e ao mesmo tempo lista as

respostas na ordem que o maior número de pessoas espera. E responde

à busca rápido.

Page 31: O mercado de buscas

e o Google?

O crawling do Google, assim como o da maioria dos buscadores é feito

através de programas de computador que vão seguindo todos os links de

uma página, e acumulando as informações das páginas visitadas, a

partir de uma página inicial.

Page 32: O mercado de buscas

e o Google?

Para cada página visitada, o Google cria uma “ficha de biblioteca”. As

palavras da página que estão no dicionário global tem suas frequências

contadas, o endereço da página é anotado na “ficha”, e o endereço de

todas as páginas para as quais a página linka são anotados.

Finalmente, o próprio dicionário global é emendado caso alguma palavra

nova seja encontrada.

Page 33: O mercado de buscas

e o Google?

Ao fim do processo de crawling o Google tem um gigantesco banco de

dados com informações concisas da página.

Page 34: O mercado de buscas

e o Google?

Uma enxugada no dicionário global é feita, para remover palavras

frequentes demais, como por exemplo preposições, e para remover

palavras infreqüentes demais, como um erro de tipografia.

Page 35: O mercado de buscas

e o Google?

Por isso, se seu nome for muito incomum (muito mesmo), você não será

indexado pelo Google. Se seu nome for muito incomum, mas você

cometer um ato que te põe nas capas de vários jornais, a frequência do

seu nome aumenta, e o Google vai te indexar.

Page 36: O mercado de buscas

e o Google?

O próximo passo é então como o scoring do Google é feito. Uma

maneira natural de ordenar as páginas, quando uma busca é feita, é

simplesmente pela frequência com que a palavra buscada aparece na

página.

Page 37: O mercado de buscas

e o Google?

Por exemplo, se você busca por “dança”, uma página que contenha a

palavra mil vezes, é provavelmente mais importante do que uma que

contem a palavra somente dez vezes.

Porém um esquema simplista como este pode ser facilmente burlado, Porém um esquema simplista como este pode ser facilmente burlado,

com indivíduos criando páginas que tenham milhões de vezes a palavra

“dança”, mesmo sem ser relacionado ao assunto ou para vender um livro

específico de dança.

Page 38: O mercado de buscas

e o Google?

Cada buscador tem então a sua receita mágica para contrabalançar este

tipo de problema. O Google usa uma idéia de pontos por autoridade

(relevance scoring). Talvez tenha sido a grande sacada dos seus

fundadores ao projetar seu buscador.

Page 39: O mercado de buscas

e o Google?

A pontuação do Google soma aos pontos tradicionais (como frequência

da palavra, importância da palavra num contexto dado por alguma

fórmula simples pré-programada, etc.), a uma pontuação dada por

reputação.

Page 40: O mercado de buscas

e o Google?

Como medir reputação? A idéia é simples: se páginas com muita

reputação apontam para você, então você tem muita reputação. É uma

propriedade hereditária.

Matematicamente isto é feito usando teoria dos grafos, a mesma que Matematicamente isto é feito usando teoria dos grafos, a mesma que

você usa para colorir mapas-múndi com o mínimo de cores possíveis.

Page 41: O mercado de buscas

e o Google?

Mas como medir a reputação de uma página na Web, se você não sabe

a reputação de ninguém a priori?

Page 42: O mercado de buscas

e o Google?

O jeito mais comum de se fazer isso são com os robôs. Ele começa de

uma página inicial e escolhe aleatoriamente um link a ser clicado.

Ele segue para a página clicada e repete o processo. O processo é feito

indefinidamente.

Após muito longo tempo (provavelmente após centenas de bilhões de

cliques) você pode calcular a reputação de cada página com uma

fórmula simples: conte o número de vezes que a página foi visitada pelo

monkey browser.

Page 43: O mercado de buscas

e o Google?

Para normalizar a pontuação, o melhor é calcular a fração do total de

páginas visitadas que cada página aparece.

Suponha que a web tenha só 3 páginas: A, B e C. Suponha que o robô

visitou cem páginas usando o método aleatório e visitou A trinta vezes. visitou cem páginas usando o método aleatório e visitou A trinta vezes.

Então a reputação de A é simplesmente 30/100 (ou seja, 0.3 de 1.0).

Page 44: O mercado de buscas

e o Google?

Uma interpretação interessante do seu score de relevância normalizado

desta forma é que ele é simplesmente a chance de um robô ir parar na

sua página. Se a probabilidade é alta, então sua página é importante.

Page 45: O mercado de buscas

e o Google?

Se o Google realmente precisasse lançar robôs aleatórios para calcular a

pontuação, provavelmente iriam levar anos para se concluir o cálculo,

afinal precisariam fazer bilhões de visitas para se ter um número

confiável.

Felizmente, existe uma maneira eficiente de calcular estas

probabilidades sem fazer visita alguma. Você só precisa saber a

estrutura de linkes do conjunto de páginas (que página liga com quem).

Page 46: O mercado de buscas

e o Google?

O algoritmo é bastante antigo, tem mais de 100 anos. E uma das suas

aplicações anteriores foi resolver problemas como calcular as

frequências de vibração na corda do seu violão ou a chance de se

ganhar em pôquer.

Page 47: O mercado de buscas

e o Google?

O que destacou o Google das outros mecanismo de busca foi a idéia de

fazer um crawling mais completo que todos, numa época em que

ninguém se dispunha a fazer isso, e a receita da reputação entrando

como parte da pontuação da página.

Page 48: O mercado de buscas