64
Las Matem´ aticas de PageRank y otros m´ etodos de b´ usqueda web Eustasio del Barrio Universidad de Valladolid. IMUVA. Marzo, 2013 Eustasio del Barrio Las Matem´ aticas de PageRank 1 / 31

Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Las Matematicas de PageRanky otros metodos de busqueda web

Eustasio del Barrio

Universidad de Valladolid. IMUVA.

Marzo, 2013

Eustasio del Barrio Las Matematicas de PageRank 1 / 31

Page 2: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Plan

Plan

1 Busqueda de informacion

2 Motores de busqueda

3 Analisis de enlaces

4 Conclusiones

5 Referencias

Eustasio del Barrio Las Matematicas de PageRank 2 / 31

Page 3: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Plan

Plan

1 Busqueda de informacion

2 Motores de busqueda

3 Analisis de enlaces

4 Conclusiones

5 Referencias

Eustasio del Barrio Las Matematicas de PageRank 2 / 31

Page 4: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Plan

Plan

1 Busqueda de informacion

2 Motores de busqueda

3 Analisis de enlaces

4 Conclusiones

5 Referencias

Eustasio del Barrio Las Matematicas de PageRank 2 / 31

Page 5: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Plan

Plan

1 Busqueda de informacion

2 Motores de busqueda

3 Analisis de enlaces

4 Conclusiones

5 Referencias

Eustasio del Barrio Las Matematicas de PageRank 2 / 31

Page 6: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Plan

Plan

1 Busqueda de informacion

2 Motores de busqueda

3 Analisis de enlaces

4 Conclusiones

5 Referencias

Eustasio del Barrio Las Matematicas de PageRank 2 / 31

Page 7: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Busqueda de informacion

Busqueda de informacion: (pre)historia

Busqueda de informacion (IR) = busqueda en coleccion de documentosde informacion particular (consulta)

A.C.: colecciones pequenas; etiquetas en rollos de papiro

A.C.: papiro → pergamino; formato libro

Siglo XII: “invencion” del papel; colecciones en monasterios;organizacion por secciones; listas de documentos

1450: Gutemberg, imprenta

Siglo XVIII: primeras bibliotecas publicas; busqueda orientada

1872: clasificacion decimal (Dewey)

1900: Catalogo de tarjetas (por autor, tıtulo)

1940-1950: Ordenador

1989: nacimiento del www (Berner-Lee)

Eustasio del Barrio Las Matematicas de PageRank 3 / 31

Page 8: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Motores de busqueda

El metodo SMART

1960’s; implementado en IBM 7094 & IBM 360Basado en metodos matriciales (matrices termino-documento)

Comienza con diccionario de terminos (palabras o expresiones)

Se indexa cada documento

frecuencia fi,j = #veces termino i aparece en documento j

Matriz termino-documento

Eustasio del Barrio Las Matematicas de PageRank 4 / 31

Page 9: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Motores de busqueda

Vector de consulta:

qT = [q1, . . . , qm] qi ={

1 si termino i presente en consulta0 si no

¿Es el documento i una buena respuesta a la consulta?

¿Esta el vector q cerca de la columna Ai?

Se usa δi = cos θi =qTAi

‖q‖‖Ai‖Se ordenan documentos por δi creciente

Se sugiere documento i a usuario si δi ≥ tol

Mejoras posibles “comprimiendo” matriz A(Dumais, 1989,1994; Bel Labs)

Eustasio del Barrio Las Matematicas de PageRank 5 / 31

Page 10: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Motores de busqueda

Busqueda de informacion: metodos “antiguos”

Ventajas

Encuentran conexiones ocultas

Pueden usarse para identificar clusters de documentos (textmining)

Funcionan bien en colecciones pequenas + homogeneas +estaticas

Inconvenientes

Ranking dependiente de consulta (recalculado para cada consulta)

Solo usa contenido semantico (vıctima facil de spam, estructurade enlaces ignorada)

Dıficil anadir/borrar documentos

Compresion optima no sencilla

Eustasio del Barrio Las Matematicas de PageRank 6 / 31

Page 11: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Motores de busqueda

Busqueda indexada en web

Eustasio del Barrio Las Matematicas de PageRank 7 / 31

Page 12: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Motores de busqueda

Busqueda indexada en web (pre 1998)

patrulla fronteriza: 4; 567; 809; 1103; . . . (8,700,000 en total)

Hezbollah: 9; 12; 339; 942; 15158; . . . (15,100,000 en total)

calentamiento global: 178; 12980; 445532; . . . (33,200,000 en total)

demasiados enlaces por busqueda

facil spam

Yahoo: jerarquıas de sitios web, organizacion humana

Eustasio del Barrio Las Matematicas de PageRank 8 / 31

Page 13: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Motores de busqueda

Cuando se proclamo que la Biblioteca abarcaba todos loslibros, la primera impresion fue de extravagante felicidad.Todos los hombres se sintieron senores de un tesoro intacto ysecreto. No habıa problema personal o mundial cuyaelocuente solucion no existiera: en algun hexagono.. . . A la desaforada esperanza, sucedio, como es natural, unadepresion excesiva. La certidumbre de que algun anaquel enalgun hexagono encerraba libros preciosos y de que esos librospreciosos eran inaccesibles, parecio casi intolerable. Una sectablasfema sugirio que cesaran las buscas. . .

Eustasio del Barrio Las Matematicas de PageRank 9 / 31

Page 14: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Analisis de enlaces

1998: hiperenlaces en accion

Nuevos metodos combinan ranking IR con nuevo ranking depopularidad

La web es diferente de otras colecciones de documentos

es enorme

es dinamica

carece de organizacion centralizada

tiene hiperenlaces

Eustasio del Barrio Las Matematicas de PageRank 10 / 31

Page 15: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Analisis de enlaces

Elementos de un motor de busqueda web

Eustasio del Barrio Las Matematicas de PageRank 11 / 31

Page 16: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Analisis de enlaces

Modulo de ranking: genera ranking de popularidad

mide importancia de cada pagina

medida independiente de consulta, basada en estructura de enlaces

calculado offline, antes de atender consultas de usuarios

algoritmo PageRank de Google se impuso a competidores

Google PageRank = Google $$$

Eustasio del Barrio Las Matematicas de PageRank 12 / 31

Page 17: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Analisis de enlaces

Eustasio del Barrio Las Matematicas de PageRank 13 / 31

Page 18: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Analisis de enlaces

Google PageRank: Lawrence Page & Sergey Brin, 1998

Idea

Crear ranking r(P ) independiente de consulta

Calculos off-line; ahorro computacion en consultas

La web vota con in-links; in-links de sitios importantes pesan mas

in-links de sitio con muchos out-links pesan menos

Eustasio del Barrio Las Matematicas de PageRank 14 / 31

Page 19: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Analisis de enlaces

El algoritmo PageRank

r(P ) =∑

Q∈BP

r(Q)|Q|

BP paginas con enlaces a P ; |Q| numero de paginas enlazadas desde Q

Metodo iterativo: inicialmente r0(P ) = 1n para todas paginas

P1, . . . , Pn

r1(P ) =∑

Q∈BP

r0(Q)|Q|

r2(P ) =∑

Q∈BP

r1(Q)|Q|

...

Eustasio del Barrio Las Matematicas de PageRank 15 / 31

Page 20: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Analisis de enlaces

El algoritmo PageRank

r(P ) =∑

Q∈BP

r(Q)|Q|

BP paginas con enlaces a P ; |Q| numero de paginas enlazadas desde Q

Metodo iterativo: inicialmente r0(P ) = 1n para todas paginas

P1, . . . , Pn

r1(P ) =∑

Q∈BP

r0(Q)|Q|

r2(P ) =∑

Q∈BP

r1(Q)|Q|

...

Eustasio del Barrio Las Matematicas de PageRank 15 / 31

Page 21: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Analisis de enlaces

Tras iteracion k, πTk = [rk(P1), . . . , rk(Pn)],

πTk+1 = πT

k H, hi,j ={

1/|Pi| si i→ j0 si no

Vector PageRank πT = lımk→∞ πTk = πTH (autovector de H)

si el lımite existe

¿se estabilizan los iterantes?¿mide realmente la importancia de las paginas?

Eustasio del Barrio Las Matematicas de PageRank 16 / 31

Page 22: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Analisis de enlaces

Tras iteracion k, πTk = [rk(P1), . . . , rk(Pn)],

πTk+1 = πT

k H, hi,j ={

1/|Pi| si i→ j0 si no

Vector PageRank πT = lımk→∞ πTk = πTH (autovector de H)

si el lımite existe¿se estabilizan los iterantes?

¿mide realmente la importancia de las paginas?

Eustasio del Barrio Las Matematicas de PageRank 16 / 31

Page 23: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Analisis de enlaces

Tras iteracion k, πTk = [rk(P1), . . . , rk(Pn)],

πTk+1 = πT

k H, hi,j ={

1/|Pi| si i→ j0 si no

Vector PageRank πT = lımk→∞ πTk = πTH (autovector de H)

si el lımite existe¿se estabilizan los iterantes?

¿mide realmente la importancia de las paginas?

Eustasio del Barrio Las Matematicas de PageRank 16 / 31

Page 24: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Analisis de enlaces

Tras iteracion k, πTk = [rk(P1), . . . , rk(Pn)],

πTk+1 = πT

k H, hi,j ={

1/|Pi| si i→ j0 si no

Vector PageRank πT = lımk→∞ πTk = πTH (autovector de H)

si el lımite existe¿se estabilizan los iterantes?

¿mide realmente la importancia de las paginas?

Eustasio del Barrio Las Matematicas de PageRank 16 / 31

Page 25: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Analisis de enlaces

El modelo del internauta aleatorio

Internauta parte de pagina web. Aleatoriamente elige enlace a otrapagina

Xn = pagina visitada en instante n

Eustasio del Barrio Las Matematicas de PageRank 17 / 31

Page 26: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Analisis de enlaces

El modelo del internauta aleatorio

Internauta parte de pagina web. Aleatoriamente elige enlace a otrapagina

Xn = pagina visitada en instante n

Eustasio del Barrio Las Matematicas de PageRank 17 / 31

Page 27: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Analisis de enlaces

El modelo del internauta aleatorio

Internauta parte de pagina web. Aleatoriamente elige enlace a otrapagina

Xn = pagina visitada en instante n

Eustasio del Barrio Las Matematicas de PageRank 17 / 31

Page 28: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Analisis de enlaces

El modelo del internauta aleatorio

Internauta parte de pagina web. Aleatoriamente elige enlace a otrapagina

Xn = pagina visitada en instante n

Eustasio del Barrio Las Matematicas de PageRank 17 / 31

Page 29: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Analisis de enlaces

El modelo del internauta aleatorio

Internauta parte de pagina web. Aleatoriamente elige enlace a otrapagina

Xn = pagina visitada en instante n

Eustasio del Barrio Las Matematicas de PageRank 17 / 31

Page 30: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Analisis de enlaces

Xn es una cadena de Markov

P2 es un estado absorbente (dangling node; pagina sin enlaces)

πT = [0, 1, 0, 0, 0, 0]; P2 es un ‘sumidero’ de ranking

Ranking no resulta interesante

‘Dangling nodes’ no cortan navegacion de internautas reales;permitimos salto al azar

Cambiamos filas de ceros por eT

n = [ 1n , . . . ,

1n ]

Eustasio del Barrio Las Matematicas de PageRank 18 / 31

Page 31: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Analisis de enlaces

S es una matriz estocastica, m. de transicion de una cadena de Markov

πT = πTS πT distribucion estacionaria

La web no es ‘fuertemente conexa’; S no es irreducible (hay i 9 j)

Puede haber ‘ciclos’: i→ j → i

Teorema

Si S irreducible y aperiodica existe una unica distribucion estacionaria,πT . Ademas

πTk → π independientemente de πT

0

Eustasio del Barrio Las Matematicas de PageRank 19 / 31

Page 32: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Analisis de enlaces

La matriz Google

Solucion a problemas: permitir salto aleatorio desde cualquier pagina

G = αS + (1− α)eeT

n

G es irreducible y aperiodica tiene distribucion estacionaria unica

πj = proporcion de tiempo que el internauta aleatorio pasa en pagina j

Eustasio del Barrio Las Matematicas de PageRank 20 / 31

Page 33: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Analisis de enlaces

Algunos aspectos importantes

En la Web real n ∼ 1012

La matriz de hiperenlaces es dispersa (menos de 10 out-links en media)

Aun ası almacenamiento de G costoso y calculo de πTk+1 tambien

Cada iteracion requiere ∼ 1024 operaciones

Pero hay buenas noticias

Teorema ∑j

|π(k)j − πj | ≤ 2αk

Si α = 0.85, 50-100 iteraciones garantizan buena aproximacion(10−3 − 10−7) independiente de dimension!!

El resto de la historia es conocido

Eustasio del Barrio Las Matematicas de PageRank 21 / 31

Page 34: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Analisis de enlaces

Algunos aspectos importantes

En la Web real n ∼ 1012

La matriz de hiperenlaces es dispersa (menos de 10 out-links en media)

Aun ası almacenamiento de G costoso y calculo de πTk+1 tambien

Cada iteracion requiere ∼ 1024 operaciones

Pero hay buenas noticias

Teorema ∑j

|π(k)j − πj | ≤ 2αk

Si α = 0.85, 50-100 iteraciones garantizan buena aproximacion(10−3 − 10−7) independiente de dimension!!

El resto de la historia es conocido

Eustasio del Barrio Las Matematicas de PageRank 21 / 31

Page 35: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Analisis de enlaces

Eustasio del Barrio Las Matematicas de PageRank 22 / 31

Page 36: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Analisis de enlaces

HITS (Hypertext Induced Topic Selection, Jon Kleinberg, 1997)

Distincion entre autoridades y distribuidores (hubs)

Buenas autoridades enlazadas desde buenos hubs

Buenos hubs enlazan a buenas autoridades

Eustasio del Barrio Las Matematicas de PageRank 23 / 31

Page 37: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Analisis de enlaces

HITS (Hypertext Induced Topic Selection, Jon Kleinberg, 1997)

Distincion entre autoridades y distribuidores (hubs)

Buenas autoridades enlazadas desde buenos hubs

Buenos hubs enlazan a buenas autoridades

Eustasio del Barrio Las Matematicas de PageRank 23 / 31

Page 38: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Analisis de enlaces

HITS (Hypertext Induced Topic Selection, Jon Kleinberg, 1997)

Distincion entre autoridades y distribuidores (hubs)

Buenas autoridades enlazadas desde buenos hubs

Buenos hubs enlazan a buenas autoridades

Eustasio del Barrio Las Matematicas de PageRank 23 / 31

Page 39: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Analisis de enlaces

HITS (Hypertext Induced Topic Selection, Jon Kleinberg, 1997)

Distincion entre autoridades y distribuidores (hubs)

Buenas autoridades enlazadas desde buenos hubs

Buenos hubs enlazan a buenas autoridades

Eustasio del Barrio Las Matematicas de PageRank 23 / 31

Page 40: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Analisis de enlaces

HITS

ai = puntuacion como autoridad para pagina Pi

hi = puntuacion como hub para pagina Pi

Inicialmente hi = 1; h0 =

1...1

Puntuacion inicial de autoridad ai =∑

j:Pj→Pihi; a1 =

a1...an

= LTh0

Li,j ={

1, Pi → Pj

0, Pi 9 Pj

Eustasio del Barrio Las Matematicas de PageRank 24 / 31

Page 41: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Analisis de enlaces

HITS

ai = puntuacion como autoridad para pagina Pi

hi = puntuacion como hub para pagina Pi

Inicialmente hi = 1; h0 =

1...1

Puntuacion inicial de autoridad ai =∑

j:Pj→Pihi; a1 =

a1...an

= LTh0

Li,j ={

1, Pi → Pj

0, Pi 9 Pj

Eustasio del Barrio Las Matematicas de PageRank 24 / 31

Page 42: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Analisis de enlaces

HITS

ai = puntuacion como autoridad para pagina Pi

hi = puntuacion como hub para pagina Pi

Inicialmente hi = 1; h0 =

1...1

Puntuacion inicial de autoridad ai =∑

j:Pj→Pihi; a1 =

a1...an

= LTh0

Li,j ={

1, Pi → Pj

0, Pi 9 Pj

Eustasio del Barrio Las Matematicas de PageRank 24 / 31

Page 43: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Analisis de enlaces

HITS

ai = puntuacion como autoridad para pagina Pi

hi = puntuacion como hub para pagina Pi

Inicialmente hi = 1; h0 =

1...1

Puntuacion inicial de autoridad ai =∑

j:Pj→Pihi; a1 =

a1...an

= LTh0

Li,j ={

1, Pi → Pj

0, Pi 9 Pj

Eustasio del Barrio Las Matematicas de PageRank 24 / 31

Page 44: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Analisis de enlaces

HITS

Se refina puntuacion hub: hi =∑

j:Pi→Pjaj ; h1 = La1

En pasos sucesivos a2 = LTh1, h2 = La2,. . .

A = LTL matriz de autoridades ak+1 = Aak

H = LLT matriz de hubs hk+1 = Hhk

ak → a; hk → h; autovectores

a,h no bien definidos si A,H reducibles

Eustasio del Barrio Las Matematicas de PageRank 25 / 31

Page 45: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Analisis de enlaces

HITS

Se refina puntuacion hub: hi =∑

j:Pi→Pjaj ; h1 = La1

En pasos sucesivos a2 = LTh1, h2 = La2,. . .

A = LTL matriz de autoridades ak+1 = Aak

H = LLT matriz de hubs hk+1 = Hhk

ak → a; hk → h; autovectores

a,h no bien definidos si A,H reducibles

Eustasio del Barrio Las Matematicas de PageRank 25 / 31

Page 46: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Analisis de enlaces

HITS

Se refina puntuacion hub: hi =∑

j:Pi→Pjaj ; h1 = La1

En pasos sucesivos a2 = LTh1, h2 = La2,. . .

A = LTL matriz de autoridades ak+1 = Aak

H = LLT matriz de hubs hk+1 = Hhk

ak → a; hk → h; autovectores

a,h no bien definidos si A,H reducibles

Eustasio del Barrio Las Matematicas de PageRank 25 / 31

Page 47: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Analisis de enlaces

HITS

Se refina puntuacion hub: hi =∑

j:Pi→Pjaj ; h1 = La1

En pasos sucesivos a2 = LTh1, h2 = La2,. . .

A = LTL matriz de autoridades ak+1 = Aak

H = LLT matriz de hubs hk+1 = Hhk

ak → a; hk → h; autovectores

a,h no bien definidos si A,H reducibles

Eustasio del Barrio Las Matematicas de PageRank 25 / 31

Page 48: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Analisis de enlaces

HITS

Se refina puntuacion hub: hi =∑

j:Pi→Pjaj ; h1 = La1

En pasos sucesivos a2 = LTh1, h2 = La2,. . .

A = LTL matriz de autoridades ak+1 = Aak

H = LLT matriz de hubs hk+1 = Hhk

ak → a; hk → h; autovectores

a,h no bien definidos si A,H reducibles

Eustasio del Barrio Las Matematicas de PageRank 25 / 31

Page 49: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Analisis de enlaces

Problema reducido si se calculan a,h sobre grafo asociado aquery+vecinos

HITS da dos rankings interesantes

ranking es query-dependent; demasiada computacion por consulta

A, H no estocasticas; modificaciones posibles

SALSA (Stochastic Approach for Link-Structure Analysis, Lempel& Moran)

Eustasio del Barrio Las Matematicas de PageRank 26 / 31

Page 50: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Analisis de enlaces

Problema reducido si se calculan a,h sobre grafo asociado aquery+vecinos

HITS da dos rankings interesantes

ranking es query-dependent; demasiada computacion por consulta

A, H no estocasticas; modificaciones posibles

SALSA (Stochastic Approach for Link-Structure Analysis, Lempel& Moran)

Eustasio del Barrio Las Matematicas de PageRank 26 / 31

Page 51: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Analisis de enlaces

Problema reducido si se calculan a,h sobre grafo asociado aquery+vecinos

HITS da dos rankings interesantes

ranking es query-dependent; demasiada computacion por consulta

A, H no estocasticas; modificaciones posibles

SALSA (Stochastic Approach for Link-Structure Analysis, Lempel& Moran)

Eustasio del Barrio Las Matematicas de PageRank 26 / 31

Page 52: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Analisis de enlaces

Problema reducido si se calculan a,h sobre grafo asociado aquery+vecinos

HITS da dos rankings interesantes

ranking es query-dependent; demasiada computacion por consulta

A, H no estocasticas; modificaciones posibles

SALSA (Stochastic Approach for Link-Structure Analysis, Lempel& Moran)

Eustasio del Barrio Las Matematicas de PageRank 26 / 31

Page 53: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Analisis de enlaces

Problema reducido si se calculan a,h sobre grafo asociado aquery+vecinos

HITS da dos rankings interesantes

ranking es query-dependent; demasiada computacion por consulta

A, H no estocasticas; modificaciones posibles

SALSA (Stochastic Approach for Link-Structure Analysis, Lempel& Moran)

Eustasio del Barrio Las Matematicas de PageRank 26 / 31

Page 54: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Analisis de enlaces

Enganando a PageRank

PageRank asume ‘buena fe’ en enlaces y paginas (don’t be evil)

Manipular PageRank puede producir beneficios (rendimientopublicitario, divertirse un poco,. . . )

Eustasio del Barrio Las Matematicas de PageRank 27 / 31

Page 55: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Analisis de enlaces

Enganando a PageRank

PageRank asume ‘buena fe’ en enlaces y paginas (don’t be evil)

Manipular PageRank puede producir beneficios (rendimientopublicitario, divertirse un poco,. . . )

Eustasio del Barrio Las Matematicas de PageRank 27 / 31

Page 56: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Analisis de enlaces

Eustasio del Barrio Las Matematicas de PageRank 28 / 31

Page 57: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Analisis de enlaces

Eustasio del Barrio Las Matematicas de PageRank 28 / 31

Page 58: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Analisis de enlaces

Paginas accedidas desde paginas relacionadas con consultaconsideradas relevantes tambien

Bomba desactivada; otras debilidades descubiertas

El vector PageRank es estable; el ranking, no

SEO’s, link farms

Efecto de link farms controlable (?) analizando grafo

Eustasio del Barrio Las Matematicas de PageRank 29 / 31

Page 59: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Analisis de enlaces

Paginas accedidas desde paginas relacionadas con consultaconsideradas relevantes tambien

Bomba desactivada; otras debilidades descubiertas

El vector PageRank es estable; el ranking, no

SEO’s, link farms

Efecto de link farms controlable (?) analizando grafo

Eustasio del Barrio Las Matematicas de PageRank 29 / 31

Page 60: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Analisis de enlaces

Paginas accedidas desde paginas relacionadas con consultaconsideradas relevantes tambien

Bomba desactivada; otras debilidades descubiertas

El vector PageRank es estable; el ranking, no

SEO’s, link farms

Efecto de link farms controlable (?) analizando grafo

Eustasio del Barrio Las Matematicas de PageRank 29 / 31

Page 61: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Analisis de enlaces

Paginas accedidas desde paginas relacionadas con consultaconsideradas relevantes tambien

Bomba desactivada; otras debilidades descubiertas

El vector PageRank es estable; el ranking, no

SEO’s, link farms

Efecto de link farms controlable (?) analizando grafo

Eustasio del Barrio Las Matematicas de PageRank 29 / 31

Page 62: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Analisis de enlaces

Paginas accedidas desde paginas relacionadas con consultaconsideradas relevantes tambien

Bomba desactivada; otras debilidades descubiertas

El vector PageRank es estable; el ranking, no

SEO’s, link farms

Efecto de link farms controlable (?) analizando grafo

Eustasio del Barrio Las Matematicas de PageRank 29 / 31

Page 63: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Conclusiones

Matematicas resuelven problemas; soluciones utiles en problemasconcretos

Historia no terminada: link farms, SEO, Google Panda, GooglePenguin,. . .

Machine learning, BigData, Social Netwokrs, . . . areas activas deinvestigacion matematica/estadıstica/informatica teorica yaplicada

Tambien una gran fuente de empleo

Eustasio del Barrio Las Matematicas de PageRank 30 / 31

Page 64: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos

Referencias

Libros:

Langville, A. N. y Meyer, C. D. (2006). Google’s PageRank andBeyond: The Science of Search Engine Rankings. Princeton Univ. Press.

Manning, C.D., Raghavan, P. y Schutze, H. (2008). Introduction toInformation Retrieval, Cambridge University Press.

Bonato, A. (2008). A Course on the Web Graph. A.M.S. - GraduateStudies in Mathematics.

Algorithms and Models for the Web-Graph. Lecture Notes in ComputerScience. Springer. (9o workshop en 2012)

Artıculo:

Langville, A. N. y Meyer, C. D. (2003). Deeper inside pagerank.Internet Mathematics, 1, 335–380.

Eustasio del Barrio Las Matematicas de PageRank 31 / 31