19
WEB MINING Extracción de Datos Estructurados Web Content Mining Juan Azcurra

Web Content Mining - Datos estructurados

Embed Size (px)

Citation preview

Page 1: Web Content Mining - Datos estructurados

WEB MININGExtracción de Datos EstructuradosWeb Content MiningJuan Azcurra

Page 2: Web Content Mining - Datos estructurados

2

Introducción Una gran cantidad de información en la Web está contenida en

objetos de datos de estructuras regulares. Muchas veces los registros de datos son recuperados de bases de

datos. Tales registros de datos en la Web son importantes: listas de

productos y servicios. Aplicaciones: Recopilar datos para proporcionar servicios de valor

agregado. Shopping comparativo, búsqueda de objetos (más que búsquedas de

páginas, etc.) Dos tipos de páginas con datos estructurados: Páginas de listas y páginas de detalle.

Enfoques: Wrapper inducido (aprendizaje supervisado) Extracción automática (aprendizaje no supervisado)

Page 3: Web Content Mining - Datos estructurados

3

Tipos de datos Páginas de listas

Cada página contiene una o más listas de registros de datos.

Cada lista se encuentra en una región de la página.

Dos tipos de registros: plano y anidado. Páginas de detalle

Cada página se enfoca en un objetivo individual.

Puede contener información relacionada o no.

Page 4: Web Content Mining - Datos estructurados

4

Página de Listas

2 listas de productos

Page 5: Web Content Mining - Datos estructurados

6

Página de detalle – descripción del producto

Page 6: Web Content Mining - Datos estructurados

7

Resultados de la extracción

anidadas

Page 7: Web Content Mining - Datos estructurados

8

Modelo de datos y soluciones Modelo de datos Web: Relaciones anidadas

Solución al problema Dos técnicas importantes

Wrapper inductivo – supervisado Extracción automática – no supervisada

Información que puede ser explotada Archivos fuentes (páginas Web en HTML)

Representadas como strings o árboles Información visual

Page 8: Web Content Mining - Datos estructurados

9

Información visual y árbol

Page 9: Web Content Mining - Datos estructurados

10

Wrapper por inducción Utilizando máquinas de aprendizaje para generar las reglas de

extracción El usuario marca los item objetivos en algunas páginas de

entrenamiento. El sistema entrena las reglas de extracción con estas páginas. Las reglas son aplicadas a items a extraer en otras páginas.

Ejemplos de entrenamientoE1: 513 Pico, <b>Venice</b>, Phone 1-<b>800</b>-555-1515E2: 90 Colfax, <b>Palms</b>, Phone (800) 508-1570E3: 523 1st St., <b>LA</b>, Phone 1-<b>800</b>-578-2293E4: 403 La Tijera, <b>Watts</b>, Phone: (310) 798-0008

Reglas de extracciónStart rules: End rules:R1: SkipTo(() SkipTo())R2: SkipTo(-<b>) SkipTo(</b>)

Page 10: Web Content Mining - Datos estructurados

11

Extracción automática Existen 2 formulaciones principales:

Problema 1: Extracción basada en páginas de listas simples

Problema 2: Extracción basada en páginas de múltiple entrada del mismo tipo (páginas de lista o página de detalles)

Page 11: Web Content Mining - Datos estructurados

12

Extracción automática: Problema 1

Page 12: Web Content Mining - Datos estructurados

13

Técnicas de solución Identificar regiones de datos y registros

de datos Buscando patrones repetitivos

String matching (tratar a la fuente HTML como string).

Tree matching (tratar a la fuente HTML como árbol).

Alineación de items de datos: Múltiple alineación

Page 13: Web Content Mining - Datos estructurados

14

Integración de información Los datos extractados desde diferentes sites

necesitan ser integrados para producir bases de datos consistentes.

Integración significa: Schema match: encontrar columnas en

diferentes tablas que contengan el mismo tipo de información (ej. Nombres de productos)

Data instance match: encontrar valores que son semanticamente identificos pero se representan de forma diferente en distintos sitios (ej., “Coke” y “Coca Cola”).

Page 14: Web Content Mining - Datos estructurados

15

Web Query Interface Integration

Page 15: Web Content Mining - Datos estructurados

16

Descubrir atributos sinónimos En el dominio de libros (autor – escritor,

tema – categoría)

Page 16: Web Content Mining - Datos estructurados

17

Schema Matching como descubrimiento de correlaciones

Esta técnica necesita un gran número de consultas de entrada.

Atributos sinónimos están corelacionados negativamente. Son alternativos, raramente co-ocurren

ej. autor = escritor Grupos de atributos con correlación positiva.

Frecuentemente co-ocurren en las consultas. ej, {Apellido, Nombre}

Page 17: Web Content Mining - Datos estructurados

18

Efecto puente

Es asdfasd Asdfasd Asdf Asdf

Observaciones:• Es dificultoso unir el campo “Select Your Vehicle” de A con el campo “Make” de B.• Pero las instancias de A son similares a las de C, y la etiqueta de C es similar a la de B.• Entonces, C puede ser como puente para conectar A y B.

Page 18: Web Content Mining - Datos estructurados

19

Modelo de datos Gran parte de los datos de la Web pueden ser

modelados como relaciones anidadas. objetos con tipos permiten conjuntos anidados y

tuplas. Una instancia de un tipo T es simplemente

un elemento de dom(T).

Page 19: Web Content Mining - Datos estructurados

20

Un ejemplo de tipo de tupla anidada

Relaciones clásicas planes son tipos no anidados. Relaciones anidadas son tipos de conjuntos arbitrarios.