Web Content Mining - Datos estructurados

WEB MININGExtracción de Datos EstructuradosWeb Content MiningJuan Azcurra

2

Introducción Una gran cantidad de información en la Web está contenida en

objetos de datos de estructuras regulares. Muchas veces los registros de datos son recuperados de bases de

datos. Tales registros de datos en la Web son importantes: listas de

productos y servicios. Aplicaciones: Recopilar datos para proporcionar servicios de valor

agregado. Shopping comparativo, búsqueda de objetos (más que búsquedas de

páginas, etc.) Dos tipos de páginas con datos estructurados: Páginas de listas y páginas de detalle.

Enfoques: Wrapper inducido (aprendizaje supervisado) Extracción automática (aprendizaje no supervisado)

3

Tipos de datos Páginas de listas

Cada página contiene una o más listas de registros de datos.

Cada lista se encuentra en una región de la página.

Dos tipos de registros: plano y anidado. Páginas de detalle

Cada página se enfoca en un objetivo individual.

Puede contener información relacionada o no.

4

Página de Listas

2 listas de productos

6

Página de detalle – descripción del producto

7

Resultados de la extracción

anidadas

8

Modelo de datos y soluciones Modelo de datos Web: Relaciones anidadas

Solución al problema Dos técnicas importantes

Wrapper inductivo – supervisado Extracción automática – no supervisada

Información que puede ser explotada Archivos fuentes (páginas Web en HTML)

Representadas como strings o árboles Información visual

9

Información visual y árbol

10

Wrapper por inducción Utilizando máquinas de aprendizaje para generar las reglas de

extracción El usuario marca los item objetivos en algunas páginas de

entrenamiento. El sistema entrena las reglas de extracción con estas páginas. Las reglas son aplicadas a items a extraer en otras páginas.

Ejemplos de entrenamientoE1: 513 Pico, Venice, Phone 1-800-555-1515E2: 90 Colfax, Palms, Phone (800) 508-1570E3: 523 1st St., LA, Phone 1-800-578-2293E4: 403 La Tijera, Watts, Phone: (310) 798-0008

Reglas de extracciónStart rules: End rules:R1: SkipTo(() SkipTo())R2: SkipTo(-) SkipTo()

11

Extracción automática Existen 2 formulaciones principales:

Problema 1: Extracción basada en páginas de listas simples

Problema 2: Extracción basada en páginas de múltiple entrada del mismo tipo (páginas de lista o página de detalles)

12

Extracción automática: Problema 1

13

Técnicas de solución Identificar regiones de datos y registros

de datos Buscando patrones repetitivos

String matching (tratar a la fuente HTML como string).

Tree matching (tratar a la fuente HTML como árbol).

Alineación de items de datos: Múltiple alineación

14

Integración de información Los datos extractados desde diferentes sites

necesitan ser integrados para producir bases de datos consistentes.

Integración significa: Schema match: encontrar columnas en

diferentes tablas que contengan el mismo tipo de información (ej. Nombres de productos)

Data instance match: encontrar valores que son semanticamente identificos pero se representan de forma diferente en distintos sitios (ej., “Coke” y “Coca Cola”).

15

Web Query Interface Integration

16

Descubrir atributos sinónimos En el dominio de libros (autor – escritor,

tema – categoría)

17

Schema Matching como descubrimiento de correlaciones

Esta técnica necesita un gran número de consultas de entrada.

Atributos sinónimos están corelacionados negativamente. Son alternativos, raramente co-ocurren

ej. autor = escritor Grupos de atributos con correlación positiva.

Frecuentemente co-ocurren en las consultas. ej, {Apellido, Nombre}

18

Efecto puente

Es asdfasd Asdfasd Asdf Asdf

Observaciones:• Es dificultoso unir el campo “Select Your Vehicle” de A con el campo “Make” de B.• Pero las instancias de A son similares a las de C, y la etiqueta de C es similar a la de B.• Entonces, C puede ser como puente para conectar A y B.

19

Modelo de datos Gran parte de los datos de la Web pueden ser

modelados como relaciones anidadas. objetos con tipos permiten conjuntos anidados y

tuplas. Una instancia de un tipo T es simplemente

un elemento de dom(T).

20

Un ejemplo de tipo de tupla anidada

Relaciones clásicas planes son tipos no anidados. Relaciones anidadas son tipos de conjuntos arbitrarios.

Technology

Web Content Mining - Datos estructurados