32
MINERAÇÃO DE DADOS BANCOS DE DADOS NÃO CONVENCIONAIS

MINERAÇÃO DE DADOS BANCOS DE DADOS NÃO CONVENCIONAIS

Embed Size (px)

Citation preview

Page 1: MINERAÇÃO DE DADOS BANCOS DE DADOS NÃO CONVENCIONAIS

MINERAÇÃO DE DADOS

BANCOS DE DADOS NÃO CONVENCIONAIS

Page 2: MINERAÇÃO DE DADOS BANCOS DE DADOS NÃO CONVENCIONAIS

BDs NÃO CONVENCIONAIS

• BDs de estrutura complexa

• BDs de Planos

• BDs Espaciais

• BDs Multimedia

• Arquivos flat

• Web

Page 3: MINERAÇÃO DE DADOS BANCOS DE DADOS NÃO CONVENCIONAIS

BDs DE ESTRUTURA COMPLEXA

• Aspecto relevante : GENERALIZAÇÃO

– Generalização de atributos multivalorados :

• Atributos com conjunto de valores (set-valued data)

• Atributos com lista de valores (list-valued data)

• Atributos com estruturas aninhadas (nested

structured data)

Page 4: MINERAÇÃO DE DADOS BANCOS DE DADOS NÃO CONVENCIONAIS

Atributos com conjunto de valores (set-valued data)

• Generalização de cada valor do conjunto para hierarquia de nível mais alto

ex : alimento = {maçã, uva, couve-flor, cebola, arroz}

generalização pode ser {frutas, verduras, cereais}

ou• Derivação do comportamento geral do conjunto

– Número de elementos, tipos ou intervalos de valores, média para dados numéricos ;

Page 5: MINERAÇÃO DE DADOS BANCOS DE DADOS NÃO CONVENCIONAIS

Atributos com lista de valores (list-valued data)

• Generalização semelhante à de atributos com conjunto de valores, exceto que a ordem dos elementos deve ser mantida na generalização ;

• Uma lista pode ser generalizada excluindo-se os elementos menos importantes ou mantendo apenas o mais importante:ex: Atributo historico_escolar =((Tecnico em contabilidade,

Esc.Tecnica, 1990),(Mestrado em Matemática, UFPE, 1994),(Doutorado em Matemática, UFPE, 1998)) ;

Manter, por exemplo : (Doutorado em Matemática, UFPE, 1998)

Page 6: MINERAÇÃO DE DADOS BANCOS DE DADOS NÃO CONVENCIONAIS

Atributos com estruturas aninhadas (nested structured data)

• Um atributo complexo pode conter conjuntos, listas, registros, árvores, e a combinação destes, onde uma estrutura pode estar aninhada em outra.

Generalização :1. Generalizar cada atributo da estrutura e manter o

formato da estrutura ;

2. Transformar a estrutura num flat file e generalizá-la a partir daí ;

3. Retornar o tipo da estrutura ;

Page 7: MINERAÇÃO DE DADOS BANCOS DE DADOS NÃO CONVENCIONAIS

Generalização em BDs Espaciais

• Agregação e aproximação :– Generalização de pontos geográficos em grupos de

regiões tais como regiões de negócio, residencial, agricultura ou indústria de acordo com o uso da terra ;

Page 8: MINERAÇÃO DE DADOS BANCOS DE DADOS NÃO CONVENCIONAIS

Generalização em BDs Multimidia

• Reconhecimento e extração de características essenciais ou padrões gerais ;– Imagem :

Tamanho, cor, formato podem ser extraídos por agregação ou aproximação ;

– Música :

Resumo Melodia => Padrões que ocorrem repetidamente no segmento ;

Resumo Estilo => Baseado no tom, tempo ou principais instrumentos tocados ;

Page 9: MINERAÇÃO DE DADOS BANCOS DE DADOS NÃO CONVENCIONAIS

GENERALIZAÇÃO Identificadores de Objetos e Classes

1 - O OID é generalizado para o ID da mais baixa subclasse à qual o objeto pertence ;

2 - O ID da subclasse é generalizado para o ID da classe escalando-se um nível acima na hierarquia de classes ;

3 - Similarmente, uma classe pode ser generalizada para sua super-classe correspondente escalando-se um nível acima na hierarquia de classes ;

Page 10: MINERAÇÃO DE DADOS BANCOS DE DADOS NÃO CONVENCIONAIS

Mineração de cubos de objetos

• Estende-se o Método de Indução Orientado a Atributo , visto em mineração de características em BDs relacionais ;

• Aplica-se uma sequência de operadores de generalização baseado em classes ;

• Controle do limite da generalização :– Até a classe resultante conter um número pequeno de objetos ;

• Por eficiência :– Cada atributo multivalorado de um objeto complexo é

generalizado para conter dados simples, univalorados ;

– Constrói-se um Cubo de Objetos ;

• Problema :– Nem sempre é desejável se generalizar dados multivalorados !

Page 11: MINERAÇÃO DE DADOS BANCOS DE DADOS NÃO CONVENCIONAIS

BANCOS DE DADOS DE PLANOS

• PLANO : Sequência variada de ações ;

• BD de Planos : Coleção de planos ;

• Mineração de plano : Tarefa de se minerar

conhecimento ou padrões significantes de um BD

de Planos .

Page 12: MINERAÇÃO DE DADOS BANCOS DE DADOS NÃO CONVENCIONAIS

Exemplo - Plano de vôo

Como minerar esta base de planos ?

Page 13: MINERAÇÃO DE DADOS BANCOS DE DADOS NÃO CONVENCIONAIS

Mineração da base

Passos :

(1) Generalizar a Base de planos em diferentes

direções usando o modelo multidimensional ;

(2) Observar planos generalizados que possuem

padrões em comum e sequenciais interessantes

com bom suporte ;

(3) Derivar planos concisos de alto nível ;

Page 14: MINERAÇÃO DE DADOS BANCOS DE DADOS NÃO CONVENCIONAIS

Visão Multidimensional

Ex : num_passageiros < 50.000 => categoria = “S”

num_passageiros > 50.000 => categoria = “L”

Page 15: MINERAÇÃO DE DADOS BANCOS DE DADOS NÃO CONVENCIONAIS

Generalização Multidimensional

Daí, podemos encontrar padrões sequenciais genéricos, como :

[S] - L+ - [S] [98,5%]

Page 16: MINERAÇÃO DE DADOS BANCOS DE DADOS NÃO CONVENCIONAIS

Estratégia dividir pra conquistar

• Ao encontrar um padrão genérico com um suporte alto, podemos

particionar o plano base em subplanos ;

• A partir daí, mineramos cada subsequência para encontrar

características em comum ;

• Para o exemplo dado, podemos gerar a regra :

vôo(x,y) ^ categoria(x,S) ^ categoria(y,L)

=> região(x) = região(y) [75 %]

• O plano base é particionado em subplanos base e características

interessantes são descobertas pelo processo de mineração de dados .

Page 17: MINERAÇÃO DE DADOS BANCOS DE DADOS NÃO CONVENCIONAIS

BANCOS DE DADOS ESPACIAIS

• Armazena grande quantidade de dados relacionados ao espaço :– Imagens médicas

– Mapas

– Navegação

– Controle tráfego aéreo

• Armazena informações topológicas e de distância• Desafio em mineração :

– Encontrar técnicas eficientes de mineração (grande quantidade de dados , complexidade de tipos e de métodos de acesso)

Page 18: MINERAÇÃO DE DADOS BANCOS DE DADOS NÃO CONVENCIONAIS

Construção de D.W. Espacial

• Desafios :– Integração de dados de vários sistemas e fontes

heterogêneas

• Estrutura baseada em vetores, objetos ou relacionais

• Fornecedor : Mapinfo, intergraph ...

– Realização de OLAP rápido e flexível em DW espacial

• Algumas dimensões e medidas possuem comportamento espacial

Page 19: MINERAÇÃO DE DADOS BANCOS DE DADOS NÃO CONVENCIONAIS

Cubos de dados espaciais

• Três dimensões presentes :

– Dimensão não-espacial ex: temperatura : 35 a 45 º C --> quente

– Dimensão espacial p/ não -espacial ex: Pernambuco --> “região _nordeste”

– Dimensão espacial p/ espacial ex : Pernambuco --> Nordeste

• Dois tipos de medidas :– Medida numérica

• Distributiva: Obtida pela aplicação da função de agregação ex: count()

• Algébrica: Obtida pela aplicação da função algébrica ex: avg = sum()/count()

• Holística : Não deriva de função algébrica ex: Median()

– Medida espacial • ex: Coleção de ponteiros para região de mesma temperatura

Page 20: MINERAÇÃO DE DADOS BANCOS DE DADOS NÃO CONVENCIONAIS

DW espacial: BC_weather

Esquema estrela :

Page 21: MINERAÇÃO DE DADOS BANCOS DE DADOS NÃO CONVENCIONAIS

OPERAÇÕES DE ROLL-UP

Por Temperatura Por Precipitação

Page 22: MINERAÇÃO DE DADOS BANCOS DE DADOS NÃO CONVENCIONAIS

Computação de medidas espaciais em cubos de dados

• Dilema : armazenamento x custo computacional– Armazenamento de ponteiros para objetos sem pré-

computação de medidas espaciais

– Pré-computação e armazenamento aproximado de medidas espaciais

• ex: estimativa de região – um retângulo - MBR (min.bounding rectangle) pode ser visto

como uma estimativa grosseira do mapa de uma região

– Materialização de porções de cubos que mais se tem acesso

• Examinar cada grupo de obj. espaciais que podem sofrer merge

Page 23: MINERAÇÃO DE DADOS BANCOS DE DADOS NÃO CONVENCIONAIS

Regras de associação espacial

• Forma : A => B [s%,p%]é_uma (X,”escola”)^perto_de(X,”clube”) => perto_de(X,”parque”)

[0.5%,80%]

• Predicados espaciais :• perto_de , longe_de (relacionado a distância)

• intercepta, sobrepõe (relacionado a topologia)

• à_esquerda, à_direita, à_oeste (orientação espacial)

Page 24: MINERAÇÃO DE DADOS BANCOS DE DADOS NÃO CONVENCIONAIS

Classificação e análise de tendência

• Classificação de regiões : – rica x pobre (propriedades associadas a objetos

espaciais) ex: possui universidade ? Shoppings ?

• Análise de tendência (espacial e temporal)– Mudança de dados (espaciais ou não) com o espaço

ex: Distância do oceano muda clima e vegetação

– Mudança de padrões com o tempo e espaçoex : Fluxo de tráfego em rodovias e cidades

Page 25: MINERAÇÃO DE DADOS BANCOS DE DADOS NÃO CONVENCIONAIS

BDs MULTIMIDIA

• Armazenam e gerenciam objetos multimídia, tais como imagem, audio, vídeo, hipertexto

• Sistemas de recuperação de similaridades em imagens :

– Baseado em descrição :• Manualmente : laborioso

• Automaticamente : resultado de baixa qualidade

• Ex: palavra-chave, título, tamanho, tempo de criação– Polissemia : uma só forma com mais de um significado

– Baseado em conteúdo :• Usa características visuais para indexar imagens e fazer a

recuperação baseada em similaridade com outras imagens• Ex: Textura, forma, cor, objetos

Page 26: MINERAÇÃO DE DADOS BANCOS DE DADOS NÃO CONVENCIONAIS

MultiMediaMiner

• Sistema de mineração de dados multimídia

• Imagem : grid 8 x 8

• Cada imagem contém dois descritores :

– Descritor de características• Imagem original não é armazenada diretamente no BD, mas

nome do arquivo, URL, tipo da imagem, URLs pais

– Descritor de layout• Vetor de cores - cor mais frequente em cada uma das 64

células

• Vetor de margens - Número de lados em cada uma das células

Page 27: MINERAÇÃO DE DADOS BANCOS DE DADOS NÃO CONVENCIONAIS

MultiMediaMiner

Dimensões em cubo de dados multimídia :

Page 28: MINERAÇÃO DE DADOS BANCOS DE DADOS NÃO CONVENCIONAIS

MultiMediaMinerThumbnails

Page 29: MINERAÇÃO DE DADOS BANCOS DE DADOS NÃO CONVENCIONAIS

Minerando associações

Que tipos de associação podem ser mineradas em BDs multimídia ?

• Três categorias de associação :– Associação entre conteúdo de imagem e de não-imagem

Se 50% da parte superior da imagem é azul então é “céu”

– Associação entre conteúdo de imagens não relacionadas ao espaço

Se imagem possui dois quadrados azuis então contém círculo vermelho

– Associação entre conteúdo de imagens relacionadas ao espaço

Se imagem possui um triângulo vermelho entre dois quadrados então contém grande círculo abaixo

Page 30: MINERAÇÃO DE DADOS BANCOS DE DADOS NÃO CONVENCIONAIS

Mineração de regras de associações BDs transacionais x BDs multimídia

• Refinamento progressivo de resolução : Uma imagem pode conter

muitos objetos com características diferentes, tais como cor, forma,

textura ... semelhança de características numa resolução baixa podem

diferir em uma resolução melhor;

• Uma figura contendo dois objetos iguais difere daquela contendo

apenas um objeto do mesmo tipo em BDs multimídia. Em BDs

transacionais, a pessoa comprar uma ou duas caixas de leite é tratado

como o mesmo atributo compra_leite ;

• Existem relações espaciais entre objetos multimídia, tais como acima,

através de , abaixo, à esquerda ...

Page 31: MINERAÇÃO DE DADOS BANCOS DE DADOS NÃO CONVENCIONAIS

Conclusão

• A cada dia , mais e mais dados são armazenados de forma

complexa, estruturados ou não estruturados, hipertexto e

multimídia ;

• Mineração de tipos complexos de dados, tais como objetos,

dados espaciais, multimídia, dados seriais-temporais, textos

e web tem se tornado uma tarefa muito importante ;

• Mineração de dados complexos ainda está em fase inicial, e

muitos desafios ainda terão de ser superados.

Page 32: MINERAÇÃO DE DADOS BANCOS DE DADOS NÃO CONVENCIONAIS

Bibliografia

• Han, Jiawei. Kamber, Micheline. Data Mining: Concepts

and Techniques - Morgan Kaufmann Publishers.

• MultiMediaMiner. Site - http://db.cs.sfu.ca/MMMiner

• Bechara, Evanildo. Moderna Gramática Portuguesa -

Editora Lucerna / Rj - 2000