5
05/11/2012 1 1 PD&E em Bancos de Dados Complexos no GBD-UFSC Carina F. Dorneles Renato Fileto Ronaldo S. Mello Vânia Bogorny GBD/UFSC Objetivo: Pesquisa e desenvolvimento de soluções para problemas de gerenciamento de dados Ênfase: Dados complexos e não-convencionais (documentos, XML, Web, espaciais, temporais, multimídia, redes, …) Corpo Docente Ronaldo S. Mello Dr., UFRGS, 2002 Pos-doc, University of Utah, 2010 BDs Web, cloud DBs, NO-SQL, dados semi-estruturados Renato Fileto Dr., UNICAMP, 2003 Pos-doc, USP 2011-2012 Recup. informação, semântica, contextos, DWs espaço-temporais Carina F. Dorneles Dra., UFRGS, 2006 BDs Web, dataspaces, dados semi-estruturados, similaridade Vania Bogorny Dra., UFRGS, 2006 Pos-doc, Hasselt Univ., 2007 Pos-doc, UFRGS, 2008 Trajetórias de objetos móveis, BDs espaço-temporais Prof. Renato Fileto Profa. Vania Bogorny [email protected] 2012 / 2 Case study: dermatology Individual: woman Body part: tight Age: 28 years old History: tuning booth use Change: darkening color Biopsy result: Early Melanoma Body part: cheek Change: darkening color Diagnose: Early Melanoma Analytical procedures vary with the equipment used to gather the image, body part, age of the patient, history, etc. A particular focus: human faces Complex data retrieval R = { < a 1 , … , a d , s 1 , … , s n > } Where: a i D i is a set of values from the domain D i (1 ≤ i ≤ d ) used to identify and describe the tuple s j S j is a complex data object, with associated metadata and extracted features, from a collection S (1 ≤ j ≤ n , 1 ≤ n < N = |S|) Associated conventional data Complex Objects

LISA - Laboratório de Integração de Sistemas e Aplicações

Embed Size (px)

DESCRIPTION

Enormes volumes de dados têm sido coletados por uma variedade de dispositivos e sistemas de informação, tais como redes de sensores e a Web social. Muitos desses dados (como por exemplo, documentos, dados multimídia e séries temporais) são categorizados como complexos, pois sua representação não se restringe a campos numéricos ou strings curtas. Esta palestra faz uma breve descrição das pesquisas sendo realizadas pelo grupo de bancos de dados da UFSC, em cooperação com outras instituições nacionais e estrangeiras, na área de gerência e análise de grandes volumes de dados complexos, comênfase em dados semi-estruturados, imagens

Citation preview

Page 1: LISA - Laboratório de Integração de Sistemas e Aplicações

05/11/2012

1

1

PD&E em Bancos de Dados Complexos

no GBD-UFSC

Carina F. Dorneles

Renato Fileto

Ronaldo S. Mello

Vânia Bogorny

GBD/UFSC

� Objetivo: Pesquisa e desenvolvimento de soluções paraproblemas de gerenciamento de dados

� Ênfase: Dados complexos e não-convencionais (documentos, XML, Web, espaciais, temporais, multimídia, redes, …)

� Corpo Docente

Ronaldo S. MelloDr., UFRGS, 2002Pos-doc, University of Utah, 2010

BDs Web, cloud DBs, NO-SQL, dados semi-estruturados

Renato FiletoDr., UNICAMP, 2003Pos-doc, USP 2011-2012

Recup. informação, semântica, contextos, DWs espaço-temporais

Carina F. DornelesDra., UFRGS, 2006

BDs Web, dataspaces, dados semi-estruturados, similaridade

Vania BogornyDra., UFRGS, 2006Pos-doc, Hasselt Univ., 2007Pos-doc, UFRGS, 2008

Trajetórias de objetos móveis, BDs espaço-temporais

Prof. Renato Fileto

Profa. Vania Bogorny

[email protected]

2012 / 2

Case study: dermatology

• Individual: woman• Body part: tight• Age: 28 years old• History: tuning booth use• Change: darkening color

• Biopsy result: Early Melanoma

• Body part: cheek• Change: darkening color

• Diagnose: Early Melanoma

Analytical procedures vary with the equipment used to gather the image, body part, age of the patient, history, etc.

A particular focus: human faces Complex data retrieval

R = { < a1 , … , ad , s1 , … , sn > }

Where:

• ai ∈∈∈∈ Di is a set of values from the domain Di (1 ≤ i ≤ d )

used to identify and describe the tuple

• sj ∈∈∈∈ Sj is a complex data object, with associated

metadata and extracted features, from a collection S

(1 ≤ j ≤ n , 1 ≤ n < N = |S|)

Associated conventional

data

Complex Objects

Page 2: LISA - Laboratório de Integração de Sistemas e Aplicações

05/11/2012

2

Consultas por similaridade e metadados

SELECT id, Name, Age, PicFROM SocialWebTabWHERE 20 <= Age < 30 AND Pic NEAR ( SELECT PicFROM SocialWebTabWHERE name = “Pelé” ) STOP AFTER 10;

SELECT E.diagnosis, E.ImgFROM Exam E INNER JOIN Patient P ON E.idP = P.idPWHERE P.Age < 30 and Exam.bodyPart = “tight” AND E.Img NEAR 'D:\Images\sk_11424_0.jpg'BY Texture RANGE 0.0265;

Fragmentos de dados Bases de dados e ferramentas

CoPhIR – 110 milhões de imagens e metadados do FLICKR

MIRFLICKR – milhares de imagens anotadas do FLICKR

CLEF – imagens médicas e da Wikipedia anotadas

Base de Telemedicina de Santa Catarina – fragmentos

SISAP – bases de dados e biblioteca de índices métricos

SIREN – sistema que suporta consultas por similaridade

FMI-SIR – biblioteca suportando consultas por similaridade via índices métricos no Oracle

Oracle Intermedia – extensões do Oracle para tratamento de dados multimídia

Cooperações

LAPIX/UFSC, LabTelemed/UFSC

ICMC/USP – São Carlos – SP

IC/UNICAMP – Campinas – SP

UEL – Londrina – PR

ISTI/CNR – Pisa – Itália

DW Celesc

Page 3: LISA - Laboratório de Integração de Sistemas e Aplicações

05/11/2012

3

Análise de informação (drill-down)

Maio / 2010

Temporal analysis

Análise de informação (Trace)

Junho / 2010Abril / 2010

Spatial temporal DBs andsemantic tractories

Feature Type: Hotel

Goal Types: DayStaying, RiverScenery, HistoricScenery,EuropeanCuisine

Feature Type: Cafe

Goal Types: ItalianCuisine, RiverScenery,LiveMusic

Feature Type: Restaurant

Goal Types: TuscanCuisine, HistoricScenery

Extending SMoT for nested sites

Page 4: LISA - Laboratório de Integração de Sistemas e Aplicações

05/11/2012

4

Performance comparison

Stops found

Running time with nested regions

Running time without nested regions

Bases de dados e ferramentas

Milan – trajetórias GPS de veículos privados

Tuscany Mobility – trajetórias GSM de pessoas

Rio – trajetórias GPS de veículos

Florianópolis – colhendo trajetórias via GPS

Weka – com extensões para tratar trajetórias

Ferramentas para DWs

Ferramentas para BDs geográficos

Ferramentas para gerência de ontologias e anotações

Cooperações

ISTI/CNR – Pisa – Itália

Un. Ca’ Foscari – Veneza - Itália

UPRC – Atenas - Grécia

Univ. New Brunswick – Fredericton – Canada

UFPE – Recife – PE

UFCE – Fortaleza – CE

PUC-Rio – Rio de Janeiro – RJ

Embrapa, Epagri, Celesc, Defesa Civil

Prof. Ronaldo S. Mello

Profa. Carina F. Dornelles

[email protected]

2012 / 2

Tópicos Gerais de Pesquisa

● Dados na Web● Atividades

– Extração, integração e consulta por similaridade a dados relevantes em fontes de dados na Web

– Principais fontes de dados● Web forms (“Deep web” ou BDs escondidos), Web tables, Docs XML

● BDs nas Nuvens (BDs No-SQL)● Atividades

– Integração, consulta por similaridade, mapeamento relacional-NoSQL

● Ferramentas para gerência de dados de propósitogeral

Dados na Web - TCCs

● Web Forms (Deep Web)

➔ Interface gráfica para um sistema de busca por similaridade paraWeb forms (WF-Sim - já implementado)

➔ Definição de consultas (filtros) e exibição ranqueada do resultado

➔ Incorporação do WF-Sim ao DeepPeep

➔ Tornar o WF-Sim um módulo do DeepPeep

➔ DeepPeep: máquina de busca para Web forms mais popular

● Web Tables

➔ Descoberta (usando similaridade) e catalogação de equivalências(mapeamentos) entre tabelas heterogêneas no mesmo domínio

➔ Integração de tabelas heterogêneas (em tabelas globais)

➔ Decomposição de consultas sobre tabelas globais

➔ Integração de resultados de consultas sobre cada Web table

Page 5: LISA - Laboratório de Integração de Sistemas e Aplicações

05/11/2012

5

BDs nas Nuvens - TCCs

● Integração de BDs No-SQL➔ Descoberta (usando similaridade) de BDs No-SQL

equivalentes

➔ Com o mesmo modelo de dados ou com modelosdiferentes (chave-valor, multi-coluna, documento, ...)

➔ Integração de BDs No-SQL equivalentes

➔ Consulta integrada a BDs No-SQL heterogêneos

● Mapeamento de BDs relacionais ↔ BDs No-SQL➔ Descoberta de equivalências

➔ Definição/catalogação de mapeamentos

Ferramentas de Propósito Geral- TCCs

● Ferramentas de apoio ao ensino de BD

➔ Exemplos:

➔ Simuladores de SGBDs relacionais

➔ otimização de consultas, recovery, scheduler, ...

➔ Interfaces gráficas para aprendizado de linguagensde acesso a BDs relacionais

➔ SQL, álgebra relacional, ...

➔ Normalização

➔ Engenharia reversa de BDs relacionais

Perguntas?