Minerando Dados Multimídia

Preview:

DESCRIPTION

Minerando Dados Multimídia. Ernesto Trajano de Lima Klebson dos Santos Silva. Situações do dia-a-dia. Imagine que seu álbum de família está armazenado digitalmente. Como achar todas as fotos onde você aparece??? - PowerPoint PPT Presentation

Citation preview

Minerando Dados Multimídia

Ernesto Trajano de Lima

Klebson dos Santos Silva

Situações do dia-a-dia

Imagine que seu álbum de família está armazenado digitalmente. Como achar todas as fotos onde você aparece???

Como recuperar imagens, vídeos, textos e/ou áudios sobre acidentes com ônibus espaciais para mostrar no jornal da noite???

Todos já passaram por situações onde lembram da melodia de uma música, mas não conseguem lembrar o nome. Como recuperá-la apenas cantarolando parte da melodia???

Roteiro

Definição Motivação Estado da Arte Minerando Imagem e Vídeo Minerando Sons

Definição

Sub-área da mineração de dados que trata da extração de conhecimento implícito, relações entre dados multimídia, ou outros padrões não explicitamente armazenados no banco de dados multimídia.

Multimídia = imagens, vídeos, sons, textos,web, etc.

Motivação

Grande quantidade de dados multimídia disponível;– Especialmente na web

Popularidade de banco de dados objeto-relacional

A necessidade crescente de banco de dados multimídia

Estado da Arte

É uma área incipiente;– Muita pesquisa, poucos resultados substanciais

Desperta o interesse de grande empresas– HP

• http://crl.research.compaq.com/vision/multimedia/default.htm

– IBM• http://www.almaden.ibm.com/

– ScanSoft (http://www.scansoft.com)• Software utilizado pelo sistema penitenciário dos EUA para

detectar atividades ilegais nas conversas telefônicas dos prisioneiros

Minerando Imagem e Vídeo

Abordagens

Busca por similaridade:– Divide-se em duas famílias principais

• Baseada na descrição– Palavras-chaves, legendas, tamanho, hora de

criação, etc.

• Baseada no conteúdo– Histograma de cores, texturas, forma, objetos,

transformações de wavelets

Abordagens

Busca baseada em conteúdo oferece dois tipos de consultas:– Baseadas em amostra– Baseadas em especificação das características

As consultas são feitas através das assinaturas das imagens– Histograma de cores– Composição de características– Wavelet– Wavelets com granularidade baseada em região

Áreas de aplicação

Diagnóstico médico Previsão do tempo Engenho de busca para imagens

Abordagens

Análise de dados multimídia– Exemplo: construção de cubos OLAP para

analisar imagens, vídeos e sons em função de suas características (dimensões)

Classificação e Predição

Ferramentas e aplicações

Query By Image Content (IBM)

Ferramenta de busca feita pela IBM Disponível nos componentes DB2 Image

Extenders Permite consultas em banco de imagens

baseadas no conteúdo visual– Porcentagens de cores, layout de cores, texturas

A consulta pode conter textos (palavras-chaves) para melhorar performance

Usada em alguns sites da Internet

MultiMediaMiner

Sistema protótipo de mineração multimídia– Permite construção de cubos de dados multimídia

Resultado da união da experiência adquirida com dois sistemas:– DBMiner sistema analítico de mineração de

dados (http://db.cs.sfu.ca/DBMiner)– C-BIRD sistema para recuperação de imagens

baseada em conteúdo (http://jupiter.cs.sfu.ca/cbird)

MultiMediaMiner

Image Excavator

C-BIRDPre-Processor

C-BIRDSearch Engine

M-MinerUser Interface

M-MMinerDiscoveryModules

C-BIRD DatabasesMultimedia Data Cube

Image and Videorepository

MultiMediaMiner

Observações:– Vídeos são segmentados na detecção de

mudança de cena• Cada segmento é represento por um ou mais

frames, que serão tratados como imagens

– A imagem original não é salva no banco de dados

MultiMediaMiner

Para cada imagem coletada são armazenados:– Informações descritivas

• Nome do arquivo, URL, tipo (gif, jpeg, mpeg), páginas que referenciam a imagem, palavras-chaves, thumbnail

– Descritor de características• Conjunto de vetores para cada característica visual

(histograma de cores, cor mais freqüente)

– Descritor de layout• Vetor sobre layout de cores

MultiMediaMiner

Módulo de mineração inclui os seguinte sub-módulos:– MM-Characterizer fornece um conjunto

de características em diferentes níveis de abstrações

• Provê diversos níveis de visões dos dados através de roll-up e drill-down

MultiMediaMiner

MultiMediaMiner

MM-Associator Encontra regras de associação a partir de um conjunto de imagens– Usa o algoritmo apriori– X Y [suporte%, confiança%]– Exemplo: “Se uma imagem é grande e

relacionada com o céu, ela é azul com probabilidade de 68%”

MultiMediaMiner

MultiMediaMiner

MM-Classifier– classifica dados

multimídia baseados em algumas classes pré-definidas

– Essa classificação representada como uma árvore de decisão pode ser usada para predição

MultiMediaMiner

Palavras-chaves também são utilizadas para classificar facilitar a manipulação de grande conjunto de dados

São derivadas de informações tais como:

• Nome do arquivo• Campo ALT da tag IMG• Título e cabeçalho da página html• Textos antes e depois da imagem

MultiMediaMiner

MultiMediaMiner

Minerando Sons

Mineração de Sons

Cenário 1: auditoria Cenário 2: Napster  Duas possibilidades: 

– Mineração da fala (speech mining): televisão/rádio, monitoramento de conversas ao telefone, etc.

– Mineração de músicas (musical mining): recuperação de músicas baseando-se na busca por conteúdo

A Indústria da Música

 3.459.000 de unidades (singles, LPs, fitas, CDs)

US$ 38.506.000 de faturamento Crescimento de 2,6% ao ano desde 1991 600.000 empregos diretos (apenas na

Europa, sem contar academia).

Fonte: IFPI. Recording Industry in Numbers. IFPI: Londres,

2000.

Mineração e Música

Duas representações:– Simbólica: texto, MIDI, etc– Áudio: sinal contínuo

Dificuldade

Melodia não é apenas uma concatenação de notas– Relações entre diferentes níveis de

abstração: alturas, intervalos, contorno melódico

– Relações com outras dimensões: tempo, posição métrica

subjetividade: música alegre, triste, etc

Arquitetura Geral

Mineração e Análise

Musicologia comparativa: análise, classificação e visualização a partir da observação estatística de uma grande massa de dados. – Exemplo: http://www.jyu.fi/musica/essen

Entrada do Sistema

Representação simbólica da música (melodia) Dados: 6.252 canções folclóricas alemãs e 2.226

canções folclóricas chinesas  Vantagens:

– Evita a fase de limpeza e preparação dos dados– Possui meta-dados (palavras-chave): gênero, região

geográfica, tipo de ritmo, tonalidade e uma descrição em linguagem natural do conteúdo.

Extração de características

Análise estatística– Distribuição das alturas,

intervalos e durações.– Distribuição das

transições de alturas, intervalos e durações.

Resultado: conjunto de vetores (várias dimensões)

Construção dos SOMs

Diminuir dimensionalidade

Cada vetor é a entrada de uma rede neural

Construção do Super SOM

Ferramentas

Ferramenta 1: Visualização dos Resultados– Canções com características similares

estão próximas

Ferramenta 1

Ferramentas (cont.)

Ferramenta 2: Visualização dos resultados estatísticos

Ferramenta 3: Agrupamento – Permite a análise de características

estilísticas

Trabalhos Futuros

Levar em conta outros parâmetros: – contorno melódico, saliência do evento de

acordo com a posição métrica, etc.

Usar arquivos áudio

Biblioteca Digital da Nova Zelândia

http://www.nzdl.org/cgibin/music/musiclibrary

MELody inDEX (MELDEX): recuperar melodias de um banco de dados

  Entradas: notação simbólica ou áudio

(cantado em um microfone).

Visão Geral

Áudio => preprocessamento: – Amostra do sinal– Transcrição: aplicação de filtros para

estimar a freqüência fundamental– Inícios e fins: canta-se com “da” ou “ta”

Busca de strings– Programação dinâmica para fazer

aproximação de strings

Conclusões

Vem despertando interesses diversos Área com publicações recentes e

ferramentas incipientes Poucas referências unificadoras

– http://link.springer.de/link/service/series/0558/tocs/t2558.htm

Tem real aplicação no mundo

Recommended