View
213
Download
0
Category
Preview:
Citation preview
Uso de Ontologias em Data Warehousing
Alexandra Vitorio de Morais Silva
av@cin.ufpe.br
27/04/23 1
Roteiro• Motivação• Data Warehousing• Engenharia de ontologias em DW• Uso de ontologias durante projeto de
ETL• Referências
27/04/23 2
MotivaçãoAutomação de processos de data
warehousing
Conhecimento semântico das fontes de dados
27/04/23 3
Data Warehousing• Coleção de tecnologias de suporte à
decisão:– Consolidação de dados provenientes de fontes
heterogêneas (EIS, fontes externas)• Data warehouse: coleção de dados
orientada a assunto, integrada, variante no tempo e não volátil (Inmon)– Suporte a OLAP (On-Line Analitycal Processing)– Modelagem de dados multidimensional
27/04/23 4
Data Warehousing• Processo se dá em duas fases:– ETL: extração, transformação e carga– Visões multidimensionais dos dados
como entrada para ferramentas de front end de análises gerenciais, mineração de dados e geração de relatórios
27/04/23 5
Arquitetura de Data Warehousing
Fonte: [CHAUDHURI, 1997]
27/04/23 6
Engenharia de ontologia para DW• Proposta por [CAO, 2006]• Construção de uma estrutura ontológica
para o domínio específico• Definição do comprometimento ontológico
e relacionamentos semânticos• Especificação formal da estrutura
ontológica (profile) em lógica de descrição• Agregação, transformação, mapeamento e
consulta intra e inter domínios
27/04/23 7
Estrutura ontológica em WarehousingTransformar o domínio do problema e o
sistema de resolução do problema (DW) em uma ontologia de domínio (DO) e uma ontologia de resolução do problema (PSO)
DO: vocabulário de conceitos e relacionamentosEx:
27/04/23 8
Estrutura ontológica em WarehousingPSO - definir ontologias para:
Tarefas
MétodosLógica de negócioRecursos (bases de dados, bases de
conhecimento, metadados) 27/04/23 9
Comprometimento ontológico e relacionamentos semânticos Acordo de utilização de uma ontologia
compartilhada de forma coerente e consistenteOC = (C,O,R,P,S), onde
C é um conjunto de conceitos de um domínio específicoO é um conjunto de ontologias candidatasR é um conjunto de relacionamentos entre ci e ojP são as propriedade de cardinalidadeS são medidas de similaridade entre ci e oj
27/04/23 10
Especificação formal e Agregação, Transformação, Mapeamento e ConsultasEstrutura ontológica definida mais
precisamente em lógica de descriçãoDefinição de mecanismos de agregação,
transformação, mapeamento e consulta inter e intra domíniosEx: uso de regras semânticas
27/04/23 11
Projeto de ETL• Análise da estrutura e conteúdo das
fontes de dados e mapeamento em um modelo de dados comum
• Em geral, a identificação das transformações necessárias durante o processo de ETL é feita manualmente, guiada pela semântica das fontes de dados e pelas restrições e requisitos da aplicação
27/04/23 12
Projeto de ETL utilizando ontologias• [SKOUTAS, 2006] propõe a utilização
de ontologias para a definição da seqüência de atividades de ETL
• Especificação formal e explícita da semântica dos esquemas das fontes de dados e do esquema do DW
• Automatização do processo
27/04/23 13
Projeto de ETL utilizando ontologias• Construção de uma ontologia
baseada nos esquemas das fontes de dados e do DW
• Derivação automática das transformações necessárias para o processo
27/04/23 14
Abordagens de integração de informação baseada em ontologia ([WACHE, 2001])• Ontologia única: integração simples, mas
difícil de criar e manter• Múltiplas ontologias: mais flexível, no entanto
comparação torna-se difícil• Abordagem híbrida: cada fonte é descrita em
uma ontologia utilizando termos de um vocabulário compartilhado
• [SKOUTAS, 2006]: – vocabulário contendo termos primitivos do
domínio– fontes de dados descritas independentemente
a partir dos termos comuns27/04/23 15
Construção da ontologia do domínio• Representação formal e explícita, permitindo
uso de técnicas de raciocínio• Baseada em um vocabulário comum• Linguagem de representação: OWL DL– classes, hierarquias, propriedades de domínio e
restrições de intervalo, equivalência entre classes e disjunção
• Mapeamento entre a ontologia e os esquemas das fontes
27/04/23 16
Fonte: [SKOUTAS, 2006]
Resumo das características de OWL utilizadas
27/04/23 17
Cenário
As fontes de dados contém informações sobre lojas e produtos; cada produto é vendido em uma loja. Para cada produto, são fornecidos a quantidade disponível e o preço. A informação sobre a quantidade não está disponível para alguns produtos.
Há dois tipos de produto: software e hardware. Em DS1 essa distinção é feita pelo atributo “type”, enquanto em DS2 duas relações distintas são utilizadas. Os preços são armazenados em euro e dólar em DS1 e DS2, respectivamente. Produtos em DS1 possuem uma check constraint para que o preço mínimo seja 200 euros. Cada loja tem nome e endereço, que inclui cidade, rua e número. Em DS1 essa informação está no atributo “location”. No DW, o atributo “street” contém a rua e o número da loja. Assume-se também que as lojas estão localizadas em uma dessas cidades: Paris, Roma ou Atenas. No DW, a relação “products” deve conter apenas produtos de software, com os preços variando de 500 a 1500 euros, a quantidade é conhecida e a cidade é Roma ou Atenas. Finalmente, o id nas relações do DW são surrogate keys que substituem as chaves primárias originais das fontes.
27/04/23 18
Anotação das fontes de dados• Vocabulário de termos em comum
• Mapeamento da fonte DS1
27/04/23 19
Anotação das fontes de dadosAnotação da fonte DS1
27/04/23 20
Construção da OntologiaA ontologia da aplicação é composta por:
Um conjunto de classes primitivas que correspondem aos conceitos especificados, formatos de representação e intervalos ou conjunto de valores
Um conjunto de propriedades correspondente às características dos conceitos do domínio
Um conjunto de classes definidas representando as fontes de dados
27/04/23 21
Classes e propriedadesA partir do vocabulário e das anotações:
Hierarquia final das classes
27/04/23 22
Derivação automática das transformaçõesConjunto de operadores de um processo de
ETL
27/04/23 23
Derivação automática das transformaçõesIntegração das fontes de dados e carga do
DWAlgoritmo que define:
De quais atributos e relações as informações serão extraídas
Quais as transformações necessárias para a integração
27/04/23 24
Referências• [CAO, 2006] Cao, L.; Ni, J.; Luo, D. Ontological Engineering
in Data Warehousing. LCNS - Lecture Notes in Computer Science, vol. 3841, p. 923-929, 2006.
• [CHAUDHURI, 1997] Chaudhuri, S.; Dayal, U. An overview of data warehousing and OLAP technology. ACM SIGMOD Record, vol. 26, issue 1, p. 65-74, 1997.
• [SKOUTAS, 2006] Skoutas, D.; Simitsis, A. Designing ETL Processes Using Semantic Web Technologies. Proceedings of the 9th ACM international workshop on Data warehousing and OLAP, p. 67-74, 2006.
• [WACHE, 2001] Wache, H., et al. Ontology-Based Integration of Information — A Survey of Existing Approache. IJCAI wokshop on Ontologies and Information Sharing, 2001.
27/04/23 25
27/04/23 26
Obrigada!
Recommended