8

Click here to load reader

Desenhar o conceito de data warehouse numa biblioteca da universidade

Embed Size (px)

DESCRIPTION

Artigo científico

Citation preview

Page 1: Desenhar o conceito de data warehouse numa biblioteca da universidade

Desenhar O Conceito de Data Warehouse NumaBiblioteca da Universidade

ARISTIDIS DE JESUS ORNAI

Universidade de Evora

Actualmente no mundo da Tecnologia da Informacao tem se vindo a ganhar mais conhecimento

da Tecnologia de Data Warehouse. Data warehouse e um sistema de colecao de uma variedadede dados necessarios, seja na forma de dados historicos ao longo de cinco anos ou dados actu-

ais. Data warehouse e geralmente apoiado por um modelo conceptual de dados chamado modelomultidimensional que pode ser usado para exibir dados de diferentes dimensoes de analise e re-

latorios. Os dados sao uma mais valia importante na organizacao que e usada para fazer uma

estrategia ou tomar uma decisao. O processo de dados pode ser realizado em varios lugares, porexemplo, base de dados, aplicacoes, e tecnologia de data warehouse. O metodo utilizado e a fase

do desenvolvimento de um data warehouse na Biblioteca que identifica a sua arquitectura com o

volume de informacao mais importante a nıvel operacional, de gestao e estrategico. Essa descricaoapresenta uma arquitectura em esquema dimensional, como exibido na arquitectura do processo

de circulacao dos livros.

Categorias e Descritores de Assunto: 1 [Kimball, 1998]: Modelo Dimensional; 2 [INMON,1996]: Processo de Apoio a Decisao

Palavras-chave adicionais: Data Warehouse, Data Mart, Processo de Circulacao, Tomada dedecisao

1. INTRODUCAO

Data warehouse e uma coleccao de dados integrados, orientados por assunto, naovolateis, variaveis no tempo, e que fornecem suporte ao processo de apoio a de-cisao(INMON, 1996). Esse conceito facilita as organizacoes a gerir e manter osdados historicos obtidos a partir do sistema operacional ou de aplicacoes. O uso dedata warehouse e quase obrigatorio em todas as organizacoes, incluindo Bibliote-cas.O data warehouse permite a integracao de varios tipos de dados a partir de umavariedade de aplicacoes ou sistemas. Isso garante o mecanismo de acesso para os ge-stores obterem informacoes e analisa-las para a tomada de decisao. As Bibliotecasque nao possuem uma integracao de data warehouse utilizam um processo manualou usam um software utilizado para conectar os diferentes modulos. Basicamenteo processo que acontece e a actividade de resumir os dados que foram armazenadosno data warehouse ou sistema de base de dados em causa. O objectivo desta analisee desenhar e construir um data warehouse para a Biblioteca de uma Universidade.Os resultados obtidos serao: desenho do esquema de estrela(Star Schema) para aBiblioteca de uma Universidade, desenho da arquitectura do processo de circulacaodos livros e a base de dados de data warehouse.

Aristidis de Jesus Ornai, [email protected] de Evora, Mestrado em Eng. Informatica. Relatorios de Estado da Arte 2012.

SemEv 2012, Paginas 1–8.

Page 2: Desenhar o conceito de data warehouse numa biblioteca da universidade

2 · Aristidis Jesus

2. DATA WAREHOUSE

Existem varios conceitos de Data Warehouse propostos por diferentes autores.Apresentam-se dois dos principais conceitos que sao considerados muito importante.Primeiro, o conceito defendido pelo professor Ralph Kimball que e um dos maioresconceituados precursores de conceitos de Data Warehouse. Este autor refere queum data warehouse nao e mais do que a uniao de um conjunto de Data Marts.Um data mart pode ser definido como um Data Warehouse de pequena capaci-dade que abrange uma determinada area ou departamento, oferecendo informacoesmais detalhadas sobre um determinado assunto em questao. O paradigma queRalph Kimball defende baseia-se no facto da informacao ser guardada utilizandoo modelo dimensional(Kimball, 1998). Segundo, o Bill Inmon que descreve datawarehouse como “uma colecao de dados integrados, orientados, por assunto, naovolateis, variaveis no tempo, e que fornecem suporte ao processo de apoio a de-cisao”(INMON, 1996). O paradigma deste autor difere um pouco do paradigmade Kimball e defende que um Data Warehouse e apenas uma parte de todo o pro-cesso de Business Intelligence. Baseado na definicao do Inmon, deve seguir-se ascaracterısticas mencionados em seguida:

2.1 Orientado por Assunto

Uma das principais caracterısticas do Data warehouse e o facto de ter uma forteorientacao por assunto. E organizado em torno de assuntos importantes, tais comopor exemplo, cliente, produto e vendas. Sao por isso focados na modelacao e analisede dados para quem toma decisoes, em vez de operacoes diarias e processamentode transaccoes. Os Data warehouses sao selecionados, isto e, fornecem uma visaosimples sobre questoes de um tema particular atraves da exclusao de dados quenao sao importantes no suporte ao processo de decisao. Pelo contrario, em ambi-entes operacionais as aplicacoes contem dados necessarios a satisfacao imediata dosrequisitos funcionais que podem ou nao ser utilizados no processo de decisao.

2.2 Integrado

Um data warehouse e construıdo por integracao de multiplas fontes de dados. Saoaplicadas tecnicas de limpeza de dados e tecnicas de integracao de dados. A inte-gracao de dados, provenientes de sistemas operacionais, efectua-se nos mais variadosnıveis, na estrutura consistente de codigos, na forma consistente das variaveis, naconversao de nomes, etc. Os dados que sao inseridos no Data warehouse devemestar consistentes entre si em termos de nomes, formatos e unidades de medida.Quando a informacao e movida para o Data Warehouse, e feita a conversao. Noprocesso de integracao dos dados tambem pode ser necessario corrigir dados queestejam inconsistentes na origem, devido a nao integracao dos sistemas transac-cionais que fornecem para um estado uniforme de modo a permitir a carga no Datawarehouse.

2.3 Nao Volatile

Um sistema operacional permite diversas operacoes de actualizacao dos dados comoacrescentar, substituir e apagar. Num Data Warehouse, pelo contrario, so existemdois tipos de operacoes: uma introducao inicial dos dados e o acesso a estes, nao

SemEv 2012.

Page 3: Desenhar o conceito de data warehouse numa biblioteca da universidade

Desenhar O Conceito de Data Warehouse numa Biblioteca da Universidade · 3

requerendo por isso mecanismos de processamento de transaccoes, recuperacao econtrolo de concorrencia. Os dados que sao introduzidos no Data wahouse saoestaticos, sao dados que reflectem situacoes consolidadas, que nao sofrerao actu-alizacoes. Os dados apos serem extraıdos, transformados e transportados para oData Warehouse estao disponıveis para os utilizadores apenas para consulta(figura1).

Fig. 1. Nao Volatile

2.4 Variaveis no Tempo

O sistema operacional contem dados actuais, enquanto o data warehouse contemdados nao so actuais, mas tambem dados do historico para serem utilizados naanalise e tomada de decisao. A dimensao do tempo e uma variavel importante quedeve ser suportado por todos os data warehouse. Os dados para analise de variasfontes contem varios valores de tempo, por exemplo, diarios, semanais e mensais.

3. ELEMENTOS DE UM DATA WAREHOUSE

3.1 Business Inteligence(BI)

O conceito do BI nao e recente. Muitas pessoas utilizaram esse conceito paratomar decisoes que permitissem uma melhoria de vida nas comunidades. O inter-esse pelo BI tem vindo a crescer na medida em que a sua utilizacao possibilitaas Bibliotecas realizar analises e simulacoes, de forma a tornar mais eficientes osprocessos relacionados com o apoio a decisao. Esse termo Business Inteligence gan-hou maior abrangencia, dentro de um processo natural de evolucao, as solucoes deDSS(Decision Support System), geradores de consultas e de relatorios, Data Marts,Data mining, ferramentas OLAP(Online Analytical Processing), entre outras.

3.2 Data Warehouse vs Data Mart

Estes dois conceitos sao muito importantes e ha que fazer uma distincao entre eles.Um Data Mart pode ser definido como um Data Warehouse de menor capacidade,que abrange uma area ou departamento especıfico, oferecendo informacoes mais de-talhadas sobre um determinado assunto. E por isso, uma abordagem especıfica doData Warehouse e o seu domınio abrange apenas uma area especıfica da Biblioteca.Um Data Warehouse pode ser visto como um conjunto de Data Marts, contendotodas as informacoes da biblioteca provenientes de diversas fontes de dados opera-cionais, dispostas de forma integrada e consolidada.

SemEv 2012.

Page 4: Desenhar o conceito de data warehouse numa biblioteca da universidade

4 · Aristidis Jesus

3.3 Area de Estagiamento de Dados(Staging Area)

Os processos mais importantes na formacao de um Data Warehouse da Bibliotecasao sem duvida os que envolvem a area de estagio. Esta constitui uma area in-termedia de armazenamento de informacao entre os sistemas operacionais e o DataWarehouse. Os sistemas operacionais sao fontes de dados que abastecem o DataWarehouse. Os dados provenientes desses sistemas operacionais necessitam de serpreparados para que sejam carregados no Data Warehouse. Para isso, sao uti-lizadas as tabelas de Staging Area, que sao responsaveis por este armazenamento in-termedio de dados. E nesta fase que e implementado o processo de ETL(Extraccao,Transformacao e Carregamento), essencial no Data Warehouse.

3.4 ETL(Extraction, Transformation, Loading)

—ExtraccaoO objectivo dos metodos de extraccao e isolar os dados que serao utilizados pe-los sistemas de apoio a decisao. E necessario filtrar apenas os dados que seraonecessarios, a fim de se evitar desperdıcio de desempenho e de armazenamento.Existem diversas tecnicas de extraccao de dados, os dados podem ser extraıdosperiodicamente, sendo neste caso o utilizador a definir a periodicidade do pro-cesso. Assim que e inicializado, o processo extrai as modificacoes realizadas desdeo perıodo da ultima actualizacao, actualizando os dados no Data Warehouse.

—TransformacaoA partir do momento em que os dados ja tenham sido extraıdos dos sistemasoperacionais para a area de estagio, a fase de transformacao e iniciada. Nestafase, um conjunto de processos sao iniciados, tais como limpeza e atribuicao denovas chaves. As rotinas de limpeza e integracao dos dados tem como objectivoassegurar a consistencia no Data Warehouse. Por vezes sao realizadas exclusoesde informacao desnecessarias, excluindo atributos e entidades que nao estejamregularmente a ser tratado pelo Data Warehouse. Sao tambem por vezes ex-cluıdas relacoes entre tabelas ou efectuados merging, operacoes que influenciamo desempenho das consultas.

—CarregamentoO processo de carregamento e realizado apos efectuados todos os tratamentosaos dados nos processos de extraccao e transformacao. Esta etapa consiste emcarregar os dados tratados e armazenados na area de estagio e migra-los para oData Warehouse.

3.5 Armazenamento de Dados Operacional

O conceito de ODS(Operational Data Storage) surgiu por volta dos anos 90, eera visto como sendo um tipo de Data Warehouse. O ODS e formado por da-dos retirados dos diversos sistemas operacionais e sujeitos a diversas operacoes detransformacao e conversao. Contem informacao detalhada de cariz transaccional,actual e sujeita a processos de actualizacao regular. Fornece suporte ao processode tomada de decisoes detalhadas, de cariz operacional, exigindo respostas quaseimediatas. O seu historico e curto e a informacao esta organizada por areas deanalise.

SemEv 2012.

Page 5: Desenhar o conceito de data warehouse numa biblioteca da universidade

Desenhar O Conceito de Data Warehouse numa Biblioteca da Universidade · 5

3.6 Modelo dimensional

O modelo dimensional e um desenho logico que tem o objectivo de apresentar osdados num padrao normal e intuitivo que permite o acesso em alta performance.O modelo dimensional utiliza o conceito do modelo relacional(ER) com algumasrestricoes importantes. Cada modelo dimensional e composto por uma tabela comuma chave primaria composta, chamada tabela de factos, e um conjunto de tabelasmenores, chamadas tabelas de dimensao. Em outras palavras, a chave primaria databela de factos e composta de duas ou mais chaves estrangeiras. A caracterısticamais importante neste modelo dimensional e a de todas as chaves naturais poderemser substituıdas por chaves substitutas(surrogate keys). A utilidade de uma chavesubstituta e permitir que o Data Warehouse possa ter alguma liberdade no uso dosdados, ao contrario do produzido pelo sistema OLTP. Baseado no diagrama Entity-Relation da Biblioteca e em necessidades de informacao exigidos pelo bibliotecarioe do gestor da Biblioteca, foi criado entao um modelo dimensional numa forma emesquema da estrela para a data warehouse da Biblioteca, como ilustrado na figura2.

Fig. 2. Esquema de Estrela para o Facto de Circulacao

SemEv 2012.

Page 6: Desenhar o conceito de data warehouse numa biblioteca da universidade

6 · Aristidis Jesus

3.7 Metadados

A definicao mais comum de metadados e dados sobre dados. Devido ao grandevolume de dados contidos no Data Warehouse e necessario que exista uma formaflexıvel e eficiente de acesso aos dados. E necessario saber que dados estao disponıveise onde estao localizados. Os metadados podem ser vistos como a descricao dos da-dos, do seu ambiente, como sao manipulados e para onde sao distribuıdos. Osmetadados permitem definir as estruturas de informacoes usadas, os algoritmosutilizados para a transformacao, conversao, acumulacao e agregacao de dados. Per-mitem identificar as fontes de informacao, qual o destino dos dados e tambemcontrolar o mapeamento de dados ODS para o Data Warehouse. Os metadadospodem servir tambem para fazer a consolidacao dos termos e temas dos dados. Umdeterminado termo deve ter o mesmo significado em todo o Data Warehouse.

4. GRANULARIDADE

Designa o nıvel ou grau de detalhe dos dados no modelo dimensional. Geralmente,a granularidade da tabela de factos e escolhida para ter o menor nıvel de gran-ularidade possıvel. Pois isto permitira responder melhor a novas consultas e aintroducao de novos elementos de dados com nıvel maior. A decisao sobre o grautem uma implicacao directa no nıvel de detalhe da informacao disponibilizada noData Warehouse.

5. NECESSIDADES DA INFORMACAO DA BIBLIOTECA

O levantamento das necessidades de informacao da Biblioteca e uma fase muitoimportante do trabalho de planeamento. Aqui define-se todas as fontes de dadosutilizados no data warehouse e define-se as necessidades de informacao a ser geradaatraves da analise de relatorios. Fontes de dados utilizados no data warehouse saoos dados na base de dados biblioteca, que contem por exemplo tabelas de: livro,tipo, autor, editor, aula, data, aluno, docente, curso e outras tabelas relacionadas.As necessidades de gestao de informacao da biblioteca obtem as seguintes formas:

—As tendencias dos livros emprestados por professores e alunos.

—Informacoes sobre os tipos de livros que sao muitas vezes emprestados.

—Tendencias no processo de circulacao.

—Informacoes sobre o nome do autor e da editora cujos livros sao muitas vezesemprestados.

6. ARQUITECTURA DE UM SISTEMA DE BIBLIOTECA

Entende-se por arquitectura, o conjunto de regras/estruturas a partir das quais econstruıdo um sistema. Esta identifica e compreende o fluxo de dados atraves dosistema e a forma como serao utilizados dentro da propria instituicao. A estruturade um Data Warehouse e construıda por uma base de dados independente, desen-hada especificamente para apoio a decisao, nao podendo ser actualizada e ao qualos utilizadores acedem atraves de uma ferramenta front-end. Este sistema tıpicode Biblioteca composto por varios processos indicam factos de cada uma delas:aquisicao, circulacao, processo tecnicos e servico de referencia de livros. Arquitec-tura considerada no processo de circulacao e o seguinte(figura 3):

SemEv 2012.

Page 7: Desenhar o conceito de data warehouse numa biblioteca da universidade

Desenhar O Conceito de Data Warehouse numa Biblioteca da Universidade · 7

Fig. 3. Arquitectura de Um Sistema de Biblioteca

—ETL:Componente que se dedica a extraccao, carga e transformacao de dados. E aparte responsavel pela recolha de informacoes provenientes de diversas fontes.

—Data Warehouse:Local onde ficam concentrados os dados extraıdos dos sistemas operacionais. Avantagem de ter um repositorio de dados a parte e a possibilidade de armazenarinformacoes historicas e agregadas, dando um melhor suporte para as analisesfuturas.

—Front-end:E a parte visıvel aos utilizadores. Pode ser em forma de relatorios padroniza-dos, portal de intranet/internet, analises OLAP entre outras funcoes, como Datamining ou simulacoes futuras.

7. ESQUEMA DE ESTRELA(STAR SCHEMA)

No sistema OLTP(Online Transactional Processing) usa-se uma tecnica conhecidacomo modelagem de dados ER(Entity-Relationship). No data warehouse utiliza-seuma tecnica de modelagem de dados que costuma-se chamar modelagem dimen-sional. Modelagem dimensional e um modelo de call-base que suporta alto volumede query. Esquema estrela(star schema) e uma ferramenta que e aplicada a mode-lagem dimensional e contem uma tabela de factos central. Tabela de factos contematributos descritivos que sao usados para processar o query e chaves estrangeiraspara conectar as tabelas de dimensao. Analise de decisao de atributos consiste emmedidas de desempenho, metricas operacionais, tamanho de agregacao e todas asoutras metricas que sao necessarios para analisar o desempenho da organizacao. Atabela de factos mostra o que e suportado pelo data warehouse para analise de de-cisao. Tabelas de dimensao cercam a tabela de factos central. Tabelas de dimensaocontem atributos que descrevem os dados inseridos na tabela de factos. Tabeladimensional mostra como os dados serao analisados.

Apos a analise do exemplo concreto do esquema de estrela(figura 2), considerou-

SemEv 2012.

Page 8: Desenhar o conceito de data warehouse numa biblioteca da universidade

8 · Aristidis Jesus

se que as necessidades de gestao da informacao da biblioteca sao uteis. Definiu-se atabela de facto para o processo de circulacao contendo dados como Codigo Emprestae Multa, representando o numero da identificacao especıfico de cada emprestimodo livro e o pagamento relativo a entrega fora do prazo determinado. Tambemdesigna-se as dimensoes adequadas para modelar o data warehouse como um sis-tema de apoio a decisao; por exemplo Dimensao Curso, Data, Editor, Aluno, Livro,Autor, Docente, Tipo e Fonte. Na “Dimensao Tipo“(figura 2) de emprestimo dolivro pretende defini-lo como o emprestimo para uso na escola ou emprestimo domi-ciliario.

8. CONCLUSOES

Apos o desenvolvimento do conceito de data warehouse da Biblioteca e a analise domesmo, obtem-se algumas conclusoes e sugestoes que se considerou importantes:

—O modelo de data warehouse que foi desenhado e construıdo como o processo decirculacao de livros, pode garantir o acesso aos gestores da biblioteca de tomadade decisoes.

—Na fase de planeamento, o assunto do data warehouse pode ser desenvolvido emvarios aspectos, de acordo com as necessidades da biblioteca.

—No momento de analise do data warehouse, precisam ser desenvolvidas ferramen-tas de analise, ou seja, OLAP e Mineracao de dados.

REFERENCIAS

Aranha Filho, F. J. E. 2005. Perfil de usuario da biblioteca karl a. boedecker: geracao de valorpara pesquisadores por meio de cooperacao indirecta. http://hdl.handle.net/10438/2959.

(online em Des 20, 2011).

Caldeira, C. P. 2008. Data Warehouse:Conceitos e Modelos. Edicao Sılabos,Lda.

Inmon, W. H. 1997. Como construir o data warehouse. 1–37p.

K.Tanaka, A. Arquitectura de data warehouse. http://www.uniriotec.br/~tanaka/SAIN. (on-line em Des 27, 2011).

Nicole Amboni, Guilherme Cintra, E. d. O. Estrategia de crm aplicada a dsi:uma proposta

para as bibliotecas universitarias. Gestao de Informacao, 1–16p.

Panegassi, L. F. 2006. Data warehouse.

Ralph kimball, M. R. The Data Warehouse: The Complete Guide to Dimensional Modeling.Wiley Computer Publishing,New York,John Wiley & Sons,Inc, Second Edition.

Santana, M. F. 2010. O conceito de data warehousing aplicado a gestao de informacoes em

bibliotecas. 137–158.

Wikipedia. Extract, transformation,load. http://en.wikipedia.org/wiki/Extract,

_transform,_load. (online em Des 28, 2011).

Wikipedia. Star schema. http://en.wikipedia.org/wiki/Star_schema. (online em Des 27,2011).

SemEv 2012.