51
SOFTCOM TECNOLOGIAS UNIVERSIDADE FEDERAL DO AMAZONAS INOVAÇÃO ORGANIZACIONAL ÉDIPO OLIVEIRA MARCOS FELIPE

Data warehousing - Técnicas e procedimentos

Embed Size (px)

DESCRIPTION

Data warehousing Universidade federal do amazonas

Citation preview

  • 1. Sumrio Sistemas de apoio deciso Data Warehouse

2. Sistemas de Apoio Deciso (SAD) Informao o Recurso mais importante para uma empresa tomar decises estratgicas o Obtida pela anlise de dados histricos de venda, produo, clientes, etc... Anlise de dados o Responsvel por fornecer as informaes vitais para a empresa o Pode aumentar a competitividade de uma empresa 3. Sistemas de Apoio Deciso (SAD) Dificuldades para obter informao o Quantidade de dados a serem analisados cresce com aexpanso do negcio e com o passar dos anoso Dados conflitantes vindos de fontes diferentes podem gerarinformaes desencontradaso Impossvel para um ser humano manter e analisar todos osdadoso Informao no mais mantida por gerentes devido mobilidade no mercado de trabalho 4. Sistemas de Apoio Deciso (SAD) o Usam dados histricos mantidos em um banco dedados convencional o Dados histricos so analisados usando tcnicas deminerao de dados para obter informaes usadas na tomada de decises o Estatsticas de venda, produo, clientes, etc. podemser levantadas e consideradas para tomar decises estratgicas de negcio 5. Benefcios dos Sistemas de Apoio Deciso o Determinar o mercado-alvo de um produto o Definir o preo de um produto, criar promoes e condiesespeciais de compra o Verificar a eficcia de campanhas de marketing o Otimizar a quantidade de produtos no estoque o Responder rapidamente a mudanas no mercado edeterminar novas tendncias, ganhando eficincia e lucratividade 6. Sistemas de apoio deciso Problema: dados histricos no so mantidos nos BDs da empresa o Volume de dados seria muito grande o Desempenho seria insatisfatrio Soluo: criar um BD exclusivamente para manter os dados histricos o Especializado para realizar poucas consultas sobre um grande volumede dadoso Surge o Data Warehouse (DW) e posteriormente o Data Mining (DM) 7. Data Warehouse Histrico o Criado pela IBM na dcada de 60 com o nome InformationWarehouse o Relanado diversas vezes sem grande sucesso o O nome Data Warehouse foi dado por William H.Inmon, considerado o inventor desta tecnologia o Tornou-se vivel com o surgimento de novas tecnologias paraarmazenar e processar uma grande quantidade de dados 8. Data Warehouse Conceito o Sistema que armazena dados histricos usados no processo de tomadade decisoo Integra os dados corporativos de uma empresa em um nico repositrio Funcionalidade o Criar uma viso nica e centralizada dos dados que estavam dispersosem diversos BDso Permitir que usurios finais executem consultas, gerem relatrios efaam anlises 9. Data Warehouse BDs usados nas aplicaes de negcio so chamados BDsoperacionais DW um BD informacional alimentado com dados dosBDs operacionais da empresao Disponibiliza dados atuais e dados histricos o Dados podem ser sumarizados (condensados) para que sejamanalisadoso Contm tambm metadados, que so dados sobre os dadosarmazenados no DW 10. BD Operacional X Data Warehouse BD OperacionalData WarehouseUsuriosFuncionriosAlta administraoUtilizaoTarefas cotidianasDecises estratgicasPadro de usoPrevisvelDifcil de preverPrincpio de funcionamentoCom base em transaesCom base em anlise de dadosValores dos dadosValores atuais e volteisValores histricos e imutveisDetalhamentoAltoSumarizadoOrganizao dos dadosOrientado a assunto e orientado a aplicaesOrientado a assunto 11. Principais Caractersticas de um DW Para que seja considerado um Data Warehouse, umbanco de dados deve: o Coletar dados de vrias fontes o Dados coletados devem ser transformados para que hajauma viso nica dos dados o Dados devem ser usados por aplicativos para obterinformaes que dem apoio deciso 12. Principais Caractersticas de um DW Um Data Warehouse tambm deve ser: Orientado a assunto Integrado No-voltil Varivel com o tempo 13. Principais Caractersticas de um DW Orientao a assunto o Os dados em um DW so organizados de modo afacilitar a anlise dos dados o Dados so organizados por assunto e no poraplicao, como em BDs operacionais 14. Principais Caractersticas de um DW Integrao o Dados de um DW provm de diversas fonteso Dados podem ser sumarizados ou eliminados o Formato dos dados deve ser padronizadopara uniformizar nomes, unidades de medida, etc. 15. Principais Caractersticas de um DW No-Voltil o Dados no so mais alterados depois de includos no DW o Operaes no DW Em um BD operacional possvel incluir, alterar e eliminar dados J no DW possvel apenas incluir dadoso Garante que consultas subseqentes a um dadoproduziro o mesmo resultado 16. Principais Caractersticas de um DW Varivel com o Tempo o Os dados no DW so relativos a um determinado instante de tempo 17. Arquitetura de um DW Principais tarefas efetuadas pelo DW o Obter dados dos BDs operacionais e externoso Armazenar os dados o Fornecer informaes para tomada de deciso o Administrar o sistema e os dados 18. Arquitetura de um DW Principais componentes do DW o Mecanismos para acessar e transformar dadoso Mecanismo para armazenamento de dados o Ferramentas para anlise de dados o Ferramentas de gerncia 19. Arquitetura de um DW 20. Arquitetura de um DW 21. Estrutura Interna de um DW Requisitos do DW o Eficiente Grande volume de dados imutveis Processamento paralelo e/ou distribudoo Confivel Funcionamento do sistema Resultado das anlises 22. Estrutura Interna de um DW o Expansvel Crescente volume de dados Maior nmero de fontes de dados 23. Estrutura Interna de um DW Em geral so usados BDs relacionais para armazenar osdados do DWo Capazes de manter e processar grandes volumes o de dados o Otimizados para lidar com dados imutveis As ferramentas de anlise empregam: o Tcnicas de minerao de dados o Inteligncia artificial: redes neurais, fuzzy, etc. o A Internet: Web mining, agentes mveis, etc. 24. Estrutura Interna de um DW 25. Estrutura Interna de um DW Obteno de Dados 26. Estrutura Interna de um DW Busca de Informaes 27. Estrutura Interna de um DW Modelo de Camadas 28. Estrutura Interna de um DW Funes das Camadas do DW o Dados Operacionais/Externos: fontes de dados o Acesso aos Dados: extrair dados dos BDs o Data Staging: transformar e carregar dados o Data Warehouse Fsico: armazenar dados o Acesso aos Dados: localizar dados para anlise o Acesso Informao: analisar dados o Troca de Mensagens: transportar dados o Gerenc. de Processos: controlar atividades 29. Granularidade Granularidade o Nvel de detalhe dos dados o De extrema importncia no projeto do DW 30. Granularidade Dados x Granularidade o Dados Atuais Refletem acontecimentos recentes Alto nvel de detalhe (baixa granularidade)o Dados Sumarizados Dados histricos condensados Menor nvel de detalhe (maior granularidade)o Dados Antigos Dados histricos mantidos em fita, CD, etc Alto nvel de detalhe (baixa granularidade) 31. Metadados Os Metadados so dados sobre os dados o Para cada atributo mantido no DW h uma entrada no dicionrio de dados o Os dados so processados, atualizados e consultados partindo dos metadados o Usurios ficam conhecendo a estrutura e o significado dos dados o No BD operacional, a estrutura e o significado dos dados esto embutidos nas aplicaes 32. Metadados Camadas de Metadados o Metadados Operacionais Definem a estrutura dos dados operacionaiso Metadados do DW Orientados por assunto Informam como os dados do DW foram calculados e como devem ser interpretadoso Metadados do Usurio Organizam os metadados do DW com base em conceitos familiares ao usurio final 33. Metadados Classificao em funo dos dados descritos o Metadados de Mapeamento Como BDs operacionais so mapeados no DWo Metadados de Sumarizao Como os dados foram sumarizados no DWo Metadados Histricos Como a estrutura dos dados vem mudandoo Metadados de Padres de Acesso Como os dados do DW vem sendo acessadoso Metadados de Miscelnea 34. Metadados Fontes de Metadados o Cdigo fonte dos SBDs operacionais o Diagramas CASE de BDs operacionais e do DW o Documentao dos BDs operacionais e do DW o Entrevistas com usurios, administradores e programadores dos BDs e do DW o O ambiente de DW Freqncia de acesso aos dados, tempo de resposta, controle de usurios, etc. 35. Tipos de Data Warehouse DW baseado em Servidor o Mainframe ou servidor de rede local (LAN) DW Virtual o Rene dados operacionais e dados histricos mantidos em BDs no h um DW central DW Distribudo o DW global rene dados de vrios DWs locais DW baseado na Web o Dados provenientes da World Wide Web 36. Etapas de implantao de um Data Warehouse A implementao de um projeto de Data Warehouse depende de aespolticas e tcnicas. No campo poltico, necessrio que exista o suporte da alta direo da empresa e o comprometimento dos gerentes e analistas de negcios. No campo tcnico existem diferentes abordagens de implementao que devem ser analisadas para que a escolha possa ajudar, que os benefcios do projeto possam ser mais rapidamente visveis e acelerar o processo de obteno de apoio interno. Um DW deve estar em consonncia com as necessidades de negcio daempresa. Assim, a rea de negcio deve ser a patrocinadora da iniciativa. Muitos projetos iniciados pela rea de sistemas ou de TI fracassaram por no terem o necessrio apoio poltico da direo da empresa ou por no terem definido um caso de negcio concreto. 37. A implantao de um projeto de DW envolve a extrao dosdados, que so provenientes de diferentes fontes, sua transformao e carga no DW so feitas por processos de ETL (Extract, Transformation, Load). Estes dados podem ser inseridos no DW e depois transferidos para os Data Marts ou os Data Marts podem ser criados antes do DW, com dados especficos de cada departamento da empresa. O DW, que utiliza uma modelagemmultidimensional, fomenta o OLAP (OnLine Analytical Processing), ferramenta de anlise para apoiar a tomada de deciso, que, por sua vez, organiza as informaes de forma a permitir que a anlise dos negcios da empresa seja realizada, possibilitando, ao tomador de deciso, respostas rpidas para as questes relevantes aos negcios. 38. A primeira fase do processo de data warehousing consiste emisolar a sua informao operacional atual, preservando a segurana e integridade de aplicaes OLTP (OnLine Transaction Processing) crticas, ao mesmo tempo em que deve permitir o acesso de forma mais ampla possvel base de dados. O DW resultante pode consumir centenas de GigaBytes oumesmo TeraBytes de espao em disco. Desta forma, torna-se necessrio o uso de tcnicas eficientes para armazenar e acessar grandes quantidades de informao. Grandes organizaes que j implantaram DWs, concluram que somente sistemas de processamento paralelo podem oferecer largura de banda suficiente para estas aplicaes. 39. Como j dissemos, o DW acessa dados de uma grandevariedade de bancos de dados heterogneos. Assim, os dados so transformados e enviados para o DW em um modelo seletivo. A transformao de dados e o processo de movimentao so executados toda vez que uma atualizao nos dados do DW requerida, logo, deve haver alguma forma automatizada para gerenciar e executar estas funes. A informao que descreve o modelo e a definio dos elementos da fonte de dados chamada de metadados. Os metadados so os meios pelos quais o usurio finalcompreende os dados no DW. A limpeza dos dados um importante aspecto da criao de um DW eficiente. Devem ser removidos certos aspectos dos dados operacionais que podem retardar muitas consultas. 40. O estgio de limpeza deve ser o mais dinmico possvel para acomodartodos os tipos de consulta, mesmo aquelas que requerem informaes de baixo-nvel. Os dados devem ser extrados de fontes de produo em intervalos regulares de tempo e concentrados de maneira central, mas importante que o processo de limpeza remova duplicaes e normatize as diferenas entre os atributos dos dados. Somente aps o processo de limpeza que os dados podem ser transferidos para o DW. O DW tipicamente um grande repositrio de dados em um sistema de altaperformance, do tipo SMP - Symmetric Multi-Processingou MPP - Massively Parallel Processing, ou seja, sistemas multiprocessados ou paralelos. Somente um sistema com alto poder de computao pode garantir a eficincia do processo de implantao de um data warehousing, dada a complexidade envolvida no processamento e consultas e dada a grande quantidade de dados que geralmente a organizao deseja armazenar. 41. Tipos de Implementao de um Data Warehouse Bottom-Up: a forma de implementao mais baratae com retorno mais rpido, pois permite a construo primeiramente dos Data Marts (subconjunto de dados de um DW) antes mesmo de uma definio da estrutura do DW, consequentemente se torna a forma mais rpida de implementao, de fcil manuteno e monitorao. No entanto, por no ser construdo visando o cenrio como um todo, pode acabar gerando inconsistncias nos dados. 42. Top Down: considerado o modelo padro, nele todo oconceito de estruturao ter como base a organizao como um todo e no apenas suprir necessidades de um determinado departamento, consequentemente deve ter um esquema padro e centralizado para todos, a fim de evitar dados duplicados e integrar as informaes. A razo para o nome deste tipo de implementao se deve ao seu fluxo, em que o DW nasce primeiramente e a partir dai as informaes so distribudas aos Data Marts, tal forma de implementao acaba sendo mais demorada em relao as demais. 43. Combinada (Intermediria): esta forma deimplementao integra os dois modos anteriormente explicados, em que o planejamento se baseia no Top Down em razo da modelagem dos dados possuir uma viso macro, e seu desenvolvimento segue o Bottom Up ao desenvolver cada Data Mart por vez a partir do macro modelo do DW. Esta forma de implementao traz como vantagem a consistncia dos dados por possuir um nico modelo no desenvolvimento dos Data Marts. 44. Caso de uso - Vivo Empresa: VIVO S/A Problema: Gerenciar informaes de seus mais de 46milhes de clientes 45. Criada a partir de seis empresas de telecomunicaes, a operadora Vivose viu diante de um grande desafio no processo de unificao das companhias: reunir, em um nico data warehouse corporativo (ou repositrio de dados), todas as informaes de seus mais de 46 milhes de clientes. O cenrio era complexo. As empresas reunidas contavam com ferramentas de diversos fornecedores de business intelligence (BI), diferentes processos e mais de mil usurios. Tudo isso gerava um tempo de resposta muito alto para aoperadora. Para solucionar o problema, a empresa optou pela integrao de todos os sistemas na plataforma da Teradata. Esta tarefa envolveu 40 reas de negcios e 100 usurios concentrados no projeto, focados em integrar 2 bilhes de registros dirios. Hoje, o tamanho do banco de dados de 100 terabytes. 46. Para chegar receita ideal, a extrao e a anlise de dados ficou acargo de soluo da MicroStrategy e todo o processo de desenvolvimento teve relao estreita com a rea de negcios. A ordem era no implementar nada que no partisse de uma necessidade dessas reas. Resultado: uma economia de 28 milhes de dlares. Deste valor, 15 milhes de dlares foram economizadoscom impostos, segundo Daniela Calaes, gerente de sistemas de BI da Vivo, que falou em evento da Teradata realizado esta semana em Washington (EUA). Alm disso, ao conseguir obter um retrato mais fiel dos consumidores com potencial para se tornarem devedores, a Vivo conseguiu reduzir em 13 milhes de dlares a receita perdida em situaes de clientes devedores. 47. Outro benefcio, de acordo com Daniela, foi a possibilidade de dirigir melhorcampanhas de marketing para incentivar o consumo de diferentes produtos por clientes com potencial para aumentar gastos. E a prpria rede e a cobertura tiveram melhorias. A partir das ferramentas de anlise, a Vivo avaliou comportamentos atuais e histricos da rede para otimizar seu uso, identificar falhas e ampliar a infraestrutura onde fosse necessrio. Assim, o custo da manuteno caiu em 20% e a capacidade da rede foi ampliada. Para o futuro, a empresa prepara a integrao com a Telemig Celular, cujaconcluso da compra foi realizada em abril do ano passado, e a implementao de novos mdulos de informaes, que j esto sendo requeridos pelas reas de negcios. A rea de TI da companhia quer tambm o aumento da performance do data warehouse, buscando garantir a informao sempre em tempo real. Implementada a ferramenta, a meta agora transformar o data warehouse na nica fonte de dados da companhia, integrando todas as informaes isoladas que ainda persistem na corporao. 48. Concluso As informaes tem sido cada vez mais valiosas nasorganizaes, principalmente para o processo de tomada de deciso. Informaes sobre a organizao, a quantidade de vendas e de produtos em estoque so as mais bsicas, porm informaes consistentes e precisas sobre o comportamento de seus clientes e histrico dos ltimos 7 anos, por exemplo, s so possveis com o uso de data warehouses. Essa tecnologia em banco de dados tem estado presente em cada vez mais empresas de mdio e pequeno porte devido aos grandes benefcios proporcionados, dentre eles a possibilidade de se ter uma viso consistente de toda a organizao. 49. Referncias http://wiki.icmc.usp.br/images/7/73/SCC5911ConceitosArquitetura.pdf http://www.dcc.fc.up.pt/~pbrandao/aulas/0203/bdm/pdfs/DataWarehousing. pdf http://www.inf.ufsc.br/~fileto/Talks/IntrodDW-ERBD2009.pdf http://www.efagundes.com/artigos/Quais%20as%20estrategias%20de%20impl ementacao%20de%20um%20data%20warehouse.htm http://www.lume.ufrgs.br/handle/10183/25495 http://www.slideshare.net/julianamarialop/vivo-usando-o-data-warehousepara-tomada-de-deciso http://mtc-m19.sid.inpe.br/col/sid.inpe.br/mtcm19/2012/09.25.11.26.39/doc/Leandro%20E%20de%20Oliveira.pdf http://dwbrasil.wordpress.com/category/data-warehouse/