Pentaho, Hadoop, Big Data e Data Lakes.
Marcio Junior VieiraData Scientist [email protected]
Marcio Junior Vieira
● 16 anos de experiência em informática, vivência em desenvolvimento e análise de sistemas de Gestão empresarial.
● Trabalhando com Software Livre desde 2000 com serviços de consultoria e treinamento.
● Graduado em Tecnologia em Informática(2004) e pós-graduado em Software Livre(2005) ambos pela UFPR.
● Palestrante em diversos Congressos relacionados a Software Livre tais como: CONISLI, SOLISC, FISL, LATINOWARE, SFD, JDBR, Campus Party, Pentaho Day.
● Organizador Geral do Pentaho Day 2015 e apoio nas edições 2013 e 2014.● Fundador da Ambiente Livre Tecnologia.● Instrutor de Big Data - Hadoop e Pentaho
Agenda
● Conceitos de Data Lakes● Pentaho Orquestrando seus Data Lakes
Hadoop
● O Apache Hadoop é um projeto de software open-source escrito em Java. Escalável, confiável e com processamento distribuído.
● Filesystem Distribuído● Inspirado Originalmente pelo GFS e MapReduce da Google
( Modelo de programação MapReduce)● Utiliza-se de Hardware Comum ( Commodity cluster computing )● Framework para computação distribuída● infraestrutura confiável capaz de lidar com falhas ( hardware,
software, rede )
Fundação Apache
● Big Data = Apache = Open Source● Apache é líder e Big Data!● ~31 projetos de Big Data incluindo “Apache
Hadoop” e “Spark”●
Ecosistema - Hadoop
O Termo Data Lake
● Em 2010, James Dixon ( Founder and CTO at Pentaho ) introduziu os conceitos de Data Lake em pequeno artigo em seu Blog.
O velho Datawarehouse
● Elaborado na Década de 80● Apenas um subconjunto dos atributos são
examinados, para que apenas perguntas pré-determinadas podem ser respondidas.
● Os dados são agregados por isso visibilidade para os níveis mais baixos é perdida
Cenários
● Tradicionalmente temos Dados transacionais ( Financeiro, Estoque, ERPs )
● Muitas empresas estão lidando com dados estruturados ou semiestruturados (não desestruturada).
● Os dados são normalmente sub-transacional (webLogs, Social/online Media, Eventos de Telecoms ) ou não transacional (Web Pages, Blogs, Documentos, Eventos de IOT... ).
● Há algumas perguntas conhecidos para perguntar dos dados.● Há muitas perguntas desconhecidos que surgirão no futuro.● Os dados são de uma escala ou volume diário de tal forma que ele
não vão caber técnica e / ou economicamente em um RDBMS.
Data LakeData Lake
Data Lake
● Fonte única● Grande Volume● Não Refinado● Pode estar tratado.
Requisitos de um Data Lake
● Armazenar todos os dados● Satisfazer relatório e rotinas de analise● Satisfazer ad-hoc query / analises / relatórios● Balanceamento de performance e custo ● Exemplos:
Hadoop, Azure e AWS S3
Formato Tradicional de BI
Data Mart(s)
Data Source
Arquitetura de Big Data
Data Mart(s)
Data Source
Data Lake(s)
adhoc Datawarehouse
Big Data não Substitui os DataMarts
● Big Data não é um Banco de Dados● Alta latência● Otimizado para “triturar” massiva os dados● Base de dados são imaturas● Banco de Dados são noSQL
● Solução de BI Open Source.● Community Edition potente e funcional● Solução completa de BI e BA ( ETL,
Reporting, Mineração, OLAP e Dashbards, etc)
Pentaho Orquestrando Hadoop
Pentaho Data Integration
Sparkl
● CTools e Pentaho Data Integration (PDI)● Desenvolve frontend com CTools● Implementamos Backends e endPoints com
PDI
Recomendações
● Comece com o problema , e não com os dados
● Compartilhe dados para receber dados● Suporte gerencial e executivo● Orçamento suficiente● Melhores parceiros e fornecedores
Contatos
● marcio @ ambientelivre.com.br ● http://twitter.com/ambientelivre● @ambientelivre● @marciojvieira● Blog: blogs.ambientelivre.com.br/marcio● Facebook/ambientelivre