23
Pentaho, Hadoop, Big Data e Data Lakes. Marcio Junior Vieira Data Scientist [email protected]

Pentaho, Hadoop , Big Data e Data Lakes

Embed Size (px)

Citation preview

Page 1: Pentaho, Hadoop , Big Data e Data Lakes

Pentaho, Hadoop, Big Data e Data Lakes.

Marcio Junior VieiraData Scientist [email protected]

Page 2: Pentaho, Hadoop , Big Data e Data Lakes

   

Marcio Junior Vieira

● 16 anos de experiência em informática, vivência em desenvolvimento e análise de sistemas de Gestão empresarial.

● Trabalhando com Software Livre desde 2000 com serviços de consultoria e treinamento.

● Graduado em Tecnologia em Informática(2004) e pós-graduado em Software Livre(2005) ambos pela UFPR.

● Palestrante em diversos Congressos relacionados a Software Livre tais como: CONISLI, SOLISC, FISL, LATINOWARE, SFD, JDBR, Campus Party, Pentaho Day.

● Organizador Geral do Pentaho Day 2015 e apoio nas edições 2013 e 2014.● Fundador da Ambiente Livre Tecnologia.● Instrutor de Big Data - Hadoop e Pentaho

Page 3: Pentaho, Hadoop , Big Data e Data Lakes

Agenda

● Conceitos de Data Lakes● Pentaho Orquestrando seus Data Lakes

Page 4: Pentaho, Hadoop , Big Data e Data Lakes

   

Hadoop

● O Apache Hadoop é um projeto de software open-source escrito em Java. Escalável, confiável e com processamento distribuído.

● Filesystem Distribuído● Inspirado Originalmente pelo GFS e MapReduce da Google

( Modelo de programação MapReduce)● Utiliza-se de Hardware Comum ( Commodity cluster computing )● Framework para computação distribuída● infraestrutura confiável capaz de lidar com falhas ( hardware,

software, rede )

Page 5: Pentaho, Hadoop , Big Data e Data Lakes

   

Fundação Apache

● Big Data = Apache = Open Source● Apache é líder e Big Data!● ~31 projetos de Big Data incluindo “Apache

Hadoop” e “Spark”●

Page 6: Pentaho, Hadoop , Big Data e Data Lakes

   

Ecosistema - Hadoop

Page 7: Pentaho, Hadoop , Big Data e Data Lakes

   

O Termo Data Lake

● Em 2010, James Dixon ( Founder and CTO at Pentaho ) introduziu os conceitos de Data Lake em pequeno artigo em seu Blog.

Page 8: Pentaho, Hadoop , Big Data e Data Lakes

   

O velho Datawarehouse

● Elaborado na Década de 80● Apenas um subconjunto dos atributos são

examinados, para que apenas perguntas pré-determinadas podem ser respondidas.

● Os dados são agregados por isso visibilidade para os níveis mais baixos é perdida

Page 9: Pentaho, Hadoop , Big Data e Data Lakes

   

Cenários

● Tradicionalmente temos Dados transacionais ( Financeiro, Estoque, ERPs )

● Muitas empresas estão lidando com dados estruturados ou semiestruturados (não desestruturada).

● Os dados são normalmente sub-transacional (webLogs, Social/online Media, Eventos de Telecoms ) ou não transacional (Web Pages, Blogs, Documentos, Eventos de IOT... ).

● Há algumas perguntas conhecidos para perguntar dos dados.● Há muitas perguntas desconhecidos que surgirão no futuro.● Os dados são de uma escala ou volume diário de tal forma que ele

não vão caber técnica e / ou economicamente em um RDBMS.

Page 10: Pentaho, Hadoop , Big Data e Data Lakes

   

Data LakeData Lake

Page 11: Pentaho, Hadoop , Big Data e Data Lakes

   

Data Lake

● Fonte única● Grande Volume● Não Refinado● Pode estar tratado.

Page 12: Pentaho, Hadoop , Big Data e Data Lakes

   

Requisitos de um Data Lake

● Armazenar todos os dados● Satisfazer relatório e rotinas de analise● Satisfazer ad-hoc query / analises / relatórios● Balanceamento de performance e custo ● Exemplos:

Hadoop, Azure e AWS S3

Page 13: Pentaho, Hadoop , Big Data e Data Lakes

   

Formato Tradicional de BI

Data Mart(s)

Data Source

Page 14: Pentaho, Hadoop , Big Data e Data Lakes

   

Arquitetura de Big Data

Data Mart(s)

Data Source

Data Lake(s)

ad­hoc Datawarehouse

Page 15: Pentaho, Hadoop , Big Data e Data Lakes

   

Big Data não Substitui os DataMarts

● Big Data não é um Banco de Dados● Alta latência● Otimizado para “triturar” massiva os dados● Base de dados são imaturas● Banco de Dados são noSQL

Page 16: Pentaho, Hadoop , Big Data e Data Lakes

   

● Solução de BI Open Source.● Community Edition potente e funcional● Solução completa de BI e BA ( ETL,

Reporting, Mineração, OLAP e Dashbards, etc)

Page 17: Pentaho, Hadoop , Big Data e Data Lakes

   

Pentaho Orquestrando Hadoop

Page 18: Pentaho, Hadoop , Big Data e Data Lakes

   

Pentaho Data Integration

Page 19: Pentaho, Hadoop , Big Data e Data Lakes

   

Sparkl

● CTools e Pentaho Data Integration (PDI)● Desenvolve frontend com CTools● Implementamos Backends e endPoints com

PDI

Page 20: Pentaho, Hadoop , Big Data e Data Lakes

   

Page 21: Pentaho, Hadoop , Big Data e Data Lakes

   

Page 22: Pentaho, Hadoop , Big Data e Data Lakes

   

Recomendações

● Comece com o problema , e não com os dados

● Compartilhe dados para receber dados● Suporte gerencial e executivo● Orçamento suficiente● Melhores parceiros e fornecedores

Page 23: Pentaho, Hadoop , Big Data e Data Lakes

   

Contatos

● marcio @ ambientelivre.com.br ● http://twitter.com/ambientelivre● @ambientelivre● @marciojvieira● Blog: blogs.ambientelivre.com.br/marcio● Facebook/ambientelivre