Upload
leandro-mendes-ferreira
View
338
Download
2
Embed Size (px)
Citation preview
Criação de Data Warehouse em Banco de
Dados NoSQL com Cassandra, Spark e
Python
Leandro Mendes Ferreira
Agenda
• Apresentação
• Um pouco de Business Intelligence – Data Warehouse
• Overview do Apache Cassandra
• Overview do Apache Spark
• Construindo Data Warehouse em Banco de Dados NoSQL – Um
novo paradigma
• E o Python em toda essa história ?
• Processamento de Dados - FATEC SO
• MBA em BI – FIAP
• 5 anos trabalhando com BI
• 1.5 anos estudando Python
• Entusiasta de Big Data (Artigo)
Um pouco de Business Intelligence Data Warehouse
• Meados dos anos 1980• ETL• Data Warehouse x Data Mart• Modelagem Multidimensional
Desnormalização de dados Esquema Estrela Fatos e Dimensões
• Motores OLAP• Banco de Dados Relacionais
PROBLEMA
Banco de dados relacionais não são para dados analíticos são para dados transacionais
OverView Apache Cassandra
• SGDB NoSQL de família de
colunas
• Chave Valor
• Baseado no Dynamo DB e Big
Table
• Clusterizado em Anel
• Twitter, o Reddit e o Netflix
Apache Cassandra – Alguns probleminhas
Ø Não efetua junções (Join)
Ø Não busca campos foras da chave
Ø Solução é indexação
Ø Não garante concorrência
Ø Eventualmente Persistente
OverView Apache Spark
• Processamento em memória
• Clusterizado
Apache Spark + Apache Cassandra
http://pt.slideshare.net/doanduyhai/spark-cassandra-connector-api-best-practices-and-usecases
Data Warehouse em Banco de Dados NoSQL Um novo paradigma
• ELT ao invés de ETL
• Data Lake
• Normalização zero
• Processamento clusterizado ao invés de appliance
• Data descovery in memory
• Tabela Estrela ou Tabela Visão
Data Warehouse em Banco de Dados NoSQL Um novo paradigma
Star Schema Star Table
E o Python em toda essa história?
Obrigado
[email protected]@biexpresso.com.br