Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python

Preview:

Citation preview

Criação de Data Warehouse em Banco de

Dados NoSQL com Cassandra, Spark e

Python

Leandro Mendes Ferreira

Agenda

• Apresentação

• Um pouco de Business Intelligence – Data Warehouse

• Overview do Apache Cassandra

• Overview do Apache Spark

• Construindo Data Warehouse em Banco de Dados NoSQL – Um

novo paradigma

• E o Python em toda essa história ?

• Processamento de Dados - FATEC SO

• MBA em BI – FIAP

• 5 anos trabalhando com BI

• 1.5 anos estudando Python

• Entusiasta de Big Data (Artigo)

Um pouco de Business Intelligence Data Warehouse

• Meados dos anos 1980• ETL• Data Warehouse x Data Mart• Modelagem Multidimensional

Desnormalização de dados Esquema Estrela Fatos e Dimensões

• Motores OLAP• Banco de Dados Relacionais

PROBLEMA

Banco de dados relacionais não são para dados analíticos são para dados transacionais

OverView Apache Cassandra

• SGDB NoSQL de família de

colunas

• Chave Valor

• Baseado no Dynamo DB e Big

Table

• Clusterizado em Anel

• Twitter, o Reddit e o Netflix

Apache Cassandra – Alguns probleminhas

Ø Não efetua junções (Join)

Ø Não busca campos foras da chave

Ø Solução é indexação

Ø Não garante concorrência

Ø Eventualmente Persistente

OverView Apache Spark

• Processamento em memória

• Clusterizado

Apache Spark + Apache Cassandra

http://pt.slideshare.net/doanduyhai/spark-cassandra-connector-api-best-practices-and-usecases

Data Warehouse em Banco de Dados NoSQL Um novo paradigma

• ELT ao invés de ETL

• Data Lake

• Normalização zero

• Processamento clusterizado ao invés de appliance

• Data descovery in memory

• Tabela Estrela ou Tabela Visão

Data Warehouse em Banco de Dados NoSQL Um novo paradigma

Star Schema Star Table

E o Python em toda essa história?

Obrigado

leandroimail@gmail.comleandro@biexpresso.com.br

Recommended