17
Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python Leandro Mendes Ferreir

Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python

Embed Size (px)

Citation preview

Page 1: Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python

Criação de Data Warehouse em Banco de

Dados NoSQL com Cassandra, Spark e

Python

Leandro Mendes Ferreira

Page 2: Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python

Agenda

• Apresentação

• Um pouco de Business Intelligence – Data Warehouse

• Overview do Apache Cassandra

• Overview do Apache Spark

• Construindo Data Warehouse em Banco de Dados NoSQL – Um

novo paradigma

• E o Python em toda essa história ?

Page 3: Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python

• Processamento de Dados - FATEC SO

• MBA em BI – FIAP

• 5 anos trabalhando com BI

• 1.5 anos estudando Python

• Entusiasta de Big Data (Artigo)

Page 4: Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python

Um pouco de Business Intelligence Data Warehouse

• Meados dos anos 1980• ETL• Data Warehouse x Data Mart• Modelagem Multidimensional

Desnormalização de dados Esquema Estrela Fatos e Dimensões

• Motores OLAP• Banco de Dados Relacionais

Page 5: Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python
Page 6: Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python

PROBLEMA

Banco de dados relacionais não são para dados analíticos são para dados transacionais

Page 7: Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python

OverView Apache Cassandra

• SGDB NoSQL de família de

colunas

• Chave Valor

• Baseado no Dynamo DB e Big

Table

• Clusterizado em Anel

• Twitter, o Reddit e o Netflix

Page 8: Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python
Page 9: Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python

Apache Cassandra – Alguns probleminhas

Ø Não efetua junções (Join)

Ø Não busca campos foras da chave

Ø Solução é indexação

Ø Não garante concorrência

Ø Eventualmente Persistente

Page 10: Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python

OverView Apache Spark

• Processamento em memória

• Clusterizado

Page 11: Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python

Apache Spark + Apache Cassandra

http://pt.slideshare.net/doanduyhai/spark-cassandra-connector-api-best-practices-and-usecases

Page 12: Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python

Data Warehouse em Banco de Dados NoSQL Um novo paradigma

• ELT ao invés de ETL

• Data Lake

• Normalização zero

• Processamento clusterizado ao invés de appliance

• Data descovery in memory

• Tabela Estrela ou Tabela Visão

Page 13: Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python

Data Warehouse em Banco de Dados NoSQL Um novo paradigma

Star Schema Star Table

Page 14: Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python
Page 15: Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python

E o Python em toda essa história?

Page 16: Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python
Page 17: Criação de Data Warehouse em Banco de Dados NoSQL com Cassandra, Spark e Python

Obrigado

[email protected]@biexpresso.com.br