Construindo um Data Lake - Store & Retrieve Data …...2018/12/17  · 5 14,3 bi 10 Receita...

Preview:

Citation preview

Construindo um Data LakeE democratizando os dados empresa a fora

Daniel CassianoHead of Data @ luizalabs

Olá! :)Daniel CassianoHead of Data @ luizalabs #magalu

@danielcassiano

br.linkedin.com/in/dcassiano

2

● Introdução e contexto

● Ecossistema e Arquitetura

● Democratizando os dados

● Ecossistema

● Perguntas?

3

Agenda

Um pouco decontexto

1

5

14,3 bi

10

Receitabruta 2017

3

Milhões de clientes ativos

Milhões de cartões Luiza

950 Lojas

+30% Participaçãoe-commerce (2017)

vs 24% em 2016

20M Visitantes únicos nos canais digitais

Foco em

Pessoas einovação

Data Team40 pessoas

8 times

6

DataData

Engineering

Intelligence

Recommendations

CRM BI

Search

Exploration

DS Tools

7

● Democratizar os Dados e a Ciência na empresa

● Resolver problemas de negócio com inteligência e dados

● Ser os owners, prover dados analíticos e ferramentas

● Governança

A missão

8

● +400 aplicações

● +200 bases

● Multi-cloud: AWS, Google Cloud, Azure e On-premises

● Múltiplos sabores: batch, streaming, file...

● 56 times

● 540 pessoas

O universo

Algumasáreasque consomem nossos dados

9

e-commerce

Logística

Planejamento e

abastecimento

Marketing

Financeiro

Arquitetura

2

Ecossistema de Dados

PlataformasMagalu

Inteligência / Machine Learning

Banco de DadosBI - negócio

TimeX

BILojas

BIe-comm

BILogística

Área de negócio

DataAnalyst

DataScientist

Dados externos

Data LakeHub

Arquitetura - v1

● 1 ano e meio de vida● 40 TB dados● ~200 pessoas● D-7 a T-2

Arquitetura - v2

● 6 meses de vida● 200 TB● ~250 pessoas● D-7 a Real Time

Zonas

Transient

Zona 1

Dado no seu estado mais puro, ou seja, não tem

otimização de leitura/escrita, validação de schema e pode estar

corrompido.

Zona 2

Raw Trusted

Zona 3 Zona 4

Refined

Dado otimizado para leitura usando Parquet já formatado, usando um schema e pronto para

consumo de aplicações/Data

Scientists.

Dado vindo da zona Raw com possíveis melhorias

semânticas e agregações, e que indica uma fonte

única da verdade. Aqui o dado pode ser usado

tanto em Parquet quanto enviado para outras fontes de dados como BigQuery,

Tableau, etc.

Variações do dado Raw/Trusted que não refletem uma verdade absoluta, mas que faz

sentido no contexto de algum time/aplicação. Ex:

Ações de usuários são dados Trusted mas

recomendações são uma visão Refined.

Sources

PlataformasMagalu

Sness Data LakeHub

PlataformasMagalu

PlataformasMagalu

PlataformasMagalu

DadosExternos

On-premises

Democratizandoos dados

3

17

● Simples é melhor do que complexo

● Acessível é melhor do que lindo tecnicamente

● Acurácia é tudo

● Documentação e didática fazem diferença

● Governança gera confiança

Premissas

18

● Vários formatos disponíveis, com samples e conexões

● Ferramentas exploratórias e dashboards

● Confiança nos dados: single source of truth

● Habilitar e não burocratizar

● D-1 é melhor do que zero

● Para todos os sabores

Pilares

Ecossistema

4

Quedê

21

22

23

Celebro

25

26

Arcade

28

29

30

31

Sness

34

Obrigado!Perguntas?cassiano@luizalabs.com

@danielcassiano

br.linkedin.com/in/dcassiano

Recommended