Data Culture - QConSP...Por que ter dados auditáveis é essencial para ... Análise de Dados e...

Preview:

Citation preview

Data Culture:Data Science e Machine Learning resolvendo problemas reais

QCon SP 2019

Quem somos

Gabriel Lages

Gerente de Data Science & Analytics na Hotmart

Bacharel em Estatística, Ciências Econômicas e Especialista em Banco de Dados.

Atua há mais de 10 anos com análise de dados, tendo como foco a tomada de decisão em empresas e disseminação da cultura de dados no Brasil.

E-mail: gabriel.lages@hotmart.comLinkedIn: @gabrielclages

Pollyanna Gonçalves

Cientista de Dados na Hotmart

Bacharel e Mestre em Ciência da Computação.

Atua há 4 anos com Data Science e Business Intelligence, e foi pesquisadora científica na área de Sentiment Analysis na Web.

E-mail: pollyannaogoncalves@gmail.comLinkedIn: @pollyannaogoncalves

A Hotmart é a maior empresa especializada na venda e distribuição de produtos digitais da América Latina, líder de mercado desde sua fundação, em 2011.

Em constante processo de internacionalização, a empresa possui escritórios em Belo Horizonte, Madri, Amsterdã, Bogotá e Cidade do México.

Hotmart

Hotmart

+5 MilhõesDE COMPRADORES

+200PAÍSESDIFERENTES

+150 MilPRODUTOS

+2 MilhõesDE USUÁRIOS

LE

LETOP 3 MITOS

EM DATA SCIENCE E MACHINE LEARNING

Mito 1 - Salários astronômicos

Mito 2 - Data Lake é o paraíso na terra

DATA LAKE ORDATA SWAMP?

Mito 3 - Você vai trabalhar só com modelos de Machine Learning e Deep Learning

Cultura de Dados:

Por onde começar?

Como resolveresse problema?

Dados Auditáveis

Dados Acionáveis

Dados Acessíveis

Dados Auditáveis

Dados Acionáveis

Dados Acessíveis

Por que ter dados auditáveis é essencial para qualquer projeto de dados?

●●●

Por que ter dados auditáveis é essencial para qualquer projeto de dados?

●●●

Por que ter dados auditáveis é essencial para qualquer projeto de dados? Para evitar isto:

1

Por que ter dados auditáveis é essencial para qualquer projeto de dados? Para evitar isto:

1 2

Por que ter dados auditáveis é essencial para qualquer projeto de dados? Para evitar isto:

Por que ter dados auditáveis é essencial para qualquer projeto de dados? Para evitar isto:

1 2

3

1

2

Para a equipe da Plataforma:

Produto Ativo = Disponível no Mercado

3

1

2

Para o time de Vendas:

Produto Ativo = Fez pelo menos uma venda

3

1

2

3

Para o time de Backoffice:

Produto Ativo = Passou pelo processo de aprovação e foi

ativado

Como resolveresse problema?

1 - Definir as regras de negócio

3 passos para se obter Dados Auditáveis

2 - Local para consultar estas

regras

3 - As pessoas devem utilizar estas regras

1 - Quem define as regras?

a) CEO da empresab) Time de BI / Datac) As próprias equipesd) Outro

1 - Quem define as regras?

a) CEO da empresab) Time de BI/DATAc) As próprias equipesd) OutroA resposta depende da fase

em que a empresa se encontra

STARTUP GROWING MATURE

STARTUP

CEO

GROWING

DATA TEAM

A área de dados não é o cérebro da empresa…

A missão da área de dados é:

Organizar e Otimizar a Inteligência Coletiva

da empresa.

MATURE

All teams

MATURE

All teams

DEMOCRATIZAÇÃO DOS DADOS

O objetivo da Democratização de Dados é que qualquer um possa ter acesso aos dados a qualquer momento para tomada de decisão sem barreiras de acesso ou entendimento."

Bernard Marr, Forbes

1 - Origem da Informação

2 - Governançados Dados

3 - Métricas e Indicadores

4 - Visualização dos dados

5 - Compartilhamento de conhecimento

O caminho da Democratização de Dados

Na Hotmart, em 2019

● 67% das pessoas da empresa já acessam as ferramentas de inteligência

● 508 consultas criadas apenas no primeiro trimestre do ano

2 - Onde armazenar as regras de negócio?

Na Hotmart: Repositório de Conhecimento

● Governança

● Integrações com databases

● Consultas a databases

● Visualização

Na Hotmart: Repositório de Conhecimento

Alternativa Open Source

github.com/lyft/amundsendatabuilder

ou escreva no Google: AMUNDSEN LYFT

1 - Origem da Informação

2 - Governançados Dados

3 - Métricas e Indicadores

4 - Visualização dos dados

5 - Compartilhamento de conhecimento

+

OwnerFeedbacks

3 - Garantir que as pessoas acessem e vejam valor nesse processo

Para uma cultura de dados forte

● Educar as pessoas

● Facilitar os processos

● Conquistar o apoio da empresa

MATURE

All teams

DEMOCRATIZAÇÃO DOS DADOS

Dados Auditáveis

Dados Acionáveis

Dados Acessíveis

Soluções para dados acessíveis

● Ferramentas tradicionais para organização e análise de dados

Soluções para dados acessíveis

● Ferramentas de BI

Na Hotmart: Repositório de Conhecimento

● Governança

● Integrações com databases

● Consultas a databases

● Visualização

Datasources

Arquitetura - Repositório de Conhecimento

Web layer

Datasource management

Storage layer

Client layer

Query management Rest controllers

Datasources

Arquitetura - Repositório de Conhecimento

Web layer

Datasource management

Storage layer

Client layer

Query management Rest controllers

Datasources

Web layer

Datasource management

Storage layer

Client layer

Query management Rest controllers

Arquitetura - Repositório de Conhecimento

Datasources

Web layer

Datasource management

Storage layer

Client layer

Query management Rest controllers

Arquitetura - Repositório de Conhecimento

Datasources

Web layer

Datasource management

Storage layer

Client layer

Query management Rest controllers

To be

continued...

Arquitetura - Repositório de Conhecimento

Solução 1 - Arquitetura de Eventos

hotmart.dev/eng-dados

Solução 2 - BI Tradicional

● Soluções já consolidadas - Data Warehouses, Data Marts

↑ Pessoas ↑ Tempo

Solução 2 - BI Tradicional

● Soluções já consolidadas - Data Warehouses, Data Marts

↑ Pessoas ↑ Tempo

Recursos escassos

Solução 3 - Data as a Service

● Plataformas de integração de múltiplas tecnologias de fontes de dados

...

DremioPlataforma de unificação de bancos de dados

DatabasesDatalakes

Files

Arquitetura - Dremio

Ferramentas de BI

Data Science

Análise de Dados e API’s

ReflectionsData as a Service

API’s

DatabasesDatalakes

Files

Arquitetura - Dremio

Ferramentas de BI

Data Science

Análise de Dados e API’s

ReflectionsData as a Service

API’s

Datasources

Web layer

Datasource management

Storage layer

Client layer

Query management Rest controllers

Arquitetura - Repositório de Conhecimento

Na Hotmart: Repositório de Conhecimento

● Governança

● Integrações com databases

● Consultas a databases

● Visualização

Na Hotmart: Repositório de Conhecimento

Alternativa Open Source

metabase.com

1 - Origem da Informação

2 - Governançados Dados

3 - Métricas e Indicadores

4 - Visualização dos dados

5 - Compartilhamento de conhecimento

Metabase Questions

Metabase Collections

Metabase Dashboards

1 - Origem da Informação

2 - Governançados Dados

3 - Métricas e Indicadores

4 - Visualização dos dados

5 - Compartilhamento de conhecimento

+

Metabase ainda não conecta ao Dremio

Dados acessíveis e auditáveis são

suficientes?

Gráfico pico chargebacks

Entregar todos os dados nas mãos dos analistas pode não resolver

RuralWillys

1946 - 1977

1 2 5 6

4

3

Jeep Renegade

2014

Quase 70 anos mais tarde...

1

2 4

5

3

6

Gráfico pico chargebacks

Menos é mais

Como a área de dados pode tornar

as pessoas mais produtivas?

Como a área de dados pode tornar

as pessoas mais produtivas?

Data Science +

Machine Learning

Dados Auditáveis

Dados Acionáveis

Dados Acessíveis

O analista conseguirá estudar uma grande quantidade de transações? Em tempo hábil?

Cenário: Crescimento do índice de fraude

Case 1: Machine Learning + Prevenção de fraude

Identificação do problema

Case 1: Machine Learning + Prevenção de fraude

Identificação do problema

Quais características do

fraudador?

Case 1: Machine Learning + Prevenção de fraude

Identificação do problema

Quais características do

fraudador?Business Understanding

Case 1: Machine Learning + Prevenção de fraude

Identificação do problema

Quais características do

fraudador?Business Understanding

Etapa necessária para evitar que solução se torne

blackbox

Case 1: Machine Learning + Prevenção de fraude

Identificação do problema

Quais características do

fraudador?

Mapeamento de dadosBusiness

Understanding

Case 1: Machine Learning + Prevenção de fraude

Mapeamento de dados

Extração de datasets

Identificação do problema

Quais características do

fraudador?Business Understanding

Case 1: Machine Learning + Prevenção de fraude

Mapeamento de dados

Extração de datasetsData

Understanding

Identificação do problema

Quais características do

fraudador?Business Understanding

Case 1: Machine Learning + Prevenção de fraude

Mapeamento de dados

Extração de datasets

Merging de datasets

DataUnderstanding

Identificação do problema

Quais características do

fraudador?Business Understanding

Case 1: Machine Learning + Prevenção de fraude

Merging de datasets

Limpeza dos dados

Identificação do problema

Quais características do

fraudador?Business Understanding

Mapeamento de dados

Extração de datasets

DataUnderstanding

Case 1: Machine Learning + Prevenção de fraude

Merging de datasets

Limpeza dos dados

Preenchimento de dados faltantes

Identificação do problema

Quais características do

fraudador?Business Understanding

Mapeamento de dados

Extração de datasetsData

Understanding

Case 1: Machine Learning + Prevenção de fraude

Merging de datasets

Limpeza dos dados

Preenchimento de dados faltantes Data

Preparation

Identificação do problema

Quais características do

fraudador?Business Understanding

Mapeamento de dados

Extração de datasetsData

Understanding

Case 1: Machine Learning + Prevenção de fraude

Merging de datasets

Limpeza dos dados

Preenchimento de dados faltantes

Análise e exploração dos

dados DataPreparation

Identificação do problema

Quais características do

fraudador?Business Understanding

Mapeamento de dados

Extração de datasetsData

Understanding

Case 1: Machine Learning + Prevenção de fraude

Análise e exploração dos

dados

DataExploration

Identificação do problema

Quais características do

fraudador?Business Understanding

Mapeamento de dados

Extração de datasetsData

Understanding

Merging de datasets

Limpeza dos dados

Preenchimento de dados faltantes Data

Preparation

Case 1: Machine Learning + Prevenção de fraude

Análise e exploração dos

dados

Seleção de features mais importantes

DataExploration

Identificação do problema

Quais características do

fraudador?Business Understanding

Mapeamento de dados

Extração de datasetsData

Understanding

Merging de datasets

Limpeza dos dados

Preenchimento de dados faltantes Data

Preparation

Case 1: Machine Learning + Prevenção de fraude

Seleção de features mais importantes

Treino do modelo

Validação do modelo

Identificação do problema

Quais características do

fraudador?Business Understanding

Mapeamento de dados

Extração de datasetsData

Understanding

Merging de datasets

Limpeza dos dados

Preenchimento de dados faltantes Data

Preparation

Análise e exploração dos

dados

DataExploration

Case 1: Machine Learning + Prevenção de fraude

Seleção de features mais importantes

Treino do modelo

Validação do modeloIn-Depth

Analysis

Identificação do problema

Quais características do

fraudador?Business Understanding

Mapeamento de dados

Extração de datasetsData

Understanding

Merging de datasets

Limpeza dos dados

Preenchimento de dados faltantes Data

Preparation

Análise e exploração dos

dados

DataExploration

Case 1: Machine Learning + Prevenção de fraude

Seleção de features mais importantes

Treino do modelo

Validação do modelo

Deployment do modeloIn-Depth

Analysis

Identificação do problema

Quais características do

fraudador?Business Understanding

Mapeamento de dados

Extração de datasetsData

Understanding

Merging de datasets

Limpeza dos dados

Preenchimento de dados faltantes Data

Preparation

Análise e exploração dos

dados

DataExploration

Case 1: Machine Learning + Prevenção de fraude

Deployment do modelo

Criação sistema de relatório de alerta

Identificação do problema

Quais características do

fraudador?Business Understanding

Mapeamento de dados

Extração de datasetsData

Understanding

Merging de datasets

Limpeza dos dados

Preenchimento de dados faltantes Data

Preparation

Análise e exploração dos

dados

DataExploration

Seleção de features mais importantes

Treino do modelo

Validação do modeloIn-Depth

Analysis

Case 1: Machine Learning + Prevenção de fraude

Criação sistema de relatório de alerta

Construção de dashboard para

usuário final

Identificação do problema

Quais características do

fraudador?Business Understanding

Mapeamento de dados

Extração de datasetsData

Understanding

Merging de datasets

Limpeza dos dados

Preenchimento de dados faltantes Data

Preparation

Análise e exploração dos

dados

DataExploration

Seleção de features mais importantes

Treino do modelo

Validação do modeloIn-Depth

Analysis

Deployment do modelo

Case 1: Machine Learning + Prevenção de fraude

Criação sistema de relatório de alerta

Construção de dashboard para

usuário final Data Viz

Identificação do problema

Quais características do

fraudador?Business Understanding

Mapeamento de dados

Extração de datasetsData

Understanding

Análise e exploração dos

dados

DataExploration

Seleção de features mais importantes

Treino do modelo

Validação do modeloIn-Depth

Analysis

Merging de datasets

Limpeza dos dados

Preenchimento de dados faltantes Data

Preparation

Deployment do modelo

Isso não deveria ser trabalho do modelo?

Risco de bloquear um falso positivo é alto e custoso para nosso negócio

Risco de bloquear um falso positivo é alto e custoso para nosso negócio

Neste cenário, decidimos utilizar supervisão humana após predição do

modelo

Resultados

↓81% de transações com fraude

Cenário: Crescimento de tickets do suporte

Como atender a demanda crescente? Contratar mais agentes?

Case 2: Machine Learning + Atendimento tickets do suporte

Seleção de features mais importantes

Treino do modelo

Validação do modelo

Identificação do problema

Brainstorm para levantamento de

característicasBusiness Understanding

Mapeamento de dados

Extração de datasetsData

Understanding

Merging de datasets

Limpeza dos dados

Preenchimento de dados faltantes Data

Preparation

Análise e exploração dos

dados

DataExploration

Uma métrica boa pode ser ruim...

Modelo prediz 1 de N tiposcomuns de problemas:

Assunto 1Assunto 2Assunto 3Assunto 4Assunto ...

Se não prever a um nível de confiança aceitável:

Outro

Nossa matriz de confusão

Acc: 87% Acc: 97% Acc: 99%

Nossa real matriz de confusão

Nossa real matriz de confusão

Baixa abrangência

Nossa real matriz de confusão24 acertos a

cada erro

Nossa real matriz de confusão24 acertos a

cada erro5 acertos a cada erro

Nossa real matriz de confusão24 acertos a

cada erro5 acertos a cada erro

2 acertos a cada erro

Não existe bala de prata na validação de modelos de Machine Learning

Métricas precisam estar alinhadas com o negócio

Como melhoramos o modelo?

Case 2: Machine Learning + Atendimento tickets do suporte

Identificação do problema

Brainstorm para levantamento de

característicasBusiness Understanding

Mapeamento de dados

Extração de datasetsData

Understanding

Merging de datasets

Limpeza dos dados

Preenchimento de dados faltantes Data

Preparation

Análise e exploração dos

dados

DataExploration

Vale a pena investir nesta etapa...

Limpeza de dados

○ Remoção de stopwords

○ Remoção de endereços de e-mails e assinaturas

○ Remoção de URLs no corpo da mensagem

○ Remoção de saudações e despedidas

○ Remoção de datas e números

○ Remoção de códigos de barra

Antes

Acurácia geral29%

Depois

Acurácia geral76%

x

+47p.p.

Case 2: Machine Learning + Atendimento tickets do suporte

Aumento de 6% na taxa de satisfação média

Queda de 55% tempo médio atendimento

E agora…O trabalho acabou?

Dados Auditáveis

Dados Acionáveis

Dados Acessíveis

hotmart.dev/qcon

Dúvidas? Obrigado!

Recommended