43
Como ciência de dados soluciona problemas e cria oportunidades Diego Sanchez Gallo Principal Consultant Data Analytics [email protected] 28/11/2019 INOVA 2 a Semana de Inovação

Como ciência de dados soluciona problemas e cria oportunidades€¦ · problemas e cria oportunidades Diego Sanchez Gallo Principal Consultant –Data Analytics [email protected]

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Como ciência de dados soluciona problemas e cria oportunidades€¦ · problemas e cria oportunidades Diego Sanchez Gallo Principal Consultant –Data Analytics diego.gallo@dell.com

Como ciência de dados soluciona problemas e cria oportunidades

Diego Sanchez Gallo

Principal Consultant – Data Analytics

[email protected]

28/11/2019

INOVA – 2a Semana de Inovação

Page 2: Como ciência de dados soluciona problemas e cria oportunidades€¦ · problemas e cria oportunidades Diego Sanchez Gallo Principal Consultant –Data Analytics diego.gallo@dell.com

Agenda

Data Science – Conceitos Gerais

Prevenção de Fraudes &

Sistemas de Recomendação

Natural Language Processing &

Deep Learning

Perguntas e Respostas

Page 3: Como ciência de dados soluciona problemas e cria oportunidades€¦ · problemas e cria oportunidades Diego Sanchez Gallo Principal Consultant –Data Analytics diego.gallo@dell.com

Data Science – Conceitos Gerais

Page 4: Como ciência de dados soluciona problemas e cria oportunidades€¦ · problemas e cria oportunidades Diego Sanchez Gallo Principal Consultant –Data Analytics diego.gallo@dell.com

Fonte: https://twitter.com/theeconomist/status/860135249552003073

Page 5: Como ciência de dados soluciona problemas e cria oportunidades€¦ · problemas e cria oportunidades Diego Sanchez Gallo Principal Consultant –Data Analytics diego.gallo@dell.com

Data Science

Data are only useful when they are used to

answer a question

– “Can I answer it with my data?”

So, the emphasis is on Science

1. Empirical (1000s years ago)

2. Theoretical (100s years ago)

3. Computational (10s years ago)

4. “The Fourth Paradigm”: Data-Intensive

Scientific Discovery

– Jim Gray, 2009

Page 6: Como ciência de dados soluciona problemas e cria oportunidades€¦ · problemas e cria oportunidades Diego Sanchez Gallo Principal Consultant –Data Analytics diego.gallo@dell.com

Building the bridge between Business and Technology needs

• Fundamental: what are the targets?

• Extract the model (abstraction, just the important aspects).

Business Modeling

• “Mathematization” of Business Model.

• What are the feasible techniques?

Mathematical Modeling

Computational Modeling

• “Computabilization” of Mathematical Model.

• Matrix-like structures to gain scale and speed.

Big Data Modeling

• Definition of Big Data Architecture.

Big Data needed? Feasible?

1)

2)

3)

4)

5)

Data Science

thinking flow

Business

Hardware

The

bridge

Necessary skills

+

Communication

Page 7: Como ciência de dados soluciona problemas e cria oportunidades€¦ · problemas e cria oportunidades Diego Sanchez Gallo Principal Consultant –Data Analytics diego.gallo@dell.com

Essentials: Algorithms, Models, Learning

• Algorithm

• “Any well-defined computational procedure that takes some value, or set of

values, as input and produces some value, or set of values, as output.”

– Cormen, Leiserson, Rivest, Stein

• Computers are fast (but not infinitely fast), memory is cheap (but it’s not free).

Good algorithms matter.

• (Statistical) Model

• Embodies a set of assumptions concerning the generation of some sample data,

and similar data from a larger population.

• “Essentially, all models are wrong, but some are useful”

– George Box

• Machine Learning

• “A computer program is said to learn from experience E with respect to some

class of tasks T and performance measure P, if its performance at tasks in T, as

measured by P, improves with experience E.”

– Tom Mitchell

Page 8: Como ciência de dados soluciona problemas e cria oportunidades€¦ · problemas e cria oportunidades Diego Sanchez Gallo Principal Consultant –Data Analytics diego.gallo@dell.com

DS vs. ML vs. AI: Definitions

• Data Science (DS)

• Produces insights

• Human in the loop

• The goal is to gain a better understanding of the data

• Machine Learning (ML)

• Produces predictions (whether about the future or unobserved present variables)

• Spectrum of interpretability: data science ↔ machine learning

• Fit a model (ML) → explain why the model works (DS) (else, refine the model)

• Artificial Intelligence (AI)

• Produces actions

• Oldest among the definitions

• Autonomous agents, search algorithms, NLP, reinforcement learning, ...

Main source: http://varianceexplained.org/r/ds-ml-ai/

Page 9: Como ciência de dados soluciona problemas e cria oportunidades€¦ · problemas e cria oportunidades Diego Sanchez Gallo Principal Consultant –Data Analytics diego.gallo@dell.com

Types of Data Science Questions

• Descriptive analysis

– describe a set of data (description and interpretation are different steps)

• Exploratory analysis

– find relationships you didn’t know about (but correlation doesn’t imply causation)

• Inferential analysis

– use a relatively small sample of data to say something about a bigger population

• Predictive analysis

– to use the data on some objects to predict values for another object

• Causal analysis

– to find out what happens to one variable when you make another variable

change (causal relationships as average effects, but there are exceptions)

• Mechanistic analysis

– understand the exact changes in variables that lead to changes in other

variables for individual objects

Main source: http://jtleek.com/modules/01_DataScientistToolbox/03_01_typesOfQuestions

Page 10: Como ciência de dados soluciona problemas e cria oportunidades€¦ · problemas e cria oportunidades Diego Sanchez Gallo Principal Consultant –Data Analytics diego.gallo@dell.com

Fraudes em ATMs

• Ataques físicos

– Força bruta (explosões)

– Skimming devices (chupa-cabra)

– Pescaria de envelope

• Ataques lógicos

– Usando o computador do ATM

– Sem usar o computador do ATM

• Auto fraude

• Engenharia socialIllustrative example of explosion-based ATM attack in Brazil. Source:

https://g1.globo.com/mg/minas-gerais/noticia/2019/05/13/bandidos-

explodem-caixa-eletronico-e-destroem-farmacia-em-contagem-na-

grande-bh.ghtml

Use case

Page 11: Como ciência de dados soluciona problemas e cria oportunidades€¦ · problemas e cria oportunidades Diego Sanchez Gallo Principal Consultant –Data Analytics diego.gallo@dell.com

Falta de visibilidade dos ataques!

Seria viável prever ataques aos ATMs com base

nos dados existentes?

ATMs

Monitoramentoexistente

Servidores de aplicação do

Monitoramento

Logs (log4j)Monitoramento

GPDB

PHD

PHD

GPDB

OracleDados históricos (estruturados)

Cenário em 2013

Page 12: Como ciência de dados soluciona problemas e cria oportunidades€¦ · problemas e cria oportunidades Diego Sanchez Gallo Principal Consultant –Data Analytics diego.gallo@dell.com

Modelo Preditivo – Fraudes Lógicas Conhecidas

• Construção de modelo preditivo para detecção de fraudes lógicas:• Análise exploratória dos dados para validação do entendimento.• Treinamento de modelos supervisionados com base nas mudanças de estadodos ATMs.

Observações Antes Durante Após

ATM data hora

D10.P2.4

D10.P2.5

D100.P24.225

D90.P20.2

D90.P5.3

D90.P81.106

D10.P2.4

D10.P2.5

D10.P2.7

D90.P20.2

D90.P5.3

D90.P81.106

D10.P2.4

D10.P2.5

D10.P2.6

D90.P20.2

D90.P5.3

D90.P81.106

1 6/15/2015 7:40:45 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0

1 6/15/2015 13:11:34 0 0 0 0 0 1 1 1 0 0 0 0 1 1 0 0 0 0

1 6/16/2015 13:31:31 0 0 3 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0

1 6/16/2015 14:48:35 0 0 3 0 0 0 1 1 0 0 0 0 1 1 0 0 0 0

5 6/11/2015 22:03:34 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0

5 6/13/2015 1:58:58 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0

5 6/14/2015 8:28:36 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0

7 6/12/2015 20:27:46 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0

… … … …

62972 6/14/2015 10:05:40 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0

62973 6/10/2015 15:32:44 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0

62973 6/11/2015 21:41:34 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0

Page 13: Como ciência de dados soluciona problemas e cria oportunidades€¦ · problemas e cria oportunidades Diego Sanchez Gallo Principal Consultant –Data Analytics diego.gallo@dell.com

Framework para Prevenção de Fraudes

Passo 1

Identificação do comportamento

padrão

Passo 2

Observação do comportamento

atual

Passo 3

Identificação de anomalias no

comportamento

Passo 4

Ponderação das anomalias e

geração de alertas

Estabelecimento do comportamento

padrão (baseline) de cada variável (e.g.,

sensores, transações, processos,

acionamentos, chamados, etc.) para

cada ATM.

Observação do comportamento atual, dentro de uma janela

de tempo determinada, de cada variável para

cada ATM.

Comparação entre o comportamento padrão e o comportamento atual, dentro de uma janela de

tempo, calculando a intensidade da variação no comportamento de cada variável para cada ATM.

Ponderação da intensidade de cada

anomalia identificada e geração de alertas de anomalias ordenadas

por intensidade/prioridade.

Page 14: Como ciência de dados soluciona problemas e cria oportunidades€¦ · problemas e cria oportunidades Diego Sanchez Gallo Principal Consultant –Data Analytics diego.gallo@dell.com

Análise de ataques explosivos: Tarefa

“Em quais pontos é mais efetivo instalar dispositivos de prevenção a

ataques com explosivos?”

Page 15: Como ciência de dados soluciona problemas e cria oportunidades€¦ · problemas e cria oportunidades Diego Sanchez Gallo Principal Consultant –Data Analytics diego.gallo@dell.com

Análise de ataques explosivos: Método

Page 16: Como ciência de dados soluciona problemas e cria oportunidades€¦ · problemas e cria oportunidades Diego Sanchez Gallo Principal Consultant –Data Analytics diego.gallo@dell.com

Prêmios

Page 17: Como ciência de dados soluciona problemas e cria oportunidades€¦ · problemas e cria oportunidades Diego Sanchez Gallo Principal Consultant –Data Analytics diego.gallo@dell.com

Next Best Action (NBA)

Resumo do Escopo

Analisar e sugerir planos de uso do dinheiro em momentos oportunos baseados nas transações de cash-in

e cash-out do cliente e, consequentemente, seu comportamento financeiro (fluxo de caixa).

Auxiliar os clientes no uso eficiente do dinheiro e gerar maior engajamento (propensão a aceitar) às

propostas de produtos financeiros, de acordo com o comportamento do usuário, produzindo melhores

resultados financeiros para o banco e para o cliente.

Ingestão de

Dados

Detecção de

Situações

Geração de

Recomendações

Use case

Page 18: Como ciência de dados soluciona problemas e cria oportunidades€¦ · problemas e cria oportunidades Diego Sanchez Gallo Principal Consultant –Data Analytics diego.gallo@dell.com

Resumo – Next Best Action (NBA)

Outras fontes*

Transações dos clientes

Dados cadastrais

tempo

$

Série-temporal do extrato

Análise de Safe-to-spend

Algoritmos para análise de cash-{in,out}

Recomendação da melhor próxima ação

Recomendação

Limite de Crédito

Perfil do Investidor

Page 19: Como ciência de dados soluciona problemas e cria oportunidades€¦ · problemas e cria oportunidades Diego Sanchez Gallo Principal Consultant –Data Analytics diego.gallo@dell.com

Desenho macro – Next Best Action

Detectores de Situação

Aplicações Financeiras

Adequação de Perfil de Investimento

Tratamento de Instabilidade Financeira

Zelo ao Planejamento

Facilitação e Otimização Transacional

Cross Sell

Recomendador

Atribuidor de Ações

Agrupador de

Recomendações

Filtros e

Enriquecimentos

Aprendizado por

Reforço

Ingestão de Dados

Extrato e Transações

Dados Cadastrais

Limite de Crédito

Perfil do Investidor

Cheque Especial

Logs de Navegação

Modelos auxiliares

Modelo de clusterização de clientes

Modelo de previsão de saldo dos clientes

Page 20: Como ciência de dados soluciona problemas e cria oportunidades€¦ · problemas e cria oportunidades Diego Sanchez Gallo Principal Consultant –Data Analytics diego.gallo@dell.com

Fluxo completo: Next Best Action

Ingestão de dados

Data Lake

Camada de Fast Data Modelos / Inteligência Analítica

Page 21: Como ciência de dados soluciona problemas e cria oportunidades€¦ · problemas e cria oportunidades Diego Sanchez Gallo Principal Consultant –Data Analytics diego.gallo@dell.com

IT Operations AnalyticsUse case

Planejamento eficaz de recursos

por aplicação crítica

Manutenção preditiva reduzindo o

número de incidentes

Menos alertas e avisos antecipados de

problemas encontrados por usuários

Identificação de padrões de falhas

e causas raiz das mesmas

Entrega de uma monitoração

mais eficiente

Page 22: Como ciência de dados soluciona problemas e cria oportunidades€¦ · problemas e cria oportunidades Diego Sanchez Gallo Principal Consultant –Data Analytics diego.gallo@dell.com

Mobilidade Urbana no Rio de Janeiro

• Caso em parceria da prefeitura do Rio de

Janeiro com a TIM.

• Desafio: Entender como cidadãos e

turistas se movimentam na cidade

durante os jogos olímpicos, para auxiliar

no planejamento de mobilidade urbana.

• Solução: Desenvolvimento de uma

solução que utiliza dados das antenas de

telefonia celular da operadora para

entender como as pessoas se

movimentam, permitindo acompanhar tal

movimentação ao longo do evento.

DATA LAKE

Related press releases:https://www.convergenciadigital.com.br/cgi/cgilua.exe/sys/start.htm?UserActiveTemplate=sit

e&UserActiveTemplate=mobile&UserActiveTemplate=site%25252525252525252Cmobile&in

foid=43031&sid=97

Use case

Page 23: Como ciência de dados soluciona problemas e cria oportunidades€¦ · problemas e cria oportunidades Diego Sanchez Gallo Principal Consultant –Data Analytics diego.gallo@dell.com

Natural Language Processing

& Deep Learning

Page 24: Como ciência de dados soluciona problemas e cria oportunidades€¦ · problemas e cria oportunidades Diego Sanchez Gallo Principal Consultant –Data Analytics diego.gallo@dell.com

Text data: mixed structure

Structured (meta)data

Semi-structured data

Unstructured data

Example tasks:

• Fast lookup of information (easy)

• Document classification (buy / sell) (average)

• Structured information extraction (hard)

Page 25: Como ciência de dados soluciona problemas e cria oportunidades€¦ · problemas e cria oportunidades Diego Sanchez Gallo Principal Consultant –Data Analytics diego.gallo@dell.com

Common NLP tasks• Information retrieval

– Search

– Inverted indexes

• Language modelling

– Markovian models

– Non-markovian

• (De)structuring

– Tokenization

– Sentence splitting

– Lemmatization

• Document clustering

– Probabilistic topic models

– Latent Dirichlet Allocation (LDA)

• Word representation

– Skip-grams, Continuous Bag-of-Words

• Word labeling

– Part-of-Speech tagging (POS)

– Named Entity Recognition (NER)

• Sequence to Sequence (Encoder-Attention-

Decoder architecture)

– Translation

– Question Answering

• Sentence parsing

– Shift-Reduce dependency parsing

• Natural Language Generation

• Speech

– Speech-to-Text

– Text-to-Speech

• And so on...

Page 26: Como ciência de dados soluciona problemas e cria oportunidades€¦ · problemas e cria oportunidades Diego Sanchez Gallo Principal Consultant –Data Analytics diego.gallo@dell.com

Example task: naïve summarization

VERB

root

objnsubj

Query:

Page 27: Como ciência de dados soluciona problemas e cria oportunidades€¦ · problemas e cria oportunidades Diego Sanchez Gallo Principal Consultant –Data Analytics diego.gallo@dell.com

Reverse Indexing of Recognized Named Entities

Research Reports

Index

Metadata

(source, timestamp, …)

Trading Dashboard

Annotations from: https://demos.explosion.ai/displacy-ent

Page 28: Como ciência de dados soluciona problemas e cria oportunidades€¦ · problemas e cria oportunidades Diego Sanchez Gallo Principal Consultant –Data Analytics diego.gallo@dell.com

“In view of this, we are holding on to

our long position entered at 123.80.”

Information extraction from sentence structure

ROOT “holding”

nsubj “we” (ACME [from metadata])

Pobj “our long position”

(sub)pobj “123.80”

When? 2017-06-27 [from metadata]

Trade Ideas

IndexExtraction Rules

Metadata

(source, timestamp, …)Tree from: https://demos.explosion.ai/displacy/

Page 29: Como ciência de dados soluciona problemas e cria oportunidades€¦ · problemas e cria oportunidades Diego Sanchez Gallo Principal Consultant –Data Analytics diego.gallo@dell.com

Recent AI achievements

Page 30: Como ciência de dados soluciona problemas e cria oportunidades€¦ · problemas e cria oportunidades Diego Sanchez Gallo Principal Consultant –Data Analytics diego.gallo@dell.com

Input

Output

Hand-designed

program

Hand-designed

features

Mapping from

features

Input

Output

(Learned)

Features

Mapping from

features

Input

Output

Simple

features

Input

Mapping from

features

More abstract

features

Output

Representation

learning

Rule-based

systems

Classic

machine

learning

Deep

learning

Shallow

learning

Based on: http://www.deeplearningbook.org

Types of machine learning approaches

Page 31: Como ciência de dados soluciona problemas e cria oportunidades€¦ · problemas e cria oportunidades Diego Sanchez Gallo Principal Consultant –Data Analytics diego.gallo@dell.com

co

mp

utin

g-h

un

gry d

ata

-hu

ng

ry

Deep Learning? What? Why now?

Computer Science

• Optimization, algorithm complexity, efficient data structures, ...

• Enables: Databases, Distributed Systems, Parallel Processing, ...

Artificial Intelligence

• Logic, rule-based systems, search algorithms, ...

• Enables: Heuristic search, Bio-inspired optimization, ...

Machine Learning

• Statistical learning, probabilistic models, feature engineering, ...

• Enables: Supervised, Unsupervised and Reinforcement Learning, ...

Deep Learning

• Multi-layered neural networks, representation learning, ...

• Enables: Dealing with unstructured data (vision, language), ...

Abstract

Computers

Neurosynaptic

Chips

FPUs

CPUs

TPUs

GPUs

In-memory

algorithms

Big Data

Stack

Theoretical

distributions

External

Memory

Algorithms

Math

Page 32: Como ciência de dados soluciona problemas e cria oportunidades€¦ · problemas e cria oportunidades Diego Sanchez Gallo Principal Consultant –Data Analytics diego.gallo@dell.com

Enabling technology

2000+ by early 2016

Page 34: Como ciência de dados soluciona problemas e cria oportunidades€¦ · problemas e cria oportunidades Diego Sanchez Gallo Principal Consultant –Data Analytics diego.gallo@dell.com

Stock price prediction from news articles[Herrmann, Togneri, Tozato and Lin, 2017]Use case

Page 35: Como ciência de dados soluciona problemas e cria oportunidades€¦ · problemas e cria oportunidades Diego Sanchez Gallo Principal Consultant –Data Analytics diego.gallo@dell.com

Stock price prediction from news articles[Herrmann, Togneri, Tozato and Lin, 2017]

Page 36: Como ciência de dados soluciona problemas e cria oportunidades€¦ · problemas e cria oportunidades Diego Sanchez Gallo Principal Consultant –Data Analytics diego.gallo@dell.com

Visual Question Answering

VQA is a new dataset containing open-ended

questions about images. These questions

require an understanding of vision, language

and commonsense knowledge to answer.

• 265,016 images (COCO and abstract scenes)

• At least 3 questions (5.4 questions on

average) per image

• 10 ground truth answers per question

• 3 plausible (but likely incorrect) answers per

question

• Automatic evaluation metric

Source: https://visualqa.org

Page 37: Como ciência de dados soluciona problemas e cria oportunidades€¦ · problemas e cria oportunidades Diego Sanchez Gallo Principal Consultant –Data Analytics diego.gallo@dell.com

Approaching VQA with with Deep Learning

Source: https://github.com/avisingh599/visual-qa

Page 38: Como ciência de dados soluciona problemas e cria oportunidades€¦ · problemas e cria oportunidades Diego Sanchez Gallo Principal Consultant –Data Analytics diego.gallo@dell.com

Show, Ask, Attend, and Answer

Source: https://research.google.com/pubs/pub45997.html

Page 39: Como ciência de dados soluciona problemas e cria oportunidades€¦ · problemas e cria oportunidades Diego Sanchez Gallo Principal Consultant –Data Analytics diego.gallo@dell.com
Page 40: Como ciência de dados soluciona problemas e cria oportunidades€¦ · problemas e cria oportunidades Diego Sanchez Gallo Principal Consultant –Data Analytics diego.gallo@dell.com

InterpretabilityExplainable Artificial Intelligence (XAI)

Source: https://www.darpa.mil/program/explainable-artificial-intelligence

Page 41: Como ciência de dados soluciona problemas e cria oportunidades€¦ · problemas e cria oportunidades Diego Sanchez Gallo Principal Consultant –Data Analytics diego.gallo@dell.com

Reconhecimento em imagens de satélite

• Desafio: Identificar as variedades de

cultivares da companhia plantadas

nas fazendas de todo o Brasil, via

imagem de satélite.

• Solução: uso de técnicas de Deep

Learning em imagens multi-

espectrais de satélite para identificar,

delimitar e classificar a variedade

existente em cada plantação.

Exemplo de imagem de satélite e ilustração do processamento.

Use case

Page 42: Como ciência de dados soluciona problemas e cria oportunidades€¦ · problemas e cria oportunidades Diego Sanchez Gallo Principal Consultant –Data Analytics diego.gallo@dell.com

xkcd.com/1838

Page 43: Como ciência de dados soluciona problemas e cria oportunidades€¦ · problemas e cria oportunidades Diego Sanchez Gallo Principal Consultant –Data Analytics diego.gallo@dell.com