Como ciência de dados soluciona problemas e cria oportunidades€¦ · problemas e cria...

Preview:

Citation preview

Como ciência de dados soluciona problemas e cria oportunidades

Diego Sanchez Gallo

Principal Consultant – Data Analytics

diego.gallo@dell.com

28/11/2019

INOVA – 2a Semana de Inovação

Agenda

Data Science – Conceitos Gerais

Prevenção de Fraudes &

Sistemas de Recomendação

Natural Language Processing &

Deep Learning

Perguntas e Respostas

Data Science – Conceitos Gerais

Fonte: https://twitter.com/theeconomist/status/860135249552003073

Data Science

Data are only useful when they are used to

answer a question

– “Can I answer it with my data?”

So, the emphasis is on Science

1. Empirical (1000s years ago)

2. Theoretical (100s years ago)

3. Computational (10s years ago)

4. “The Fourth Paradigm”: Data-Intensive

Scientific Discovery

– Jim Gray, 2009

Building the bridge between Business and Technology needs

• Fundamental: what are the targets?

• Extract the model (abstraction, just the important aspects).

Business Modeling

• “Mathematization” of Business Model.

• What are the feasible techniques?

Mathematical Modeling

Computational Modeling

• “Computabilization” of Mathematical Model.

• Matrix-like structures to gain scale and speed.

Big Data Modeling

• Definition of Big Data Architecture.

Big Data needed? Feasible?

1)

2)

3)

4)

5)

Data Science

thinking flow

Business

Hardware

The

bridge

Necessary skills

+

Communication

Essentials: Algorithms, Models, Learning

• Algorithm

• “Any well-defined computational procedure that takes some value, or set of

values, as input and produces some value, or set of values, as output.”

– Cormen, Leiserson, Rivest, Stein

• Computers are fast (but not infinitely fast), memory is cheap (but it’s not free).

Good algorithms matter.

• (Statistical) Model

• Embodies a set of assumptions concerning the generation of some sample data,

and similar data from a larger population.

• “Essentially, all models are wrong, but some are useful”

– George Box

• Machine Learning

• “A computer program is said to learn from experience E with respect to some

class of tasks T and performance measure P, if its performance at tasks in T, as

measured by P, improves with experience E.”

– Tom Mitchell

DS vs. ML vs. AI: Definitions

• Data Science (DS)

• Produces insights

• Human in the loop

• The goal is to gain a better understanding of the data

• Machine Learning (ML)

• Produces predictions (whether about the future or unobserved present variables)

• Spectrum of interpretability: data science ↔ machine learning

• Fit a model (ML) → explain why the model works (DS) (else, refine the model)

• Artificial Intelligence (AI)

• Produces actions

• Oldest among the definitions

• Autonomous agents, search algorithms, NLP, reinforcement learning, ...

Main source: http://varianceexplained.org/r/ds-ml-ai/

Types of Data Science Questions

• Descriptive analysis

– describe a set of data (description and interpretation are different steps)

• Exploratory analysis

– find relationships you didn’t know about (but correlation doesn’t imply causation)

• Inferential analysis

– use a relatively small sample of data to say something about a bigger population

• Predictive analysis

– to use the data on some objects to predict values for another object

• Causal analysis

– to find out what happens to one variable when you make another variable

change (causal relationships as average effects, but there are exceptions)

• Mechanistic analysis

– understand the exact changes in variables that lead to changes in other

variables for individual objects

Main source: http://jtleek.com/modules/01_DataScientistToolbox/03_01_typesOfQuestions

Fraudes em ATMs

• Ataques físicos

– Força bruta (explosões)

– Skimming devices (chupa-cabra)

– Pescaria de envelope

• Ataques lógicos

– Usando o computador do ATM

– Sem usar o computador do ATM

• Auto fraude

• Engenharia socialIllustrative example of explosion-based ATM attack in Brazil. Source:

https://g1.globo.com/mg/minas-gerais/noticia/2019/05/13/bandidos-

explodem-caixa-eletronico-e-destroem-farmacia-em-contagem-na-

grande-bh.ghtml

Use case

Falta de visibilidade dos ataques!

Seria viável prever ataques aos ATMs com base

nos dados existentes?

ATMs

Monitoramentoexistente

Servidores de aplicação do

Monitoramento

Logs (log4j)Monitoramento

GPDB

PHD

PHD

GPDB

OracleDados históricos (estruturados)

Cenário em 2013

Modelo Preditivo – Fraudes Lógicas Conhecidas

• Construção de modelo preditivo para detecção de fraudes lógicas:• Análise exploratória dos dados para validação do entendimento.• Treinamento de modelos supervisionados com base nas mudanças de estadodos ATMs.

Observações Antes Durante Após

ATM data hora

D10.P2.4

D10.P2.5

D100.P24.225

D90.P20.2

D90.P5.3

D90.P81.106

D10.P2.4

D10.P2.5

D10.P2.7

D90.P20.2

D90.P5.3

D90.P81.106

D10.P2.4

D10.P2.5

D10.P2.6

D90.P20.2

D90.P5.3

D90.P81.106

1 6/15/2015 7:40:45 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0

1 6/15/2015 13:11:34 0 0 0 0 0 1 1 1 0 0 0 0 1 1 0 0 0 0

1 6/16/2015 13:31:31 0 0 3 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0

1 6/16/2015 14:48:35 0 0 3 0 0 0 1 1 0 0 0 0 1 1 0 0 0 0

5 6/11/2015 22:03:34 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0

5 6/13/2015 1:58:58 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0

5 6/14/2015 8:28:36 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0

7 6/12/2015 20:27:46 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0

… … … …

62972 6/14/2015 10:05:40 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0

62973 6/10/2015 15:32:44 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0

62973 6/11/2015 21:41:34 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0

Framework para Prevenção de Fraudes

Passo 1

Identificação do comportamento

padrão

Passo 2

Observação do comportamento

atual

Passo 3

Identificação de anomalias no

comportamento

Passo 4

Ponderação das anomalias e

geração de alertas

Estabelecimento do comportamento

padrão (baseline) de cada variável (e.g.,

sensores, transações, processos,

acionamentos, chamados, etc.) para

cada ATM.

Observação do comportamento atual, dentro de uma janela

de tempo determinada, de cada variável para

cada ATM.

Comparação entre o comportamento padrão e o comportamento atual, dentro de uma janela de

tempo, calculando a intensidade da variação no comportamento de cada variável para cada ATM.

Ponderação da intensidade de cada

anomalia identificada e geração de alertas de anomalias ordenadas

por intensidade/prioridade.

Análise de ataques explosivos: Tarefa

“Em quais pontos é mais efetivo instalar dispositivos de prevenção a

ataques com explosivos?”

Análise de ataques explosivos: Método

Prêmios

Next Best Action (NBA)

Resumo do Escopo

Analisar e sugerir planos de uso do dinheiro em momentos oportunos baseados nas transações de cash-in

e cash-out do cliente e, consequentemente, seu comportamento financeiro (fluxo de caixa).

Auxiliar os clientes no uso eficiente do dinheiro e gerar maior engajamento (propensão a aceitar) às

propostas de produtos financeiros, de acordo com o comportamento do usuário, produzindo melhores

resultados financeiros para o banco e para o cliente.

Ingestão de

Dados

Detecção de

Situações

Geração de

Recomendações

Use case

Resumo – Next Best Action (NBA)

Outras fontes*

Transações dos clientes

Dados cadastrais

tempo

$

Série-temporal do extrato

Análise de Safe-to-spend

Algoritmos para análise de cash-{in,out}

Recomendação da melhor próxima ação

Recomendação

Limite de Crédito

Perfil do Investidor

Desenho macro – Next Best Action

Detectores de Situação

Aplicações Financeiras

Adequação de Perfil de Investimento

Tratamento de Instabilidade Financeira

Zelo ao Planejamento

Facilitação e Otimização Transacional

Cross Sell

Recomendador

Atribuidor de Ações

Agrupador de

Recomendações

Filtros e

Enriquecimentos

Aprendizado por

Reforço

Ingestão de Dados

Extrato e Transações

Dados Cadastrais

Limite de Crédito

Perfil do Investidor

Cheque Especial

Logs de Navegação

Modelos auxiliares

Modelo de clusterização de clientes

Modelo de previsão de saldo dos clientes

Fluxo completo: Next Best Action

Ingestão de dados

Data Lake

Camada de Fast Data Modelos / Inteligência Analítica

IT Operations AnalyticsUse case

Planejamento eficaz de recursos

por aplicação crítica

Manutenção preditiva reduzindo o

número de incidentes

Menos alertas e avisos antecipados de

problemas encontrados por usuários

Identificação de padrões de falhas

e causas raiz das mesmas

Entrega de uma monitoração

mais eficiente

Mobilidade Urbana no Rio de Janeiro

• Caso em parceria da prefeitura do Rio de

Janeiro com a TIM.

• Desafio: Entender como cidadãos e

turistas se movimentam na cidade

durante os jogos olímpicos, para auxiliar

no planejamento de mobilidade urbana.

• Solução: Desenvolvimento de uma

solução que utiliza dados das antenas de

telefonia celular da operadora para

entender como as pessoas se

movimentam, permitindo acompanhar tal

movimentação ao longo do evento.

DATA LAKE

Related press releases:https://www.convergenciadigital.com.br/cgi/cgilua.exe/sys/start.htm?UserActiveTemplate=sit

e&UserActiveTemplate=mobile&UserActiveTemplate=site%25252525252525252Cmobile&in

foid=43031&sid=97

Use case

Natural Language Processing

& Deep Learning

Text data: mixed structure

Structured (meta)data

Semi-structured data

Unstructured data

Example tasks:

• Fast lookup of information (easy)

• Document classification (buy / sell) (average)

• Structured information extraction (hard)

Common NLP tasks• Information retrieval

– Search

– Inverted indexes

• Language modelling

– Markovian models

– Non-markovian

• (De)structuring

– Tokenization

– Sentence splitting

– Lemmatization

• Document clustering

– Probabilistic topic models

– Latent Dirichlet Allocation (LDA)

• Word representation

– Skip-grams, Continuous Bag-of-Words

• Word labeling

– Part-of-Speech tagging (POS)

– Named Entity Recognition (NER)

• Sequence to Sequence (Encoder-Attention-

Decoder architecture)

– Translation

– Question Answering

• Sentence parsing

– Shift-Reduce dependency parsing

• Natural Language Generation

• Speech

– Speech-to-Text

– Text-to-Speech

• And so on...

Example task: naïve summarization

VERB

root

objnsubj

Query:

Reverse Indexing of Recognized Named Entities

Research Reports

Index

Metadata

(source, timestamp, …)

Trading Dashboard

Annotations from: https://demos.explosion.ai/displacy-ent

“In view of this, we are holding on to

our long position entered at 123.80.”

Information extraction from sentence structure

ROOT “holding”

nsubj “we” (ACME [from metadata])

Pobj “our long position”

(sub)pobj “123.80”

When? 2017-06-27 [from metadata]

Trade Ideas

IndexExtraction Rules

Metadata

(source, timestamp, …)Tree from: https://demos.explosion.ai/displacy/

Recent AI achievements

Input

Output

Hand-designed

program

Hand-designed

features

Mapping from

features

Input

Output

(Learned)

Features

Mapping from

features

Input

Output

Simple

features

Input

Mapping from

features

More abstract

features

Output

Representation

learning

Rule-based

systems

Classic

machine

learning

Deep

learning

Shallow

learning

Based on: http://www.deeplearningbook.org

Types of machine learning approaches

co

mp

utin

g-h

un

gry d

ata

-hu

ng

ry

Deep Learning? What? Why now?

Computer Science

• Optimization, algorithm complexity, efficient data structures, ...

• Enables: Databases, Distributed Systems, Parallel Processing, ...

Artificial Intelligence

• Logic, rule-based systems, search algorithms, ...

• Enables: Heuristic search, Bio-inspired optimization, ...

Machine Learning

• Statistical learning, probabilistic models, feature engineering, ...

• Enables: Supervised, Unsupervised and Reinforcement Learning, ...

Deep Learning

• Multi-layered neural networks, representation learning, ...

• Enables: Dealing with unstructured data (vision, language), ...

Abstract

Computers

Neurosynaptic

Chips

FPUs

CPUs

TPUs

GPUs

In-memory

algorithms

Big Data

Stack

Theoretical

distributions

External

Memory

Algorithms

Math

Enabling technology

2000+ by early 2016

Stock price prediction from news articles[Herrmann, Togneri, Tozato and Lin, 2017]Use case

Stock price prediction from news articles[Herrmann, Togneri, Tozato and Lin, 2017]

Visual Question Answering

VQA is a new dataset containing open-ended

questions about images. These questions

require an understanding of vision, language

and commonsense knowledge to answer.

• 265,016 images (COCO and abstract scenes)

• At least 3 questions (5.4 questions on

average) per image

• 10 ground truth answers per question

• 3 plausible (but likely incorrect) answers per

question

• Automatic evaluation metric

Source: https://visualqa.org

Approaching VQA with with Deep Learning

Source: https://github.com/avisingh599/visual-qa

Show, Ask, Attend, and Answer

Source: https://research.google.com/pubs/pub45997.html

InterpretabilityExplainable Artificial Intelligence (XAI)

Source: https://www.darpa.mil/program/explainable-artificial-intelligence

Reconhecimento em imagens de satélite

• Desafio: Identificar as variedades de

cultivares da companhia plantadas

nas fazendas de todo o Brasil, via

imagem de satélite.

• Solução: uso de técnicas de Deep

Learning em imagens multi-

espectrais de satélite para identificar,

delimitar e classificar a variedade

existente em cada plantação.

Exemplo de imagem de satélite e ilustração do processamento.

Use case

xkcd.com/1838

Recommended