21
© NeuroTech 2012 NeuroTech Ltda. Paulo Adeodato D 3 M: Domain-Driven Data Mining O Diferencial Competitivo do Conhecimento em Negócios

© NeuroTech 2012 NeuroTech Ltda. Paulo Adeodato D 3 M: Domain-Driven Data Mining O Diferencial Competitivo do Conhecimento em Negócios

Embed Size (px)

Citation preview

Page 1: © NeuroTech 2012 NeuroTech Ltda. Paulo Adeodato D 3 M: Domain-Driven Data Mining O Diferencial Competitivo do Conhecimento em Negócios

© NeuroTech 2012

NeuroTech Ltda.Paulo Adeodato

D3M: Domain-Driven Data MiningO Diferencial Competitivo

do Conhecimento em Negócios

Page 2: © NeuroTech 2012 NeuroTech Ltda. Paulo Adeodato D 3 M: Domain-Driven Data Mining O Diferencial Competitivo do Conhecimento em Negócios

© NeuroTech 2012

Abordagem Tradicional paraMineração de Dados

Data MiningKDDCRISP-DM

Inteligência Artificial (IA)Tecnologia=BD+Estat.+IA+ADS

Gestão de Projetos + Tecnologia

Page 3: © NeuroTech 2012 NeuroTech Ltda. Paulo Adeodato D 3 M: Domain-Driven Data Mining O Diferencial Competitivo do Conhecimento em Negócios

© NeuroTech 2012

Metodologia de Trabalho: CRoss-Industry Standard Process for DM (CRISP-DM)

Entendimentodo Negócio

Entendimentodos Dados

Transformaçãodos Dados

Modelagemde I.A.

Avaliação deDesempenhodo Negócio

ImplantaçãoDados

Page 4: © NeuroTech 2012 NeuroTech Ltda. Paulo Adeodato D 3 M: Domain-Driven Data Mining O Diferencial Competitivo do Conhecimento em Negócios

© NeuroTech 2012

Arquitetura da Solução NeuroTech – Visão Modular

Fontes Internas

Portal+

Inte-grador

+Cons-trutor

deData-Marts

WorkFlow / Processo Operacional

Motor de Regras Motor de IAGateway Mesa paraAvaliação Humana

Camada de Persistência

Base de Conhecimento

Fontes Externas

Parâmetros de

OperaçãoProcessosLista

Negativa

MISSistema

deInfor-

maçõesGeren-ciais

Processos

RelatóriosOLAPOLAM

Data-Mart

Page 5: © NeuroTech 2012 NeuroTech Ltda. Paulo Adeodato D 3 M: Domain-Driven Data Mining O Diferencial Competitivo do Conhecimento em Negócios

© NeuroTech 2012

Necessidade Brasileira Atual

Fontes Internas

Portal+

Inte-grador

+Cons-trutor

deData-Marts

WorkFlow / Processo Operacional

Motor de Regras Motor de IAGateway Mesa paraAvaliação Humana

Camada de Persistência

Base de Conhecimento

Fontes Externas

Parâmetros de

OperaçãoProcessosLista

Negativa

MISSistema

deInfor-

maçõesGeren-ciais

Processos

RelatóriosOLAPOLAM

Data-Mart

Page 6: © NeuroTech 2012 NeuroTech Ltda. Paulo Adeodato D 3 M: Domain-Driven Data Mining O Diferencial Competitivo do Conhecimento em Negócios

© NeuroTech 2012

Investimento Científico Brasileiro Atual

Fontes Internas

Portal+

Inte-grador

+Cons-trutor

deData-Marts

WorkFlow / Processo Operacional

Motor de Regras Motor de IAGateway Mesa paraAvaliação Humana

Camada de Persistência

Base de Conhecimento

Fontes Externas

Parâmetros de

OperaçãoProcessosLista

Negativa

MISSistema

deInfor-

maçõesGeren-ciais

Processos

RelatóriosOLAPOLAM

Data-Mart

Page 7: © NeuroTech 2012 NeuroTech Ltda. Paulo Adeodato D 3 M: Domain-Driven Data Mining O Diferencial Competitivo do Conhecimento em Negócios

© NeuroTech 2012

Maior Necessidade Internacional Atual: D3M

Fontes Internas

Portal+

Inte-grador

+Cons-trutor

deData-Marts

WorkFlow / Processo Operacional

Motor de Regras Motor de IAGateway Mesa paraAvaliação Humana

Camada de Persistência

Base de Conhecimento

Fontes Externas

Parâmetros de

OperaçãoProcessosLista

Negativa

MISSistema

deInfor-

maçõesGeren-ciais

Processos

RelatóriosOLAPOLAM

Data-Mart

Page 8: © NeuroTech 2012 NeuroTech Ltda. Paulo Adeodato D 3 M: Domain-Driven Data Mining O Diferencial Competitivo do Conhecimento em Negócios

© NeuroTech 2012

D3M: RoboCup 2D

Objetivo: Aumentar a chance de fazer gol ao chutar

Objetivos específicos:• Estimar a chance de gol a partir da análise

instantânea do ambiente• Explicar em termos de regras explícitas a chance

estimada

Dados:• 10 mil cenas de chute a gol de 3 campeonatos

mundiais

Page 9: © NeuroTech 2012 NeuroTech Ltda. Paulo Adeodato D 3 M: Domain-Driven Data Mining O Diferencial Competitivo do Conhecimento em Negócios

© NeuroTech 2012

Variáveis utilizadas

Variáveis originais:• Posições (x,y) de cada jogador e da bola no campo

Variáveis transformadas:• Ângulo da barra na visão do chutador• Distância da bola ao centro da barra• Posição do goleiro em relação ao centro da barra• Perpendicularidade do chutador à barra• Distância mínima de um adversário à trajetória da

bola• + outras que um atacante considera ao chutar

Page 10: © NeuroTech 2012 NeuroTech Ltda. Paulo Adeodato D 3 M: Domain-Driven Data Mining O Diferencial Competitivo do Conhecimento em Negócios

© NeuroTech 2012

D3M: Competição Ford – Detecção de FalhasVariáveis Originais

OK

Not-OK

Page 11: © NeuroTech 2012 NeuroTech Ltda. Paulo Adeodato D 3 M: Domain-Driven Data Mining O Diferencial Competitivo do Conhecimento em Negócios

© NeuroTech 2012

Variáveis Transformadas

Potência do sinalRelação sinal/ruídoFreqüência de oscilaçãoAmplitude máxima+ conceitos do domínio de materiais e oscilações

Page 12: © NeuroTech 2012 NeuroTech Ltda. Paulo Adeodato D 3 M: Domain-Driven Data Mining O Diferencial Competitivo do Conhecimento em Negócios

© NeuroTech 2012

D3M: KDD-2008:Detecção de Câncer de MamaObjetivo: Diagnosticar se a paciente está com câncer

Dados: imagens de nódulos candidatosPrincipal característica da solução: Embutir conhecimento do domínio nas transformações (clusters para representar micro-calcificações)

"microcalcifications that are more scattered are probably due to a benign (non-cancerous) cause, a cluster of microcalcifications may increase concern that there may be an underlying tumor (ductal carcinoma in situ)".

Page 13: © NeuroTech 2012 NeuroTech Ltda. Paulo Adeodato D 3 M: Domain-Driven Data Mining O Diferencial Competitivo do Conhecimento em Negócios

© NeuroTech 2012

Variáveis originaisVariáveis originais

• Posição de cada nódulo• Lado do seio (E / D)• Tipo de imagem (CC ou MLO)• V001 a V117, todas com média=0 e desvio=1

Variáveis transformadas• Conceito de “cluster” de nódulos numa imagem do

seio• Conceito de “cluster” de nódulos nas 2 imagens do

seio• Re-normalização de V001 a V117, por seio+imagem

Page 14: © NeuroTech 2012 NeuroTech Ltda. Paulo Adeodato D 3 M: Domain-Driven Data Mining O Diferencial Competitivo do Conhecimento em Negócios

© NeuroTech 2012

D3M: Retenção Universitária

Objetivo: Estimar a propensão de retenção dos alunos ao final do 2o. semestre do seu curso para auxiliar o aconselhamento para a matrícula no período seguinte.

Page 15: © NeuroTech 2012 NeuroTech Ltda. Paulo Adeodato D 3 M: Domain-Driven Data Mining O Diferencial Competitivo do Conhecimento em Negócios

© NeuroTech 2012

Condições da base de dados

Variáveis originais: notas e status no grão Aluno_Semestre_Disciplina;

Dados: Informações acadêmicas dos 6 cursos;• Pedagogia,• Direito,• Letras,• Medicina,• Engenharia Civil e• Ciências Econômicas

Page 16: © NeuroTech 2012 NeuroTech Ltda. Paulo Adeodato D 3 M: Domain-Driven Data Mining O Diferencial Competitivo do Conhecimento em Negócios

© NeuroTech 2012

Regressão Logística –Variáveis Significativas Ordenadas

Variável b Sign. (p)

Constante 4,56 0,000TaxaRepFrequencia1Sem 3,42 0,000TaxaRepNota1Sem 1,93 0,000TaxaCancelamento1Sem 0,83 0,000TaxaAprovaçãoExameFinal1Sem 0,51 0,000ReprovaçãoDiscPrincipal2Sem 0,43 0,004TurnoManhã -0,3 0,000CursoPedagogia -0,97 0,000TurnoIntegral -1,13 0,000TaxaRepFrequencia2Sem -2,16 0,000CursoDireito -2,53 0,000Trancamento2sem -3,26 0,000CoefVariaçãoNota -5,65 0,000CursoMedicina -5,83 0,000

Page 17: © NeuroTech 2012 NeuroTech Ltda. Paulo Adeodato D 3 M: Domain-Driven Data Mining O Diferencial Competitivo do Conhecimento em Negócios

© NeuroTech 2012

D3M: Behavior Scoring – RFM Analysis

Behavior scoring é uma forma de transformar o problema de “previsão” em “classificação”

• Grande quantidade de• Séries curtas de• Múltiplos indicadores em• Intervalos não uniformes

Múltiplos indicadores (RFM)• R: Recency (tempos desde a última transação,

atraso etc.)• F: Frequency (freqüências no mês, semestre, ano

etc.)• M: Monetary value (valores pagos, atrasados etc.)

Page 18: © NeuroTech 2012 NeuroTech Ltda. Paulo Adeodato D 3 M: Domain-Driven Data Mining O Diferencial Competitivo do Conhecimento em Negócios

© NeuroTech 2012

Aplicações práticas de Behavior ScoringAplicações atuais de behavior scoring

• Crédito/Cobrança/Fraude/CRMGeneralizamos para:

• Falhas em sistemas - Redes elétrica, hidráulica etc.- Frotas de veículos, aviões, navios etc.

• Saúde de pessoas / animais- Doenças, crises etc. (Recursos para Internação

hospitalar, exames etc.)• Reincidência criminal• Atentados terroristas

Page 19: © NeuroTech 2012 NeuroTech Ltda. Paulo Adeodato D 3 M: Domain-Driven Data Mining O Diferencial Competitivo do Conhecimento em Negócios

© NeuroTech 2012

Generalização do behavior scoring para sistemas

Múltiplos indicadores (RFI)• R: Recency (tempos desde a última falha, doença

etc.)• F: Frequency (freqüências no mês, semestre, ano

etc.)• I: Impact (valor, perda, volume, potência etc.)

Fundamentação teórica• Análise de Fourier• Distribuição Inversa de Wishart

D3M: Behavior Scoring – RFI Analysis

Page 20: © NeuroTech 2012 NeuroTech Ltda. Paulo Adeodato D 3 M: Domain-Driven Data Mining O Diferencial Competitivo do Conhecimento em Negócios

© NeuroTech 2012

Conclusões sobre o NeuroDataBuilder

O NeuroDataBuilder tem 3 papéis fundamentais

• Embutir o conhecimento humano nas transformações (PI)

• Embutir o conhecimento estatístico nas transformações (PI)

• Acoplar as visões de dados da base com as entradas de IA

Diferenciais competitivos• Criar templates com conhecimento humano para

agilizar a modelagem das transformações• Ter uma arquitetura de SW robusta e escalável de

transformação• Prover ao modelador uma plataforma user-friendly e

sistemática

Page 21: © NeuroTech 2012 NeuroTech Ltda. Paulo Adeodato D 3 M: Domain-Driven Data Mining O Diferencial Competitivo do Conhecimento em Negócios

© NeuroTech 2012

Soluções completas para decisões inteligenteswww.neurotech.com.br

Obrigado!