© NeuroTech 2012
NeuroTech Ltda.Paulo Adeodato
D3M: Domain-Driven Data MiningO Diferencial Competitivo
do Conhecimento em Negócios
© NeuroTech 2012
Abordagem Tradicional paraMineração de Dados
Data MiningKDDCRISP-DM
Inteligência Artificial (IA)Tecnologia=BD+Estat.+IA+ADS
Gestão de Projetos + Tecnologia
© NeuroTech 2012
Metodologia de Trabalho: CRoss-Industry Standard Process for DM (CRISP-DM)
Entendimentodo Negócio
Entendimentodos Dados
Transformaçãodos Dados
Modelagemde I.A.
Avaliação deDesempenhodo Negócio
ImplantaçãoDados
© NeuroTech 2012
Arquitetura da Solução NeuroTech – Visão Modular
Fontes Internas
Portal+
Inte-grador
+Cons-trutor
deData-Marts
WorkFlow / Processo Operacional
Motor de Regras Motor de IAGateway Mesa paraAvaliação Humana
Camada de Persistência
Base de Conhecimento
Fontes Externas
Parâmetros de
OperaçãoProcessosLista
Negativa
MISSistema
deInfor-
maçõesGeren-ciais
Processos
RelatóriosOLAPOLAM
Data-Mart
© NeuroTech 2012
Necessidade Brasileira Atual
Fontes Internas
Portal+
Inte-grador
+Cons-trutor
deData-Marts
WorkFlow / Processo Operacional
Motor de Regras Motor de IAGateway Mesa paraAvaliação Humana
Camada de Persistência
Base de Conhecimento
Fontes Externas
Parâmetros de
OperaçãoProcessosLista
Negativa
MISSistema
deInfor-
maçõesGeren-ciais
Processos
RelatóriosOLAPOLAM
Data-Mart
© NeuroTech 2012
Investimento Científico Brasileiro Atual
Fontes Internas
Portal+
Inte-grador
+Cons-trutor
deData-Marts
WorkFlow / Processo Operacional
Motor de Regras Motor de IAGateway Mesa paraAvaliação Humana
Camada de Persistência
Base de Conhecimento
Fontes Externas
Parâmetros de
OperaçãoProcessosLista
Negativa
MISSistema
deInfor-
maçõesGeren-ciais
Processos
RelatóriosOLAPOLAM
Data-Mart
© NeuroTech 2012
Maior Necessidade Internacional Atual: D3M
Fontes Internas
Portal+
Inte-grador
+Cons-trutor
deData-Marts
WorkFlow / Processo Operacional
Motor de Regras Motor de IAGateway Mesa paraAvaliação Humana
Camada de Persistência
Base de Conhecimento
Fontes Externas
Parâmetros de
OperaçãoProcessosLista
Negativa
MISSistema
deInfor-
maçõesGeren-ciais
Processos
RelatóriosOLAPOLAM
Data-Mart
© NeuroTech 2012
D3M: RoboCup 2D
Objetivo: Aumentar a chance de fazer gol ao chutar
Objetivos específicos:• Estimar a chance de gol a partir da análise
instantânea do ambiente• Explicar em termos de regras explícitas a chance
estimada
Dados:• 10 mil cenas de chute a gol de 3 campeonatos
mundiais
© NeuroTech 2012
Variáveis utilizadas
Variáveis originais:• Posições (x,y) de cada jogador e da bola no campo
Variáveis transformadas:• Ângulo da barra na visão do chutador• Distância da bola ao centro da barra• Posição do goleiro em relação ao centro da barra• Perpendicularidade do chutador à barra• Distância mínima de um adversário à trajetória da
bola• + outras que um atacante considera ao chutar
© NeuroTech 2012
D3M: Competição Ford – Detecção de FalhasVariáveis Originais
OK
Not-OK
© NeuroTech 2012
Variáveis Transformadas
Potência do sinalRelação sinal/ruídoFreqüência de oscilaçãoAmplitude máxima+ conceitos do domínio de materiais e oscilações
© NeuroTech 2012
D3M: KDD-2008:Detecção de Câncer de MamaObjetivo: Diagnosticar se a paciente está com câncer
Dados: imagens de nódulos candidatosPrincipal característica da solução: Embutir conhecimento do domínio nas transformações (clusters para representar micro-calcificações)
"microcalcifications that are more scattered are probably due to a benign (non-cancerous) cause, a cluster of microcalcifications may increase concern that there may be an underlying tumor (ductal carcinoma in situ)".
© NeuroTech 2012
Variáveis originaisVariáveis originais
• Posição de cada nódulo• Lado do seio (E / D)• Tipo de imagem (CC ou MLO)• V001 a V117, todas com média=0 e desvio=1
Variáveis transformadas• Conceito de “cluster” de nódulos numa imagem do
seio• Conceito de “cluster” de nódulos nas 2 imagens do
seio• Re-normalização de V001 a V117, por seio+imagem
© NeuroTech 2012
D3M: Retenção Universitária
Objetivo: Estimar a propensão de retenção dos alunos ao final do 2o. semestre do seu curso para auxiliar o aconselhamento para a matrícula no período seguinte.
© NeuroTech 2012
Condições da base de dados
Variáveis originais: notas e status no grão Aluno_Semestre_Disciplina;
Dados: Informações acadêmicas dos 6 cursos;• Pedagogia,• Direito,• Letras,• Medicina,• Engenharia Civil e• Ciências Econômicas
© NeuroTech 2012
Regressão Logística –Variáveis Significativas Ordenadas
Variável b Sign. (p)
Constante 4,56 0,000TaxaRepFrequencia1Sem 3,42 0,000TaxaRepNota1Sem 1,93 0,000TaxaCancelamento1Sem 0,83 0,000TaxaAprovaçãoExameFinal1Sem 0,51 0,000ReprovaçãoDiscPrincipal2Sem 0,43 0,004TurnoManhã -0,3 0,000CursoPedagogia -0,97 0,000TurnoIntegral -1,13 0,000TaxaRepFrequencia2Sem -2,16 0,000CursoDireito -2,53 0,000Trancamento2sem -3,26 0,000CoefVariaçãoNota -5,65 0,000CursoMedicina -5,83 0,000
© NeuroTech 2012
D3M: Behavior Scoring – RFM Analysis
Behavior scoring é uma forma de transformar o problema de “previsão” em “classificação”
• Grande quantidade de• Séries curtas de• Múltiplos indicadores em• Intervalos não uniformes
Múltiplos indicadores (RFM)• R: Recency (tempos desde a última transação,
atraso etc.)• F: Frequency (freqüências no mês, semestre, ano
etc.)• M: Monetary value (valores pagos, atrasados etc.)
© NeuroTech 2012
Aplicações práticas de Behavior ScoringAplicações atuais de behavior scoring
• Crédito/Cobrança/Fraude/CRMGeneralizamos para:
• Falhas em sistemas - Redes elétrica, hidráulica etc.- Frotas de veículos, aviões, navios etc.
• Saúde de pessoas / animais- Doenças, crises etc. (Recursos para Internação
hospitalar, exames etc.)• Reincidência criminal• Atentados terroristas
© NeuroTech 2012
Generalização do behavior scoring para sistemas
Múltiplos indicadores (RFI)• R: Recency (tempos desde a última falha, doença
etc.)• F: Frequency (freqüências no mês, semestre, ano
etc.)• I: Impact (valor, perda, volume, potência etc.)
Fundamentação teórica• Análise de Fourier• Distribuição Inversa de Wishart
D3M: Behavior Scoring – RFI Analysis
© NeuroTech 2012
Conclusões sobre o NeuroDataBuilder
O NeuroDataBuilder tem 3 papéis fundamentais
• Embutir o conhecimento humano nas transformações (PI)
• Embutir o conhecimento estatístico nas transformações (PI)
• Acoplar as visões de dados da base com as entradas de IA
Diferenciais competitivos• Criar templates com conhecimento humano para
agilizar a modelagem das transformações• Ter uma arquitetura de SW robusta e escalável de
transformação• Prover ao modelador uma plataforma user-friendly e
sistemática
© NeuroTech 2012
Soluções completas para decisões inteligenteswww.neurotech.com.br
Obrigado!